L’enciclopedia online dal gennaio 2024 ha registrato una crescita del traffico in download del 50%, con un sostanziale aumento dei costi di gestione
I progetti Wikimedia rappresentano la più grande raccolta di conoscenza aperta al mondo. I nostri siti sono una destinazione preziosa per gli esseri umani che cercano informazioni e per ogni tipo di azienda che accede automaticamente ai nostri contenuti come input fondamentale per i propri prodotti. In particolare, i contenuti sono stati una componente fondamentale dei risultati dei motori di ricerca, il che a sua volta ha riportato gli utenti sui nostri siti. Ma con l’avvento dell’intelligenza artificiale, la dinamica sta cambiando: stiamo osservando un aumento significativo del volume delle richieste, con la maggior parte di questo traffico generato da bot di scraping che raccolgono dati di addestramento per modelli linguistici di grandi dimensioni (LLM) e altri casi d’uso. Le richieste automatizzate per i nostri contenuti sono cresciute esponenzialmente, parallelamente al più ampio sviluppo dell’economia tecnologica, tramite meccanismi che includono scraping, API e download in blocco. Questa espansione è avvenuta in gran parte senza un’attribuzione adeguata, fondamentale per invogliare nuovi utenti a partecipare al movimento, e sta causando un carico significativo sull’infrastruttura sottostante che mantiene i nostri siti accessibili a tutti.
Uno sguardo dietro le quinte: il caso Jimmy Carter
Quando Jimmy Carter morì nel dicembre 2024, la sua pagina su Wikipedia in inglese registrò oltre 2,8 milioni di visualizzazioni nel corso di una sola giornata. Un numero relativamente alto, ma gestibile. Nello stesso momento, diversi utenti guardarono un video di un’ora e mezza del dibattito presidenziale di Carter con Ronald Reagan del 1980. Ciò causò un’impennata del traffico di rete, raddoppiandone la velocità normale. Di conseguenza, per circa un’ora, alcune connessioni di Wikimedia a Internet si riempirono completamente, causando tempi di caricamento delle pagine lenti per alcuni utenti. L’improvviso aumento di traffico allertò il nostro team di Affidabilità del Sito , che intervenne rapidamente modificando i percorsi delle nostre connessioni Internet per ridurre la congestione. Tuttavia, questo non avrebbe dovuto causare problemi, poiché la Fondazione è ben attrezzata per gestire picchi di traffico elevati durante eventi eccezionali.
Quindi cosa è successo?
Da gennaio 2024, abbiamo assistito a un aumento del 50% della larghezza di banda utilizzata per il download di contenuti multimediali. Questo aumento non è dovuto a lettori umani, ma in gran parte a programmi automatizzati che estraggono dal catalogo di immagini di Wikimedia Commons, con licenza aperta, le immagini per poi inviarle ai modelli di intelligenza artificiale. La nostra infrastruttura è progettata per sostenere picchi di traffico improvvisi da parte di utenti umani durante eventi di grande interesse, ma la quantità di traffico generata dai bot di scraping è senza precedenti e presenta rischi e costi crescenti. Questo aumento dell’utilizzo di base significa che abbiamo meno spazio per gestire eventi eccezionali in cui potrebbe verificarsi un picco di traffico: una parte significativa del nostro tempo e delle nostre risorse è dedicata alla gestione del traffico non umano.
Il 65% del nostro traffico più costoso proviene dai bot
La Wikimedia Foundation fornisce contenuti ai suoi utenti attraverso una rete globale di data center . Questo ci permette di offrire un’esperienza più rapida e fluida ai lettori di tutto il mondo. Quando un articolo viene richiesto più volte, memorizziamo – o memorizziamo nella cache – il suo contenuto nel data center più vicino all’utente. Se un articolo non viene richiesto da un po’ di tempo, il suo contenuto deve essere servito dal data center principale. La richiesta quindi “viaggia” dalla posizione dell’utente fino al data center principale, cerca la pagina richiesta e la restituisce all’utente, memorizzandola nella cache del data center regionale per qualsiasi utente successivo.
Mentre i lettori umani tendono a concentrarsi su argomenti specifici, spesso simili, i crawler tendono a “leggere in blocco” un numero maggiore di pagine e a visitare anche quelle meno popolari. Ciò significa che è più probabile che questo tipo di richieste venga inoltrato al data center principale, il che lo rende molto più costoso in termini di consumo di risorse.
Durante la migrazione dei nostri sistemi, abbiamo notato che solo una frazione del traffico costoso che raggiungeva i nostri data center principali si comportava come di consueto con i browser web, interpretando il codice JavaScript. Analizzando più attentamente, abbiamo scoperto che almeno il 65% di questo traffico, che consuma molte risorse, proviene da bot, una quantità sproporzionata se si considera che le visualizzazioni di pagina generate dai bot rappresentano circa il 35% del totale. Questo elevato utilizzo causa inoltre continue interruzioni al nostro team di affidabilità del sito, che deve bloccare il traffico eccessivo proveniente da questi crawler prima che causino problemi ai nostri lettori.
Wikimedia non è l’unica ad affrontare questa sfida. Come evidenziato nel nostro rapporto sulle tendenze globali del 2025 , le aziende tecnologiche stanno correndo per effettuare scraping dei siti web alla ricerca di informazioni create e verificate da esseri umani. Editori di contenuti , progetti open source e siti web di ogni tipo segnalano problemi simili. Inoltre, i crawler tendono ad accedere a qualsiasi URL. All’interno dell’infrastruttura Wikimedia, stiamo osservando lo scraping non solo dei progetti Wikimedia, ma anche di sistemi chiave nella nostra infrastruttura per sviluppatori, come la nostra piattaforma di revisione del codice o il nostro bug tracker. Tutto ciò consuma tempo e risorse di cui abbiamo bisogno per supportare i progetti Wikimedia, i collaboratori e i lettori.
I nostri contenuti sono gratuiti, la nostra infrastruttura no: stabilire un uso responsabile dell’infrastruttura
Fornire contenuti affidabili significa anche supportare un modello di ” conoscenza come servizio “, in cui riconosciamo che l’intera Internet attinge ai contenuti Wikimedia. Ma questo deve avvenire in modi che siano sostenibili per noi: come possiamo continuare a supportare la nostra comunità, ponendo al contempo dei limiti al consumo automatico di contenuti? Come possiamo indirizzare sviluppatori e riutilizzatori verso canali di accesso preferiti e supportati? Di quali linee guida abbiamo bisogno per incentivare il riutilizzo responsabile dei contenuti?
Abbiamo iniziato a lavorare per affrontare queste questioni in modo sistematico e ci siamo concentrati principalmente sulla definizione di modalità sostenibili per consentire a sviluppatori e riutilizzatori di accedere ai contenuti della conoscenza nel prossimo anno fiscale della Fondazione. Puoi leggere di più nella nostra bozza di piano annuale: WE5: Uso responsabile dell’infrastruttura . I nostri contenuti sono gratuiti, la nostra infrastruttura no: dobbiamo agire ora per ristabilire un sano equilibrio, in modo da poter dedicare le nostre risorse ingegneristiche al supporto e alla priorità dei progetti Wikimedia, dei nostri contributori e dell’accesso umano alla conoscenza.
Birgit Mueller, Chris Danis, Giuseppe Lavagetto di Wikimedia Foundation
24 aprile 2025