Se c’è qualcosa su Internet che si avvicina alla conoscenza universale, è Wikipedia. Nell’era pre-digitale, la conoscenza comparabile e accessibile da casa era nelle enciclopedie. Tuttavia, la differenza di dimensioni è astronomica. Jaime Crespo, ingegnere informatico e membro del team della Wikimedia Foundation responsabile della persistenza dei suoi sistemi, ha stimato il peso in terabyte di tutti i progetti della sua organizzazione, di cui Wikipedia è il più importante.
A fine settembre sono stati rilasciati 500 e 600 terabyte, comprese le immagini. Un disco rigido da 10 terabyte pesa 850 grammi e un terabyte equivale all’incirca a 500 ore di video HD. L’intero contenuto di Wikipedia starebbe quindi su circa 50 chili di dischi rigidi. “Se inserissimo il contenuto in un file, sarebbe quello, in 300 lingue e tutti i progetti”, ha detto Crespo, 38 anni, che lavora a distanza da Logroño, dove è nato.
Questo calcolo è illustrativo, ma presenterebbe una serie di difficoltà tecniche. Wikipedia non reggerebbe quel peso in un formato facile da cercare o organizzato: “Sembra poco perché non è molto in testo normale insieme alle immagini”, ha detto Crespo a EL PAIS in videoconferenza. “Ma per fornire tali informazioni, è necessario molto più spazio”, aggiunge. Se avessimo solo quei dischi in casa in formato testo e cercassimo una parola, ci vorrebbero ore per restituire il risultato. “Non avresti le stesse funzioni di Internet. Ci vorranno ancora 2 ore per trovare quello che stai cercando. Dovresti cercare tutto dall’alto verso il basso. I database organizzano le informazioni in modo che tu chieda un articolo e in millisecondi lo abbia”, spiega Crespo, che ha fatto i suoi calcoli per una conferenza della Spanish Python Association, un linguaggio di programmazione.
Nonostante questi difetti tecnici, il confronto serve a comprendere l’inimmaginabile differenza tra le enciclopedie Larousse delle case del XX secolo e Wikipedia. Come possiamo pensare che quelle enciclopedie fossero “universali”? “Inoltre, siamo i primi a dire che non abbiamo quasi nulla della conoscenza umana”, spiega Crespo. “Spesso ci infastidisce che una piccola città in Spagna abbia solo 4 paragrafi, quando potrebbe averne molti di più”.
Per completare l’analogia, un artista americano ha pianificato di stampare solo la Wikipedia in inglese. Sono stati pubblicati 7.473 volumi.
Wikipedia è oggi molto di più dell’enciclopedia di un tempo, ma i suoi usi non sono così diversi. Su Wikipedia in spagnolo, a settembre due delle tre parole più cercate Erano “Cleopatra” e “tavola periodica degli elementi”, che hanno tutte le caratteristiche legate agli studenti. Il secondo è “The Squid Game”, la serie Netflix. Wikipedia combina le ricerche tradizionali con l’attualità.
Alcuni decenni fa, un personaggio particolarmente dedito poteva affermare di leggere “tutta” la conoscenza universale. Anche Crespo si è sforzato: “Quando ero piccolo amavo tirare fuori l’enciclopedia e leggerne frammenti e imparare cose. Forse è per questo che ho iniziato a lavorare qui”, dice. Ma oggi sarebbe impossibile, è travolgente: “Wikipedia è un buco nero della conoscenza perché ti attrae e non si ferma mai, c’è sempre qualcosa in più, sarebbe impossibile per un essere umano leggerlo a causa della velocità con cui le informazioni aggiunto”, aggiunge.
L’esperienza di Crespo serve anche a capire meglio come funziona il cloud. La Wikimedia Foundation ha i propri data warehouse, separati dalle grandi aziende tecnologiche: “Siamo un po’ speciali, ma si adatta alla nostra filosofia di privacy e trasparenza”, afferma Crespo. “Le aziende lavorano con altri cloud, ma noi vogliamo avere il controllo sui dati perché non vogliamo che nessuno acceda a dati privati o crei statistiche. Ciò significa gestire le nostre macchine. Abbiamo una stanza in data center più grandi con una chiave e solo noi possiamo entrarci”, spiega.
Wikipedia è la quattordicesima pagina più visitata al mondo, secondo i dati di Alexa. Secondo Crespo, ciò significa “mezzo milione di query al secondo”, di cui circa un terzo per Wikipedia in inglese. La dimensione del resto delle pagine principali è molto più grande di quella di Wikipedia.
Una parte centrale del lavoro di Crespo è mantenere in vita i backup di Wikipedia. Un problema per gli ingegneri responsabili della conservazione dei dati o delle conoscenze è pensare al futuro, che è una tecnologia complessa. Crespo dovrebbe tenere presente che il suo backup potrebbe essere disponibile nel 2027 o oltre. “Sono molto attento a utilizzare tecnologie che hanno un futuro tra 5 anni. Cinque anni dopo, il modo in cui qualcosa viene crittografato potrebbe non avere un manuale”, afferma. “Anche le lingue e le applicazioni possono avere un ruolo, ma io uso sempre formati molto portabili. Oggi, se la tecnologia di database che utilizziamo scomparisse, sarebbe facile per noi migrare a un’altra perché la disponiamo in testo compresso, che è un formato standard”.
Wikipedia è un’informazione aperta al 99%, afferma Crespo. Cercano anche di avere poche informazioni private in quanto non averle è il modo migliore per evitare fughe o perdite. Ma gli editori che tengono traccia delle modifiche alle pagine o ne distruggono altre sono informazioni sensibili. Da qui i numeri. “La maggior parte dei dati è pubblica. Oltre ai nostri backup delle attività degli utenti, posizioniamo su a esportazioni con un archivio di tutti i nostri articoli che le persone possono scaricare. Se la nostra organizzazione dovesse scomparire, il pubblico ne avrebbe una copia per ricostruirla. Ce n’è anche una copia sulla luna”, dice.
Puoi seguire EL PAÍS TECNOLOGÍA su Facebook sì Twitter oppure iscriviti qui per unirti al nostro bollettino settimanale†