La biblioteca di Babele esiste. E’ Internet

L’INCUBO DI BORGES

© Andrea Soppera & Lorenzo Casaccia, Agosto 2001

Torna a Il Labirinto

Che Internet sia una straordinaria fonte di informazioni e di svago e’ ormai cosa nota. Che sia anche una specie di organismo vivente in crescita incontrollata, un po’ come certi mostri dei film dei fantascienza, e’ un altro aspetto spesso a torto trascurato.

Nessuno si puo’ sognare di contare le pagine oggi presenti in rete, ma il numero dovrebbe essere intorno al milione di miliardi. Nel tempo necessario a leggere quest’articolo ne verranno aggiunte abbastanza da tener impegnato un accanito navigatore per giorni interi. Internet, per inciso, e’ il piu’ splendido monumento possibile alla piccolezza umana.

Immaginate di vagare senza mappa in una metropoli sconosciuta. Dal punto di vista dell’orientamento, il web puo’ essere molto peggio. Se non si sa dove andare, capitare per caso nel posto che si sta cercando e’ pressoche’ impossibile.

Ulteriore problema, la massa di materiale disponibile su Internet comprende ovviamente anche (e soprattutto) immagini e filmati. Con l’aumentare della velocita’ delle connessioni (la “larga banda”), aumenteranno anche le persone alla ricerca di determinati video in rete. In quale modo i criteri dei motori di ricerca possano essere aggiornati in modo da agevolare ricerche specifiche di immagini e filmati resta tuttora un mistero.

Alla radice di praticamente tutti i problemi, sta la storia stessa di Internet. Nato come rete tra le varie installazioni militari americane, come mezzo estremo di comunicazione in caso di guerra, e poi, con l’andamento della storia, fortunatamente riciclato come rete tra le universita’ americane, Internet non e’ mai stato concepito per il grande pubblico.

A questo va imputato il fatto che, sostanzialmente, su Internet regna il disordine. O “l’anarchia” come diceva qualcuno anni fa, illudendosi di vedere l’utopia fatta realta’, ma senza capire che se il caos e’ veramente totale i vantaggi sono impercettibili (se lo stato non esiste, chi consegna la posta?).

A fronte di tutto cio’, gli attuali motori di ricerca mostrano sempre piu’ la corda, essendo privi di uno strumento che e’ fondamentale quando si cerca qualcosa: il “buon senso umano”.

L’operazione di aggiungere intelligenza alle operazioni di ricerca si puo’ effettuare in vari modi, ed ha rimesso in campo alcune tecniche proprie dell’intelligenza artificiale. Quest’ultima aveva vissuto un momento d’oro negli anni ’80, quando si pensava che in capo ad una ventina d’anni essa avrebbe rivoluzionato la maniera di vivere della societa’ occidentale. Previsione errata, evidentemente, ma la tecnologia, sotto forma di computer e cellulari, e’ ormai effettivamente una presenza sempre piu’ massiccia nelle nostre vite.

Una delle frontiere, si diceva, e’ proprio quella di permettere ricerche piu’ “umane”, ovvero piu’ simili a quanto si vorrebbe esprimere a parole. Facciamo un esempio. Se cerchiamo una foto del calciatore Raul, in realta’ con un motore di ricerca attuale andiamo alla ricerca di pagine che si occupano di quel calciatore, cioe’ che ne parlano. Insomma, da qualche parte deve esserci scritto “Raul”. Che poi gli insiemi delle pagine che si occupano di Raul e le pagine con foto di Raul non coincidano e’ fin troppo banale. Ad esempio, se si e’ appena giocata Bayern Monaco - Real Madrid, ed una istantanea di una fase di gioco finisce su un sito dedicato al Bayern, se anche tale foto mostra Raul i motori di ricerca attuali non la restituirebbero tra i risultati.

In base a tale principio, per proporre un altro esempio, se pure posseggo la piu’ bella raccolta di foto del parco di Yellowstone, ma se nella mia pagina web non inserisco da qualche parte il nome “Yellowstone”, non ho nessuna speranza che qualcuno possa accorgersene.

Una delle prime soluzioni, forse un po’ primitiva, e’ quella di Yahoo!, che cerca di ovviare in qualche modo al problema creando degli album fotografici preesistenti, i quali “raccolgono”, come una antologia, immagini da diversi siti.

Ma le immagini sono solo una sfaccettatura del problema, che puo’ essere riassunto anche dalla frase “trovare velocemente le cose che interessano”. Una delle idee piu’ recenti ed avveniristiche e’ invece quella di risolvere il problema in maniera “distribuita”. Anziche’ operare una ricerca su un mega-archivio (cioe’ su tutto il web), le ricerche possono essere “personalizzate”. Illustriamo l’idea di nuovo con un esempio. E’ ragionevole supporre che chi e’ interessato a un certo argomento (ad esempio Joyce) abbia piu’ probabilita’ della media di essere interessato a tutta una serie di altri soggetti piu’ o meno correlati con quello di partenza (ad esempio Proust, Svevo, la storia irlandese, il romanzo moderno).

E’ questa l’idea alla base di Opencola (www.opencola.com), un software che si propone di ottimizzare di parecchio l’utilizzo del web. Le corrispondenze “utili” vengono dedotte dall’esperienza degli altri utenti. Per fare un altro esempio, se un utente visita un sito sulla Polinesia, e poi un sito di scuba-diving, il legame viene in qualche modo memorizzato, salvato in un server centrale, ed elaborato/incrociato con le esperienze di altri utenti. Il principio e’ lo stesso del “file-sharing” che sta alla base di Naspter. Quando capitera’ a noi di cercare informazioni sulla Polinesia, il software avra’ “imparato” dall’esperienza altrui che potrebbero interessarci anche informazioni sullo scuba-diving e ci condurra’ per mano a siti corrispondenti.

L’altro progetto che da’ anni suscita parecchie aspettative in questo campo e’ Clever, allo studio in un centro di ricerca californiano della IBM (http://www.almaden.ibm.com/cs/k53/clever.html). Il principio di Clever e’ un po’ quello che si utilizza per misurare la qualita’ degli autori di pubblicazioni scientifiche, cioe’ il numero di citazioni che ogni articolo riceve (quante volte viene nominato da altri) e il valore delle citazioni stesse (che prestigio hanno coloro che nominano l’articolo in questione). Per ogni sito di quelli passati al setaccio, si scrutinano i siti cui esso rimanda, e si valutano i siti che ad esso, a loro volta, rimandano. Ogni sito e’ quindi fonte ed oggetto di link (“citazioni”) allo stesso tempo. Assegnando dei punteggi a queste citazioni, si assegnano dei punteggi anche ai siti e tali punteggi vanno a influire di nuovo sui punteggi delle citazioni, secondo un processo iterativo che ad un certo punto e’ destinato a convergere e stabilizzarsi. Il punteggio che si ottiene dovrebbe essere, nelle intenzioni, una misura della “credibilita’” del sito stesso.

L’ultima novita’, tra i (presunti) passi in avanti, e’ quella della Audible Magic (http://www.audiblemagic.com). Questa ha realizzato un software che dovrebbe essere in grado di recuperare automaticamente il titolo di una canzone sconosciuta . Il meccanismo si basa sullo spettro sonoro della canzone stessa, che quindi deve essere gia’ in formato digitale.

Altre soluzioni sono allo studio, altre verranno inventate. Una cosa sola e’ certa: il problema dell’ottimizzazione delle ricerche su Internet e’ ancora lontano da una soluzione.

Dovunque egli sia, con le sue visioni di caos apocalittico, Borges se la ride.