La biblioteca di Babele esiste. E’ Internet
Che Internet sia una
straordinaria fonte di informazioni e di svago e’ ormai cosa nota. Che sia
anche una specie di organismo vivente in crescita incontrollata, un po’ come
certi mostri dei film dei fantascienza, e’ un altro aspetto spesso a torto
trascurato.
Nessuno si puo’ sognare
di contare le pagine oggi presenti in rete, ma il numero dovrebbe essere
intorno al milione di miliardi. Nel tempo necessario a leggere quest’articolo
ne verranno aggiunte abbastanza da tener impegnato un accanito navigatore per
giorni interi. Internet, per inciso, e’ il piu’ splendido monumento possibile
alla piccolezza umana.
Immaginate di vagare
senza mappa in una metropoli sconosciuta. Dal punto di vista dell’orientamento,
il web puo’ essere molto peggio. Se non si sa dove andare, capitare per caso
nel posto che si sta cercando e’ pressoche’ impossibile.
Ulteriore problema, la
massa di materiale disponibile su Internet comprende ovviamente anche (e
soprattutto) immagini e filmati. Con l’aumentare della velocita’ delle
connessioni (la “larga banda”), aumenteranno anche le persone alla ricerca di
determinati video in rete. In quale modo i criteri dei motori di ricerca
possano essere aggiornati in modo da agevolare ricerche specifiche di immagini
e filmati resta tuttora un mistero.
Alla radice di
praticamente tutti i problemi, sta la storia stessa di Internet. Nato come rete
tra le varie installazioni militari americane, come mezzo estremo di
comunicazione in caso di guerra, e poi, con l’andamento della storia,
fortunatamente riciclato come rete tra le universita’ americane, Internet non
e’ mai stato concepito per il grande pubblico.
A questo va imputato il
fatto che, sostanzialmente, su Internet regna il disordine. O “l’anarchia” come
diceva qualcuno anni fa, illudendosi di vedere l’utopia fatta realta’, ma senza
capire che se il caos e’ veramente totale i vantaggi sono impercettibili (se lo stato non esiste, chi consegna la
posta?).
A fronte di tutto cio’,
gli attuali motori di ricerca mostrano sempre piu’ la corda, essendo privi di
uno strumento che e’ fondamentale quando si cerca qualcosa: il “buon senso
umano”.
L’operazione di aggiungere intelligenza alle operazioni di ricerca si puo’ effettuare in vari modi, ed ha rimesso in campo alcune tecniche proprie dell’intelligenza artificiale. Quest’ultima aveva vissuto un momento d’oro negli anni ’80, quando si pensava che in capo ad una ventina d’anni essa avrebbe rivoluzionato la maniera di vivere della societa’ occidentale. Previsione errata, evidentemente, ma la tecnologia, sotto forma di computer e cellulari, e’ ormai effettivamente una presenza sempre piu’ massiccia nelle nostre vite.
Una delle frontiere, si diceva, e’ proprio quella di permettere ricerche piu’ “umane”, ovvero piu’ simili a quanto si vorrebbe esprimere a parole. Facciamo un esempio. Se cerchiamo una foto del calciatore Raul, in realta’ con un motore di ricerca attuale andiamo alla ricerca di pagine che si occupano di quel calciatore, cioe’ che ne parlano. Insomma, da qualche parte deve esserci scritto “Raul”. Che poi gli insiemi delle pagine che si occupano di Raul e le pagine con foto di Raul non coincidano e’ fin troppo banale. Ad esempio, se si e’ appena giocata Bayern Monaco - Real Madrid, ed una istantanea di una fase di gioco finisce su un sito dedicato al Bayern, se anche tale foto mostra Raul i motori di ricerca attuali non la restituirebbero tra i risultati.
In base a tale principio, per proporre un altro esempio, se pure posseggo la piu’ bella raccolta di foto del parco di Yellowstone, ma se nella mia pagina web non inserisco da qualche parte il nome “Yellowstone”, non ho nessuna speranza che qualcuno possa accorgersene.
Una delle prime
soluzioni, forse un po’ primitiva, e’ quella di Yahoo!, che cerca di ovviare in
qualche modo al problema creando degli album fotografici preesistenti, i quali
“raccolgono”, come una antologia, immagini da diversi siti.
Ma le immagini sono solo
una sfaccettatura del problema, che puo’ essere riassunto anche dalla frase
“trovare velocemente le cose che interessano”. Una delle idee piu’ recenti ed
avveniristiche e’ invece quella di risolvere il problema in maniera
“distribuita”. Anziche’ operare una ricerca su un mega-archivio (cioe’ su tutto
il web), le ricerche possono essere “personalizzate”. Illustriamo l’idea di
nuovo con un esempio. E’ ragionevole supporre che chi e’ interessato a un certo
argomento (ad esempio Joyce) abbia piu’ probabilita’ della media di essere
interessato a tutta una serie di altri soggetti piu’ o meno correlati con
quello di partenza (ad esempio Proust, Svevo, la storia irlandese, il romanzo
moderno).
E’ questa l’idea alla
base di Opencola (www.opencola.com), un
software che si propone di ottimizzare di parecchio l’utilizzo del web. Le
corrispondenze “utili” vengono dedotte dall’esperienza degli altri utenti. Per
fare un altro esempio, se un utente visita un sito sulla Polinesia, e poi un
sito di scuba-diving, il legame viene in qualche modo memorizzato, salvato in
un server centrale, ed elaborato/incrociato con le esperienze di altri utenti.
Il principio e’ lo stesso del “file-sharing” che sta alla base di Naspter.
Quando capitera’ a noi di cercare informazioni sulla Polinesia, il software
avra’ “imparato” dall’esperienza altrui che potrebbero interessarci anche
informazioni sullo scuba-diving e ci condurra’ per mano a siti corrispondenti.
L’altro progetto che da’
anni suscita parecchie aspettative in questo campo e’ Clever, allo studio in un
centro di ricerca californiano della IBM (http://www.almaden.ibm.com/cs/k53/clever.html).
Il principio di Clever e’ un po’ quello che si utilizza per misurare la
qualita’ degli autori di pubblicazioni scientifiche, cioe’ il numero di
citazioni che ogni articolo riceve (quante volte viene nominato da altri) e il
valore delle citazioni stesse (che prestigio hanno coloro che nominano
l’articolo in questione). Per ogni sito di quelli passati al setaccio, si scrutinano
i siti cui esso rimanda, e si valutano i siti che ad esso, a loro volta,
rimandano. Ogni sito e’ quindi fonte ed oggetto di link (“citazioni”) allo
stesso tempo. Assegnando dei punteggi a queste citazioni, si assegnano dei
punteggi anche ai siti e tali punteggi vanno a influire di nuovo sui punteggi
delle citazioni, secondo un processo iterativo che ad un certo punto e’
destinato a convergere e stabilizzarsi. Il punteggio che si ottiene dovrebbe
essere, nelle intenzioni, una misura della “credibilita’” del sito stesso.
L’ultima novita’, tra i
(presunti) passi in avanti, e’ quella
della Audible Magic (http://www.audiblemagic.com).
Questa ha realizzato un software che dovrebbe essere in grado di recuperare automaticamente
il titolo di una canzone sconosciuta . Il meccanismo si basa sullo spettro
sonoro della canzone stessa, che quindi deve essere gia’ in formato digitale.
Altre soluzioni sono allo
studio, altre verranno inventate. Una cosa sola e’ certa: il problema
dell’ottimizzazione delle ricerche su Internet e’ ancora lontano da una
soluzione.
Dovunque egli sia, con le
sue visioni di caos apocalittico, Borges se la ride.