Google o non più Google?

Le tecniche di ricerca di Google hanno conquistato la Rete e hanno garantito un seguito imponente, per non parlare dei profitti legati agli avvisi pubblicitari. Ma ora il settore dei motori di ricerca è pronto a un nuovogrande balzo in avanti, con Microsoft e un agguerrito gruppo di startup armate di nuove tecnologie e pronte a detronizzare l’attuale sovrano.

di Wade Roush

Se i dipendenti di Google sono preoccupati per il loro futuro, non lo si capisce certamente da una visita nella loro sede centrale. Fin dallo scorso inverno, quando le prime voci di una offerta iniziale al pubblico destarono l’interesse degli investitori, l’azienda è diventata un osservato speciale: alcuni esperti l’hanno definita «la più popolare azienda al mondo», mentre altri sostengono che le sue attività commerciali vivono un momento di difficoltà, sotto l’incalzare dei concorrenti e con i clienti più importanti sul punto di abbandonarla. Ma il complesso di Google a Mountain View, in California, offre la stessa impressione di serenità di un qualsiasi campus universitario. L’ingresso principale rasenta il kitsch, con un pianoforte a coda, luci rotanti da discoteca e una fila di lampade al neon brillanti come la lava sistemate nella stessa sequenza di blu-rosso-giallo-verde-rosso del logo aziendale. Nel bar-ristorante risuonano musica rock, le urla delle persone e il ticchettio dei personal dei fanatici del computer che amano anche il buon cibo gratuito. Al piano di sopra, nelle piccole stanze del nido d’infanzia, i programmatori chiacchierano muovendosi tra i giocattoli, i corrieri Segway e qualche cane di passaggio.

Soltanto quando mi siedo in una tranquilla sala riunioni con Craig Silverstein, il direttore della tecnologia di Google, l’atmosfera frivola torna un po’ più seria. Ora che aziende come Google e Overture, l’agenzia pubblicitaria su Internet, hanno dimostrato che l’esposizione di annunci pubblicitari a pagamento su un argomento specifico insieme ai risultati di una pagina di ricerca è una vera macchina per far soldi – che nel 2003 ha contribuito con circa 2 miliardi di dollari alle entrate del settore industriale – una schiera di aspiranti imprenditori sta investendo in software di ricerca che a loro parere fornirà agli utenti risultati più avanzati, in modo più rapido, di Google. Ho chiesto a Silverstein se la dichiarata sensibilità di Google al versante dello sviluppo tecnologico terrà l’azienda al riparo dall’agguerrita concorrenza. La sua risposta è stata cauta.

«Non è difficile passare da un motore di ricerca a uno migliore», egli dice. Google paga centinaia di ricercatori e sviluppatori di software, oltre a più di 60 diplomati PhD, per rimanere in prima linea sul fronte della guerra tecnologica, spiega Silverstein, che è egli stesso in congedo prolungato dai suoi studi di dottorato in informatica alla Stanford University. Ma è consapevole che non esiste alcuna garanzia di vittoria. «Speriamo che la prossima innovazione provenga da Google, ma chi può dirlo?»

In effetti, non è semplice. Secondo l’azienda di ricerca comScore, con sede a Reston, in Virginia, Google ha una posizione predominante sui suoi rivali nel gradimento degli utenti americani: il 77 per cento delle ricerche di agosto 2003 sono state effettuate su Google (incluse quelle condotte su AOL e Yahoo! che hanno utilizzato il motore di ricerca Google). Ma nell’industria della ricerca in rete l’innovazione è una carta imprevedibile. «Nel 1999 si poteva sostenere che Altavista aveva conquistato il mercato della ricerca», fa notare Whit Andrews, direttore della ricerca a Gartner, un’azienda di consulenza tecnologica. «Nel 1997 si trattava di Inktomi. Nel 1995 era Yahoo!. Nel settore della ricerca in rete non si può mai dire se c’è qualcuno appostato dietro l’angolo che renderà da un momento all’altro la tua tecnologia obsoleta».

Google è vulnerabile perché gode di pochi vantaggi infrastrutturali, come la proprietà una volta esclusiva di AT&T di gran parte della rete telefonica o il controllo di Microsoft dei sistemi operativi dei PC, che normalmente aiutano a mantenere il predominio (la stampa a gennaio ha segnalato che Yahoo! potrebbe presto interrompere la sua collaborazione con Google e indirizzarsi a un’autonoma tecnologia di ricerca). E il principale punto di forza dell’azienda – la capacità dei suoi algoritmi di ricerca di trovare le informazioni più rilevanti, in base alla loro diffusione – potrebbe non essere più sufficiente. «Nella fase iniziale Google disponeva di alcune tecniche a cui nessuno aveva pensato prima», afferma Doug Cutting, un esperto di software indipendente che ha ideato alcune delle tecnologie centrali per il motore di ricerca Excite e ha progettato strumenti di ricerca per i computer Apple Macintosh. Ma, secondo Cutting, numerosi altri motori di ricerca offrono ora alternative interessanti alle tecniche di Google.

Per esempio Teoma, che classifica i risultati della ricerca secondo la posizione assegnata da fonti riconosciute sull’argomento, e la startup australiana Mooter, che studia il comportamento degli utenti per comprendere meglio cosa stanno cercando. Non manca ovviamente il colosso di Redmond: Microsoft si sta rivolgendo alla ricerca come una delle sue prossime grandi opportunità commerciali. I suoi ricercatori stanno escogitando un nuovo sistema operativo che unisce le funzioni di ricerca tipo Google a tutti i programmi Windows e un software che perlustra la rete in cerca di risposte definitive a domande che vengono formulate nell’inglese quotidiano. Contemporaneamente Yahoo! ha lanciato il suo laboratorio di ricerca a gennaio del 2004 e lo stesso Cutting sta definendo un’alternativa a software aperto a Google (si veda Con un occhio a Google a pag 34). «Al momento», egli dice, «non sono convinto della netta superiorità di Google».

Qualunque tecnologia avrà la preferenza dei futuri navigatori in rete, il suo ideatore conquisterà un’influenza enorme e considerevoli profitti. Ogni giorno nel mondo vengono avanzate circa 550 milioni di richieste di ricerca (245 milioni solo negli Stati Uniti). Nel 2007, le entrate degli annunci pubblicitari collocati a pagamento generate da tutte queste ricerche raggiungeranno circa 7 miliardi di dollari, sostiene Safa Rashtchy, un consulente di Piper Jaffray. In ogni caso alcune indagini rivelano che quasi un quarto degli utenti non trova quello che sta cercando nella prima serie di collegamenti fornita dal motore di ricerca.

Ciò accade in parte perché le preziose informazioni di cui siamo alla ricerca sono sepolte in una massa di dati che cresce ogni giorno di circa 60 terabyte. Pertanto la brutale concorrenza nell’industria della ricerca sembra destinata a continuare, specialmente se le aziende del settore svilupperanno una serie di tecnologie avanzate, come l’elaborazione del linguaggio naturale e l’apprendimento meccanico. «Nei prossimi 5-10 anni», afferma Rashtchy, «potremmo assistere a progressi significativi cha garantiranno un salto di qualità nelle modalità d’uso e nella utilità del servizio». Sarà la concorrenza a provocare questi miglioramenti – molto più del successo o del fallimento di eventuali IPO su Google, che molti ritengono imminente – che probabilmente determineranno il futuro modo di navigare in rete.



SONO I CLICK CHE FANNO LA DIFFERENZA

Per natura caotica e decentralizzata, la rete ha un disperato bisogno di strumenti per aiutare le persone ad andare in cerca di informazioni dovunque esse si trovino. Immaginiamo che si voglia sapere come si curava lo scorbuto nel XVIII secolo: senza un motore di ricerca, non c’è alcuna possibilità di sapere che l’informazione desiderata si trova in un file dal nome criptico (www.jameslindlibrary.org/trial_records/17th_18th_Century/lind/lind_kp.html) su un server della biblioteca del Royal College of Physicians, a Edimburgo, in Scozia.

Comunque, se si digita la parola «scorbuto» nell’apposita casella di ricerca di Google o MSN o Ask Jeeves non si arriva direttamente al file del Royal College, ma si sta semplicemente consultando l’indice aziendale di ricerca in rete, una lista lunghissima stilata da programmi software automatizzati (spiders) che visionano migliaia di pagine in pochi secondi, copiando parole chiave, frasi, titoli e sottotitoli, collegamenti e altre informazioni di tipo descrittivo. Una volta che un frammento di informazione è inserito nell’indice, viene in genere compresso e gli si attribuisce un «peso» o importanza, memorizzandolo in una banca dati per ritrovarlo rapidamente. Il termine ricercato viene confrontato con questo indice e i collegamenti alle pagine in cui ricorre una o più volte la parola vengono mostrati in ordine di rilevanza.

Come un motore di ricerca determina questa rilevanza è il tocco vincente. Google si impose nel 1999 grazie a PageRank, un algoritmo inventato dai fondatori Larry Page e Sergey Brin che furono i primi a trarre profitto dal mare di interconnessioni di pagine Web. Ogni collegamento è, in realtà, una preferenza espressa dall’autore di una pagina per i contenuti di un’altra.

Page e Brin compresero che con indici abbastanza estesi sarebbero riusciti a valutare l’importanza di una pagina contando il numero delle pagine collegate a essa. I due presero in considerazione anche altri fattori, come la pertinenza del testo circostante i collegamenti e il livello di diffusione delle pagine collegate. Ma la loro intuizione più importante fu che il Web è il contesto popolare per eccellenza e che le pagine più citate sono probabilmente le più utili.

La tecnica ha funzionato alla perfezione e gli utenti Web hanno espresso un voto con i loro click. Tra il giugno 2000 e il gennaio 2004 Altavista, il precedente leader, le cui liste erano definite in accordo al numero di volte che una pagina menzionava le parole chiave di ricerca dell’utente, passò dall’ottava posizione nella classifica del traffico globale in Web alla sessantunesima, mentre Google si ritrovò dalla quasi invisibilità al quarto posto, secondo i dati delle aziende di ricerca Media Metrix e Alexa. Google si è così diffusa in Rete che il suo nome è stato selezionato dall’American Dialect Society come la parola nuova più utile del 2002.

Malgrado i suoi vantaggi, PageRank mostra qualche difetto. Come i precedenti motori di ricerca potevano essere ingannati da pagine zeppe di migliaia di parole chiave in caratteri «invisibili» bianco su bianco, allo stesso modo un proprietario di sito privo di scrupoli che vuole far apparire più volte il suo indirizzo Web tra i risultati della ricerca di Google può facilmente pubblicare migliaia o persino milioni di pagine «spazzatura» contenenti collegamenti al suo sito, migliorando artificialmente la sua posizione (Google sostiene di avere un modo efficace per contrastare questo tipo di inganni, ma non vuole parlarne). Lo stesso espediente in PageRank permette di «bombardare Google»: un recente fenomeno che vede i bloggers sostenere una posizione politica o satirica creando così tanti collegamenti a un determinato sito che quest’ultimo è il primo della lista quando l’utente digita un termine specifico nella casella di ricerca di Google. Chi bombarda Google per protestare contro la guerra in Iraq, per esempio, fa in modo che la biografia della permanenza alla Casa Bianca di George W. Bush sia la prima scelta alla voce «misero fallimento».

Alcuni critici sono più infastiditi dall’attenzione ossessiva di PageRank alla fama. Una pagina valida che viene incontro perfettamente alle necessità di ricerca dell’utente di Google potrebbe rimanere sepolta nei risultati della ricerca solo perché non ci sono abbastanza pagine che fanno riferimento a essa, fa notare Daniel Brandt, un creatore di siti Web che è responsabile di un importante sito chiamato Google Watch.

La rilevanza di una pagina per il singolo utente, argomentano Brandt e altri critici, può dipendere da qualcosa di più della sua popolarità. «Solo perché il resto del mondo pensa che un determinato sito turistico sia il migliore non vuol dire che lo sia per qualsiasi utente», dice Liesl Capper, fondatrice e dirigente di Mooter, una nuova azienda con sede a Sydney, che crede di aver trovato un sistema migliore.

QUANDO LE IDEE SONO UN PUNTO DI FORZA

Sono a pranzo con Capper in una splendida giornata invernale a San Francisco. Ella si trova in città per incontrare potenziali investitori e clienti. «Chi controlla il flusso informativo ha un sottile, ma pervasivo potere», mi dice calorosamente. «Qualcuno deve detenere questo potere ed è importante che chi lo gestisce provi consapevolmente ad avere un impatto positivo, per restituirlo progressivamente ai singoli individui». Mooter si muove in questa direzione, rendendo più semplici e più personalizzate le ricerche in Web. Capper è cresciuta in Zambia, ha studiato psicologia in Sud Africa e ha creato una catena di centri per lo sviluppo della prima infanzia prima di emigrare in Australia nel 1997 e scegliere di impegnarsi attivamente nella tecnologia per la ricerca. Ha aperto un negozio nel centro di Sidney e ha assunto Jondarr Gibb, un esperto creatore di software, e John Zakos, uno studente laureato alla Griffith University impegnato nella scrittura della sua tesi di dottorato sulle applicazioni della teoria della rete neurale alle ricerche su Internet.

I tre hanno messo insieme le loro conoscenze di psicologia, software e reti neurali per creare un algoritmo classificatorio che apprende dagli utenti con il progredire della ricerca. Prima di scaricare sull’utente una lunga lista di collegamenti, Mooter analizza i significati potenziali e le permutazioni delle parole chiave iniziali e, dietro le quinte, stabilisce la rilevanza delle pagine Web risultanti in categorie allargate, definite clusters. L’utente vede dapprima sullo schermo una «esplosione» di nomi di raggruppamenti. Una ricerca sul nome Paul Cézanne, per esempio, produce clusters come arte, artisti, Cézanne, Francia, gallerie e pittori famosi. Questo è l’aspetto psicologico. «Quando si fa una ricerca tradizionale, si ottengono milioni di risultati e la nostra mente procede per raggruppamenti concettuali», spiega Capper. «Ma le nostre menti sono in grado di elaborare solo da tre a cinque tipi di informazioni alla volta. Abbiamo quindi deciso di non sovraccaricarla, ma di partire da quello che sa fare».

Poi interviene il momento dell’apprendimento. Per sviluppare una comprensione più precisa di cosa probabilmente sta cercando l’utente, il motore di Mooter rileva quali raggruppamenti e collegamenti vengono prescelti e usa questa informazione per migliorare le risposte future. Immaginiamo che un utente inserisca il termine «cane», clicchi su un cluster chiamato «razze» e passi successivamente molto tempo a guardare siti relativi agli schnoodles (un popolare incrocio schnauzer-poodle). Quando l’utente clicca su un nuovo risultato della ricerca, Mooter personalizzerà la lista per riflettere questa manifestazione d’interesse; indicherà, per esempio, con maggiore frequenza siti su «cani», «razze» e «schnoodles». Una raccolta sempre aggiornata di risultati apparirà su ogni pagina. Il motore continuerà a modificare la lista sulla base del comportamento dell’utente.

Il progetto complessivo vuole fornire alle persone i risultati desiderati nel minor numero possibile di click. «Due click e noi già abbiamo una buona idea di cosa si sta cercando», afferma Capper. Quando il sito beta di Mooter ha debuttato nell’ottobre del 2003, Capper non pensava che sarebbe stato notato fuori dall’Australia. Ma il traffico da tutto il mondo è stato così sostenuto, ella dice, che l’azienda ha dovuto installare più server Web per mantenere in funzione il servizio.

Più si parla con esperti dell’industria della ricerca, più si capisce che esistono tante possibilità di classificare i risultati della ricerca quante sono le pagine in Web. La supposta sovraesposizione di Google al concetto di popolarità è stato uno dei motivi ispiratori di Teoma (si pronuncia tay-o-ma), fondata nel 2000 dall’informatico Apostolos Gerasoulis e da alcuni colleghi della Rutgers University, nel New Jersey. Il software di ricerca di Teoma ora sostiene Ask Jeeves, il sito di ricerca numero sei. Google «guarda alla struttura del Web, ma questo metodo non arriva al livello successivo», sostiene Paul Gardi, vicepresidente per la ricerca a Teoma. «Se si scende al livello locale, si scopre che i collegamenti si raggruppano intorno ad alcuni soggetti o argomenti, in modo molto simile alle comunità. Per esempio, le pagine sul «fai da te» non si collegano semplicemente alle pagine più popolari, ma creano collegamenti una con l’altra, formando raggruppamenti intorno a siti importanti come Hometime.com, Homeideas.com e BobVila.com.

Gli scienziati della Rutgers hanno progettato Teoma (Gaelic per gli «esperti») per cercare queste comunità specifiche per soggetto e comprenderne il funzionamento. Prima che il motore di Teoma presenti i risultati della ricerca su un gruppo determinato di parole chiave, spiega Gardi, esso identifica le comunità associate e cerca le «autorità al loro interno, vale a dire le pagine a cui i siti Web dei membri della comunità fanno riferimento più spesso. Teoma prova a verificare la credibilità di queste pagine «autorevoli», controllando se sono inserite in pagine di risorsa create da esperti o appassionati dell’argomento, che tendono a collegarsi alle pagine migliori all’interno della comunità. Infine il software classifica i risultati della ricerca a seconda di quanto spesso ogni pagina viene citata dalle pagine autorevoli.

IBM e altre organizzazioni hanno sperimentato sistemi simili di liste basate sul principio d’autorità alla fine degli anni 1990, ma Gerasoulis sostiene che questo tipo di approcci potrebbero aver bisogno di alcune ore per setacciare tutte le pagine. La tecnica proprietaria di Gerasoulis compie lo stesso lavoro in circa un quinto di secondo. Ask Jeeves ha abbandonato il suo precedente fornitore di servizi di ricerca ed è passata alla tecnologia Teoma nel 2001, e i volumi di richieste sono aumentati del 30 per cento negli anni 2002 e 2003.

Anche se è difficile da credere quando si guarda alle decine di pagine di risultati della ricerca, i motori di ricerca attuali ignorano gran parte di quello che si trova su Internet. Il software automatizzato ha problemi a indicizzare contenuti protetti da moduli di adesione o memorizzati in banche dati come i cataloghi dei prodotti o gli archivi medici e legali che vengono organizzati in pagine Web solo quando l’utente li richiede. Questo cosiddetto Web sommerso ammonta a 92 petabyte (92 milioni di gigabyte) in tutto il mondo, quasi 500 volte il volume del Web emerso, secondo la School of Information Management and Systems dell’Università della California, a Berkeley.

Far emergere il Web sommerso è la missione di una nuova entrata nel settore della ricerca in rete: Dipsie di Chicago. «Google e Teoma riescono a classificare circa l’uno per cento della documentazione esistente», afferma Jason Wiener, fondatore e responsabile della tecnologia di Dipsie. Wiener, un programmatore autodidatta che gestiva un’azienda di sviluppo del Web, con sede a San Francisco, fino al tracollo delle imprese dot-com, ha passato gli ultimi due anni a mettere in piedi un software automatizzato per il Web più agile, in grado di andare oltre moduli e interfacce delle banche dati. Supponiamo che vi stiate domandando quale sia l’equipaggiamento standard di una Mercedes 55SL convertibile. A Cars.com, arrivare alla pagina con informazioni dettagliate sul prodotto richiede circa 6 passaggi. Dipsie, invece, avrà registrato anticipatamente l’intero database di Cars.com, così potrà trasmettere la stessa pagina con un semplice click. «Non gestiamo nulla che richieda autenticazione con un nome utente o una password, ma possiamo fare quasi tutto», spiega Wiener. Egli sostiene che quando il sito di ricerca di Dipsie sarà pubblicamente disponibile questa estate, il suo indice includerà 10 miliardi di documenti, il triplo delle attuali dimensioni dell’indice di Google.

Così mentre Google è ancora leader, il settore della ricerca in rete brulica di concorrenti con idee originali. «Google lo sa», afferma Andrews, un consulente di Gartner. «Loro provengono da Stanford e sanno che ci sono studenti nelle aule di Stanford che stanno dicendo “Ehi, ho un’idea! Se prendiamo questo algoritmo e lo mettiamo insieme a quest’altro?” Non hanno alternative: o assumono i due giovani o li dovranno combattere».

MICROSOFT PUNTA A MICROSEARCH

Se c’è un’azienda che sa come attirare giovani creativi e sfruttare le loro idee in prodotti di dominio del mercato questa è Microsoft. è sufficiente nominare un qualsiasi settore caldo dell’informatica e l’azienda di Bill Gates potrà vantare almeno uno o due delle personalità più rappresentative del campo; d’altronde i cinque laboratori di Microsoft Research sono distribuiti nel mondo e impiegano oltre 600 ricercatori. Inoltre l’azienda, quando ha sentore della presenza di un mercato importante, si muove con tutte le sue forze per conquistarlo.

Non è assolutamente strano l’interesse di Microsoft per il recupero dell’informazione, la disciplina da cui sono nati i motori di ricerca. L’azienda ha già guadagnato il 97 per cento del mercato dei sistemi operativi per PC e il 90 per cento del software per ufficio; la ricerca è uno delle poche aree del mondo del computer che Microsoft non domina. Una lettura dei progetti di R&S dell’azienda conferma che essa vede forme avanzate di ricerca come chiave della sua crescita commerciale. Con la diffusione della prossima versione di Windows, nome in codice Longhorn, sempre più vicina – una versione sperimentale sarà pronta alla fine di quest’anno – i ricercatori e gli sviluppatori del prodotto stanno facendo il possibile per renderne la ricerca in Web una parte integrante.

Uno dei pezzi di software più interessante dovrebbe consentire di digitare le domande in un linguaggio semplice e di ricevere direttamente una risposta. L’azienda crede che l’utente del servizio non dovrebbe preoccuparsi di selezionare le parole chiave giuste, collegandole con il corretto operatore booleano (e, o, non…), e scorrere pagine e pagine di risultati della ricerca. In realtà, sostiene Eric Brill, ricercatore di Microsoft, sono i motori di ricerca a dover capire e rispondere alle domande in linguaggio naturale. Un buon esempio è il programma AskMSR di Microsoft Research, che Brill e i suoi colleghi hanno sperimentato sulla rete interna di Microsoft per oltre un anno.

Il suo nucleo è costituito da una casella di ricerca in cui gli utenti possono inserire domande del tipo «Chi ha ucciso Abramo Lincoln?» e, invece di trovarsi di fronte un elenco di siti che potrebbero contenere l’informazione desiderata, ricevono una risposta chiara: «John Wilkes Booth». Il software non si affida a qualche algoritmo avanzato di intelligenza artificiale, ma a due stratagemmi sorprendentemente semplici. In primo luogo, usa le regole del linguaggio apprese da una estesa banca dati di frasi campione per riscrivere la frase di ricerca in modo che assomigli alle possibili risposte: per esempio, «__ uccise Abramo Lincoln» o «Abramo Lincoln fu ucciso da __». Queste stringhe di testo sono poi usate come le domande in una sequenza di ricerche Web standard basate sulla parola chiave. Se le ricerche producono una combinazione precisa, il programma è svolto e presenta la risposta all’utente.

In molti casi, tuttavia, il programma non troverà l’esatta combinazione, ma solo indirette variazioni delle stringhe testuali, del tipo «L’azione violenta di John Wilkes Booth al Ford Teather pose fine al secondo mandato di Lincoln prima che iniziasse». Il risultato è ugualmente accettabile. In secondo luogo, AskMRS calcola che se «Booth» appare di frequente nella stessa frase con «Lincoln» ci deve essere un rapporto importante tra i due, il che gli consente di proporre una risposta, anche se non è sicura al 100 per cento (si veda Come funziona il meccanismo di risposta alla domanda? in basso). «Stiamo sfruttando la ridondanza del Web», spiega Brill. «Se si conoscono diversi luoghi dove si pensa di aver trovato una risposta, la ridondanza la rende ancora più sicura». Con la crescita del Web aumenterà anche la ridondanza, rendendo AskMSR uno strumento ancora più potente, continua Brill. Mentre i progetti per AskMSR non sono ancora definiti, Brill ritiene che il codice vedrà presto la luce del sole, forse come parte di un futuro motore di ricerca Microsoft.

Un altro filone di ricerca di Microsoft Research è meno attento a come funzionano i motori rispetto a come e quando gli utenti hanno bisogno dell’informazione.

«Quando si cerca un’informazione, si blocca tutto quello che si sta facendo, si apre un’altra applicazione e si fa partire la ricerca, provando poi a integrare i risultati della ricerca con l’attività che si stava svolgendo», dice Susan Dumais, esperta di recupero dell’informazione per Microsoft. «Stiamo cercando di capire come la ricerca possa diventare parte del lavoro che in quel momento si sta svolgendo al computer». A tal fine Dumais sta sviluppando un programma chiamato Stuff I’ve Seen (Cose che ho visto) destinato a fornire agli utenti del computer un accesso facile e veloce a qualunque cosa abbiano visto sul loro computer. L’interfaccia del programma sperimentale, che influenzerà le capacità di ricerca di Longhorn, è una casella di ricerca sempre disponibile nella barra delle funzioni di Windows. Si digita una domanda nella casella e Stuff I’ve Seen mostrerà un elenco organizzato di collegamenti a messaggi e-mail correlati, appuntamenti in agenda, contatti dell’indirizzario, documenti d’ufficio o pagine Web in un’unica finestra.

Una caratteristica emergente di Stuff I’ve Seen, chiamata Implicit Query (Domanda sottintesa), dovrebbe funzionare dietro le quinte per recuperare l’informazione collegata a ciò su cui sta lavorando l’utente. Se si sta leggendo un messaggio e-mail, per esempio, Implicit Query potrebbe mostrare un riquadro con collegamenti a titoli e indirizzi e-mail di tutte le persone che il messaggio menziona e a tutte le precedenti e-mail in arrivo dal mittente. Per rendere il software ancora più utile, Dumais vuole aggiungere una voce al menu del pulsante destro del tradizionale mouse di Windows con la seguente dicitura: «Trova questa cosa». Selezionandola, il programma dovrebbe cercare dati Web e personali relativi a informazioni correlate a un nome o a una frase evidenziati.

AskMSR, Stuff I’ve Seen e i progetti collegati fanno tutti parte di un cambiamento generale nella strategia tecnologica di Microsoft, che potrebbe consentire all’azienda di far avvicinare centinaia di milioni di utenti Windows alla propria tecnologia di ricerca, come se avesse ereditato il mercato dei browser Web da Netscape all’inizio degli anni 1990.

Il nodo di questa trasformazione è il nuovo Windows File System, o WinFS, il nucleo centrale di Longhorn. Nell’attuale sistema di file di Windows ogni applicazione software ripartisce lo spazio di memorizzazione assegnato in gerarchie caratteristiche di cartelle.

Ciò rende praticamente impossibile, per esempio, collegare una parte d’informazione come il nome di un autore di un documento Word con l’indirizzo o il numero telefonico della stessa persona in Outlook. WinFS, al contrario, è dotato di una banca dati relazionale: una serie ordinata di tavole memorizzate sul disco rigido in cui tutte le applicazioni che usano un set standard di comandi possono trovare e modificare i dati del computer.

Se Longhorn include strumenti che si affidano a Stuff I’ve Seen e permette loro di comunicare direttamente con un motore di ricerca Web, si potrebbe creare quell’«unica casella di ricerca» tanto auspicata dai produttori di software, l’entrata a tutte le informazioni di cui si ha bisogno, siano esse sul computer domestico o in rete.

Whit Andrews di Gartner è uno di quelli che sta già pregustando il nuovo software di Microsoft. «Datemelo il prima possibile!», egli dice. «Sono seduto davanti alla mia e-mail. Se voglio cercare una persona, devo ricordarmi di andare su Google. Ma ciò che realmente voglio sapere è se le ho parlato in passato. Mi piacerebbe quindi cliccare sul pulsante destro e condurre una ricerca globalmente, sulla mia e-mail e sulle cartelle dei contatti, su Search.com (che vende l’accesso alle informazioni registrate in documenti pubblici). Chi mi garantisce questo vantaggio? Microsoft lo fa e, grazie a un servizio a basso costo che non fa perdere denaro ai consumatori, essi si trovano in una posizione invidiabile».

PIù IL WEB CRESCE, MIGLIORE DEVE ESSERE

LA TECNOLOGIA DI ACCESSO

Chiedo a Craig Silverstein, direttore della tecnologia di Google, se i progressi di Microsoft nei sistemi di ricerca lo tengano sveglio la notte. Egli riconosce che Microsoft e Google stanno esplorando alcuni territori simili dal punto di vista tecnico, ma sottolinea il fatto che essendo più piccola di Microsoft (1.000 dipendenti contro 55.000) la sua azienda può sviluppare più rapidamente le sue idee. Malgrado le sue dimensioni inferiori, inoltre, Google ha più ricercatori di Microsoft impegnati esclusivamente nel campo della ricerca. Silverstein fa anche notare che a ognuno delle diverse centinaia di sviluppatori di software di Google viene richiesto – come parte del lavoro – di dedicare il 10 per cento del loro tempo a progetti personali originali, garantendo in tal modo un flusso continuo di idee creative.

Alcuni di questi progetti emergono dai Google Labs (labs.google.com), una sezione del sito di Google dove il pubblico può provare – e fare commenti – il software di ricerca ancora in via di sviluppo. Google Viewer, per esempio, anima i risultati in modo che scorrano sullo schermo come i titoli di testa o di coda di un film. Voice Search consente di chiedere una ricerca per telefono, se si è lontani dal proprio computer, e di ritrovare più tardi i risultati online. La Google Deskbar installa una casella di ricerca permanente di Google nella barra di funzioni di Windows; i risultati appaiono in una piccola finestra temporanea, così gli utenti non devono lanciare i loro browser Web ogni volta che vogliono guardare qualcosa.

Ma nessuno dei prototipi dei Google Labs rappresenta un’innovazione del valore dell’algoritmo originale di PageRank di Page e Brin, né sono all’altezza dei tentativi di Microsoft di reinventare Windows e integrare le applicazioni che vi girano sopra.

Mentre Silverstein e i suoi colleghi lodano l’efficienza degli oltre 10.000 server Web e la passione e la grinta dei programmatori di Google, essi non spiegano come l’azienda spera di migliorare PageRank o quale nuova tecnologia potrebbe contrastare le minacce rappresentate da Teoma e AskMSR. In realtà ci sono poche prove visibili che Google abbia idee originali per mantenere la sua quota di mercato. Il programmatore di software a codice sorgente aperto Doug Cutting sostiene: «Google ha un gruppo consistente di persone che provano a introdurre innovazioni decisive, ma ancora non si è visto nulla. Credo che se hanno realmente qualcosa in mano dovrebbero mostrarlo».

A Silverstein piace parlare soprattutto dei suoi obiettivi a lungo termine nella tecnologia di ricerca, che a suo parere è ancora nella fase iniziale di sviluppo. «è chiaro che la risposta (alla ricerca) non è un elenco ordinato di siti Web», egli afferma. Nessuno pensa di avvicinare un bibliotecario, fare una domanda sul canale di Panama e ottenere in risposta una lista di 50 titoli di libri, egli spiega. Silverstein ritiene che gli esperti di recupero dell’informazione dovrebbero puntare a un software avanzato e automatico che, allo stesso modo di un bibliotecario esperto nella consultazione, indirizzi gli utenti, passo dopo passo, verso le risorse specifiche di cui hanno bisogno.

Ciò, naturalmente, richiederà ulteriori progressi in settori quali l’apprendimento meccanico probabilistico e l’elaborazione del linguaggio naturale; Google continua ad assumere alcuni dei laureati più promettenti in queste aree, tra cui quattro studenti del laboratorio di Stanford di Daphne Koller, un’autorevole ricercatrice che si occupa di apprendimento meccanico (si veda 10 tecnologie emergenti. Cambieranno il mondo?, in «Technology Review», edizione italiana, n.3/2004). Ma tutte queste iniziative si trasformeranno in strumenti utili per l’utente? La stessa Google è sbucata fuori apparentemente dal nulla, offuscando rapidamente altri importanti motori di ricerca come Altavista.

Se c’è un messaggio lanciato dai guru del boom delle dot-com che rimane ancora valido è che il desiderio delle persone di modi più rapidi ed efficaci di fare le cose va sempre oltre la fedeltà a un marchio. Se rivali come Ask Jeeves e nuove aziende come Mooter e Dipsie conseguono almeno in parte i loro obiettivi di algoritmi più avanzati, interfacce più semplici e indici più estesi ed esaurienti, esse potrebbero minacciare seriamente il giro d’affari di Google.

Allo stesso tempo la radicale riorganizzazione dell’ambiente Windows da parte di Microsoft promette di cambiare il concetto stesso di ricerca per la grande maggioranza degli utenti del computer.

La notizia buona per chi naviga in Internet è che la competizione renderà i programmi di ricerca un valido aiuto per la nostra vita quotidiana.

Senza strumenti di ricerca, la ricchezza del Web sarebbe inaccessibile come le tavolette, le pergamene e i volumi scritti a mano dell’era pre-Gutenberg e come cresce il Web stesso così aumenta il nostro bisogno di metodi più avanzati per entrarvi dentro. Ma quale tecnologia fornirà l’accesso che desideriamo – e chi ne trarrà maggior profitto – sono domande a cui non è in grado di rispondere neanche il più potente motore di ricerca.

CON UN OCCHIO A GOOGLE

Wal-Mart, McDonald’s, Microsoft: un manipolo d’aziende talmente dominanti nei loro rispettivi mercati che quasi ogni azione che intraprendono viene stigmatizzata da qualcuno con l’accusa di abuso di potere. Ora Google è entrata a far parte di questo club esclusivo. Come proprietaria del più famoso motore di ricerca di Internet, Google è diventata di fatto il custode del Web, con la possibilità di promuovere o penalizzare un sito spostandolo semplicemente di qualche posizione negli elenchi della ricerca. Tutto ciò non ha creato danni all’immagine di Google presso milioni di utenti di Internet, ma qualche programmatore ed editore Web si è molto infastidito. «I motori di ricerca sono una parte essenziale di Internet e, tuttavia, sono controllati da organizzazioni private; anche i loro meccanismi sono segreti», sostiene Doug Cutting, un consulente indipendente di software di Petaluma, in California. «Queste aziende hanno grandi opportunità di manipolare i loro servizi allo scopo di trarne profitto. è una situazione che crea serio disagio».

Il rimedio di Cutting è un motore di ricerca a software aperto, chiamato Nutch, che usa algoritmi classificatori simili a quelli di Google, ma con una differenza: ogni risultato della ricerca è accompagnato da un collegamento, definito Explain, che presenta una dettagliata contabilità dei diversi punteggi che determinano l’ordine di presentazione dei risultati. «Noi vogliamo fornire qualcosa», spiega Cutting, «che funzioni come un dispositivo di sorveglianza, in modo che gli esperti possano confrontare i risultati di Nutch con quelli di un motore di ricerca commerciale e verificare se, per esempio, qualcuno stia influenzando i risultati che presenta in favore dei suoi inserzionisti». Se tutto va per il verso giusto, i risultati dovrebbero essere all’incirca gli stessi. Lo sviluppo di Nutch è stato finanziato in parte da Overture, un’agenzia di pubblicità su Internet, che è stata di recente acquistata da Yahoo!; il nuovo motore di ricerca dovrebbe essere disponibile al pubblico al più tardi alla fine di questo anno.

Google vanta anche alcuni osservatori speciali umani, tra cui gli editori di siti Web come Watching Google like a Hawk e Search Engine Watch. Ma forse il critico più feroce e tendenzioso è Daniel Brandt, fondatore di Google Watch. Brandt, che gestisce un sito di consultazione chiamato NameBase.org che raccoglie citazioni di personaggi illustri tratte da libri e giornali, ritiene che Google abbia troppo potere nei confronti delle piccole aziende su Internet, che possono passare mesi interi a cercare di migliorare la propria classifica su Google, per ripiombare nell’oscurità quando Google modifica i suoi algoritmi classificatori. Google agisce così soprattutto per ostacolare chi vuole migliorare la propria posizione con l’inganno, ma la correzione periodica può anche avere un impatto devastante sui siti in ordine che vedono cambiare le regole del successo nel bel mezzo del gioco.

Dopo un importante rimescolamento delle procedure classificatorie di Google nel novembre del 2003, Brandt ha pubblicato uno strumento d’analisi, da lui chiamato Scroogle, che mostra quali siti sono «scomparsi» dagli elenchi dei primi 100, relativi alla ricerca su un determinato termine, rispetto alle liste precedenti a novembre. I visitatori indignati hanno da allora incrementato di dieci volte il traffico di Google Watch. «I siti “Mom and Pop” (a conduzione familiare) erano danni collaterali che non meritavano un simile schieramento di forze», dice Brandt. Egli sostiene il progetto Nutch di Cutting e crede che un soggetto pubblico, come la Library of Congress americana, dovrebbe trasformare Nutch in uno strumento di ricerca completo e non commerciale per limitare l’influenza di Google.

Come azienda privata, ammette Brandt, Google ha il diritto di usare la sua tecnologia nel modo che ritiene più opportuno. Ma «appena il loro potere entra in contrasto con il modo di vivere delle persone», egli conclude, «il problema diventa di interesse pubblico».

D: COME FUNZIONA IL MECCANISMO DI RISPOSTA ALLA DOMANDA?

R: IN QUESTO MODO

Il sofware AskMSR di Microsoft trasforma domande in semplice inglese in richieste formali di ricerca e interroga il Web per risposte condivise.

1. Domanda

Quante uova ci sono nella dozzina del fornaio?

2. Riscrittura della domanda

«Ci sono»+«uova nella»+«dozzina del fornaio»

«La dozzina del fornaio ha»+«uova»

«del fornaio»+«dozzina»+«uova»

3. Raccolta dei risultati della ricerca e selezione (per esempio, si ignorano i risultati che non si avvicinano a una risposta alla domanda «quanto»)

«Una dozzina in genere vuol dire 12 uova, quindi quante uova ci sono nella dozzina del fornaio?»

«Il Baker’s Dozen Cookbook»

«Perché 13 uova sono chiamate la dozzina del fornaio?»

«13 uova rappresentano la dozzina del fornaio»

4. Estrazione delle risposte dal testo e presentazione delle risposte più probabili

13 uova (81 per cento di probabilità)

12 uova (7 per cento di probabilità)

Related Posts
Total
0
Share