2×3 le nuove dimensioni dell’immagine

Photosynth è una tecnologia spettacolare, per cui si ipotizzano interessanti applicazioni.

di Jeffrey Macintyre

Nel marzo 2007, durante l’ultima edizione della conferenza Technology, Entertainment, Design, a Monterey in California – la cosiddetta Davos dei ‘digerati’ (la nuova élite che sta plasmando e colonizzando il cyberspazio) – l’architetto del software chiamato a fare la sua dimostrazione in rappresentanza di Microsoft sale sul podio e comincia subito a parlare, con voce calma, navigando nel mare di immagini proiettate sul grande schermo. Grazie a Seadragon, una tecnologia che consente di esplorare rapidamente e con estrema fluidità grandi volumi di informazioni testuali e grafiche, l’esperto poteva immergersi senza fatica in una mappa digitale da 300 megapixel, ingrandendola fino a fare apparire, in un angolino, il timbro con la segnatura e la data della Biblioteca del Congresso. In un attimo passava poi a una immagine che assomigliava a un codice a barre, ma era in realtà il testo integrale di Casa desolata, il romanzo di Charles Dickens, zoomando fino a riempire tutto lo schermo con due soli caratteri tipografici perfettamente definiti e di nuovo rimpicciolendo fino a ritrovare l’iniziale patchwork di testi e fotografie.

Microsoft aveva acquisito Seadragon l’anno precedente e, insieme al software, anche il presentatore, Blaise Agüera y Arcas. Che al TED non si è soffermato solo su Seadragon. In pochi secondi Agüera y Arcas fa apparire sullo schermo un panorama delle Montagne Rocciose canadesi ottenuto da un mosaico di tante fotografie; l’immagine si sposta rivelando la spettacolare linea spezzata delle creste. Poi è la volta di una veduta aerea di un modellino di quello che sembrava un edificio particolarmente familiare: la cattedrale di Notre Dame. Il modello, ha spiegato Agüera y Arcas, era stato ricostruito a partire da centinaia di immagini distinte pubblicate su Flickr. Si trattava in altre parole di una “nuvola di punti”, un insieme di punti distribuiti nello spazio tridimensionale.

Parlando al pubblico della conferenza, Agüera y Arcas non cessava di girare, ammiccante, intorno alla periferia di Notre Dame, che ogni volta si ravvivava e tornava ad affievolirsi. L’effetto del tortuoso passaggio attraverso le singole immagini in dissolvenza e gli infiniti punti focali era attenuato da sottili effetti di transizione. Sembrava la proiezione, volutamente rallentata, di una serie animata di singoli fotogrammi. L’effetto era estraniante, il pubblico osservava estasiato mentre Agüera y Arcas si spingeva più in dettaglio nell’immagine frontale delle arcate della cattedrale, soffermandosi su un primissimo piano di una gargolla. Alcune delle immagini tracciate dal software non erano neppure di stretta origine fotografica: la ricerca era stata effettuata su tutte le immagini pertinenti conservate da Flickr, compresa quella di un poster raffigurante la cattedrale. Al centro della dimostrazione di Agüera y Arcas non c’era un video, ma nemmeno una semplice collezione di foto, per quanto vasta. Per certi versi poteva anche essere considerata una mappa, ma di tipo immersivo e animato dalla trasognante logica delle forme indistinte e delle prospettive in costante mutamento.

Il software in questione si chiama Photosynth, una tecnologia che analizza immagini tra loro correlate e le ricollega per ricostruire gli ambienti fisici di un emozionante ambiente virtuale. Una tecnologia che serve a costruire “metaversi”, come dichiarava Agüera y Arcas (per un approfondimento sulle emergenti tecnologie di mappatura digitale come Google Earth o i fantasiosi reami di giochi alla Second Life, si veda Second Earth, “Technology Review”, edizione italiana, n. XX); ma che rappresenta anche la “coda lunga” di Virtual Earth, il concorrente di Google Earth creato da Microsoft, per la possibilità di attingere e allo stesso tempo contribuire all’enorme massa di dati cartografici locali e di informazioni grafiche disponibili on line. Una tecnologia, diceva Agüera y Arcas, in grado di generare «modelli virtuali ultra dettagliati di ogni punto interessante della Terra, partendo non soltanto dalle immagini raccolte dagli aerei a bassa quota, dai satelliti e quant’altro, ma anche dalla nostra memoria collettiva». Su queste parole la dimostrazione finiva non meno bruscamente di com’era cominciata circa sei minuti prima. Le ultime parole di Agüera y Arcas furono accolte da uno scrosciante applauso.

Non solo patchwork

Photosynth nasce da quello che Agüera y Arcas definisce il matrimonio tra Seadragon e Photo Tourism, un progetto con cui Microsoft intendeva rivoluzionare il modo in cui un catalogo di immagini può essere composto e visualizzato. Photo Tourism era iniziato a sua volta come tesi di dottorato di uno zelante ventiseienne laureato all’Università di Washington, Noah Snavely. Uno dei relatori di Snavely era stato Ricky Szeliski, ricercatore specializzato in computer vision presso Microsoft Research, il braccio di R&S del colosso del software. «Avevo descritto la necessità di validi elementi per una robusta applicazione di presentazione, come può essere una funzione di composizione delle immagini», ricorda Szeliski, le cui prime attività in Microsoft avevano contribuito allo sviluppo della tecnologia di “ricucitura” delle immagini oggi comunemente utilizzata dalle fotocamere digitali per completare un quadro troppo largo o troppo alto. Un altro dei suoi obiettivi era la fluidità tra le immagini e un senso di interattività nel corso della proiezione.

In collaborazione con un docente dell’Università di Washington, Steve Seitz, Snavely si era concentrato su un software capace di superare un notevole ostacolo computazionale: riuscire a fondere delle fotografie bidimensionali, solo sulla base delle reciproche analogie, in un modello fisico tridimensionale che l’occhio dell’osservatore potesse interpretare come elemento di un autentico paesaggio del mondo reale. Tale modello avrebbe inoltre dovuto essere “navigabile” e sperimentabile a livello spaziale. I programmi di ricomposizione fotografica cui sono dotate alcune fotocamere digitali sapevano estrapolare le relazioni tra un’immagine e l’altra a partire dalla sequenza con cui tali immagini venivano scattate. Ma Snavely stava cercando di sviluppare un programma che potesse fare certe valutazioni in modo totalmente diverso. La soluzione da lui escogitata funzionava in due passaggi: «Nel primo identificavamo tutti i punti più significativi delle immagini bidimensionali», racconta il ricercatore. «Poi cercavamo di indovinare quali punti delle diverse immagini corrispondessero agli stessi punti di un modello 3-D».

«Il procedimento», continua Snavely, «è noto come “struttura dal movimento”. In sostanza possiamo dire che una telecamera in movimento è in grado di inferire una struttura a tre dimensioni. è la stessa cosa di quando spostiamo il capo avanti e indietro per farci un’idea più accurata di una struttura tridimensionale. Provate a tenere un occhio chiuso e a spostare il capo da un lato all’altro: vedrete che diversi punti a diverse distanze si sposteranno in modo diverso. Questa è l’idea di fondo della struttura dal movimento».

La visione computerizzata, spiega Agüera y Arcas, sfrutta un semplice assioma: tutte le informazioni riferibili alla spazialità possono essere quantificate. «Ciascun punto dello spazio ha solo tre gradi di libertà, gli assi delle x, delle y e delle z», afferma.

Gli attributi condivisi da un certo numero di fotografie, aggiunge l’esperto, aiutano a individuare quelle tra loro simili: per esempio l’immagine di una piastrella dalla forma molto particolare può essere ricorrente. Quando il software identifica queste similitudini – quando, per esempio, la piastrella che compare in una foto è presente anche in un’altra – sa di dover cercare altre somiglianze. Il processo di raggruppamento delle varie immagini sulla base degli elementi visivi coincidenti cresce in precisione fino a determinare un vero e proprio schema generale a partire da quelle piastrelle. Più numerose sono le immagini di partenza disponibili, più realistico sarà il risultato, specialmente se le immagini originali sono state riprese da una varietà di angolature e prospettive.

Questo succede perché il secondo esercizio computazionale, spiega ancora Snavely, consiste nel confrontare le immagini in cui gli elementi comuni sono raffigurati sotto angoli diversi. «è emerso che la prima fase del procedimento dà una mano alla seconda, fornendo l’informazione su dove potrebbero essere state collocate le fotocamere. Siamo in grado di ricostruire il punto di vista da cui ciascuna immagine era stata scattata e quando l’utente seleziona una fotografia verrà trasportato proprio in quel punto». Immaginando un punto di vista per ciascuna fotografia – calcolando cioè la posizione in cui si trovava la fotocamera in quel momento – il software può simulare il funzionamento della nostra visione binoculare, producendo l’effetto tridimensionale.

Come Szeliski sapeva, tuttavia, l’occhio umano è il più mutevole dei critici. Ragione per cui insieme ai suoi colleghi cercò di andare oltre il semplice obiettivo di ricostruire un quadro più grande da tante piccole tessere di mosaico. I ricercatori lavorarono anche sugli effetti di transizione che avrebbero dovuto far sì che le immagini combaciassero nel modo più fluido possibile. Tra le tecniche utilizzate si possono elencare le dissolvenze, il caratteristico modo in cui i registi cinematografici e televisivi passano da una inquadratura all’altra.

In una demo che raffigurava la Fontana di Trevi di Roma, Photo Tourism riusciva a raggiungere un risultato distorto, rudimentale, rispetto a quanto sarebbe stato in seguito ottenuto con Photosynth: una nuvola di punti assemblata a partire da immagini che rappresentavano prospettive diverse di uno stesso luogo. A impressionare maggiormente era la capacità di quel software di rielaborare numerose immagini prelevate da Flickr sulla sola base delle tags, le etichette descrittive, fotografie che evidentemente non erano state scattate per ricostruire un modello 3D. Il risultato, ricorda oggi Szelinski era “nuovo e sorprendente”, anche ai suoi occhi di profondo conoscitore della materia.

«Avevamo in mano un nuovo modo per visualizzare gli album fotografici, un proiettore interattivo», afferma Szelinski. «Ritengo che Photo Tourism fosse per molti versi sorprendente, per gli esperti come per i dilettanti. Gli esperti erano affascinati dalla notevole immediatezza dell’esperienza». I dilettanti, invece, spesso non riuscivano neppure credere a certe possibilità.

Eppure come applicazione Photo Tourism aveva un futuro incerto. Se sul piano tecnico era una vera rivelazione, essendo stato sviluppato su Linux e reso compatibile con Windows, il suo status era ancora quello di un prototipo e la strada verso un prodotto definitivo era ancora molto incerta.

Nella primavera del 2006, mentre Snavely presentava Photo Tourism a un seminario interno di Microsoft, Blaise Agüeras y Arcas, allora neoassunto, entrò nell’aula per dare un’occhiata. Il suo arrivo in Microsoft era recente e coincideva con l’acquisizione della sua azienda, Seadragon, che sviluppava una applicazione descritta dall’imprenditore come «un gestore di memoria virtuale tridimensionale per immagini digitali». Il fascino suggestivo di Seadragon derivava dalla capacità di caricare, visualizzare e manipolare enormi volumi di informazioni grafiche e il risultato tecnico più eclatante era la capacità di funzionare in rete (il fatto che oggi Photosynth sia in grado di lavorare sulle immagini prelevate da Flickr nasce proprio dall’eredità di Photo Tourism).

Quello stesso giorno Agüeras y Arcas e Snavely cominciarono a parlarsi. Nell’estate 2006 erano già in grado di fare le prime dimostrazioni. Il prodotto ibrido, parte Photo Tourism, parte Seadragon, che ne è emerso è in grado di aggregare grandi ammassi di immagini simili (fotografie o disegni, indifferentemente) tracciando con esse modelli di visualizzazione tridimensionale degli oggetti raffigurati. Il software riesce a conferire una certa tridimensionalità anche là dove le fotografie bidimensionali si uniscono l’una con l’altra. Ogni singola immagine viene riprodotta con fedeltà perfetta, ma nella zona di transizione Photosynth riempie i salti di prospettiva che impedirebbero a un semplice mosaico di singole foto di essere percepito come un unico elemento visto sotto una prospettiva più ampia. E, oltre a costituire una valida analogia di una scena reale, il modello “sintetico” può essere esplorato a piacimento. Secondo Snavely, «la modalità principale consiste nel selezionare l’immagine desiderata cliccando sui comandi. Il software provvede a trasportare l’utente nel punto di vista corrispondente alla nuova posizione. La metafora è quella dell’occhio che si sposta». Il software ricostruisce il soggetto fotografato come un luogo che può essere apprezzato da ciascuna angolatura che sia stata documentata.

Le prodezze tecnologiche di Photosynth sono come il trucco di un prestigiatore che estrae il coniglio dal cappello: il programma ricrea un’interfaccia tridimensionale dal supporto fotografico, tipicamente bidimensionale. «In pratica significa creare qualcosa dal nulla», afferma Alexei A. Efros, docente all’Università Carnegie Mellon e specializzato in visione computerizzata. Il segreto, rivela Efros, sta nella quantità di fotografie disponibili. «Man mano che si accumulano le informazioni visuali, la quantità si trasforma in qualità, aggiunge. «E quando i volumi di informazioni sono di una certa entità, si cominciano a vedere cose prima invisibili». Sfruttando le nuove potenzialità nel campo del riconoscimento degli schemi, dell’indicizzazione e dei metadati, le macchine sono in grado di estrapolare la tridimensionalità. Prima di quanto immaginiamo, sostiene Efros, «la visione sarà il primo organo di senso delle macchine, proprio come nell’uomo».

Gli scenari futuri

L’attività che Microsoft svolge intorno a Photosynth è un buon esempio della strategia dell’azienda nell’ambito dei Live Labs, insieme ai cento ricercatori della struttura. Considerati in parte una comunità di ricerca avanzata basata su Web, in parte come terreno di reclutamento per teste fini che non troverebbero facile collocazione presso la casa madre, i Live Labs mirano tra l’altro a «sfidare la comune percezione del modo di lavorare di Microsoft», afferma Gary Flake, il tecnologo quarantenne che ha fondato il laboratorio e lo dirige ancora oggi. Lo scopo più immediato è portare sul mercato le tecnologie del Web.

Il discorso di Flake sulla cultura dei Live Labs diventa appassionato quando il ricercatore elogia il tentativo di gettare un ponte tra la scienza e l’ingegnerizzazione dei prodotti. Flake, che ha lavorato per molte organizzazioni di ricerca, compreso il NEC Research Institute e gli Yahoo Research Labs, che pure ha contribuito a fondare e di cui è stato direttore, lo definisce come la vera sfida per l’intera industria tecnologica. Nei Live Labs «abbiamo volutamente creato un portafoglio “cautelativo” di idee», spiega. «Abbiamo un mix molto interessante», che abbraccia «una quarantina di progetti diversi».

Flake non vuole discutere troppo in dettaglio molti dei suoi progetti, ma trabocca di entusiasmo per la sua missione che punta a «portare nuovo DNA» sul terreno del talento grezzo. «Vogliamo sviluppare e far progredire il livello dei prodotti e servizi per Internet», afferma, ma parla con grande passione anche dei ricercatori che operano nei Live Labs, definendoli «stele di Rosetta in veste umana», capaci di fungere da interpreti in un mondo di R&S in cui spesso ingegneri e scienziati parlano di fatto linguaggi diversi.

Il progetto Photosynth, secondo Flake, esemplifica il grado di successo che egli vuole ottenere con il suo sforzo mirato a colmare lo spazio che normalmente separa la scienza dall’ingegnerizzazione. «Rappresenta un fondamentale progresso dello stato dell’arte».

Al momento Photosynth può essere visto solo come dimostrazione on line, ma il team di Agüera y Arcas spera di poter rilasciare una versione definitiva entro la fine dell’anno. Resta però da vedere come il programma possa essere utilizzato da chi lo acquisterà. Una nuvola di punti si può ottenere già a partire da due o tre immagini, per cui è verosimile che gli utilitizzatori vorranno costruire modelli sintetici relativamente semplici con le fotografie delle loro escursioni (ovviamente chi acquista un programma come Photosynth vorrà effettuare un maggior numero di scatti di una data scena, in modo da poter ottenere un “synth” più realistico successivamente). Ma è anche possibile che qualcuno decida di attingere al serbatoio delle immagini di Internet – probabilmente dopo averle salvate su un computer locale – per creare modelli personali dei siti più fotografati.

Malgrado tutto, però, Photosynth appare come una bella promessa non ancora confermata dai fatti. Ci sono ancora troppi dubbi di natura tecnica sulla sua semplicità di impiego e su quali saranno le sue specifiche capacità. Inoltre, nonostante le origini di Photosynth risalgano al sistema operativo Linux e a Photo Tourism, il programma resterà compatibile solo con Windows per un tempo presumibilmente lungo.

A dispetto del suo immediato appeal, anche le possibili applicazioni non sono molto chiare. Il mondo non ha certo bisogno di un altro sistema di visualizzazione delle immagini, per quanto rivoluzionario sia. Sembra persino improbabile che la clientela sia disposta a pagare per avere Photosynth nella sua forma attuale. Nel frattempo, le sorti del programma dipenderanno dalla sua capacità di costruirsi un’ampia comunità di utenti. Sarà in grado di trovare nuove applicazioni grazie all’iniziativa di coloro che lo adotteranno, come è riuscito a fare Google Earth? E quel che più conta: riuscirà Microsoft a rilasciare un prodotto finale abbastanza aperto da consentire, in futuro, impieghi per i quali non era stato pensato?

Flake riferisce che gli sviluppatori di Photosynth hanno già immiginato decine di potenziali applicazioni, due delle quali appaiono più immediatamente praticabili.

Una riguarda una più completa integrazione con Microsoft Virtual Earth, in cui Photosynth porti un ulteriore livello di ingrandimento alle immagini satellitari. Con Virtual Earth utilizzato per gestire le informazioni topografiche e le fotografie aeree, l’abbinamento delle due applicazioni potrebbe contribuire alla creazione di un nuovo, più leggero metaverso, tanto per usare la stessa terminologia di Agüera y Arcas alla conferenza TED.

Sottolineando la facilità con cui Photosynth riesce a rappresentare edifici e piazze degli ambienti urbani, Seitz prevede anche «una grande crescita in quella direzione». «Vorremmo catturare intere città, dichiara. In effetti Agüera y Arcas e Stephen Lawer, il responsabile del prodotto Microsoft Virtual Earth, hanno annunciato lo scorso anno a Las Vegas, in occasione dell’annuale conferenza mondiale degli hacker Defcon, di avere in progetto una partnership. Una volta che saranno stati rimossi alcuni piccoli ostacoli tecnologici, conferma Seitz, «nulla ci impedirà di modellare gli agglomerati urbani».

Con il graduale accumularsi di informazioni digitali create e salvate dagli utenti, Photosynth potrebbe addirittura consentire di animare gli album di famiglia. «Immaginatevi di poter vedere i figli mentre crescono nel vostro ambiente famigliare», suggerisce Flake, «partendo da una semplice raccolta di fotografie».

Mentre tutte queste idee decantano, gli sviluppatori di Photosynth non restano con le mani in mano. L’estate scorsa i ricercatori hanno effettuato una demo on line in collaborazione con la NASA e oggi stanno lavorando con il Jet Propulsion Lab per realizzare il modello di una piccola porzione della superficie del pianeta Marte.

C’è da chiedersi fino a che punto Microsoft vorrà sostenere finanziariamente questo genere di imprese da geek del computer. Ma a questo dubbio Agüera y Arcas e Flake contrappongono la questione retorica di come in generale sia possibile misurare il valore economico di un risultato tecnico di questo tipo. Per il momento Photosynth sembra non avere un chiaro destino commerciale, ma al tempo stesso sembra non avere concorrenti.

Related Posts
Total
0
Share