KLING

Ho testato un nuovo modello di IA text-to-video cinese

Il modello video generativo Kling di Kuaishou, che potrebbe essere destinato a trasformare il modo in cui vengono creati brevi clip per piattaforme come TikTok.

Forse non conoscete Kuaishou, ma questa azienda cinese ha appena raggiunto un importante traguardo: ha rilasciato il primo modello di intelligenza artificiale generativa da testo a video che può essere testato liberamente dal pubblico.

La piattaforma di video brevi, che conta oltre 600 milioni di utenti attivi, ha annunciato il nuovo strumento il 6 giugno. Si chiama Kling. Come il modello Sora di OpenAI, Kling è in grado di generare video “della durata massima di due minuti con una frequenza di fotogrammi di 30 fps e una risoluzione video fino a 1080p”, spiega l’azienda sul suo sito web.

Ma a differenza di Sora, che rimane ancora inaccessibile al pubblico quattro mesi dopo la sperimentazione di OpenAI, Kling ha presto iniziato a far provare il modello alle persone.

Io ero uno di loro. Ho ottenuto l’accesso dopo aver scaricato lo strumento di editing video di Kuaishou, essermi iscritto con un numero cinese, essere entrato in una lista d’attesa e aver compilato un modulo aggiuntivo attraverso i gruppi di feedback degli utenti di Kuaishou. Il modello non è in grado di elaborare le richieste scritte interamente in inglese, ma si può ovviare a questo inconveniente traducendo la frase che si vuole usare in cinese o includendo una o due parole cinesi.

Quindi, prima di tutto. Ecco alcuni risultati che ho generato con Kling per mostrarvi com’è. Ricordate l’impressionante video dimostrativo di Sora sulle strada di Tokyo o il gatto che sfreccia in un giardino? Ecco le riprese di Kling:

Prompt: La bella e nevosa città di Tokyo è in fermento. La telecamera si muove per le strade della città, seguendo diverse persone che si godono il bel tempo innevato e fanno acquisti nelle bancarelle vicine. Splendidi petali di sakura volano nel vento insieme ai fiocchi di neve.
ZEYI YANG/MIT TECHNOLOGY REVIEW | KLING
Prompt: Una donna elegante cammina in una strada di Tokyo piena di neon caldi e luminosi e di insegne animate della città. Indossa una giacca di pelle nera, un abito lungo rosso, stivali neri e una borsa nera. Indossa occhiali da sole e rossetto rosso. Cammina con sicurezza e disinvoltura. La strada è umida e riflettente, creando un effetto specchio delle luci colorate. Molti pedoni camminano.
ZEYI YANG/MIT TECHNOLOGY REVIEW | KLING
Prompt: Un gatto soriano bianco e arancione si vede sfrecciare felicemente in un fitto giardino, come se stesse inseguendo qualcosa. I suoi occhi sono larghi e felici mentre avanza, scrutando i rami, i fiori e le foglie mentre cammina. Il sentiero è stretto e si fa strada tra tutte le piante. La scena è ripresa da un’angolazione a livello del suolo, che segue il gatto da vicino, offrendo una prospettiva bassa e intima. L’immagine è cinematografica, con toni caldi e una texture granulosa. La luce del giorno sparsa tra le foglie e le piante in alto crea un contrasto caldo, accentuando la pelliccia arancione del gatto. L’inquadratura è chiara e nitida, con una ridotta profondità di campo.
ZEYI YANG/MIT TECHNOLOGY REVIEW | KLING

Ricordate l’immagine dell’astronauta a cavallo di Dall-E? Ho chiesto a Kling di generare anche una versione video.

Prompt: Un astronauta che cavalca un cavallo nello spazio.
ZEYI YANG/MIT TECHNOLOGY REVIEW | KLING

Ci sono alcune cose che meritano un plauso. Nessuno di questi video si discosta molto dal prompt e la fisica sembra corretta: la panoramica della telecamera, le foglie che si arruffano e il modo in cui il cavallo e l’astronauta si girano, mostrando la Terra dietro di loro. Il processo di generazione ha richiesto circa tre minuti per ciascuno di essi. Non il più veloce, ma del tutto accettabile.

Ma ci sono anche difetti evidenti. I video, pur essendo in formato 720p, sembrano sfocati e sgranati; a volte Kling ignora una richiesta importante nel prompt; e soprattutto, tutti i video generati ora sono limitati a cinque secondi, il che li rende molto meno dinamici o complessi.

Tuttavia, non è corretto confrontare questi risultati con quelli delle demo di Sora, che sono state selezionate da OpenAI per essere rilasciate al pubblico e probabilmente rappresentano risultati migliori della media. Questi video di Kling provengono dai primi tentativi che ho fatto con ogni richiesta, e raramente ho incluso parole chiave per la progettazione della richiesta come “8k, fotorealismo” per perfezionare i risultati.

Se volete vedere altri video generati da Kling, date un’occhiata a questa pratica raccolta messa insieme da una comunità open-source di AI in Cina, che include sia risultati impressionanti che fallimenti di ogni tipo.

Le capacità generali di Kling sono abbastanza buone, afferma Guizang, un artista dell’intelligenza artificiale di Pechino che ha testato il modello fin dal suo rilascio e ha compilato una serie di confronti diretti tra Sora e Kling. Lo svantaggio di Kling risiede nell’estetica dei risultati, come la composizione o la gradazione dei colori. “Ma non è un grosso problema. Può essere risolto rapidamente”, spiega Guizang, che ha voluto essere identificato solo con il suo pseudonimo online, a MIT Technology Review.

“La capacità principale di un modello sta nel modo in cui simula la fisica e gli ambienti naturali reali”, afferma Kling.

Kling funziona in modo simile a Sora: combina i modelli di diffusione tradizionalmente utilizzati nelle IA per la generazione di video con un’architettura a trasformatori, che lo aiuta a comprendere file di dati video più grandi e a generare risultati in modo più efficiente.

Ma Kling potrebbe avere un vantaggio fondamentale rispetto a Sora: Kuaishou, il più importante rivale di Douyin in Cina, dispone di un’enorme piattaforma video con centinaia di milioni di utenti che hanno caricato collettivamente una quantità incredibilmente grande di dati video che potrebbero essere utilizzati per addestrarlo. Kuaishou ha dichiarato al MIT Technology Review che “per l’addestramento dei modelli Kling utilizza dati pubblicamente disponibili provenienti da Internet a livello globale, in conformità con gli standard del settore”. Tuttavia, l’azienda non ha approfondito le specifiche dei dati di addestramento (né OpenAI ha fatto lo stesso con Sora, il che ha suscitato preoccupazioni sulla tutela della proprietà intellettuale).

Dopo aver testato il modello, ritengo che il limite maggiore all’utilità di Kling sia che genera solo video di cinque secondi.

“Più un video è lungo, più è probabile che abbia allucinazioni o che generi risultati incoerenti”, afferma Shen Yang, professore di IA e media presso la Tsinghua University di Pechino. Questa limitazione significa che la tecnologia avrà un impatto maggiore sull’industria dei video brevi che su quella cinematografica.

I video brevi e verticali (quelli progettati per essere visti sui telefoni) di solito catturano l’attenzione degli spettatori in pochi secondi. Shen afferma che le piattaforme cinesi simili a TikTok spesso valutano il successo di un video in base al numero di persone che guardano i primi tre o cinque secondi prima di scorrere via: quindi un videoclip di alta qualità generato dall’intelligenza artificiale della durata di soli cinque secondi potrebbe essere una svolta per i creatori di video brevi.

Guizang concorda sul fatto che l’intelligenza artificiale potrebbe sconvolgere la scena della creazione di contenuti per i video di breve durata. A breve termine, i creatori ne trarranno beneficio come strumento di produttività; ma a lungo termine, teme che piattaforme come Kuaishou e Douyin possano assumere il controllo della produzione dei video e generare direttamente contenuti personalizzati per gli utenti, riducendo la dipendenza delle piattaforme dai creatori star.

Forse ci vorrà ancora un po’ di tempo prima che la tecnologia raggiunga questo livello, ma il campo degli strumenti text-to-video sta diventando molto più interessante. Una settimana dopo la pubblicazione di Kling, anche una startup californiana chiamata Luma AI ha rilasciato un modello simile per l’uso pubblico. Runway, una startup famosa nella generazione di video, ha annunciato un aggiornamento significativo che renderà il suo modello molto più potente. Anche ByteDance, la più grande rivale di Kuaishou, starebbe lavorando per rilasciare presto il suo strumento di generazione video. “Entro la fine di quest’anno, avremo a disposizione molte opzioni”, afferma Guizang.

Ho chiesto a Kling di generare l’aspetto della società quando “chiunque può generare rapidamente un videoclip in base alle proprie esigenze”. Ed ecco cosa mi ha dato. Mani impressionanti, ma non hai risposto alla domanda, mi dispiace.

Prompt: Con il rilascio del modello Kling di Kuaishou, la barriera d’ingresso per la creazione di brevi video è stata abbassata, con un conseguente impatto significativo sul settore dei video brevi. Chiunque può generare rapidamente un videoclip in base alle proprie esigenze. Mostrate come sarà la società in quel momento.
ZEYI YANG/MIT TECHNOLOGY REVIEW | KLING
Related Posts
Total
0
Share