Ecco la massima espressione dell'intelligenza artificiale generativa per creare video e audio di OpenAI.
OpenAI ha annunciato finalmente la seconda generazione di Sora. Sora 2 è disponibile gratuitamente (Sora 2 Pro per gli utenti con piano Pro è ancora più performante) e con il nuovo generatore video arriva anche un'app nuova di zecca per iOS chiamata semplicemente Sora. I dettagli.
OpenAI annuncia Sora 2
Il modello Sora originale di febbraio 2024 è stato per molti versi il momento GPT-1 per i video: la prima volta che la generazione di video ha iniziato a sembrare funzionante e comportamenti semplici come la permanenza dell'oggetto sono emersi dall'aumento della potenza di calcolo per il pre-addestramento. Da allora, il team di Sora si è concentrato sull'addestramento di modelli con capacità di simulazione del mondo più avanzate. OpenAI crede che tali sistemi saranno fondamentali per addestrare modelli di AI che comprendano profondamente il mondo fisico. Una tappa importante per questo è la padronanza del pre-addestramento e del post-addestramento su dati video su larga scala, che sono ancora agli inizi rispetto al linguaggio.
Con Sora 2, OpenAI sta passando direttamente a quello che potrebbe essere il momento GPT-3.5 per i video. Sora 2 può fare cose eccezionalmente difficili - e in alcuni casi addirittura impossibili - per i modelli di generazione video precedenti: routine di ginnastica olimpica, salti mortali all'indietro su una tavola da paddle che modellano accuratamente le dinamiche di galleggiamento e rigidità, e tripli axel mentre un gatto si tiene aggrappato per la vita.
I modelli video precedenti sono eccessivamente ottimisti: modificano gli oggetti e deformano la realtà per eseguire con successo un prompt di testo. Ad esempio, se un giocatore di basket sbaglia un tiro, la palla potrebbe teletrasportarsi spontaneamente nel canestro. In Sora 2, se un giocatore di basket sbaglia un tiro, questo rimbalzerà sul tabellone. È interessante notare che gli "errori" che il modello commette sembrano spesso essere errori dell'agente interno che Sora 2 sta implicitamente modellando; sebbene ancora imperfetto, è più propenso a obbedire alle leggi della fisica rispetto ai sistemi precedenti. Questa è una capacità estremamente importante per qualsiasi simulatore del mondo utile: deve essere in grado di modellare il fallimento, non solo il successo. Il modello rappresenta anche un grande passo avanti nella controllabilità, in grado di seguire istruzioni complesse che si estendono su più inquadrature, mantenendo accuratamente lo stato del mondo. Eccelle negli stili realistici, cinematografici e anime.
Come sistema di generazione video-audio per scopi generici, è in grado di creare sofisticati paesaggi sonori di sottofondo, parlato ed effetti sonori con un alto grado di realismo.
È anche possibile iniettare direttamente elementi del mondo reale in Sora 2. Ad esempio, osservando un video di uno dei membri del team, il modello può inserirli in qualsiasi ambiente generato da Sora con una rappresentazione accurata dell'aspetto e della voce. Questa capacità è molto generale e funziona per qualsiasi essere umano, animale o oggetto.
Il modello è lungi dall'essere perfetto e commette molti errori, ma è una convalida del fatto che un ulteriore potenziamento delle reti neurali su dati video ci avvicinerà alla simulazione della realtà.
Implementazione di Sora 2
Sulla strada verso la simulazione per scopi generici e i sistemi di AI in grado di funzionare nel mondo fisico, OpenAI pensa che le persone possano divertirsi molto con i modelli che sta costruendo lungo il percorso. Il team di Sora ha iniziato a giocare con questa funzione di "caricamento di sé stessi" diversi mesi fa, e si sono tutti divertiti moltissimo. Sembrava una naturale evoluzione della comunicazione: dai messaggi di testo alle emoji, alle note vocali, fino a questo.
OpenAI annuncia l'app Sora per iOS
Quindi oggi, OpenAI sta lanciando una nuova app social per iOS, "Sora", basata su Sora 2. All'interno dell'app, è possibile creare, remixare le generazioni degli altri, scoprire nuovi video in un feed Sora personalizzabile e inserire sé stessi o i propri amici tramite i cameo. Con i cameo, è possibile inserirsi direttamente in qualsiasi scena di Sora con una notevole fedeltà dopo una breve registrazione video e audio una tantum nell'app per verificare la propria identità e catturare la propria immagine.
La scorsa settimana, l'app è stata lanciata internamente a tutto il personale di OpenAI. I colleghi hanno già riferito di aver stretto nuove amicizie in azienda grazie a questa funzione. OpenAI ritiene che un'app social costruita attorno a questa funzione di "cameo" sia il modo migliore per sperimentare la magia di Sora 2.
Lancio responsabile
Le preoccupazioni relative al doomscrolling, alla dipendenza, all'isolamento e ai feed ottimizzati tramite RL sono una priorità: ecco cosa OpenAI sta facendo al riguardo.
OpenAI sta fornendo agli utenti gli strumenti e le opzioni per avere il controllo su ciò che vedono nel feed. Utilizzando i modelli linguistici di grandi dimensioni esistenti di OpenAI, è stata sviluppata una nuova classe di algoritmi di raccomandazione che possono essere istruiti attraverso il linguaggio naturale. Sono stati anche integrati meccanismi per sondare periodicamente il benessere degli utenti e offrire proattivamente la possibilità di regolare il loro feed.
Per impostazione predefinita, vengono mostrati contenuti fortemente orientati verso le persone che si seguono o con cui si interagisce, e viene data priorità ai video che il modello ritiene più probabili da utilizzare come ispirazione per le proprie creazioni. Non si sta ottimizzando per il tempo trascorso nel feed, e l'app è stata esplicitamente progettata per massimizzare la creazione, non il consumo.
Questa app è fatta per essere usata con i propri amici. Il feedback schiacciante dei tester è che i cameo sono ciò che la rende diversa e divertente da usare: bisogna provarla per capirlo davvero, ma è un modo nuovo e unico di comunicare con le persone. L'app viene distribuita su invito per assicurarsi di entrare con i propri amici. In un momento in cui tutte le principali piattaforme si stanno allontanando dal social graph, OpenAI pensa che i cameo rafforzeranno la comunità.
La protezione del benessere degli adolescenti è importante. OpenAI sta inserendo limiti predefiniti su quante generazioni gli adolescenti possono vedere al giorno nel feed, e sta anche implementando autorizzazioni più severe sui cameo per questo gruppo. Oltre agli stack di sicurezza automatizzati, si stanno potenziando i team di moderatori umani per esaminare rapidamente i casi di bullismo, qualora si verificassero. L'app viene lanciata con i controlli parentali di Sora tramite ChatGPT, in modo che i genitori possano sovrascrivere i limiti di scorrimento infinito, disattivare la personalizzazione dell'algoritmo e gestire le impostazioni dei messaggi diretti.
Con i cameo, si ha il controllo della propria immagine end-to-end con Sora. Solo l'utente decide chi può usare il proprio cameo, e può revocare l'accesso o rimuovere qualsiasi video che lo includa in qualsiasi momento. I video contenenti i propri cameo, incluse le bozze create da altre persone, sono visualizzabili dall'utente in qualsiasi momento.
Ci sono molti argomenti di sicurezza che OpenAI ha affrontato con questa app: il consenso sull'uso dell'immagine, la provenienza, la prevenzione della generazione di contenuti dannosi e molto altro.
Molti problemi con altre app derivano dal modello di monetizzazione che incentiva decisioni in contrasto con il benessere dell'utente. In modo trasparente, l'unico piano attuale di OpenAI è di dare eventualmente agli utenti la possibilità di pagare un importo per generare un video extra se c'è troppa domanda rispetto alla potenza di calcolo disponibile. Man mano che l'app si evolverà, OpenAI comunicherà apertamente qualsiasi cambiamento nel suo approccio, continuando a mantenere il benessere dell'utente come obiettivo principale.
Siamo all'inizio di questo viaggio, ma con tutti i potenti modi per creare e remixare contenuti con Sora 2, OpenAI vede questo come l'inizio di un'era completamente nuova per le esperienze co-creative. Si è ottimisti sul fatto che questa sarà una piattaforma più sana per l'intrattenimento e la creatività rispetto a quanto disponibile attualmente. Speriamo vi divertiate.
Disponibilità di Sora 2 e prossimi passi
L'app Sora per iOS è disponibile per il download. È possibile registrarsi nell'app per ricevere una notifica push quando l'accesso sarà aperto per il proprio account. OpenAI sta iniziando il lancio iniziale negli Stati Uniti e in Canada oggi con l'intenzione di espandersi rapidamente ad altri paesi. Dopo aver ricevuto un invito, sarà anche possibile accedere a Sora 2 tramite sora.com. Sora 2 sarà inizialmente disponibile gratuitamente, con limiti generosi per iniziare, in modo che le persone possano esplorarne liberamente le capacità, sebbene questi siano ancora soggetti a vincoli di calcolo. Gli utenti di ChatGPT Pro potranno anche utilizzare il modello sperimentale di qualità superiore Sora 2 Pro su sora.com (e presto anche nell'app Sora). OpenAI prevede inoltre di rilasciare Sora 2 nell'API. Sora 1 Turbo rimarrà disponibile e tutto ciò che è stato creato continuerà a risiedere nella libreria su sora.com.
I modelli video stanno diventando molto buoni, molto rapidamente. I simulatori del mondo per scopi generici e gli agenti robotici rimodelleranno fondamentalmente la società e accelereranno l'arco del progresso umano. Sora 2 rappresenta un progresso significativo verso tale obiettivo. In linea con la missione di OpenAI, è importante che l'umanità tragga beneficio da questi modelli man mano che vengono sviluppati. OpenAI pensa che Sora porterà molta gioia, creatività e connessione nel mondo.