VASA-1 è la nuova AI di Microsoft che genera video con audio da una singola foto

apr 18, 2024

Livello di realismo decisamente elevato per il nuovo framework AI di Microsoft Research.

VASA-1 è la nuova AI di Microsoft che genera video con audio da una singola foto

Microsoft Research ha pubblicato i risultati raggiunti dal suo framework VASA, messo punto per generare deepfake. C'è ancora molto da migliorare, ma il modello VASA-1 riesce a produrre video estremamente realistici partendo da una singola foto e da una clip audio

I video prodotti dalla AI Microsoft VASA-1 sincronizzano perfettamente con audio e contenuto scelti per l'abbinamento i movimenti di testa, occhi, labbra ed altri elementi facciali del protagonista, dando una sensazione di autenticità difficilmente ottenibile con altre tecnologie simili.

I video di intelligenza artificiale della durata massima di 60 secondi sembrano realistici anche se si utilizza come immagine di partenza un volto disegnato o addirittura la riproduzione di un'opera d'arte. Nei diversi esempi pubblicati da Microsoft Research c'è anche la Gioconda di Leonardo che si esibisce in un discutibile rap.

Introduciamo VASA, un framework per generare volti parlanti realistici di personaggi virtuali con abilità visive affettive (VAS) accattivanti, data una singola immagine statica e una clip audio vocale. Il nostro modello di punta, VASA-1, è in grado non solo di produrre movimenti delle labbra perfettamente sincronizzati con l'audio, ma anche di catturare un ampio spettro di sfumature facciali e movimenti naturali della testa che contribuiscono alla percezione di autenticità e vivacità. Le innovazioni principali includono una dinamica facciale olistica e un modello di generazione del movimento della testa che funziona in uno spazio latente del viso e lo sviluppo di uno spazio latente del viso espressivo e districato utilizzando video. Attraverso esperimenti approfonditi, inclusa la valutazione su una serie di nuovi parametri, dimostriamo che il nostro metodo supera in modo significativo i metodi precedenti in varie dimensioni in modo completo. Il nostro metodo non solo offre un'elevata qualità video con dinamiche realistiche del viso e della testa, ma supporta anche la generazione online di video 512x512 fino a 40 FPS con una latenza iniziale trascurabile. Apre la strada a interazioni in tempo reale con avatar realistici che emulano comportamenti conversazionali umani.

Potete guardare i numerosi video di esempio generati da VASA-1 e pubblicati a scopo informativo e dimostrativo da Microsoft Research qui.

Articolo di HTNovo
Creative Commons License

Modulo di contatto

Archivio