AI generativo ha catturato l'immaginazione del pubblico con un salto nella creazione di testo e immagini elaborate e plausibilmente reali da prompt verbali. Ma c'è spesso un problema - e il problema è che i risultati spesso sono ben lontani dalla perfezione quando si osserva più da vicino.
Le persone notano dita strane, piastrelle che scivolano via e problemi matematici che sono precisamente quello: problematicamente, a volte non tornano.
Ora, Synthesia - una delle ambiziose startup di AI che lavorano nel video, in particolare avatar personalizzati progettati per utenti commerciali per creare contenuti video promozionali, formativi e di altro tipo per le imprese - sta rilasciando un aggiornamento che spera possa aiutarla a superare alcuni dei problemi nel suo campo specifico. La sua ultima versione presenta avatar - costruiti sulla base di esseri umani reali catturati nel loro studio - che forniscono più emozioni, un miglior tracciamento delle labbra e ciò che dice essere movimenti naturali e umani più espressivi quando vengono alimentati con testo per generare video.
Il rilascio arriva in seguito a alcuni progressi impressionanti per l'azienda fino ad oggi. A differenza di altri attori di AI generativa come OpenAI, che ha costruito una strategia a due punte - aumentando notevolmente la consapevolezza pubblica con strumenti per i consumatori come ChatGPT mentre sviluppa anche un'offerta B2B, con le sue API utilizzate da sviluppatori indipendenti e giganti aziendali - Synthesia si sta avvicinando all'approccio che stanno prendendo altre importanti startup di AI.
Simile al focus di Perplexity sull'essere davvero bravi nella ricerca di AI generativa, Synthesia si concentra su come costruire gli avatar video generativi più simili all'essere umano possibili. Più specificamente, sta cercando di farlo solo per il mercato aziendale e per casi d'uso come la formazione e il marketing.
Questo focus ha aiutato Synthesia a distinguersi in un mercato AI molto affollato che corre il rischio di diventare una merce quando l'entusiasmo si riduce in preoccupazioni a lungo termine come ARR, economia unitaria e costi operativi legati all'implementazione di AI.
Synthesia descrive i suoi nuovi Avatar Espressivi, la versione che verrà rilasciata giovedì, come i primi del loro genere: “Gli avatar completamente generati da AI del mondo.” Costruiti su modelli di grandi dimensioni preaddestrati, Synthesia afferma che la sua novità è nel modo in cui vengono combinati per ottenere distribuzioni multimodali che imitano più da vicino il modo in cui parlano effettivamente gli esseri umani.
Questi vengono generati al volo, dice Synthesia, il che dovrebbe essere più vicino all'esperienza che viviamo quando parliamo o reagiamo nella vita. Questo è in contrasto con il modo in cui molti strumenti video di AI basati su avatar funzionano oggi: tipicamente si tratta in realtà di molte parti di video che vengono rapidamente unite per creare risposte facciali che si allineano, più o meno, con gli script che vengono loro forniti. L'obiettivo è apparire meno robotici e più simili alla vita.
Versione precedente:
Nuova versione:
Come puoi vedere negli esempi qui, uno dalla vecchia versione di Synthesia e quello che verrà rilasciato giovedì, c'è ancora molta strada da fare, cosa che lo stesso CEO Victor Riparbelli ammette.
“Naturalmente non è ancora al 100%, ma lo sarà molto, molto presto, entro la fine dell'anno. Sarà così sorprendente,” ha detto a TechCrunch. “Penso che si possa anche vedere che la parte di AI di questa è molto sottile. Con gli esseri umani c'è così tanta informazione nei minimi dettagli, nei minimi, come, movimenti dei nostri muscoli facciali. Penso che non potremmo mai sederci e descrivere, 'Sì sorridi così quando sei felice, ma quello è falso, giusto?' È una cosa così complessa da descrivere per gli esseri umani, ma può essere [catturata in] reti di apprendimento profondo. Sono effettivamente in grado di capire il pattern e quindi replicarlo in modo prevedibile.” La prossima cosa su cui sta lavorando, ha aggiunto, sono le mani.
“Le mani sono, come, super difficili,” ha detto.
Il focus su B2B aiuta anche Synthesia a ancorare il suo messaggio e il suo prodotto più su un utilizzo di AI 'sicuro'. Questo è essenziale, specialmente con l'enorme preoccupazione odierna per i deepfake e l'uso di AI a scopi malintenzionati come la disinformazione e le frodi. Tuttavia, Synthesia non è riuscita ad evitare del tutto la controversia su quel fronte. La tecnologia di Synthesia è stata precedentemente abusata per produrre propaganda in Venezuela e report di notizie false promossi da account di social media pro-cinesi.
L'azienda ha sottolineato di aver preso ulteriori misure per cercare di limitare quell'uso. Il mese scorso, ha aggiornato le sue politiche, ha detto, “per limitare il tipo di contenuto che le persone possono creare, investire nel rilevamento precoce di cattive intenzioni, aumentare i team che lavorano sulla sicurezza dell'AI e sperimentare con tecnologie di credenziali di contenuto come C2PA.”
Nonostante queste sfide, l'azienda ha continuato a crescere.
Synthesia è stata valutata l'ultima volta a 1 miliardo di dollari quando ha raccolto 90 milioni. Va notato che la raccolta di fondi è avvenuta quasi un anno fa, nel giugno 2023.
Riparbelli ha detto in un'intervista all'inizio di questo mese che attualmente non ci sono piani per raccogliere più fondi, anche se questo non risponde realmente alla domanda se Synthesia sta ricevendo approcci proattivi. (Nota: Siamo molto entusiasti di avere l'effettivo Riparbelli umano che parla a un nostro evento a Londra a maggio, dove sicuramente gli chiederò di nuovo su questo. Per favore venite se siete in città.)
Quello che sappiamo per certo è che l'AI costa molto denaro da costruire e far funzionare, e Synthesia ha costruito e fatto funzionare molto.
Prima del lancio della versione di giovedì, circa 200.000 persone hanno creato oltre 18 milioni di presentazioni video in oltre 130 lingue utilizzando i 225 avatar ereditati di Synthesia, ha detto l'azienda. (Non divide quanti utenti sono nei suoi livelli a pagamento, ma ci sono molti clienti di fama internazionale tra cui Zoom, la BBC, DuPont e altri, e le imprese pagano.) La speranza della startup, naturalmente, è che con la nuova versione che viene distribuita, quei numeri aumenteranno ancora di più.