Nel boom dell'IA generativa, i dati sono il nuovo petrolio. Perché non dovresti poter vendere i tuoi?
Dalle grandi aziende tecnologiche alle start-up, gli sviluppatori di IA stanno ottenendo in licenza e-book, immagini, video, audio e altro ancora da broker di dati, tutti con l'obiettivo di addestrare prodotti basati su IA più capaci (e legalmente difendibili). Shutterstock ha accordi con Meta, Google, Amazon e Apple per fornire milioni di immagini per l'addestramento del modello, mentre OpenAI ha firmato accordi con diversi organizzazioni di notizie per addestrare i suoi modelli sugli archivi delle notizie.
In molti casi, i creatori e i proprietari individuali di quei dati non hanno visto un centesimo dei soldi che cambiano mano. Una startup chiamata Vana vuole cambiare questo.
Anna Kazlauskas e Art Abal, che si sono conosciuti in una classe al MIT Media Lab focalizzata sulla costruzione di tecnologia per i mercati emergenti, hanno fondato Vana nel 2021. Prima di Vana, Kazlauskas ha studiato informatica ed economia al MIT, lasciando poi per lanciare una startup di automazione fintech, Iambiq, fuori da Y Combinator. Abal, un avvocato aziendale per formazione ed educazione, era un associato presso The Cadmus Group, una società di consulenza con sede a Boston, prima di dirigere l'approvvigionamento di impatto presso l'azienda di annotazione dei dati Appen.
Con Vana, Kazlauskas e Abal si sono prefissati di costruire una piattaforma che permette agli utenti di "raggruppare" i loro dati - inclusi chat, registrazioni vocali e foto - in set di dati che possono poi essere utilizzati per l'addestramento di modelli di IA generativa. Vogliono anche creare esperienze più personalizzate - ad esempio, messaggi vocali motivazionali quotidiani basati sui tuoi obiettivi di benessere, o un'app per la generazione di arte che comprende le tue preferenze di stile - raffinando ulteriormente i modelli pubblici su quei dati.
"L'infrastruttura di Vana crea effettivamente un tesoro di dati di proprietà degli utenti," ha detto Kazlauskas a TechCrunch. "Fà questo permettendo agli utenti di aggregare i loro dati personali in modo non fiduciario ... Vana consente agli utenti di possedere modelli di intelligenza artificiale e utilizzare i loro dati in tutte le applicazioni basate su IA."
Ecco come Vana presenta la sua piattaforma e API agli sviluppatori:
L'API di Vana connette i dati personali cross-platform di un utente ... per permetterti di personalizzare la tua applicazione. La tua app ottiene un accesso istantaneo al modello di IA personalizzato di un utente o ai dati sottostanti, semplificando l'onboarding e eliminando le preoccupazioni per i costi di calcolo. ... Pensiamo che gli utenti dovrebbero poter portare i propri dati personali da giardini recintati, come Instagram, Facebook e Google, alla tua applicazione, in modo da poter creare esperienze personalizzate sorprendenti fin dal primo contatto con la tua applicazione consumer di IA.
Creare un account con Vana è piuttosto semplice. Dopo aver confermato la tua email, puoi allegare dati a un avatar digitale (ad esempio, selfie, una descrizione di te stesso e registrazioni vocali) ed esplorare le app costruite utilizzando la piattaforma e i set di dati di Vana. La selezione dell'app varia dai chatbot in stile ChatGPT e libri interattivi a un generatore di profili di Hinge.
Adesso, perché, potresti chiederti - in quest'era di maggiore consapevolezza sulla privacy dei dati e attacchi ransomware - qualcuno avrebbe mai il volontariato per fornire le proprie informazioni personali a una startup anonima, molto meno a una sostenuta dal venture capital? (Vana ha raccolto finora 20 milioni di dollari da Paradigm, Polychain Capital e altri sostenitori.) Una qualsiasi azienda votata al profitto può davvero essere considerata attendibile per non abusare o trattare in modo improprio i dati monetizzabili che passano attraverso le sue mani?
In risposta a quella domanda, Kazlauskas ha sottolineato che lo scopo di Vana è per gli utenti "riprendere il controllo dei loro dati", osservando che gli utenti di Vana hanno l'opzione di autoportare i loro dati anziché memorizzarli sui server di Vana e controllare come i loro dati vengono condivisi con le app e gli sviluppatori. Ha anche sostenuto che, poiché Vana guadagna addebitando agli utenti un abbonamento mensile (a partire da $3.99) e imponendo una tassa di "transazione dati" sui sviluppatori (ad esempio, per il trasferimento di set di dati per l'addestramento del modello di IA), l'azienda è disincentivata ad sfruttare gli utenti e i tesori di dati personali che portano con sé.
"Vogliamo creare modelli di proprietà e governati dagli utenti che contribuiscono tutti i loro dati," ha detto Kazlauskas, "e permettere agli utenti di portare i propri dati e modelli con loro in qualsiasi applicazione."
Adesso, sebbene Vana non stia vendendo i dati degli utenti a imprese per l'addestramento dei modelli di intelligenza artificiale generativa (almeno così afferma), vuole consentire agli utenti di farlo loro stessi se scelgono - iniziando dai loro post su Reddit.
Questo mese, Vana ha lanciato quello che chiama il Reddit Data DAO (Digital Autonomous Organization), un programma che raggruppa i dati di Reddit di più utenti (inclusi il loro karma e la cronologia dei post) e permette loro di decidere insieme come quei dati combinati vengono utilizzati. Dopo essersi uniti con un account Reddit, inviando una richiesta a Reddit per i loro dati e caricando quei dati nel DAO, gli utenti acquisiscono il diritto di votare insieme agli altri membri del DAO su decisioni come concedere in licenza i dati combinati a imprese di intelligenza artificiale generativa per un profitto condiviso.
Abbiamo analizzato i numeri e r/datadao è ora il più grande DAO di dati nella storia: la Fase 1 ha accolto 141.000 utenti di Reddit con 21.000 upload completi di dati.
- r/datadao (@rdatadao) 11 aprile 2024
È una risposta di certo ai recenti movimenti di Reddit per commercializzare i dati sulla sua piattaforma.
Reddit in precedenza non ha chiuso l'accesso a post e comunità per scopi di addestramento di intelligenza artificiale generativa. Ma ha invertito la rotta alla fine dello scorso anno, prima della sua IPO. Dall'implementazione della modifica della politica, Reddit ha incassato oltre 203 milioni di dollari in tariffe di licenza da aziende, compreso Google.
"L'idea generale [con il DAO è] di liberare i dati degli utenti dai principali piattaforme che cercano di ammassarli e monetizzarli," ha detto Kazlauskas. "Questo è un primo passo e fa parte del nostro impegno ad aiutare le persone a raggruppare i propri dati in set di dati di proprietà degli utenti per addestrare modelli di IA."
Non sorprendentemente, Reddit - che non sta collaborando con Vana in alcuna capacità ufficiale - non è contento del DAO.
Reddit ha bandito il subreddit di Vana dedicato alla discussione sul DAO. E un portavoce di Reddit ha accusato Vana di "sfruttare" il suo sistema di esportazione dati, progettato per rispettare regolamenti sulla privacy dei dati come il GDPR e il California Consumer Privacy Act.
"I nostri accordi sui dati ci permettono di mettere delle misure di sicurezza su tali entità, anche sui dati non pubblici," ha detto il portavoce a TechCrunch. "Reddit non condivide dati personali non pubblici con imprese commerciali, e quando i redditor chiedono un'esportazione dei loro dati da noi, ricevono dati personali non pubblici da noi in conformità con le leggi applicabili. Le partnership dirette tra Reddit e organizzazioni verificate, con termini chiari e responsabilità, sono importanti, e queste partnership e accordi prevengono l'abuso e il cattivo uso dei dati delle persone."
Ma Reddit ha davvero motivo di preoccuparsi?
Kazlauskas immagina che il DAO possa crescere a tal punto da influire sul prezzo che Reddit può addebitare ai clienti per i suoi dati. È un traguardo lontano, assumendo che accada mai; il DAO conta poco più di 141.000 membri, una frazione minima dei 73 milioni di utenti di Reddit. E alcuni di quei membri potrebbero essere bot o account duplicati.
Poi c'è la questione di come distribuire equamente i pagamenti che il DAO potrebbe ricevere dagli acquirenti dei dati.
Attualmente, il DAO assegna "token" - criptovaluta - agli utenti in base al loro karma di Reddit. Ma il karma potrebbe non essere la migliore misura delle contribuzioni di qualità al set di dati - specialmente nelle comunità di Reddit più piccole con meno opportunità di guadagnarlo.
Kazlauskas propone l'idea che i membri del DAO potrebbero scegliere di condividere i loro dati cross-platform e demografici, rendendo il DAO potenzialmente più prezioso e incentivando le iscrizioni. Ma ciò richiederebbe anche agli utenti di affidare ancora di più a Vana il trattamento responsabile dei loro dati sensibili.
Personalmente, non vedo il DAO di Vana raggiungere la massa critica. Gli ostacoli che si frappongono sono troppi. Penso, tuttavia, che non sarà l'ultimo tentativo dalle basi per affermare il controllo sui dati che vengono sempre più usati per addestrare modelli di IA generativa.
Start-up come Spawning stanno lavorando su modi per consentire ai creatori di imporre regole che guidano come i loro dati vengono utilizzati per l'addestramento, mentre fornitori come Getty Images, Shutterstock e Adobe continuano a sperimentare con schemi di compensazione. Ma nessuno ha ancora risolto il problema. Può essere risolto? Data la natura spietata dell'industria dell'IA generativa, è certamente una sfida ardua. Ma forse qualcuno troverà un modo - o i decisori politici li forzeranno.