OpenAI dice che sta sviluppando uno strumento per consentire ai creatori di controllare meglio come i loro contenuti vengono utilizzati nell'addestramento dell'IA generativa.
Lo strumento, chiamato Media Manager, permetterà ai creatori e ai proprietari dei contenuti di identificare le proprie opere a OpenAI e specificare come desiderano che tali opere vengano incluse o escluse dalla ricerca e dall'addestramento dell'IA.
L'obiettivo è avere lo strumento in funzione entro il 2025, dice OpenAI, mentre l'azienda collabora con 'creatori, proprietari di contenuti e regolatori' verso uno standard - forse attraverso il comitato direttivo del settore a cui si è recentemente unita.
'Ciò richiederà ricerche di massimo livello nel machine learning per costruire uno strumento mai visto prima del genere per aiutarci a identificare testi, immagini, audio e video protetti da copyright da diverse fonti e rispettare le preferenze dei creatori', ha scritto OpenAI in un post sul blog. 'Col tempo, prevediamo di introdurre scelte e funzionalità aggiuntive'.
Sembra che Media Manager, in qualsiasi forma assuma alla fine, sia la risposta di OpenAI alle crescenti critiche sul suo approccio allo sviluppo dell'IA, che si basa fortemente sull'analisi di dati disponibili pubblicamente sul web. Più recentemente, otto importanti giornali statunitensi, tra cui il Chicago Tribune, hanno citato in giudizio OpenAI per violazione della proprietà intellettuale relativa all'uso dell'IA generativa, accusando OpenAI di rubare articoli per addestrare modelli di IA generativa che poi commercializzava senza compensare - o accreditare - le pubblicazioni di origine.
I modelli di IA generativa, tra cui quelli di OpenAI - i tipi di modelli che possono analizzare e generare testi, immagini, video e altro ancora - sono addestrati su un numero enorme di esempi normalmente provenienti da siti pubblici e set di dati. OpenAI e altri fornitori di IA generativa sostengono che l'uso equo, il principio giuridico che consente l'uso di opere protette da copyright per creare una creazione secondaria purché sia trasformativa, protegga la loro pratica di analisi di dati pubblici e utilizzo per l'addestramento del modello. Ma non tutti sono d'accordo.
OpenAI, infatti, ha recentemente sostenuto che sarebbe impossibile creare modelli di IA utili senza materiale protetto da copyright.
Ma nello sforzo di placare i critici e difendersi da future cause legali, OpenAI ha preso provvedimenti per incontrare i creatori di contenuti a metà strada.
L'anno scorso, OpenAI ha permesso agli artisti di 'optare' e rimuovere il loro lavoro dai set di dati che l'azienda utilizza per addestrare i modelli di generazione di immagini. L'azienda consente anche ai proprietari dei siti web di indicare tramite lo standard robots.txt, che fornisce istruzioni ai bot che esaminano i siti web, se i contenuti sul loro sito possono essere analizzati per addestrare i modelli di IA. E OpenAI continua a stipulare accordi di licenza con grandi proprietari di contenuti, tra cui organizzazioni di informazione, librerie di media stock e siti di Q&A come Stack Overflow.
Tuttavia, alcuni creatori di contenuti ritengono che OpenAI non abbia fatto abbastanza.
Gli artisti hanno descritto il flusso di lavoro di opt-out di OpenAI per le immagini, che richiede l'invio di una copia individuale di ciascuna immagine da rimuovere insieme a una descrizione, come oneroso. OpenAI, secondo quanto riferito, paga relativamente poco per ottenere la licenza dei contenuti. E, come OpenAI stesso riconosce nel post di martedì sul blog, le attuali soluzioni dell'azienda non affrontano gli scenari in cui le opere dei creatori vengono citate, remixate o ripubblicate su piattaforme che essi non controllano.
Oltre ad OpenAI, diversi terzi stanno cercando di costruire strumenti di provenienza universale e di opt-out per l'IA generativa.
La startup Spawning AI, i cui partner includono Stability AI e Hugging Face, offre un'app che identifica e traccia gli indirizzi IP dei bot per bloccare i tentativi di analisi, oltre a un database in cui gli artisti possono registrare le proprie opere per impedire l'addestramento da parte dei fornitori che scelgono di rispettare le richieste. Steg.AI e Imatag aiutano i creatori a stabilire la proprietà delle loro immagini applicando filigrane impercettibili all'occhio umano. E Nightshade, un progetto dell'Università di Chicago, 'avvelena' i dati delle immagini rendendoli inutili o disruptivi per l'addestramento dei modelli di IA.