I sondaggi sono stati utilizzati per ottenere informazioni sulle popolazioni, sui prodotti e sull'opinione pubblica fin dall'antichità. E sebbene le metodologie possano essere cambiate nei millenni, una cosa è rimasta costante: il bisogno di persone, molte persone.
Ma cosa succede se non riesci a trovare abbastanza persone per creare un campione sufficientemente grande per generare risultati significativi? O, cosa succede se potenzialmente potresti trovare abbastanza persone, ma vincoli di bilancio limitano la quantità di persone che puoi reclutare e intervistare?
È qui che Fairgen vuole aiutare. La startup israeliana ha lanciato oggi una piattaforma che utilizza "intelligenza artificiale statistica" per generare dati sintetici che afferma essere buoni quanto quelli reali. L'azienda annuncia inoltre una nuova raccolta fondi di 5,5 milioni di dollari da Maverick Ventures Israel, The Creator Fund, Tal Ventures, Ignia e alcuni investitori angelo, portando il totale raccolto in contanti sin dall'inizio a 8 milioni di dollari.
"Dati falsi"
I dati potrebbero essere il sangue vitale dell'IA, ma sono stati anche il fulcro della ricerca di mercato da sempre. Quindi quando i due mondi si scontrano, come fanno nel mondo di Fairgen, il bisogno di dati di qualità diventa un po' più pronunciato.
Fondata a Tel Aviv, Israele, nel 2021, Fairgen era precedentemente focalizzata sul contrasto dei bias dell'IA. Ma alla fine del 2022, l'azienda ha fatto un nuovo prodotto, Fairboost, che ora sta lanciando fuori dalla versione beta.
Fairboost promette di "potenziare" un set di dati più piccolo fino a tre volte, consentendo insight più dettagliati in nicchie che altrimenti potrebbero essere troppo difficili o costose da raggiungere. Utilizzando questo, le aziende possono addestrare un modello di apprendimento automatico profondo per ciascun set di dati che caricano sulla piattaforma Fairgen, con l'AI statistica che impara i modelli attraverso i diversi segmenti del sondaggio.
Il concetto di "dati sintetici" — dati creati artificialmente anziché da eventi del mondo reale — non è nuovo. Le sue radici risalgono ai primi giorni del calcolo, quando era usato per testare software e algoritmi, e simulare processi. Ma i dati sintetici, come li comprendiamo oggi, hanno preso vita propria, in particolare con l'avvento dell'apprendimento automatico, dove è sempre più usato per addestrare i modelli. Possiamo affrontare sia i problemi di scarsità dei dati che le preoccupazioni sulla privacy dei dati utilizzando dati generati artificialmente che non contengono informazioni sensibili.
Fairgen è l'ultima startup a mettere alla prova i dati sintetici, e ha la ricerca di mercato come suo obiettivo principale. È importante notare che Fairgen non produce dati dal nulla, o getta milioni di sondaggi storici in un melting pot alimentato dall'IA — i ricercatori di mercato devono condurre un sondaggio per un piccolo campione del loro mercato di riferimento, e da quel momento, Fairgen stabilisce modelli per espandere il campione. L'azienda afferma di poter garantire almeno un raddoppio del campione originale, ma in media può ottenere un raddoppio del campione.
In questo modo, Fairgen potrebbe stabilire che una persona di una fascia di età e/o livello di reddito particolare è più incline a rispondere a una domanda in un certo modo. O, combinare qualsiasi numero di punti dati per estrapolare dal set di dati originale. Fondamentalmente si tratta di generare ciò che il co-fondatore e CEO di Fairgen, Samuel Cohen, definisce "segmenti di dati più forti e robusti, con un margine di errore inferiore".
Cohen ha un MSc in scienze statistiche dall'Università di Oxford e un dottorato in apprendimento automatico presso UCL di Londra, parte del quale ha comportato un'esperienza di nove mesi come ricercatore scientifico presso Meta.
Uno dei co-fondatori dell'azienda è il presidente Benny Schnaider, che in precedenza era nel settore del software aziendale, con quattro uscite a suo nome: Ravello ad Oracle per un importo segnalato di 500 milioni di dollari nel 2016; Qumranet a Red Hat per 107 milioni di dollari nel 2008; P-Cube a Cisco per 200 milioni di dollari nel 2004; e Pentacom a Cisco per 118 nel 2000.
E poi c'è Emmanuel Candès, professore di statistica ed ingegneria elettrica all'Università di Stanford, che funge da principale consulente scientifico di Fairgen.
Questo sostegno aziendale e matematico è un punto di forza per un'azienda che cerca di convincere il mondo che i dati falsi possono essere tanto validi quanto i dati reali, se applicati correttamente. È anche in questo modo che sono in grado di spiegare chiaramente le soglie e i limiti della loro tecnologia — quanto grandi devono essere i campioni per ottenere i miglioramenti ottimali.
Secondo Cohen, idealmente hanno bisogno di almeno 300 veri rispondenti per un sondaggio, e da ciò Fairboost può potenziare una dimensione del segmento costituente non più del 15% del sondaggio più ampio.
"Sotto il 15%, possiamo garantire un raddoppio medio di 3x dopo averlo validato con centinaia di test paralleli", ha detto Cohen. "Statisticamente, i guadagni sono meno drammatici al di sopra del 15%. I dati già presentano buoni livelli di confidenza, i nostri rispondenti sintetici possono solo potenzialmente eguagliarli o portare un rialzo marginale. Da un punto di vista aziendale, non ci sono punti dolenti oltre il 15% — i brand possono già trarre insegnamenti da questi gruppi; sono solo bloccati al livello di nicchia ".
Il fattore no-LLM
È importante notare che Fairgen non utilizza grandi modelli di lingua (LLM), e la sua piattaforma non genera risposte in "inglese semplice" alla ChatGPT. Il motivo di ciò è che un LLM utilizzerà apprendimenti da molteplici altre fonti di dati al di fuori dei parametri dello studio, aumentando le probabilità di introdurre bias non compatibili con la ricerca quantitativa.
Fairgen si basa su modelli statistici e dati tabulari, e il suo addestramento si basa esclusivamente sui dati contenuti nel set di dati caricato. Ciò consente ai ricercatori di mercato di generare nuovi e sintetici rispondenti estrapolando dai segmenti adiacenti nel sondaggio.
"Non utilizziamo alcun LLM per un motivo molto semplice, che è che se dovessimo preaddestrare su molti [altri] sondaggi, trasmetterebbe semplicemente informazioni sbagliate", ha detto Cohen. "Perché potresti avere casi in cui ha imparato qualcosa in un altro sondaggio, e noi non vogliamo questo. Si tratta di affidabilità ".
In termini di modello di business, Fairgen viene venduto come un SaaS, con le aziende che caricano i loro sondaggi in qualsiasi formato strutturato (.CSV o .SAV) sulla piattaforma basata su cloud di Fairgen. Secondo Cohen, ci vogliono fino a 20 minuti per addestrare il modello sui dati del sondaggio che vengono dati, a seconda del numero di domande. L'utente seleziona quindi un "segmento" (un sottoinsieme di rispondenti che condividono determinate caratteristiche) — ad es. "Gen Z che lavora nell'industria x" — e poi Fairgen consegna un nuovo file strutturato identicamente al file di addestramento originale, con le stesse identiche domande, solo nuove righe.
Fairgen è utilizzato da BVA e dalla società francese di sondaggi e ricerche di mercato IFOP, che hanno già integrato la tecnologia della startup nei loro servizi. IFOP, che è un po' come Gallup negli Stati Uniti, sta utilizzando Fairgen per scopi di sondaggio nelle elezioni europee, anche se Cohen pensa che potrebbe finire per essere utilizzato nelle elezioni degli Stati Uniti di quest'anno.
"IFOP è essenzialmente il nostro sigillo di approvazione, perché sono stati in giro per circa 100 anni", ha detto Cohen. "Hanno convalidato la tecnologia ed erano il nostro partner di progettazione originale. Stiamo inoltre testando o già integrandoci con alcune delle più grandi aziende di ricerca di mercato al mondo, di cui non posso parlare ancora".