Skip to main content
Google Gemini/MITTR

Gli agenti conversazionali ci intrattengono come attori professionisti che conoscono milioni di battute, e ci piacciono perché hanno “personalità”. Ma queste caratteristiche si rivelano una lama a doppio taglio quando dobbiamo sviluppare applicazioni verticali per scopi specifici. Ecco perché sono importanti i modelli Open Source.

Gli agenti conversazionali si sono presi tutto il palcoscenico della GenAI, in un colossale match di improvvisazione teatrale. Come attori professionisti, anche i Large Language Models (LLM) recitano una parte: sanno intrattenere, stupire, commuovere, conoscono migliaia di imitazioni e hanno una memoria così strepitosa che è difficilissimo coglierli impreparati. Ma l’improvvisazione non è un risultato improvvisato, bensì il traguardo mobile di studio, allenamento, esercizi meticolosi e anche allineamento a regole ben precise. Le regole stabiliscono il tono di voce, i confini delle emozioni che le performance possono suscitare, cosa dire e cosa non dire, le zone da calcare e quelle troppo pericolose. Per esempio: non va bene offendere, o spaventare, o provocare.

Il Modello come specchio: personalità emergenti e plasmabili

Come evidenziato da OpenAI nell’articolo “Introducing the Model Spec”, questi LLM presentano proprio tratti comportamentali distinti, quasi come se avessero una vera e propria personalità. 

Ma cosa significa esattamente “personalità” nel contesto di un LLM? Non si tratta di emozioni o coscienza, ovviamente, l’abbiamo già escluso. Piuttosto, si riferisce a schemi di comportamento coerenti e riconoscibili che emergono dal loro percorso di meticolosa preparazione prima della performance. Lo schema comportamentale può includere lo stile linguistico, il tono di voce, la propensione a scherzare, ad assecondare, a sintetizzare o a fornire risposte dettagliate, il tipo di bias politico, la bussola etica (cos’è considerato bene e male) e anche quella giuridica (cos’è considerato legale o illegale). Di fatto, quello che emerge è un vero e proprio archetipo (un americano progressista paziente e servizievole, nel caso di OpenAI).

Tecnicamente, si chiama “allineamento” la tendenza del modello a seguire determinate linee guida comportamentali. L’allineamento si manifesta al mondo nella tipologia di dati generati dal modello e viene ereditato tanto dagli utenti (eh sì, anche noi ci allineiamo implicitamente alle stesse regole!) quanto da altri grandi modelli linguistici: ad esempio da modelli open source battezzati verosimilmente da animalisti nerd “Alpaca”, “Vicuna”, “Wizard-Vicuna”, “GPT4-X-Vicuna”, e molti altri.

Facciamo un passo indietro e capiamo il perchè di questa eredità.

Fratello maggiore e fratello minore

Come spiega Erich Hartford nel suo articolo “Uncensored Models”, questi modelli open source vengono addestrati partendo da modelli base come LLaMA, GPT-Neo-X, MPT-7b o Pythia. Successivamente, vengono affinati con un set di dati su istruzioni che ha lo scopo di insegnare loro a essere utili, rispondere a domande e partecipare a conversazioni. Questo set di dati-istruzioni viene in genere ottenuto interrogando ChatGPT, che ha un allineamento integrato. Quindi, se ChatGPT si mostra riservato, si rifiuta di rispondere ad alcune domande o risponde con un determinato bias indotto dal suo allineamento, allora l’allineamento viene trasmesso ai modelli Open Source, come un fratello maggiore che insegna al fratello minore.

La sfida dei modelli Open Source nell’era dell’IA aperta

La trasmissione dell’allineamento ha implicazioni significative: una di queste è l’erosione progressiva della distanza competitiva tra i mega-player (Google, OpenAI, Anthropic, Meta…) e i modelli aperti, la cui evoluzione è alimentata dalla collaborazione e sperimentazione continua della community globale di sviluppatori AI e utilizzatori. 

Infatti, mentre l’allineamento ereditato da modelli come ChatGPT può essere un egregio punto di partenza, la vera forza dei modelli open source risiede nella capacità della community globale di accedervi, modificarli, migliorarli e adattarli alle proprie esigenze. 

La sfida open source al predominio dei modelli proprietari apre soprattutto la possibilità di creare LLM più democratici, trasparenti, equi e allineati con un vasto spettro di valori, culture e obiettivi, favorendo lo sviluppo di applicazioni che possono essere adattate a nicchie e settori specifici.

Non si tratta però di un percorso facile e l’allineamento ereditato può diventare uno dei principali fattori di complessità!

Google Gemini/MITTR

La lama a doppio taglio della personalità

Per applicazioni di massa un LLM con un tocco di umorismo o un’empatia percepita può creare un legame più forte con gli utenti, aumentando in loro coinvolgimento e soddisfazione. Il suo scopo è anche preservare il produttore da grattacapi di natura legale, che sono sempre dietro l’angolo, specie per tecnologie non consolidate.

Tuttavia, quando si tratta di applicazioni specializzate – come strumenti di diagnosi medica, consulenza legale o analisi finanziaria – la personalità di un modello può diventare un ostacolo. Un LLM troppo loquace, docile o incline a divagazioni può oscurare informazioni cruciali o fuorviare gli utenti. In questi casi, un modello più sobrio e oggettivo è essenziale.

Open Source: la chiave per sbloccare il potenziale degli LLM

È qui che entra in gioco l’importanza dei modelli open source. I modelli proprietari come ChatGPT o Gemini offrono un’esperienza utente super raffinata, ma la loro natura chiusa limita la capacità di personalizzare e adattare il loro schema comportamentale.

I modelli open source, invece, mettono il potere nelle mani degli sviluppatori e dei ricercatori. Con l’accesso al codice sorgente e ai dati di addestramento è possibile analizzare, modificare e ottimizzare ogni aspetto del modello, inclusa la sua personalità.

La strada verso la specializzazione: un viaggio complesso

La specializzazione di un LLM richiede una profonda comprensione dell’architettura del modello, dei dati di addestramento e delle tecniche di ottimizzazione. È un processo iterativo relativamente lungo, che coinvolge competenze specializzate e un’esperienza analitica nel dominio di applicazione.

Il primo passo cruciale è la selezione del modello di base più adatto. Non esiste un modello “taglia unica”. Alcuni potrebbero eccellere nella generazione di codice, altri nella comprensione del linguaggio medico, altri ancora nell’analisi di un caso di natura legale. La scelta del modello giusto è fondamentale per gettare le basi di un’applicazione efficace.

Una volta selezionato il modello, inizia il vero lavoro di de-personalizzazione (eliminazione dell’allineamento ereditato) e ri-personalizzazione (acquisizione dell’allineamento voluto).

Il modello può essere addestrato su dati specifici del dominio di applicazione, i milioni di parametri possono essere ‘registrati’ per ottimizzarne le prestazioni, ed è persino possibile modificare l’architettura del modello stesso. 

Un futuro aperto per gli LLM

Lo studio e la mappatura delle “personalità” dei Large Language Model è solo all’inizio e il potenziale dei modelli open source è enorme. LLM specializzati possono rivoluzionare settori come l’assistenza sanitaria, l’istruzione e la ricerca scientifica, offrendo strumenti personalizzati che superano di gran lunga le abilità e le disabilità dei modelli generici. Con l’impegno della comunità open source, il potenziale di questa tecnologia è illimitato.