Un festival musicale per AI ha visto la collaborazione positiva tra scrittura umana e intelligenza artificiale, ma rimangono da fare importanti passi in avanti.
di Will Douglas Heaven
Benvenuto a casa, benvenuto a casa oh oh oh il mondo è bello, il mondo. Non è un testo granchè accattivante. Ma dopo aver ascoltato Beautiful the World una mezza dozzina di volte, il ritornello si aggira per a mia testa e il mio piede batte il tempo. Non male per una melodia generata da un’intelligenza artificiale addestrata su un set di dati di canzoni dell’Eurovisione e versi di koala e kookaburra.
A maggio, Beautiful the World ha vinto l’ AI Song Contest, una competizione sonora gestita dall’emittente olandese VPRO, in cui 13 team da tutto il mondo hanno cercato di produrre una canzone pop di successo (si veda link) con l’aiuto dell’intelligenza artificiale. Il progetto vincitore è stato creato da Uncanny Valley, un team di musicisti e scienziati informatici australiani che hanno utilizzato scrittura umana e contributi dell’intelligenza artificiale. “La loro musica era entusiasmante”, afferma Anna Huang, ricercatrice di intelligenza artificiale presso Google Brain, che era uno dei giudici del concorso. “La collaborazione ha avuto successo”.
Molti credono che l’utilità a breve termine dell’AI arriverà tramite la collaborazione, con team di umani e macchine che lavorano insieme, ognuno sfruttando i propri punti di forza. “L’intelligenza artificiale a volte può essere un assistente, semplicemente uno strumento”, afferma Carrie Cai, una collega di Huang di Google Brain che studia l’interazione uomo-computer. “Ma potrebbe anche assumere il ruolo di compositore. Un po’ come scrivere musica con Mozart nella stanza accanto”.
Ma affinché ciò accada, gli strumenti di intelligenza artificiale dovranno essere facili da usare e controllare. E l’AI Song Contest si è rivelato un utile test su come riuscirci. Huang, Cai e i loro colleghi hanno esaminato le varie strategie che i diversi team hanno utilizzato per collaborare con le AI. In molti casi, gli umani hanno lottato per convincere le macchine a fare quello che volevano e hanno finito per inventare soluzioni alternative. I ricercatori hanno identificato diversi modi in cui gli strumenti di intelligenza artificiale potrebbero essere migliorati per rendere più facile la collaborazione.
Un problema comune era che i modelli di intelligenza artificiale di grandi dimensioni rendono complessa l’interazione. Possono produrre una prima bozza promettente per una canzone, ma non c’è modo di fornirgli un feedback per il passaggio successivo. Non si riesce a modificare singole parti o istruire l’AI per migliorare la melodia.
Alla fine la maggior parte dei team ha utilizzato modelli limitati che hanno prodotto parti specifiche di una canzone, come gli accordi o le melodie, e poi le hanno riorganizzate. Uncanney Valley, per esempio, ha utilizzato un algoritmo per abbinare testi e melodie che erano stati prodotti da diverse AI.
Un team, Dadabots x Portrait XO, non voleva ripetere il ritornello due volte, ma non riusciva a trovare un modo per indurre l’AI a cambiare la seconda versione. Alla fine il team ha utilizzato sette modelli e ha messo insieme diversi risultati per ottenere la variazione desiderata. È stato come assemblare un puzzle, afferma Huang: “Alcuni team pensavano che il puzzle fosse irragionevolmente difficile, ma altri lo trovavano esilarante, perché avevano di fronte tante alternative”.
Uncanny Valley ha utilizzato le AI per ottenere gli ingredienti, comprese le melodie prodotte da un modello addestrato su versi di koala, kookaburra e diavolo della Tasmania, e poi li ha integrati.”È come avere un eccentrico collaboratore umano che non è bravissimo a scrivere canzoni, ma molto prolifico”, dice Sandra Uitdenbogerd, una scienziata informatica della RMIT University di Melbourne e componente del gruppo di Uncanny Valley che comunque sottolinea: “Più che di una collaborazione parlerei di compromesso. Onestamente, penso che gli umani avrebbero potuto farlo altrettanto bene”.
I modelli di intelligenza artificiale generativa producono output a livello di singole note o pixel nel caso della generazione di immagini e hanno difficoltà serie a percepire il quadro più ampio. Gli umani, d’altra parte, tipicamente compongono in termini di strofa e ritornello e di struttura melodica. “C’è una discrepanza tra ciò che produce l’AI e il modo in cui pensiamo”, afferma Cai, che vorrebbe cambiare il modo in cui i modelli di intelligenza artificiale sono progettati per migliorare il controllo da parte degli utenti.
Non saranno solo i musicisti e gli artisti a trarne vantaggio. Rendere l’AI più facile da usare, dando alle persone più modi per interagire con i loro prodotti, permetterà uno sviluppo positivo di settori nei quali sono già di largo utilizzo, come le forze dell’ordine e l’assistenza sanitaria.
Immagine: Uncanny ValleyUNSW
(rp)