L’essere umano fatica a comprendere l’intelligenza, eppure cerca di costruire da zero un qualcosa che assomigli al cervello umano. Di fatto, l’intelligenza artificiale (IA) è il primo tassello: ad oggi un sistema di apprendimento che offre strumenti di analisi dati (testuali, visivi, audio, numerici, etc.) in grado di amplificare le potenzialità di ogni campo dello scibile umano, anche di quelli più lontani dal mondo dell’informatica. L’IA costituisce una possibilità di crescita ed efficienza, che come tale comporta anche una serie di rischi, ma non per questo va esorcizzata, bensì compresa.
L'intelligenza artificiale rappresenta una delle frontiere più avanzate della tecnologia moderna: è l’insieme di discipline aventi come obiettivo quello di creare macchine capaci di eseguire compiti che, qualora svolti da esseri umani, richiederebbero intelligenza. Al centro di tale sviluppo si collocano due discipline fondamentali: il machine learning (ML) e il deep learning (DL), che costituiscono i pilastri su cui si basa gran parte delle applicazioni AI contemporanee.
Il machine learning è un sottocampo dell'AI che si focalizza sullo sviluppo di algoritmi e modelli che permettono ai sistemi di apprendere dai dati. A differenza dei programmi tradizionali che seguono istruzioni esplicite, i sistemi di machine learning identificano schemi e relazioni all'interno dei dati al fine di compiere previsioni o assumere decisioni. Un approccio particolarmente utile in scenari complessi dove la programmazione esplicita risulterebbe impraticabile o inefficace. Le tecniche di machine learning si dividono in diverse categorie principali, tra cui l'apprendimento supervisionato, non supervisionato ed il reinforcement learning. Nell'apprendimento supervisionato, il modello viene addestrato su un dataset etichettato, mentre nell'apprendimento non supervisionato, il modello cerca di identificare strutture intrinseche nei dati non etichettati. Il reinforcement learning, invece, coinvolge l'addestramento del modello attraverso un sistema di ricompense e penalità, perfezionando le sue decisioni nel tempo: alle risposte ritenute coerenti viene associato un peso positivo, mentre a quelle non coerenti o errate un peso negativo.
Il deep learning, una sotto-disciplina del machine learning, ha guadagnato notevole attenzione e successo grazie all'intrinseca capacità di gestire grandi quantità di dati e di apprendere rappresentazioni complesse attraverso reti neurali profonde. Queste ultime, ispirate alla struttura del cervello umano, sono composte da numerosi strati di nodi (neuroni), ciascuno dei quali elabora i dati ricevuti e li trasmette agli strati successivi. Un’architettura che permette al deep learning di eccellere in compiti quali il riconoscimento di immagini, la traduzione automatica ed il riconoscimento vocale, ovvero in tutte quelle tipologie di elaborazione caratterizzate da relazioni tra i dati intricate e multilivello. Il deep learning ha rivoluzionato molte aree, dall'elaborazione del linguaggio naturale alla visione artificiale, consentendo progressi impensabili utilizzando i metodi tradizionali di machine learning.
L'intima relazione tra machine learning, deep learning ed AI è fondamentale al fine di comprendere l'evoluzione ed il potenziale futuro dell'intelligenza artificiale: il machine learning fornisce la base metodologica e teorica per l'apprendimento automatico dai dati, mentre il deep learning espande tali capacità attraverso l'uso di reti neurali avanzate, rendendo possibile l'analisi e la comprensione di dati estremamente complessi. Insieme, le due tecnologie non solo potenziano l'AI, ma ne estendono le applicazioni a nuovi orizzonti, rendendo possibili innovazioni in settori quali medicina, finanza, robotica e molti altri.
L’intelligenza artificiale è figlia d’arte di due campi di studio distinti ed allo stesso tempo connessi: biologia ed informatica; inoltre, a scapito di equivoci, non è così giovane come si possa pensare. Già negli anni ‘40 del secolo scorso furono sviluppate le prime teorie atte alla spiegazione del funzionamento dell'intelligenza umana e dell’apprendimento come risultato di segnali trasmessi tra i neuroni nel cervello. Il punto focale era rappresentato dall’idea che i collegamenti neuronali si rafforzassero e indebolissero a seconda della ripetizione dello stimolo e della conseguenza del medesimo (processo di feedback: uno stimolo ripetuto che trovi riscontro con la percezione della realtà costituisce un feedback positivo, rafforzando il legame causa-effetto e le sinapsi coinvolte). Sulla base di questo fiume di nuove conoscenze nel 1943 Warren McCulloch e Walter Pitts pubblicarono il paper “A logical calculus of the ideas immanent in nervous activity” in cui costruirono un framework matematicamente rigoroso sul funzionamento delle comunicazioni (ciò che a livello biologico è costituito da scambi neurochimici) tra neuroni. Si mostrava perciò come un semplice sistema di neuroni teorici potesse essere in grado di eseguire delle funzioni logiche basilari. Ex post, i giornali si sono sbizzarriti affibbiando ad un apparato teorico funzioni e sogni estranei ad esso, ad esempio il New York Times in tempi recenti scrisse: “Il sistema neurale artificiale proposto dai due ricercatori avrebbe funzionato come il cervello, modificando le relazioni numeriche tra i neuroni artificiali sulla base dei tentativi e degli errori”.
Questa rappresentazione mistificata della macchina che impara come l’essere umano è sfortunatamente il prodotto di una nomenclatura fantascientifica. Il nome “Intelligenza Artificiale” in ambito accademico proviene dalla mente di John McCarthy che nel 1956 introdusse questa espressione durante un convegno sulla computazione dedicata ai sistemi intelligenti. Lo stesso che aveva l’obiettivo di, in due mesi e con dieci ricercatori, creare una macchina in grado di simulare ogni aspetto dell'apprendimento e dell'intelligenza umana. Negli anni successivi, queste aspettative verranno abbondantemente ridimensionate e la ricerca si focalizzerà sull’apprendimento invece che sulla creazione di una vera e propria intelligenza nel senso di macchina pensante allo stesso modo dell’essere umano. Nel 1958 Frank Rosenblatt costruì il primo Perceptron, un macchinario di 5 tonnellate che aveva lo scopo di ricreare il processo di apprendimento (rafforzamento o indebolimento dei collegamenti) di otto neuroni. Con un primo processo di apprendimento supervisionato riuscì a generare risultati in grado di distinguere correttamente un quadrato da un triangolo attraverso il rafforzamento di pesi delle risposte corrette a determinati stimoli e l’indebolimento di quelli determinanti di risposte errate. Così facendo il sistema si modifica in funzione dell’esecuzione di uno specifico compito in autonomia, fornendo risposte corrette in presenza di una coerente classe di stimoli in ingresso. Da qui in poi la teoria è solida, ma la potenza di calcolo non abbastanza e ci vorrà del tempo per raggiungere risultati efficienti ed espandere questa disciplina al campo industriale, culminando infine nella rivoluzione odierna nel campo delle reti neurali trainata dalla back propagation.
Ora che l’idea di cosa sia un algoritmo di machine o deep learning è chiara, ci si può spostare al loro funzionamento: come dire se un algoritmo “funziona”? I sistemi di IA funzionano nel momento in cui riescono ad apprendere relazioni non anche complesse attraverso la conoscenza di esempi. Infatti per algoritmo “funzionante” si intende un sistema che, avendo a disposizione degli esempi con rispettiva etichetta, classifichi esempi non ancora osservati nel modo più corretto possibile, minimizzando l’errore. In questa definizione troviamo due cavilli essenziali. I dati a disposizione devono essere una mole considerevole, molto maggiore rispetto a quella che servirebbe ad un essere umano; se per un bambino bastano una o due immagini di un pavone per capire che è diverso da un cane, ad una rete neurale servono centinaia se non migliaia di immagini per aggiustare pesi e funzioni in modo da classificare correttamente questi due animali. In secondo luogo il machine learning, come le scienze in generale, si basa su assunzioni o assiomi propri del mondo della filosofia. In particolare il fondamento dell’intero sistema di esperimenti, raccolta dati e test si basa sul principio induttivista secondo cui il futuro assomiglia al passato, un concetto radicato nella filosofia più che nell’informatica. L’induttivismo di per sé, a causa di problemi di ciclicità, non può essere provato. Possiamo solo constatare che nella quotidianità questo principio funzioni e che l’apprendimento dal passato sia efficace per comprendere in parte il futuro. Da questa legge cardine deriva il Rasoio di Occam, il principio di parsimonia che porta esseri umani ed alcuni algoritmi a preferire la spiegazione più semplice tra quelle proposte ed ugualmente valide alla risoluzione dello stesso problema.
In linea di principio, la preferenza per la semplicità o parsimonia rispecchia la necessità di generalizzare i risultati ottenuti. Un algoritmo che si specializza fortemente rispetto ad un determinato gruppo di dati potrebbe avere una struttura estremamente fitta e specifica, incapace di generalizzare ad un diverso pacchetto di dati, non sarebbe specializzata sul compito, come da programma, bensì sul particolare dataset. Ad esempio un sistema di visione artificiale potrebbe classificare come gatto l’immagine di esso su cui è stato addestrato, ma non una che non ha mai visto. Questo è il problema del sovra adattamento o overfitting. Un comportamento che in piccole dosi è benefico per un algoritmo in quanto consente ad esso di adattarsi al compito ed è inoltre uno dei blocchi logici alla creazione di un sistema IA generale capace di rispondere a qualsiasi quesito e generare qualsiasi risposta. Per essere efficiente ed efficace un algoritmo deve, in parte, sovra adattarsi al compito. Chat GPT, l’ultima rivoluzione popolare del mondo dell’apprendimento artificiale sembra che sappia rispondere a qualsiasi domanda con output testuali, di codice e grafici, ma in realtà non è un singolo programma, bensì un insieme integrato di reti neurali addestrate su diverse tipologie di dato e quindi adattate al singolo compito da svolgere. É un gruppo di algoritmi che si presenta all’utente finale come un sistema unico per il semplice motivo di essere il più comprensibile possibile e fruibile, ma non perché sia effettivamente un sistema unico. Il problema si pone nel momento in cui si supera una certa linea di demarcazione e si cade nell'iper specificità, a volte a causa dell’eccessivo training sugli stessi dati che il programma inizia a codificare troppo nel dettaglio perdendo il disegno d’insieme.
Per risolvere questo problema una tecnica ormai divenuta prassi è quella di addestrare il programma su sotto-insiemi del dataset di training. Durante l'addestramento, il modello viene aggiornato iterativamente utilizzando ciascun batch, piuttosto che l'intero dataset al fine di rendere difficile il sovra adattamento. Un altro metodo è quello dell’ensemblinglearning, in cui si utilizzano diversi modelli addestrati per lo stesso compito o classificazione e alla fine si aggregano i risultati, con una media o un voto di maggioranza per mitigare i possibili problemi di overfitting dei singoli modelli. Le random forest ad esempio sono insiemi di algoritmi di classificazione chiamati alberi decisionali proprio al fine di ottenere predizioni più robuste e di incrementare l'efficienza del modello.
Altro interessante nodo del mondo AI è rappresentato dall’ignoto, dall’incapacità di decifrare le motivazioni secondo cui alcune tipologie di algoritmi preferiscono determinate classi di ipotesi e dati oppure perchè agiscano in un certo modo. Il bias induttivo è difficile da comprendere e non si può dimostrare che ogni programma segua il rasoio di Occam come principio cardine di parsimonia: il problema della blackbox, di ciò che ancora la ricerca non riesce a spiegare esaustivamente in proposito ai comportamenti degli algoritmi di AI. Per scongiurare il dilemma sono state messe in atto diverse metodologie di ricerca, tra queste da notare l’uso di explainable AI nei campi disponibili come la chimica. È stata legata la struttura a grafo delle reti neurali alla forma delle molecole antibiotiche per comprenderne sia la struttura generale che le sottostrutture comuni tra molecole. Si è creato perciò un sistema graficamente comprensibile in cui ad ogni movimento dei singoli nodi della rete corrispondeva il cambio di struttura delle molecole. Anche nel campo degli algoritmi di linguaggio si utilizzano tecniche per determinare in quale regione della rete vengano rappresentati determinati concetti come la semantica o la grammatica, cosa è un verbo, ecc. Allo stesso modo per le reti atte alla visione artificiale si cerca di capire dove queste imparino la forma, il movimento o altri aspetti di video o immagini del dataset di training. Un reparto della ricerca informatica in divenire, brulicante di novità come i KAN network, particolari reti neurali che abbandonano l’utilizzo dei pesi per integrare solamente funzioni e cambiarne le caratteristiche, producendo un algoritmo interpretabile.
Mentre l’accademia ricerca soluzioni al problema dell’ignoto insito negli algoritmi di AI, il mondo del consumo fatica a fare i conti con l’inaspettato, solamente illusione dell’ignoto, il motivo per cui modelli di linguaggio come il Large Language Model (LLM) interno a Chat GPT, a portata di click, riescono a produrre testi creativi e mai visti prima, senza cadere nel ripetitivo. Sembra quasi che i programmi scrivano di proprio pugno e di conseguenza i risultati vengono mistificati ed adorati al punto di divenire pseudo-divinità a cui chiedere di tutto, anche chi sarà il prossimo presidente americano. In realtà però il gioco dell’imprevedibilità di questi Large Language Models (LLM) è pura probabilità. Questi infatti generano testo predicendo la parola successiva in base a una distribuzione di probabilità derivata dal contesto precedente. Un sistema di scelta che differenzia sostanzialmente il pensiero umano da quello di una macchina. Tuttavia, se il modello scegliesse sempre la parola con la probabilità più alta, il testo risultante sarebbe monotono e ripetitivo, poiché verrebbero generate sequenze di parole simili o identiche per un dato input. Al fine di evitare questa ripetitività, si introduce un parametro chiamato "temperatura". La temperatura controlla il grado di casualità nella scelta delle parole: una temperatura più alta rende il modello più creativo, permettendo la selezione di parole con probabilità più basse, e quindi creando frasi più varie e meno prevedibili. Se però la temperatura è troppo alta, il testo può diventare incoerente o sgrammaticato. Di fatto la magia dietro la creatività dei modelli di linguaggio ha un nome, si chiama temperatura.
L’intelligenza artificiale rappresenta una rivoluzione, avvicina l’informatica a tutti i campi dello scibile umano per costruire nuovi livelli di conoscenza prima irraggiungibili, offre un’enorme potenza e velocità di calcolo in migliaia di applicazioni teoriche e pratiche, ma non è Terminator e nemmeno una divinità. Si tratta di algoritmi, programmi informatici con alla base la stessa matematica, forse un po’ più complessa, che si studia in università, applicata all’ottimizzazione per minimizzare gli errori di questi sistemi. Sono allo stesso tempo estremamente efficienti nei compiti che svolgono ed inefficienti, sia per mole di dati che per energia da utilizzare ed hanno una serie di difetti come ogni altra tecnologia. La ricerca è indirizzata proprio in questo senso: illuminare la scatola nera che sono, in parte, le reti neurali e gli altri algoritmi di machine learning oppure costruire altri programmi che offrano una migliore spiegabilità. Questo nome fantascientifico può portare a vedere l’IA come il futuro imperatore del mondo, ma vista da vicino è un, seppur formidabile, sistema di apprendimento basato sul passato utile all’analisi di relazioni complesse.