L’intelligenza artificiale che non dimentica: un’analisi complessa e sfaccettata

L’intelligenza artificiale che non dimentica: un’analisi complessa e sfaccettata
Nel dicembre 2023 il New York Times ha avviato una causa legale contro OpenAI e Microsoft, accusandole di aver utilizzato oltre cento articoli protetti da copyright per addestrare modelli di intelligenza artificiale generativa. Il caso, al di là del conflitto fra proprietà intellettuale e innovazione tecnologica, a mio avviso solleva una questione più rilievante: la memoria dell’AI, o meglio, la sua intrinseca incapacità di dimenticare.

Mi spiego meglio.

La peculiarità dei Large Language Models (LLM) – che includono i modelli GPT di OpenAI –  non risiede soltanto nella capacità di produrre testi coerenti e credibili, ma anche, e forse soprattutto, in quella di conservare rappresentazioni latenti di dati sensibili o proprietari. A differenza della mente umana, che può scegliere cosa dimenticare, un LLM non possiede alcun meccanismo naturale per cancellare definitivamente i dati acquisiti. Anche quando un’informazione viene rimossa dai dataset originari, il modello conserva al suo interno tracce statisticamente significative di quella conoscenza, potenzialmente riproducibili a richiesta.

Un esempio emblematico è il caso ipotetico – sempre più realistico – di due professionisti concorrenti che, utilizzando lo stesso servizio AI, si trovino a ricevere una risposta contenente dettagli di una posizione di studio, riservata, gestita da uno dei due. Non si tratta di una fuga di dati in senso tradizionale, ma di una violazione emergente della riservatezza dovuta all’architettura dei modelli, i quali apprendono tutto ciò che ricevono come input e possono riutilizzarlo in contesti del tutto imprevedibili.

Ciò apre un interrogativo urgente per il legislatore: come garantire la confidenzialità dei dati, in un contesto in cui ogni input può diventare una “traccia latente” nella memoria di un sistema che non ha filtro etico, né capacità di discernere?

E la questione non è esclusivamente normativa, ma anche tecnica. Alcuni ricercatori stanno sperimentando meccanismi di “unlearning”, ovvero procedure computazionali mirate a fare disimparare selettivamente determinati contenuti al modello. Tuttavia, sono soluzioni ancora embrionali e presentano costi elevati, nonché scarsa affidabilità.

Allo scenario tratteggiato sì aggiunge un ulteriore nodo critico: la potenziale incompatibilità tra il funzionamento degli LLM e uno dei principi più evoluti del diritto europeo in materia di protezione dei dati personali, ossia il diritto all’oblio, sancito dal GDPR. Tale diritto consente a una persona di richiedere la cancellazione dei propri dati personali dai sistemi informativi. Ma che ne è di questo diritto quando i dati sono stati assorbiti da un modello di AI?

Gli LLM, per come sono attualmente progettati, ribadisco, non sono in grado di dimenticare. Non esiste, almeno oggi, un sistema tecnicamente affidabile per eliminare in modo selettivo e permanente un’informazione assimilata nel processo di addestramento. Anche se si rimuovono gli articoli originali, le rappresentazioni latenti (ovvero le astrazioni numeriche interne al modello) restano attive e utilizzabili nella generazione di output futuri.

La riflessione che vi sottopongo sul punto apre allora un fronte normativo inedito: è ancora sufficiente il concetto attuale di diritto all’oblio, pensato per archivi digitali tradizionali, oppure serve una sua estensione strutturale ai modelli computazionali? E, più radicalmente, detto diritto può essere riconosciuto anche a soggetti quali le persone giuridiche i cui dati sono stati utilizzati per alimentare la conoscenza dell’AI?

La mia conclusione è che, allo stato, una memoria senza tempo determina inevitabilmente un diritto in sospeso e che in difetto della possibilità concreta di dimenticare, si rischia di creare una intelligenza che viola, non intenzionalmente, ma con precisione, diritti fondamentali come la privacy, la riservatezza e l’oblio: allora è tempo di interrogarsi non solo su cosa può fare l’AI, ma anche su cosa deve poter dimenticare.

Avv. Simona Maruccio

simona@maruccio.it

🔗 Link articolo Milano Post