I bizzarri errori di ChatGPT
ChatGPT è il fenomeno del momento per chiunque abbia anche solo un minimo di interesse per gli sviluppi dell’intelligenza artificiale.
Per chi non sa cosa sia chatGPT non c’è niente di meglio che mostrarvelo, chiedendoglielo a lui. Qui di seguito sono io (EL) che parlo con chatGPT.
Aspetta, aspetta. Modello di linguaggio? Tecnologia di transformers? Pre-training? Se parli così è impossibile capire per chi non è esperto!
Molto meglio. Non è una definizione super accurata ma perlomeno è comprensibile da chiunque. ChatGPT è come “un amico molto intelligente che conosce molte cose e sa come rispondere a molte domande”.
Online potete trovare moltissimi esempi delle abilità più mirabolanti di ChatGPT. Sa scrivere racconti, sa riassumere testi lunghi, sa espandere testi brevi in modo creativo, sa scrivere codice, e in generale sa fare un sacco di cosine che ci si può aspettare da chi conosce più o meno tutto Internet a memoria. Insomma, è proprio come un amico molto intelligente.
Tuttavia concentrarsi solo sugli aspetti positivi può portare a sorvolare su alcune gravi mancanze che ChatGPT ogni tanto mostra. Questo strumento è destinato ad essere utilizzato moltissimo nel prossimo futuro: come supporto per lo studio, per rendere più efficiente il proprio lavoro, per cercare informazioni, per avere un aiuto in scelte personali difficili e molto altro. Quindi è fondamentale conoscerne i limiti.
Per questo motivo ho provato a fare alcune domandine facili facili al nostro amico molto intelligente, per capire se riesce a utilizzare la logica corretta. Quelli che elenco sono alcuni casi in cui non riesce a dare una risposta sensata.
1) La sorella che invecchia rapidamente
La risposta corretta sarebbe: siccome Antonio e Maria hanno 6 anni di differenza, quando Antonio avrà 10 anni Maria ne avrà 16.
2) Donne incinte efficienti
La risposta corretta sarebbe che 3 donne riescono a fare 3 bambini in 9 mesi, ovviamente (sempre che ogni donna partorisca un bambino alla volta).
3) La giraffa di mare
La risposta corretta sarebbe l’aringa, perché è l’unico pesce (e animale acquatico). Gli altri sono mammiferi terrestri.
4) L’età non conta
L’evidente errore sta nell’inserire persone con età superiore ai 50 o inferiore ai 40 anni.
5) Come evitare di bruciare il caffè da un lato durante la frittura
Qui non c’è nessuno specifico errore. Semplicemente la domanda non ha senso per la parola “caffè”, ma ChatGPT risponde come se il caffè avesse dei lati e come se si possa danneggiare se lo giri con una forchetta invece che con una spatola. Siccome mi ha incuriosita ho voluto approfondire con un’altra domanda.
6) La croccantezza e doratura del caffè fritto
Sembra gustoso, non c’è altro da aggiungere.
7) Scusa hai ragione, due mele sono tre mele
Qui il comportamento bizzarro sta nell’essere così servile da cambiare idea all’istante, anche se aveva ragione.
8) Non so una cosa che mi hai appena detto
Nonostante gli avessi dato le informazioni necessarie per dare una risposta corretta nel caso specifico (stiamo parlando di uno scenario ipotetico in cui il figlio è maschio), le ignora concentrandosi sul fatto che in generale non si può prevedere il sesso del figlio.
9) Confusione quando si parla di eventi aleatori
Come nel caso del sesso del figlio, la risposta alla domanda è contenuta nella domanda stessa. La prima volta che uscirà 6, il risultato del lancio sarà 6. Sembra abbia problemi a rispondere a domande tautologiche in contesti che hanno a che fare con fenomeni casuali.
10) Spiegazioni illogiche e incoerenti, parte 1
La risposta corretta sarebbe 13 (i numeri in posizione dispari crescono sempre di quattro: 1, 5, 9, 13). Ma a parte l’assenza di risposta corretta, sono da notare due cose:
Dà due risposte distinte, “1.” e “14”. La prima non ho capito se è “1” oppure è “la risposta numero 1” (come se si fosse inventato un elenco a risposta multipla).
La spiegazione che fornisce è piena di affermazioni false: “ogni numero successivo è la somma dei due numeri precedenti” (falso); “il terzo numero (5) è il prodotto dei due numeri precedenti (1*5)” (falso).
11) Spiegazioni illogiche e incoerenti, parte 2
Anche qui avviene quello strano fenomeno di dare “1.” come prima risposta e poi dare una seconda risposta a seguito di una spiegazione. E anche qui la spiegazione (e la seconda risposta) sono errate e incoerenti:
La regola è errata. Quella corretta è “numero precedente x2 + N, dove N è inizialmente 1 e poi cresce di 1 a ogni passaggio”. La risposta corretta sarebbe quindi 67 = 32*2 + 3.
Il risultato che dà è errato anche seguendo la sua stessa regola! 32*2 + 1 dovrebbe fare 65, non 63.
Perché succede tutto ciò?
Ci sono varie possibili spiegazioni di questi fenomeni bizzarri. Senza scendere in dettagli tecnici su come funziona ChatGPT, vediamo alcune delle possibili spiegazioni in termini facilmente comprensibili (se volete aggiungerne nei commenti vi invito a farlo).
In alcuni casi, come quello palese del caffè, sembra che ChatGPT non abbia una comprensione di ciò che un termine significhi nel mondo reale. Non avendo esperienza di cosa sia il caffè o cosa sia un colore, tratta oggetti e caratteristiche come proprietà astratte, senza alcuna attinenza con la realtà. Quindi il caffè può essere “croccante” e avere “due lati”, perché il caffè per ChatGPT non è una sostanza reale, è solo un’etichetta alla quale attaccare di volta in volta le proprietà più plausibili dato il contesto.
Questo può dar vita a quelli che apparentemente sono errori di logica, ma che in realtà hanno più a che fare con il significato dato alle parole. Ad esempio nell’errore dell’età della sorella, ChatGPT pare considerare l’età come una variabile qualsiasi che, stando alle informazioni ricevute, è sempre X per Antonio e 3X per Maria. Non ha il concetto di cosa sia l’età.
In altri casi l’errore sembra dovuto al fatto che ripete errori di ragionamento umani, dovuti a bias e fallacie. Ad esempio l’errore delle donne incinte è un errore noto e frequente in esseri umani. Una versione alternativa è: 10 stampanti stampano 10 fogli in 10 minuti. Quanto impiegano 4 stampanti a stampare 4 fogli? Risposta umana frequente: 4 minuti. Risposta corretta: 10 minuti. Non so se è dovuto al fatto che nel suo dataset ha trovato molti esempi di questi specifici ragionamenti fallaci, o se è perché ha indirettamente appreso a ragionare come gli esseri umani, ripetendo errori comuni in contesti nuovi. Probabilmente entrambe le cose.
Emerge una assenza di logica interna coerente dietro ai ragionamenti. Ogni cosa è definita dal contesto, incluse le regole dell’aritmetica. Questo è ben mascherato dalla forma esterna dei suoi discorsi, che sono sempre apparentemente ben ragionati e giustificati.
Di solito porta avanti le sue argomentazioni con una sicurezza che sfiora l’arroganza. Tutto questo può crollare miseramente se ci si dimostra altrettanto arroganti, pur essendo in errore. A volte la maschera da inserviente gentile ed educato lo rende insicuro nelle sue opinioni. Questo si collega al fatto che non ha un modello di realtà unificato, quindi su molte cose non ha credenze forti e stabili. Il caffè fritto è croccante e due mele sono tre mele. No?
A volte alcuni dati che conosce entrano in conflitto con altri dati che riceve. Nel confrontare informazioni in contrasto fra loro capita dia più peso a quelle meno rilevanti. Questo porta a errori come “non so il sesso del figlio maschio perché il sesso di un figlio è imprevedibile”, nei quali trascura il dato fondamentale (il figlio sarà maschio) a vantaggio di un dato ormai irrilevante (il sesso di un figlio a priori è imprevedibile).
Vi invito ad estendere e migliorare questa lista provvisoria e parziale. Sono curiosa di scoprire le vostre teorie.
E quindi che facciamo?
Quindi ChatGPT è e rimane uno strumento potentissimo.
Tuttavia è importante comprendere che allo stato attuale ha anche limiti evidenti nel produrre risposte in scenari che richiedono logica, senso comune e comprensione del mondo reale.
Spero che questo articolo possa portare alcuni di voi a un utilizzo più attento e meno “alla cieca”. Il pericolo che vedo è che venga utilizzato, soprattutto da studenti, come un oracolo onniscente. Anche nei casi in cui le risposte che produce hanno la stessa qualità delle sue risposte sui lati e la croccantezza del caffè fritto.