In medicina qualunque tipologia professionale è potenzialmente coinvolta nell’utilizzo della Intelligenza Artificiale (IA), dall’ambito della prevenzione all’assistenza, dalla ricerca alla terapia. L’approccio algoritmico può supportare soprattutto quelli che E. Topol definisce medici dei pattern1, cioè i professionisti che basano il loro lavoro sull’interpretazione di immagini digitali, radiologiche, retiniche, istologiche, oculistiche, dermatologiche, endoscopiche o provenienti dai vari dispositivi di monitoraggio. In questo ambito sono particolarmente efficaci una particolare tipologia di IA, in grado di elaborare, con grande velocità e in autonomia, enormi dati di immagini digitali e consentire il riconoscimento di schemi ricorrenti divergenti dai normali, ad esempio, alterazioni di densità, asimmetrie, irregolarità, ecc., non percettibili con i sistemi diagnostici tradizionali e che gli stessi esperti umani spesso non riescono ad evidenziare, talvolta neppure ad ipotizzare a priori. Sicuramente l’implementazione dell’IA ha il potenziale, ancora non completamente espresso, di realizzare una diagnostica più rapida ed efficace2 e di estendere l’accesso a servizi che tradizionalmente richiedono competenze specialistiche. Spesso viene preconizzato, sugli organi di stampa, che specialisti come i dermatologi saranno presto sostituiti dagli algoritmi. In realtà la superiorità dei sistemi di IA nella diagnostica non è stata ancora dimostrata con sicurezza.

L’ambito dermatologico

L’accuratezza degli algoritmi di IA per la diagnostica dei tumori cutanei (epiteliomi, basaliomi e melanomi) è stata dimostrata in molti studi di confronto con i dermatologi e talvolta l’IA ha dimostrato maggiore accuratezza3. In realtà la validazione nella pratica clinica non è ancora dimostrata. I risultati di una competizione internazionale tra algoritmi e dermatologi, organizzata dall’International Skin Imaging Collaboration, ridimensionano le aspettative e richiamano l’importanza della validazione degli algoritmi in setting clinici e non solo sperimentali4. Gli algoritmi sono stati valutati su due dataset di immagini, riguardanti otto malattie cutanee (nevi, melanomi, cheratosi benigne, dermatofibromi, basaliomi, epiteliomi, lesioni vascolari e cheratosi attinica). Una ulteriore categoria riguardava immagini diagnostiche non incluse nel dataset di training. Sono state considerate, diversamente dai comuni studi sperimentali, anche immagini che meglio riflettono la pratica clinica, cioè caratterizzate dalla presenza di “artefatti” come croste o ulcerazioni sopra la lesione, peli o capelli, segni di penna, pigmentazione. Il miglior algoritmo ha ottenuto in media un’accuratezza dell’82% sul dataset “ideale” e del 60% su quello “reale” con una differenza del 22%.

L’accuratezza scende ancora se si considerano le immagini che raffigurano un tipo di lesione non contenuta nelle immagini di allenamento, in massima parte lesioni infiammatorie benigne e cicatrici. Tra i primi 25 algoritmi testati, la categoria non presente nelle immagini di addestramento è stata classificata correttamente solo nell’11% dei casi. In quasi la metà dei casi le immagini sono state assegnate alla categoria delle neoplasie, in gran parte basaliomi (32,4%) ma anche melanomi (7,8%) ed epiteliomi spino cellulari (6,9%).

Nella realtà clinica tali predizioni di falsa positività porterebbero ad un aumento di biopsie non necessarie con relativo carico di preoccupazioni e ansietà per I pazienti e le loro famiglie. Da notare che nell’individuazione della categoria non inclusa nei dati di training, gli algoritmi hanno fallito rispetto agli umani, con una sensibilità del 6% contro il 26%. Gli autori dell’articolo scrivono che “questi risultati evidenziano i problemi di sicurezza legati all'impiego di algoritmi automatizzati in ambito clinico e la necessità di progettare metodi migliori per identificare immagini al di fuori dell'area di competenza di un algoritmo, al fine di evitare biopsie non necessarie o melanomi mancati, che si sarebbero verificati se fossero stati impiegati gli algoritmi testati in questo lavoro”.

Riflessioni conclusive

Una delle limitazioni che pregiudicano in parte, a oggi, l’impiego di sistemi di AI in medicina e, in particolare, lo sviluppo di strumenti diagnostici sono gli errori di selezione nella scelta dei campioni su cui tali sistemi vengono istruiti e che rendono l’algoritmo non applicabile alla pratica quotidiana. Un grande volume di dati non corrisponde automaticamente a una migliore qualità delle inferenze e delle applicazioni che da queste derivano5. Il valore dei dati non è infatti nella loro ampiezza ma nella validità del percorso che ha portato alla loro utilizzazione, base della stima della validità di qualsiasi ricerca, al fine di non giungere a inferenze causali sbagliate che potrebbero determinare una scarsa generalizzabilità dei risultati e potenziali gravi errori diagnostici oltre che sottrazione di risorse nei confronti di interventi di dimostrata efficacia.

Note

1 Topol E., Deep Medicine: how Artificial Intelligence Can Make Healthcare Human Again, 2019.
2 Adamson A, Welch HG., Machine learning and the cancer-diagnosis problem-no gold standard. N Engl J Med 2019; 381: 2285-2287.
3 Esteva A et al., Dermatologist-level classification of skin cancer with deep neural networks. Nature 2017; 542: 115-118.
4 Combalia M et al., Validation of artificial intelligence prediction models for skin cancer diagnosis using dermoscopy images: the 2019 International Skin Imaging Collaboration Grand Challenge. Lancet Digit Health 2022; 4: e330–39.
5 Collecchia G, De Gobbi R., Intelligenza artificiale e medicina digitale. Una guida critica. Il Pensiero Scientifico Editore, Roma, 2020.