/
/
Patologie delle corde vocali, l’IA multimodale migliora l’accuratezza diagnostica

Patologie delle corde vocali, l’IA multimodale migliora l’accuratezza diagnostica

Un approccio di deep learning multimodale ha mostrato una maggiore accuratezza nel riconoscimento delle patologie delle corde vocali rispetto agli approcci unimodali.

In questo articolo

L’intelligenza artificiale multimodale rappresenta un’evoluzione avanzata dei modelli di machine learning, in grado di integrare informazioni provenienti da diverse fonti, tra cui testo, immagini, audio, video e altri tipi di input sensoriale. L’integrazione di queste fonti consente di compensare il rumore, la variabilità e l’eventuale incompletezza dei dati di una singola modalità, migliorando così la robustezza del modello e l’accuratezza delle predizioni.

In ambito otorinolaringoiatrico, numerosi studi hanno sviluppato modelli di intelligenza artificiale per l’analisi di immagini e video laringoscopici ed endoscopici, offrendo un’opportunità promettente per ampliare l’accesso alla diagnosi. Sono stati esplorati anche algoritmi basati sull’analisi della voce, sebbene con prestazioni generalmente inferiori. Tuttavia, pochi studi hanno finora valutato l’integrazione di più modalità o confrontato direttamente modelli multimodali con approcci unimodali.

Lo studio proof-of-conceptstatunitense

In questo contesto, un gruppo di ricerca statunitense guidato da Sruthi Surapaneni, della Michigan State University College of Human Medicine, ha condotto uno studio proof-of-concept con l’obiettivo di sviluppare e validare un classificatore multimodale basato su deep learning per la diagnosi delle patologie delle corde vocali, al fine di migliorare la classificazione di tre condizioni: corde vocali sane, paralisi unilaterale e lesioni delle corde vocali (benigne e maligne) rispetto ai modelli basati su una singola modalità. 

Il sistema multimodale è stato addestrato integrando video stroboscopici da cui sono stati estratti frame di immagini e campioni vocali e dati clinico-demografici provenienti dalle cartelle cliniche elettroniche.

Lo studio, pubblicato su Laryngoscope, ha incluso due coorti di pazienti identificati retrospettivamente: la prima, proveniente dalla Weill Cornell Medicine, comprendeva 137 pazienti (41 con corde vocali sane, 54 con paralisi unilaterale delle corde vocali e 42 con lesioni delle corde vocali). Per ciascun paziente sono stati analizzati video di videolaringostroboscopia eseguiti mediante laringoscopia flessibile prima del trattamento, per un totale di 136 registrazioni, con una durata media di circa 5 secondi. Il secondo dataset retrospettivo, proveniente dal Columbia University Irving Medical Center, comprendeva 40 registrazioni di videolaringostroboscopia ottenute con la stessa tecnica e includeva 15 casi di corde vocali sane, 12 di paralisi unilaterale e 13 di lesioni delle corde vocali.

Modelli multimodali e unimodali a confronto

Il modello multimodale sviluppato sulla base di questi dati ha mostrato prestazioni superiori rispetto ai modelli unimodali, con un incremento dell’accuratezza del 15,38% rispetto al modello basato esclusivamente su video (76,92% vs 61,54%) e dell’11,54% rispetto al modello basato solo su audio (76,92% vs 65,38%). Questo risultato evidenzia il valore dell’integrazione di fonti di dati eterogenee: ciascuna modalità è infatti in grado di catturare aspetti complementari della patologia che, quando integrate tra loro, consentono di ottenere diagnosi più accurate.

L’analisi delle singole modalità ha mostrato che il modello audio identificava correttamente l’83% dei casi di corde vocali sane, ma presentava difficoltà nel distinguere tra paralisi e lesioni. Al contrario, il modello video riconosceva correttamente il 100% dei casi di paralisi unilaterale delle corde vocali, ma risultava meno accurato nella distinzione tra corde vocali sane e lesioni.

L’approccio multimodale ha quindi sfruttato in modo efficace i punti di forza di entrambe le modalità, raggiungendo un’accuratezza del 67% nei casi di corde vocali sane, del 100% nei casi di paralisi e del 70% nei casi di lesioni delle corde vocali. Quando valutato su un dataset esterno, il modello multimodale ha mostrato una riduzione dell’accuratezza al 45%, indicando una limitata generalizzabilità; tuttavia, ha comunque superato le prestazioni dei modelli basati solo su video (42%) e solo su audio (31%).

Cosa ci dicono i risultati

I risultati evidenziano il potenziale dei modelli di deep learning multimodali, che mostrano prestazioni superiori in termini di accuratezza diagnostica rispetto agli approcci unimodali.

L’integrazione di immagini e campioni vocali estratti da video stroboscopici, insieme ai dati clinico-demografici, rappresenta quindi uno strumento promettente per migliorare la classificazione e la diagnosi delle patologie delle corde vocali.

Il superamento di alcuni limiti dello studio, come la variabilità dei dataset esterni e la ridotta dimensione del campione, sarà fondamentale per consolidare in futuro l’applicabilità clinica di questi modelli e per sfruttare appieno i vantaggi dell’approccio multimodale.

Oppure effettua il login