nel quale M+ indica la presenza della malattia, M- l’assenza della malattia, T+ un risultato positivo del test e T- un risultato negativo del test. In questo modo possiamo introdurre due delle tre grandezze in ingresso nel teorema: la sensibilità [del test di laboratorio], la specificità [del test di laboratorio]. La terza, la prevalenza [della malattia], è rappresentata semplicemente dal numero di malati nella popolazione (malati della specifica malattia nel momento in cui si utilizza il test). Vi presento poi una formulazione del teorema di Bayes che è particolarmente utile nella diagnostica di laboratorio. Mediante questa possiamo calcolare la grandezza in uscita dal teorema di Bayes: il valore predittivo di un test (di laboratorio). Se la domanda che ci poniamo è “quale è la probabilità che il paziente sia malato, avendo un test positivo?” possiamo calcolare il valore predittivo di un test positivo come
mentre se la domanda che ci poniamo è “quale è la probabilità che il paziente sia sano, avendo un test negativo?” possiamo calcolare il valore predittivo di un test negativo come
Lo schema induzione/deduzione che abbiamo già visto si applica ovviamente anche a questa situazione.
L’esempio riportato, che si riferisce ad un ottimo test diagnostico (sensibilità e specificità entrambe pari al 95%), è paradigmatico. Lo scarso valore aggiunto, in termini di informazione, che i marcatori tumorali forniscono alla diagnosi, rappresenta il razionale per cui se ne sconsiglia l’uso come test di screening in una popolazione non selezionata. Il teorema di Bayes rappresenta l'unico strumento che consente di fornire una misura quantitativa, e quindi oggettiva, espressa in termini di informazione, del valore aggiunto fornito da un test diagnostico. Dal punto di vista epistemologico risultano evidenti nel teorema di Bayes:→ la capacità di formalizzare il meccanismo con cui si ribaltare la logica, da l’effetto|data la causa a la causa|dato l’effetto, passando dalla deduzione all’induzione (che risulta per definizione solo probabile);→ la capacità di formalizzare il meccanismo con cui l’informazione fornita dall’esperienza (lo specifico risultato del test di laboratorio) si somma all’informazione a priori, aumentando la nostra conoscenza;→ la capacità di misurare l’informazione che un test diagnostico fonisce alla diagnosi medica [a]. Dal punto di vista pratico risulta evidente dal teorema di Bayes che:→ in condizioni di bassa prevalenza diminuisce il valore predittivo del test positivo;→ in condizioni di bassa specificità del test diminuisce il valore predittivo del test positivo;→ in condizioni di bassa specificità e di bassa prevalenza aumenta il valore predittivo del test negativo, quindi un test diventa utile soprattutto per escludere la malattia. Questi argomenti sono ulteriormente trattati nelle prossime parti. In particolare per quanto riguarda la capacità del teorema di Bayes di formalizzare il meccanismo con cui l’informazione fornita dall’esperienza (lo specifico risultato del test di laboratorio) si somma all’informazione a priori, aumentando la nostra conoscenza, vedremo come, in alternativa all’interpretazione frequentista qui illustrata, nella quale la probabilità a priori è rappresentata dalla prevalenza della malattia, sia possibile adottare un approccio “soggettivista”, forse per alcuni aspetti più vicino al modo di ragionare del clinico. Inoltre verranno approfondite ulteriormente le conseguenze della bassa specificità di un test di laboratorio e della bassa prevalenza della malattia. Per le definizioni di base rimando anche alle Statistics Notes di Altman nella pagina iniziale del teorema di Bayes. Ho riassunto gli argomenti trattati in questa parte in una presentazione, dal titolo teorema di Bayes e informazione diagnostica. Informazione diagnostica e curve ROC ROC è l'acronimo di Receiver Operating Characteristic (caratteristiche operative del ricevitore) e ha un’origine che vale la pena di ricordare. Perchè il ricevitore in questione è il radar. Durante la seconda guerra mondiale il problema era, nell'ambito del rumore di fondo presente nei segnali radar, riconoscere il segnale causato dalla presenza di oggetti nemici sui campi di battaglia (tipicamente nei cieli, ma anche in mare). Si tratta di un classico problema di rapporto segnale/rumore [b] che è stato affrontato dagli ingegneri nell'ambito della teoria della rilevazione del segnale. Vediamo un primo esempio numerico, rappresentato dalla seguente serie di dati: 3, 4, 6, 2, 6, 5, 4, 5, 3, 3, 6, 12, 4, 5, 6, 6, 7, 4, 5, 4, 4, 4, 3, 5, 11, 3, 3, 5, 2, 5, 4, 3, 2 Supponiamo di avere un filtro digitale (in realtà negli anni '40 del secolo scorso si avevano a disposizione dati analogici e filtri analogici, ma concettualmente la situazione è identica), un filtro che possa essere variato in continuo, ponendo la prima volta la soglia a 12, e considerando "rumore" i valori inferiori a 12 e "segnale" i valori uguali o superiori a 12, ponendo la seconda volta la soglia a 11, e considerando "rumore" i valori inferiori a 11 e "segnale" i valori uguali o superiori a 11, e così via. Dopo avere filtrato il segnale utilizzando tutte le possibili soglie (gli interi compresi tra 12 e 2) otteniamo la seguente serie di dati (il rumore viene posto convenzionalmente uguale a “_”): _, _, _, _, _, _, _, _, _, _, _, 12, _, _, _, _, _, _, _, _, _, _, _, _, _, _, _, _, _, _, _, _, __, _, _, _, _, _, _, _, _, _, _, 12, _, _, _, _, _, _, _, _, _, _, _, _, 11, _, _, _, _, _, _, _, __, _, _, _, _, _, _, _, _, _, _, 12, _, _, _, _, _, _, _, _, _, _, _, _, 11, _, _, _, _, _, _, _, __, _, _, _, _, _, _, _, _, _, _, 12, _, _, _, _, _, _, _, _, _, _, _, _, 11, _, _, _, _, _, _, _, __, _, _, _, _, _, _, _, _, _, _, 12, _, _, _, _, _, _, _, _, _, _, _, _, 11, _, _, _, _, _, _, _, __, _, _, _, _, _, _, _, _, _, _, 12, _, _, _, _, 7, _, _, _, _, _, _, _, 11, _, _, _, _, _, _, _, __, _, 6, _, 6, _, _, _, _, _, 6, 12, _, _, 6, 6, 7, _, _, _, _, _, _, _, 11, _, _, _, _, _, _, _, __, _, 6, _, 6, 5, _, 5, _, _, 6, 12, _, 5, 6, 6, 7, _, 5, _, _, _, _, 5, 11, _, _, 5, _, 5, _, _, __, 4, 6, _, 6, 5, 4, 5, _, _, 6, 12, 4, 5, 6, 6, 7, 4, 5, 4, 4, 4, _, 5, 11, _, _, 5, _, 5, 4, _, _3, 4, 6, _, 6, 5, 4, 5, 3, 3, 6, 12, 4, 5, 6, 6, 7, 4, 5, 4, 4, 4, 3, 5, 11, 3, 3, 5, _, 5, 4, 3, _3, 4, 6, 2, 6, 5, 4, 5, 3, 3, 6, 12, 4, 5, 6, 6, 7, 4, 5, 4, 4, 4, 3, 5, 11, 3, 3, 5, 2, 5, 4, 3, 2 Supponendo che i segnali di intensità 11 e 12 provengano dagli oggetti che volevamo rilevare (quindi, nell'esempio aeronautico, da due aerei), abbiamo individuato ciò che ci interessava in mezzo al rumore di fondo del radar (valori da 7 in giù). In questo esempio, come avete notato, mancano completamente i valori 8, 9 e 10. Il “rapporto segnale/rumore” (11 o 12 di segnale, contro 7 o meno di rumore) è elevato: e questo rende “evidente” la soglia tra rumore e segnale (il legame che intercorre tra valore soglia prescelto, che qui potrebbe essere 8, 9, 10 o 11, e sensibilità e specificità, è discusso nella parte su Teorema di Bayes e strategie diagnostiche). Ma la realtà è sempre fastidiosamente ambigua, e nella pratica si ha a che fare con distribuzioni dei valori che assomigliano di più a quella riportata in questo secondo esempio: 3, 4, 6, 2, 6, 9, 5, 4,10, 8, 10, 8, 5, 9, 6, 12, 11, 4, 7, 6, 8, 9, 3, 3, 5, 9, 12, 10, 4, 6, 7, 8, 6, 5, 4 Dopo avere filtrato il segnale utilizzando tutte le possibili soglie (interi compresi tra 12 e 2) otteniamo ora la seguente serie di dati: _, _, _, _, _, _, _, _, _, _, _, _, _, _, _, 12, _, _, _, _, _, _, _, _, _, _, 12, _, _, _, _, _, _, _, __, _, _, _, _, _, _, _, _, _, _, _, _, _, _, 12, 11, _, _, _, _, _, _, _, _, _, 12, _, _, _, _, _, _, _, __, _, _, _, _, _, _, _, 10, _, 10, _, _, _, _, 12, 11, _, _, _, _, _, _, _, _, _, 12, 10, _, _, _, _, _, _, __, _, _, _, _, 9, _, _, 10, _, 10, _, _, 9, _, 12, 11, _, _, _, _, 9, _, _, _, 9, 12, 10, _, _, _, _, _, _, __, _, _, _, _, 9, _, _, 10, 8, 10, 8, _, 9, _, 12, 11, _, _, _, 8, 9, _, _, _, 9, 12, 10, _, _, _, 8, _, _, __, _, _, _, _, 9, _, _, 10, 8, 10, 8, _, 9, _, 12, 11, _, 7, _, 8, 9, _, _, _, 9, 12, 10, _, _, 7, 8, _, _, __, _, 6, _, 6, 9, _, _, 10, 8, 10, 8, _, 9, 6, 12, 11, _, 7, 6, 8, 9, _, _, _, 9, 12, 10, _, 6, 7, 8, 6, _, __, _, 6, _, 6, 9, 5, _, 10, 8, 10, 8, 5, 9, 6, 12, 11, _, 7, 6, 8, 9, _, _, 5, 9, 12, 10, _, 6, 7, 8, 6, 5, __, 4, 6, _, 6, 9, 5, 4, 10, 8, 10, 8, 5, 9, 6, 12, 11, 4, 7, 6, 8, 9, _, _, 5, 9, 12, 10, 4, 6, 7, 8, 6, 5, 43, 4, 6, _, 6, 9, 5, 4, 10, 8, 10, 8, 5, 9, 6, 12, 11, 4, 7, 6, 8, 9, 3, 3, 5, 9, 12, 10, 4, 6, 7, 8, 6, 5, 43, 4, 6, 2, 6, 9, 5, 4, 10, 8, 10, 8, 5, 9, 6, 12, 11, 4, 7, 6, 8, 9, 3, 3, 5, 9, 12, 10, 4, 6, 7, 8, 6, 5, 4 Il problema è che questa volta i valori variano da 2 a 12 senza soluzioni di continuo: e la soglia tra segnale e rumore non è più “evidente” come sembrava esserlo nel primo caso. Ci troviamo di fronte a una della infinite varianti del paradosso del sorite di Zenone: quale è il granello che fa passare un mucchio di sabbia in un non-mucchio? La cui forma in questo caso è: quale è il valore che segna la transizione da un segnale a un non-segnale, ovvero quale è il valore soglia al di sotto del quale dobbiamo pensare che non si tratti più di un segnale (un aereo), ma si tratti semplicemente di rumore di fondo? Questo secondo esempio illustra una situazione in cui il rapporto segnale/rumore è ridotto, e quindi abbiamo difficoltà a distiguere l'uno dall'altro. Gli ingegneri hanno modellizzato il problema trovando una generalizzazione che consente di affrontarlo "more scientifico". E come vedete anche nella Wikipedia [1] si tratta del modello utilizzato per la diagnostica di laboratorio e la diagnosi medica in generale. Nelle quali il risultato del test nei malati è il segnale, il risultato del test nei sani è il rumore (di fondo). E la curva ROC è costruita semplicemente riportando in ascisse la sensibilità e in ordinate (1 - specificità), come si può vedere nella figura seguente che è tratta dell’esempio di analisi bayesiana dei dati che trovate nel mio programma di statistica Ministat, che può essere scaricato liberamente dall’area di download.
Nella situazione ideale, di completa separazione dei valori del rumore da quelli del segnale abbiamo una curva ROC che sale perfettamente verticale sull'asse delle ordinate quindi piega ad angolo retto in orizzontale, parallela all'asse delle ascisse:
Nella situazione opposta, di completa sovrapposizione dei valori del rumore e di quelli del segnale, nella quale segnale e rumore sono quindi indistinguibili l'uno dall'altro, abbiamo una curva ROC che è una retta che va dall'angolo inferiore sinistro all'angolo superiore destro:
Nella pratica (Zenone docet) si incontrano curve che giacciono in mezzo ai due estremi sopra riportati:
L'area sottesa alla curva fornisce una misura delle prestazioni del radar (nell'esempio aeronautico) e del test di laboratorio (nel nostro caso). Il massimo valore di sensibilità è uguale a 1, e il massimo valore di (1- specificità) è uguale a 1, e pertanto l'area totale massima sottesa dalla curva è uguale a 1. Nel caso del radar l'area sottesa dalla curva rappresenta la probabilità che un aereo fornisca un segnale (radar) superiore a quello del rumore (di fondo). Nel caso del test diagnostico questa area rappresenta la probabilità che una persona con la malattia, presa a caso, abbia un risultato superiore a quello di una persona senza la malattia, presa a caso [2]. Se la curva ROC (del radar/del test di laboratorio) va dall'angolo inferiore sinistro all'angolo superiore destro la probabilità è uguale a 0,5: e l’informazione fornita dal radar/test di laboratorio è uguale a quella che si può ricavare dal lancio di una moneta! L’unico limite delle curve ROC deriva dal fatto che sono costruite a partire dalla sensibilità e dalla specificità, e non prendono in considerazione la probabilità a priori (prevalenza della malattia nel caso di un test diagnostico). Le curve ROC forniscono quindi una soluzione parziale, e per questo motivo non possono sostituire l'approccio bayesiano analitico (completo) che trovate nelle pagine di questo sito. Per contro le curve ROC forniscono un facile e immediato strumento per il confronto delle prestazioni di un radar/test di laboratorio nei confronti di un altro. Un radar le cui caratteristiche operative sono descritte da una curva che giace completamente al di sopra delle curva di un altro radar ha prestazioni migliori. Analogamente un test di laboratorio descritto da una curva che giace completamente al di sopra delle curva di un altro test ha prestazioni migliori [3]. In entrambi i casi l'area sottesa dalla curva è una misura dell'informazione che il radar/test di laboratorio è in grado di fornire: tanto maggiore è l’area, tanto maggiore è l’informazione fornita (e tanto migliori sono il radar e il test di laboratorio). Due sono i risultati notevoli. Il primo è rappresentato dal fatto che la stessa soluzione è stata trovata partendo da problemi così diversi quali l’interpretazione di un segnale radar e l’interpretazione del risultato di un test di laboratorio: e questa non è che l’ennesima riprova dello straordinario, quasi “magico” potere esplicativo della matematica [4], [5]. Il secondo è rappresentato dal fatto che è possibile misurare l’informazione fornita da un test diagnostico sintetizzandola in un unico valore: cosa che rende possibile confrontare tra di loro le accuratezze diagnostiche di test differenti per la stessa malattia [3] in modo oggettivo. Se ci pensate, non si tratta di risultati da poco. ******************************** 


|
|
|
|
|
|
|
|
Ultimo aggiornamento: 20 febbraio 2023

Programma di statistica Ministat (versione per Windows)

L’articolo da non perdere...

Questo sito è stato archiviato ed è reso disponibile esclusivamente come memoria storica: pertanto è escluso ogni suo possibile utilizzo medico. Le parti del sito riservate al teorema di Bayes rimangono concettualmente valide, ma declino qualsiasi responsabilità per la lenta ma inevitabile obsolescenza dei restanti contenuti dovuta alla comparsa di nuove analisi di laboratorio, di progressi nelle analisi genetiche, di link interrotti, e quant’altro.
.