“Non esiste vento favorevole per il marinaio che non sa dove andare.”
(Lucio Anneo Seneca)
 
“Non v’è errore più comune che l’assumere che, solo perché sono stati compiuti lunghi e accurati calcoli matematici, l’applicazione dei risultati a un qualche evento di natura lo renda assolutamente certo.”
(Alfred North Whitehead)
 
 
Il termine statistica deriva da Status, e venne introdotto nel XVIII secolo per indicare quella branca della scienze politiche che si occupava della descrizione delle cose dello Stato (originariamente dati economici e demografici). Da allora gli oggetti e i metodi di indagine della statistica si sono andati sempre più estendendo, e oggi la statistica è diventata una disciplina autonoma, definibile come “…quella parte delle scienze matematiche che si occupa della analisi quantitativa delle osservazioni di qualsiasi fenomeno soggetto a variazione…".
 
Nell'ambito della statistica, in particolare, la statistica descrittiva analizza la variabilità dei fenomeni a partire dalle informazioni che riguardano l'intera popolazione. La statistica inferenziale, invece, analizza fenomeni che, per ampiezza e complessità, si sottraggono all'osservazione diretta, consentendo la formulazione di ipotesi riguardanti la popolazione sulla base delle informazioni derivate da un sottoinsieme limitato della popolazione (un campione).
 
Le basi della statistica inferenziale sono poste da A. De Moivre (1667-1754) che pubblica l'equazione della distribuzione normale, e da Karl Friedrich Gauss (1777-1855) che ne fa conoscere l'utilizzo nell'analisi degli errori. È invece Francis Galton (1822-1911) che applica per primo il modello matematico della curva gaussiana alla descrizione di caratteristiche biologiche di soggetti impropriamente definiti come "normali". Ed è così che la curva gaussiana diventa, ancora più impropriamente, la "curva normale", e la distribuzione gaussiana la "distribuzione normale". La vera statistica, quella moderna, è molto recente. Nasce nei primi del novecento quando W. S. Gosset, con lo pseudonimo di "Student", pubblica nel 1908 i suoi risultati sulla distribuzione di t: le statistiche dei piccoli campioni rivoluzionano la metodologia statistica. Nel 1926 R. A. Fisher perfeziona i risultati di Gosset. Nel 1934 G. W. Snedecor pubblica "Analisis of variance and covariance" e dà il nome al test F in onore di Fisher. Nel 1938 R.A. Fisher e F. Jates pubblicano a Edimburgo le "Statistical Tables", per anni l'unico insostituibile strumento di lavoro per gli statistici, prima dell'avvento dei calcolatori, e introducono la denominazione di "rapporto tra varianze".
 
In questo angolo statistico del sito trovate trattati gli
aspetti metodologici, che possono sembrare teorici, ma sono fondamentali in quanto da loro dipende la qualità dell’inferenza e quindi la qualità dell’informazione generata dall’analisi statistica dei dati, integrati con soluzioni pratiche, rappresentate dalla disponibilità di
programmi per l’analisi statistica dei dati, e dalla disponibilità di
formule e algoritmi utili anche per implementare
soluzioni di calcolo su fogli elettronici quali Excel© e OpenOffice.org Calc©, trovate ancora un
corso base di statistica con R che per i più intraprendenti potrebbe essere lo spunto per fare un salto di qualità nella elaborazione dei propri dati, e una pagina nella quale vado raccogliendo alcuni
esercizi di statistica prevalentemente orientati a problemi specifici del laboratorio clinico.
 
 
Aspetti metodologici
 
La legge del GIGO domina la teoria dell'informazione. GIGO come acronimo di Garbage In-Garbage Out. Se ci metti dentro spazzatura ne tiri fuori spazzatura. Se il segnale contiene rumore, l'informazione che ne deriviamo ne risulterà proporzionalmente deteriorata. E poiché il rumore è ineliminabile, la sola cosa che ci resta da fare è mantenere il rapporto segnale/rumore il più elevato possibile. Meno spazzatura in ingresso, meno spazzatura in uscita. Minore è il rumore contenuto nei dati, migliore è l’informazione che ne ricaviamo [a].
 
Il rapporto segnale/rumore
 
Camminando per strada a  Milano, una domenica mattina di blocco totale del traffico a causa dell’inquinamento, per la prima volta sono riuscito a riconoscere, provenienti dal marciapiedi opposto al mio, in una della vie più congestionate della città, le voci alcune persone che chiacchieravano davanti ad un bar, e la musica che proveniva da una finestra aperta. In condizioni “normali” (notare il concetto abnorme che può essere insito nell’espressione “normale”) il rumore del traffico mi aveva fino ad allora impedito di sentirle [b].
 
Da un punto di vista fisico, in generale, qualsiasi segnale può essere riconosciuto come tale solamente se riesce a sopravanzare il “rumore di fondo” (vedere ad esempio le curve ROC) ovvero (ma è un altro modo per esprimere lo stesso concetto) se il  segnale è maggiore dell’incertezza che caratterizza il risultato. Si consideri l’esempio di un paziente cui sono effettuati due prelievi di sangue, uno al tempo t’ e uno al tempo t”, al fine di determinare la concentrazione di un farmaco. Quello che interessa è stabilire se la concentrazione del farmaco al tempo t” differisce da quella rilevata al tempo t’, onde verificare se all’aumento della posologia del farmaco stabilito dal medico corrisponde un aumento della sua concentrazione nel sangue. Per questo i due campioni sono analizzati in due laboratori diversi (laboratorio A e laboratorio B).
 
SegnaleRumore
 
In questo esempio il segnale [s] è la differenza tra la concentrazione del farmaco al tempo t’ e quella al tempo t”. La larghezza della curva a campana rappresenta il rumore [r] che ”avvolge” il segnale rilevato al tempo t’. A parità di segnale, per il laboratorio A il rumore è tale da “confondere” il risultato rilevato al tempo t’’ con quello rilevato al tempo t’ (rapporto s/r basso). Diversa è la situazione del laboratorio B: lo scarso livello di rumore associato alla misura fa si che la concentrazione al tempo t” possa essere agevolmente riconosciuta come differente da quella presente al tempo t’ (rapporto s/r elevato). In termini statistici diciamo che (e questo a causa delle diverse condizioni di “rumore di fondo” in cui sono state effettuate le misure e ottenuti i dati) la concentrazione al tempo t’’ rispetto alla concentrazione al tempo t’ appare non significativamente diversa nel laboratorio A, mentre appare significativamente diversa nel laboratorio B. Può sembrare una conclusione all’insegna dell’ovvio, ma è di fondamentale importanza: la qualità dell’informazione in uscita dipende dalla qualità dei dati in ingresso. La legge del GIGO è ineludibile: è un principio fisico.
 
Se questo esempio conferma l’esigenza dell’estremo rigore nei procedimenti di misura [c], c’è un secondo  problema chiave da considerare nella statistica inferenziale: il problema della selezione del campione. Perché l'inferenza riguardante la popolazione, inferenza effettuata a partire dal campione esaminato, sia corretta, è necessario che il campione sia rappresentativo della popolazione. La rivoluzione in questo campo è stata introdotta da R. A. Fisher. Fu lui il primo a comprendere l'importanza del campionamento casuale, in modo che dai campioni si potessero trarre conclusioni oggettive sui caratteri dell'universo di provenienza e sulla loro distribuzione originaria, e a dimostrare, con innumerevoli lavori sperimentali, che una conclusione statistica eseguita su campioni randomizzati, è tanto più obiettiva quanto più i campioni sono stati scelti a caso.
 
Il disegno sperimentale
 
Quando si formula una ipotesi (vedasi la frase di Seneca che apre il capitolo), e si vuole verificarla sperimentalmente, il primo passo consiste nel progettare un esperimento che consenta di ottenere i dati necessari alla verifica. Una osservazione solo apparentemente banale è che l'informazione che si potrà ottenere dai dati raccolti sarà tanto migliore quanto più lo studio sperimentale sarà stato ben disegnato e ben condotto. L'analisi statistica è solo l'ultimo di una serie dei passi tra loro logicamente e operativamente concatenati che stiamo esaminando. E se è vero che una cattiva analisi statistica può vanificare tutto il lavoro precedente, è altrettanto vero che nessuna analisi statistica può sopperire ai difetti del disegno sperimentale o a una cattiva qualità dei dati raccolti: così se i dati raccolti sono affetti da errori sistematici, i risultati di qualsiasi loro elaborazione statistica saranno, irrimediabilmente, affetti dagli stessi errori. Pertanto una attenta definizione del disegno sperimentale e rigorose modalità di raccolta dei dati, preventivamente descritte in appositi protocolli, rappresentano un prerequisito essenziale di qualsiasi lavoro statistico. Per una eccellente introduzione su medicina, metodo scientifico e statistica vedere Bossi [1].
 
"...Come probabilmente ricorderete dal liceo, Procuste, il personaggio mitologico, allungava e accorciava i suoi ospiti in modo che si adattassero al letto che aveva costruito. Ma forse non sapete il resto della storia. La mattina, prima che se ne andassero, egli li misurava; per la Società Antropologica dell'Attica scrisse poi un erudito lavoro dal titolo «Sulla uniformità della statura dei viandanti»...". Se questa è solamente una storiella divertente, attribuita ad A. S. Eddington (1882-1944), il famoso astronomo e fisico inglese (citato da Barrow [2]), quella che segue è storia vera (citata da Colton [3]). Nel 1936, negli USA, il "Literary Digest" selezionò dai nomi riportati negli elenchi telefonici un campione di elettori. Si chiedeva chi avrebbe vinto le elezioni presidenziali. I candidati erano Roosevelt e Landon. Le risposte furono più di un milione [sic!], e il sondaggio predisse la vittoria di Landon. In realtà Roosevelt vinse con il più largo margine mai raggiunto in una elezione presidenziale fino al quel tempo. Quello che accomuna i due esempi è la selezione del campione. Introdotta in modo piuttosto rozzo dal ricercatore, nel caso di Procuste. Presentatasi in modo più subdolo nel caso del sondaggio del "Literary Digest". Nel qual caso il campione, pur numericamente enorme, non era rappresentativo: a causa del fatto che la maggior parte degli elettori appartenenti alle classi meno abbienti non  disponeva, a quell'epoca del telefono. E, manco a farlo apposta, questi elettori erano prevalentemente orientati per Roosevelt. Per dirla in termini tecnici, l'errore fu determinato dal fatto che la popolazione campionata (elettori che disponevano del telefono) non era rappresentativa della popolazione obbiettivo (tutti gli elettori).
 
Ovviamente oggigiorno simili ingenuità non si verificano più. I sondaggi, e non solamente quelli elettorali, forniscono risultati attendibili anche utilizzando campioni numericamente assai limitati. Ma il problema della possibile mancanza di corrispondenza tra popolazione campionata e popolazione obbiettivo (il modo in cui esse differiscono è generalmente definito vizio, e le forze operanti per distinguere le due popolazioni sono generalmente indicate come fattori selettivi), risulta ancora uno degli aspetti delicati del disegno sperimentale, cioè del progetto in base al quale si effettua una ricerca scientifica. Questi concetti sono illustrati nello schema seguente, che ricorda come, se tecniche statistiche utilizzate in modo appropriato consentono di effettuare inferenze corrette (e con un grado di confidenza noto) sulla popolazione da cui il campione origina (popolazione campionata), è solo un disegno sperimentale che può assicurare che le inferenze fatte possano essere estrapolate alla popolazione obiettivo dell’esperimento/inferenza.
 
Disegno
 
Si riportano a questo proposito alcune considerazioni semplici e chiare fatte da Colton [3] in un esempio relativo ad una ricerca sull'artrite reumatoide condotta in un ospedale universitario: "...Si supponga che un ricercatore sia interessato a determinati aspetti caratterizzanti la storia naturale dell'artrite reumatoide. Egli ha scelto come sua popolazione obbiettivo tutti i pazienti con questa malattia. Per il suo studio prende accordi con il responsabile dell'archivio dell'ospedale universitario in cui lavora perché gli venga mandato un campione di registrazioni di casi di pazienti con artrite reumatoide; per esempio, tutte le dimissioni avvenute nel periodo di un anno. L'analisi statistica e le conclusioni da essa risultanti devono essere poste in relazione con la considerazione di quali fattori selettivi e quali vizi distinguono la sua popolazione campionaria - precisamente, tutte le ammissioni di pazienti con artrite reumatoide a questo particolare ospedale universitario - dalla popolazione obbiettivo di tutti i pazienti con la malattia. Quali sono questi fattori? Balzano alla mente immediatamente due fattori selettivi. Primo l'artrite reumatoide non richiede sempre l'ospedalizzazione. Vi è una percentuale piuttosto grande di pazienti con questa malattia che non richiede ospedalizzazione, e tali pazienti non potrebbero assolutamente entrare nella ricerca qui discussa. Quindi può essere completamente erroneo trarre conclusioni sulla storia naturale dell'artrite reumatoide in tutti i pazienti, quando l'ammissione allo studio è possibile solo per i pazienti ospedalizzati. Secondo, anche tra i casi ospedalizzati il fatto che lo studio sia condotto in un ospedale universitario comporta una selezione dei casi più complessi e più seri. Le caratteristiche dei pazienti in questo ospedale possono essere molto diverse da quelle dei pazienti ricoverati in altri ospedali meno specializzati. Chiaramente fattori selettivi addizionali e possibili vizi potranno essere identificati mano a mano che vengono delineati ulteriori dettagli riguardanti le caratteristiche della ricerca...".
 
Risulta quindi evidente da quanto detto che le conclusioni tratte da un esperimento, intendendo per esperimento qualsiasi tentativo, legittimo ma ambizioso, di trarre da una parte (il campione) conclusioni riguardanti il tutto (la popolazione), debba essere attentamente presidiato al fine di evitare di introdurre elementi confondenti nelle conclusioni che dall’esperimento verranno tratte.
 
La tabulazione dei dati
 
La tabulazione di dati rappresenta l'approccio più elementare ma anche il più indispensabile alla successiva analisi statistica. Tabulando i dati è possibile verificare la eventuale mancanza di qualcuno di essi, ovvero la presenza di dati aberranti. Per questi ultimi si può prevedere, laddove possibile, la ripetizione della misura, al fine di stabilire se si tratti di uno sbaglio (che può avvenire per esempio nella trascrizione dei dati), se si tratti di un errore sperimentale rilevante a causa di un malfunzionamento occasionale dell'apparato di misura, o se il dato deve essere confermato (per la distinzione tra errori e sbagli vedere Baldini [4].
 
Sui dati in forma tabellare è anche possibile procedere ad una prima elaborazione, effettuando opportune trasformazioni dei dati (per esempio, la trasformazione in radice quadrata può rendere gaussiana una distribuzione non gaussiana), oppure combinando i risultati di due variabili in una nuova variabile (così, per esempio, nel caso di dati appaiati spesso quello che più interessa non sono i singoli valori delle coppie, ma piuttosto la differenza entro i dati di ciascuna coppia). Per ulteriori suggerimenti sulla tabulazione dei dati vedere Bossi [5] e Lantieri [6].
 
La tabulazione dei dati dovrebbe essere la prima a seguire la fase di raccolta dei dati, e dovrebbe sempre precedere la rappresentazione grafica e la ancora successiva elaborazione statistica. Si consideri l'esempio di sei campioni di siero, analizzati con due metodi (metodo A e metodo B) per la determinazione in laboratorio dello stesso (ipotetico) analita. Si supponga che il metodo A abbia fornito sui sei campioni risultati, nell'ordine, pari rispettivamente a 30.1, 81.4, 51.1, 131.8, 8.7, 94.4, e che il metodo B abbia fornito sugli stessi sei campioni risultati, nell'ordine, pari rispettivamente a 28.4, 76.8, 48.2, 124.3, 8.2, e 89.1. Già una prima tabulazione dei dati
 

Metodo A

Metodo B

A - B

30,1

28,4

1,7

81,4

76,8

4,6

51,1

48,2

2,9

131,8

124,3

7,5

8,7

8,2

0,5

94,4

89,1

5,3

 
consente di meglio apprezzare il significato dei risultati ottenuti con i due metodi, se per esempio accanto a ciascuna coppia di valori viene riportata la differenza corrispondente. Ancora più chiare diventano le conclusioni che si possono trarre da questa semplice tabulazione dei dati se essi vengono riordinati in base alla differenza tra i risultati ottenuti con i due metodi.
 

Metodo A

Metodo B

A - B

8,7

8,2

0,5

30,1

28,4

1,7

51,1

48,2

2,9

81,4

76,8

4,6

94,4

89,1

5,3

131,8

124,3

7,5

 
Infine il riportare in una quarta colonna il valore del rapporto tra il risultato ottenuto con il metodo A e quello ottenuto con il metodo B fa emergere un’informazione aggiuntiva.
 

Metodo A

Metodo B

A - B

A/B

8,7

8,2

0,5

1,06

30,1

28,4

1,7

1,06

51,1

48,2

2,9

1,06

81,4

76,8

4,6

1,06

94,4

89,1

5,3

1,06

131,8

124,3

7,5

1,06

 
In questo caso risulta in effetti del tutto evidente che la differenza tra i risultati ottenuti con i due metodi aumenta in valore assoluto all'aumentare della concentrazione dell'analita, mentre rimane costante il rapporto. Anche senza impiegare complicati  modelli di regressione, la semplice tabulazione dei dati evidenzia la presenza di un differenza sistematica, di tipo proporzionale, tra i due metodi. Ovviamente nella pratica di tutti i giorni le cose non sono così semplici, ma il principio vale comunque.
 
La rappresentazione grafica dei dati
 
Al pari della tabulazione, la rappresentazione grafica è un semplice ma importante strumento di analisi esplorativa dei dati: può risultare utile per la identificazione dei dati aberranti e consente di effettuare una valutazione preliminare dei risultati.
 
Rispetto alla presentazione tabellare, che offre una visione analitica e numericamente completa dei singoli dati raccolti, la rappresentazione grafica comporta una perdita di dettaglio (il singolo valore numerico non è più caratterizzato con esattezza): tuttavia offre il vantaggio di una visione più concisa e sintetica e, fatto molto importante, tende a fare emergere l'informazione più rilevante. Per questo motivo la rappresentazione grafica risulta utile per caratterizzare il tipo di distribuzione assunto da una variabile, come pure il tipo di relazione che intercorre tra due variabili, e addirittura può fare emergere relazioni nascoste o impreviste tra variabili. D'altra parte, proprio per lo stesso fatto di offrire una visione più concisa e sintetica e di tendere a fare emergere l'informazione più rilevante, la rappresentazione grafica è tradizionalmente usata come strumento per il riepilogo dei risultati. Per l'importanza della rappresentazione grafica come strumento per l'analisi esplorativa dei dati e per il riepilogo dei risultati vedere Bossi [5], Campbell [7] e Lantieri [8].
 
Come strumento per l'analisi esplorativa dei dati, la rappresentazione grafica dovrebbe essere utilizzata dopo la raccolta e la tabulazione dei dati, e ad integrazione e supporto del giudizio derivante dalla successiva elaborazione statistica. Come strumento per il riepilogo dei risultati, può essere utilizzata al termine dell'elaborazione statistica. Allego un documento con alcune indicazioni pratiche sulla rappresentazione grafica dei dati.
 
Programmi per l’analisi statistica dei dati
 
Anche procedendo con metodo, sistematicità e propedeuticità dalla definizione del disegno sperimentale, che include i protocolli per la raccolta dei dati, alla tabulazione dei dati e alla loro rappresentazione grafica, prima o poi all’analisi statistica vera e propria ci si deve arrivare. E allora servono formule e algoritmi oltre che programmi per il calcolo delle statistiche.
 
Dato che sono partito dal laboratorio dei primissimi anni ‘70, nel quale i calcoli si facevano con il regolo calcolatore, ovvio che non appena apparsi i primi Personal Computer mi ci sono buttato a pesce e ho imparato a programmare, perchè allora questo era il modo più rapido per avere programmi di calcolo in grado di risolvere i problemi che incontravo (e che volevo risolvere). E’ così nata la Biblioteca di Routine MAtematico statistiche, che trovate nell’area di download, sulla base della quale mi sono inizialmente scritto dei programmi su Apple II, che si sono poi evoluti nel programma Labstat, in ambiente DOS®, e infine nel programma Ministat in ambiente Windows®, che appare così come vedete qui sotto (potete fare click sull’immagine per scaricare il Ministat dall’area di download).
 
Ministat_main
 
Nella documentazione (Guida all’uso di Ministat) trovate tutto quanto necessario per utilizzarlo al meglio, ma spero che l’immagine renda l’idea di quanto esso sia intuitivo. Una tabella di 10 colonne (variabili) per 1000 righe (casi/osservazioni), con alcune funzioni generali (prima fila di icone dall’alto), le funzioni grafiche (seconda fila di icone) e i calcoli statistici (terza fila di icone). Basta selezionare le colonne che volete elaborare che si attivano da sole le icone corrispondenti alle funzioni grafiche e statistiche disponibili per il numero di colonne selezionate [sic!]: basta fare click su un’icona attiva e il gioco è fatto. Detto così ogni tanto mi sembra con Ministat di essere arrivato quasi a banalizzare la statistica. Ma partendo dalla battuta di Mark Twain vi rimando all’esempio iniziale della parte su Teorema di Bayes e decisioni mediche, oltre che alle riflessioni contenute nel bel libro di Huff che ho già citato (Darrel Huff. Mentire con le statistiche. Monti&Ambrosini, 2007) per rafforzare il concetto che la statistica non va presa sottogamba: si tratta di materia delicatissima, visto che in campo scientifico vorremmo produrre informazione seria [d].
 
Se non vi accontentate del Ministat, perchè magari avete problemi di trattamento di un numero elevato di dati e/o variabili, avete necessità di utilizzare l’analisi multivariata, o quant’altro, avete due soluzioni alternative. La prima è di acquistare o fare acquistare dalla vostra azienda un programma di statistica professionale, come l’SPSS (http://www.spss.it/). L’altra è di ricorrere ad un programma di statistica open source, quindi gratuito: qui il leader è indiscutibilmente R, il linguaggio/programma di statistica sviluppato nell’ambito del The R Project for Statistical Computing (http://www.r-project.org/). A parte il costo, la differenza sostanziale tra SPSS e R è rappresentata dal fatto che mentre SPSS ha un’interfaccia grafica che ne semplifica al massimo l’utilizzo, R realizza al meglio le proprie potenzialità se lo si utilizza mediante un interprete di comandi che è purtroppo uno strumento vintage, e per questo risulta inizialmente piuttosto ostico. Proprio a causa di questa difficoltà ho pensato di creare una pagina nella quale trovate un corso base di statistica per il laboratorio clinico con R, corso che vi insegna a importare in R i dati di  Excel© o, meglio,  OpenOffice.org© Calc, che come R è open-source, e ad ottenere con poche semplici istruzioni risultati notevoli, risultati che spero vi incentivino a studiarlo meglio e in spero contribuiscano a facilitare la diffusione di R nell’ambito del laboratorio clinico e più in generale nell’ambito biomedico.
 
In realtà tra il livello professionale di SPSS e R e il livello minimalista di Ministat esiste una terza via. Questa presuppone di conoscere bene le formule e gli algoritmi da utilizzare per la varie statistiche (e questo fatto, puramente culturale, rappresenta il vero prodotto a valore aggiunto di questo genere di approccio), e di impiegare un foglio elettronico come Excel© o meglio come OpenOffice.org© Calc. OpenOffice.org© è un programma open source, quindi gratuito, ed è distribuito sotto forma di una suite praticamente identica a Office©: potete scaricarlo dal sito http://it.openoffice.org/. Ne vengono fatti svariati milioni di download all’anno, funziona benissimo, occupa  poco spazio su disco, e consente di installare sul proprio PC un software originale anche a coloro che non vogliono investire nell’acquisto di Office©. Alcune possibili soluzioni di problemi statistici con i fogli elettronici sono illustrate nella sezione che segue, che cercherò di arricchire nei limiti del possibile strada facendo.
 
Statistica con i fogli elettronici (spreadsheet)
 
Premesso che i file .xls realizzati con Excel© sono perfettamente compatibili con OpenOffice.org© Calc, in questa area trovate (e man mano ne aggiungo di nuovi) file .xls per affrontare problemi che non ho risolto con Ministat.
 
Per chi non ha familiarità con i fogli elettronici ne sintetizzo i pregi:
→ numero di righe e  colonne sostanzialmente illimitati rispetto alle esigenze pratiche;
→ possibilità di importare i dati da qualsivoglia formato;
→ estrema velocità nell’elaborazione anche di calcoli complessi;
→ possibilità cambiando i valori inseriti di effettuare in tempo reale delle simulazioni che vi consentono di “sperimentare” in statistica mediante la logica del  “cosa accade se…”, estremamente potente e didattica;
→ disponibilità di funzioni matematiche e statistiche (e altre ancora) precablate, indispensabili per esempio per il nostro scopo quelle che calcolano il valore esatto di p per una specifica distribuzione (chi-quadrato, t, distribuzione normale, eccetera) a partire dal valore assunto dalla specifica statistica e dai suoi gradi di libertà.
 
I difetti principali sono rappresentati dal fatto che i fogli elettronici non sono stati concepiti per il calcolo scientifico, che quindi bisogna trovare delle scappatorie di vario genere per automatizzarli, e che per la stessa ragione la grafica è inadeguata (basti dire che per tracciare un banale istogramma bisogna sudare le proverbiali quattro camicie).
 
Piuttosto che le funzioni statistiche cablate in Excel© e OpenOffice.org© Calc, io preferisco utilizzare soluzioni basate sulle formule e algoritmi che trovate nell’area relativa di questa pagina (a parte il calcolo del valore esatto di p che ho citato sopra). Certo, lo sviluppo dei programmi è più verboso, ma ne guadagnano la trasparenza, la chiarezza e la didatticità. Tutti i programmi sono stati validati con esempi forniti da importanti testi di statistica, che sono specificamente citati all’interno dei file, che in genere (non sempre) includono:
→ un foglio _info nel quale trovate un file .pdf che contiene la documentazione del programma, comprese lee formule e gli algoritmi utilizzati;
→ un foglio _dat che serve per immettere i dati, e nel quale trovate la prima volta i dati di uno degli esempi che sono serviti per validare il programma, dati che poi potrete sostituire con i vostri ;
→ un foglio _calc nel quale sono sviluppati i calcoli intermedi, e con cui potete quindi visualizzare cosa accade a tutti i livelli del procedimento di calcolo;
→ un foglio _gra nel quale trovate una possibile rappresentazione grafica di risultati (e qui vi dovete proprio ingegnare per adattare di volta in volta il grafico ai nuovi dati).
 
Per ora trovate questi programmi:
test chi-quadrato quando sono note le frequenze teoriche (il programma prevede fino a 5 frequenze teoriche con cui confrontare i valori osservati);
test chi-quadrato per una tabella 2 x 2 (viene effettuata la correzione di Yates per la continuità);
test chi-quadrato per tabelle di contingenza (il programma prevede un massimo di 5 righe per 5 colonne, non viene effettuata la correzione di Yates per la continuità);
calcolo degli intervalli di confidenza di sensibilità, specificità, valore predittivo, likelihood ratio;
regressione lineare con il metodo dei minimi quadrati impiegando quattro modelli di regressione (inclusa la regressione lineare di Deming).
 
Formule e algoritmi
 
Per evitarvi di tribolare nel dover riassumere svariati chili di libri di statistica, riporto quanto ho dovuto sintetizzare come base per la scrittura dei miei programmi, Ministat incluso. Le formule e gli algoritmi che vi potranno essere utili e che riporto (per il test chi quadrato vedere qui sopra la documentazione all’intero dei file per Excel© e OpenOffice.org© Calc) sono i seguenti:
→ calcolo di asimmetria e curtosi
test di Kolmogorov-Smirnov
statistiche elementari parametriche
statistiche elementari non parametriche
→ calcolo del rapporto tra varianze
test t di Student per dati appaiati
test t di Student per campioni indipendenti
test t di Student per una media teorica
test di Wilcoxon per dati appaiati
test di Wilcoxon per campioni indipendenti
analisi della varianza a un fattore
analisi della varianza a due fattori
regressione lineare parametrica (con tre differenti modelli di regressione)
regressione lineare non-parametrica (con tre differenti modelli di regressione)
regressione polinomiale di secondo grado
regressione polinomiale di terzo grado
test chi-quadrato per tabelle di contingenza
analisi della somiglianza (cluster analysis)
 
 
********************************
 
 

Statistica e laboratorio

Ultimo aggiornamento: 18 giugno 2017

DNA_0527s
Bayes
 
NOTA SUI COLLEGAMENTI
ALLE FONTI BIBLIOGRAFICHE
 
La maggior parte dei collegamenti ad articoli scientifici riportati nel sito fa riferimento a riviste online che forniscono gratuitamente l’articolo originale. In alcuni casi è necessario registrarsi sul sito per avere libero accesso agli articoli: questo accade per esempio con il BMJ. Quando i collegamenti  fanno riferimento a fonti bibliografiche a pagamento, chi non ha sottoscritto un abbonamento con la rivista potrebbe vedere comparire un messaggio del tipo “access forbidden”, ma il più delle volte vedrà comparire una pagina che consente di acquistare online l’articolo originale.
 
 

Informazione diagnostica e curve ROC

Teorema di Bayes e medicina basata sull’evidenza (EBM)

 I migliori  02  scelti per voi...

FreeBooks4Doctors
Corso di Epidemiologia
The Medical Biochemistry Page
Download02

Programma di statistica Ministat (versione per Windows)

Cornice_300
Programma di statistica Open Source R
(per Linux, Mac OS X e Windows)
Calcolo degli intervalli di confidenza di sensibilità, specificità, valore predittivo, likelihood ratio
The_Merck_Manual
Manuale Merck di diagnosi
e terapia

         L’articolo da non perdere...    

Il linguaggio delle misure
IEoMet
Errori congeniti del metabolismo
I migliori libri del mese
 
Leonard Mlodinow
   La passeggiata dell’ubriaco. Le leggi scientifiche del caso.
Rizzoli Editore, 2009, pp. 294
ISBN: 17034081
OpenOffice, la suite Open Source (per Linux, Mac OS X e Windows)

Senza dati di appropriatezza i tagli indiscriminati sono inevitabili

ebooks...
 
Mauss, Berg, Rockstroh, Sarrazin, Wedemeyer, at al.
Hepatology - A clinical textbook. Ottava Edizione - 2017
Westgard QC

 eGFR o creatinina nel siero?

Le letture
consigliate
Book-03-june
Inprimopianochiaro
Atlante di anatomia del Bock
Atlante di anatomia
Tavole metaboliche
Tavole metaboliche
Informazioni: info@bayes.it
Scrivimi: webmaster@bayes.it

Per la riproduzione dei contenuti del sito è necessario il permesso dell’Autore

NOTA LEGALE
 
L’interpretazione dei risultati delle analisi di laboratorio deve essere effettuata esclusivamente dal medico e alla luce dei dati clinici.
Questo sito ha uno scopo esclusivamente educativo e formativo. Pertanto le informazioni in esso contenute possono essere utilizzate esclusivamente a scopo didattico, e anche in questo caso sotto la responsabilità personale di chi le utilizza, sia per sé stesso sia per terzi.
Le informazioni contenute in questo sito non possono e non devono essere utilizzate né a scopo diagnostico, né a scopo prognostico, né a scopo terapeutico, né per qualsiasi attività che abbia un impatto sia diretto sia indiretto sullo stato di salute di  un individuo o di più individui.
Nessuna responsabilità può essere imputata all’autore per danni diretti o indiretti e di qualsivoglia natura che potrebbero essere causati a sé stessi o a terzi a causa di errori, imprecisioni, omissioni, interpretazioni o utilizzo dei contenuti di questo sito o dei siti cui esso fa riferimento.

 

ebooks...
 
Wim P. Krijnen
Applied Statistics for Bioinformatics using R

 eGFR, riflessioni critiche  [b]

 eGFR, indagine in Piemonte  [b]

Le statistiche del sito

E ora che i test genetici sono alla portata di tutti?
Con meno di mille euro è possibile comprare un test genetico su Internet: si manda un piccolo campione di cellule e poi si aspetta la risposta. Ma... a che cosa serve la risposta? Un dossier di Marika De Acetis dall’Archivio storico del sito www.torinoscienza.it
[Home] [Errori cognitivi] [Epistemologia] [Teorema di Bayes] [Decisioni mediche] [Le basi biochimiche]
[Analisi tradizionali] [Analisi genetiche] [Qualità in laboratorio] [Statistica e laboratorio]
[Storia delle medicina] [Download] [Link] [Bacheca] [FAQ] [Chi sono]
BuiltWithNOF
 Attualità in tema di eGFR:

Esercizi di statistica

I migliori libri del mese
 
  Giovanni Federspil
   Logica clinica. I principi del metodo in medicina.
McGraw-Hill, 2004, pp. 368
ISBN: 88 386 2984-6

Regressione lineare parametrica con quattro modelli inclusa la regressione di Deming

ebooks...
 
Dennis A. Noe
The logic of Laboratory Medicine.
Atlante di virologia
Virus2
310.489  visitatori
da settembre 2008 a dicembre 2016

Gradi centigradi o gradi Celsius?

ebooks...
 
M. Besozzi
Errori cognitivi, probabilità e decisioni mediche.
 
Fate click sul titolo o scaricate il testo su tablet o smartphone con il codice a barre riportato qui sotto.
 
ECPEDM
Atlante del protozoi
Atlante dei protozoi intestinali
Citologia e istologia
Atlante di citologia e istologia
Corso base di statistica con R
Espressione dei risultati nel laboratorio di chimica clinica
Espressione dei risultati
   NIST/SEMATECH   e-Handbook of Statistical Methods
Pathology outlines
PathologyOutlines
GraysAnatomy
Atlante di anatomia del Gray
Atlante di ematologia
Atlante di ematologia
Entamoeba coli1
Atlante di parassitologia
Micobatteriologia
clinica
Micobatteriologia

Spurious correlations

Ora online e in ebook
Concetti, metodi e strumenti per una
pensierocritico70
buona informazione
R
LTO_75
Cerca nel sito...
ebooks...
 
M. Besozzi
Statistica con R
per il laboratorio
di analisi cliniche.
 
Fate click sul titolo o scaricate il testo su tablet o smartphone con il codice a barre riportato qui sotto.
 
SCR
I migliori libri del mese
 
Luigi Tesio
   I bravi e i buoni.
Perché la medicina clinica può essere una scienza.
Il Pensiero Scientifico Editore, 2015, pp. 216  New01
 ISBN: 978-88-490-0538-7
Gli inganni della correlazione:
New01
logo_INRIM_229_2017