Editore di Directory Italia - http://directory-italia.blogspot.com/

sabato 25 aprile 2020

La prova del Nove

A half-truth is the most cowardly of lies. (Mark Twain)
Una mezza verità è la più vigliacca delle bugie.

Visto che il post precedente è stato abbastanza apprezzato, continuiamo a parlare di Statistica.
Questa volta esamineremo il caso “QCS Letters”,  ossia quello delle 10 lettere a firma di Quintus Curtius Snodgrass (ovviamente, è un nome di fantasia!) pubblicate nel 1861 sul “New Orleans Daily Crescent”.
In queste lettere, un tale Mr. Snodgrass, racconta le sue avventure mentre presta servizio presso l'esercito confederato. Queste lettere non ricevettero grande attenzione fino a quando, nel 1934, Minnie Brashear, nel suo libro “Mark Twain, Son of Missouri”, le riporterà sotto la luce dei riflettori attribuendole, per l'appunto, a Mark Twain (tra l'altro, anche questo è uno pseudonimo!!!).
Nel 1940 (ricordiamo che Twain morì nel 1910), lo scrittore verrà accusato, dagli scranni della Camera dei Rappresentanti, di essere un disertore dell'esercito confederato;  il New York Times ne prenderà le difese, argomentando che Twain ed i suoi sentimenti furono travolti dall'enormità degli eventi.
Beh, che Twain odiasse lo schiavismo e la crudeltà non vi è alcun dubbio; del resto, abbandonerà le file dei confederati dopo solo 2 settimane.
Le avventure descritte nelle “Lettere”, comunque, costituiscono la base storica di una parte importante del presunto ruolo avuto da Twain nella guerra di secessione.
Nel 1963, Claude Brinegar, in un articolo pubblicato sul “Journal of American Statistical Association1, dimostrerà che le lettere di QCS non appartenevano, però, a Mark Twain.
Vediamo come fece.
Brinegar prese 7 lettere (11.000 parole) , di sicuro scritte da Mark Twain. Dopo aver eliminato intestazioni, nomi propri, citazioni, parole straniere, abbreviazioni ed espressioni dialettali, contò le occorrenze di ciascuna parola a seconda della sua lunghezza, dalle parole di 1 lettera fino a quelle di 10+ lettere e, quindi, ne calcolò la rispettiva proporzione.
Come prova della consistenza nel tempo, poi, prese due altri scritti di Mark Twain, effettuò un analogo conteggio e confrontò i risultati con quelli ottenuti nell'analisi precedente, dimostrando che la distribuzione delle parole manteneva un alto livello di consistenza a distanza di molti anni.
Successivamente, effettuò la medesima classificazione per le 10 lettere di QCS (13.175 parole), e comparò la distribuzione di frequenza ottenuta con i valori attesi  se le lettere fossero state scritte da Twain (i valori attesi si ottengono moltiplicando 13.175 per la rispettiva probabilità di  ciascun elemento  ricavata dalla distribuzione precedente; se, ad es., nelle lettere di Mark Twain la proporzione delle parole di 4 lettere era uguale al 19,3% , il valore atteso per le parole di 4 lettere nelle lettere di QCS sarà 2542.8) .
La prima cosa che si nota, immediatamente, è che Twain tendeva ad utilizzare maggiormente le parole corte.
Per stabilire se le lettere fossero dello stesso autore, Brinegar utilizzò il test chi quadrato Χ2.
Proviamo a spiegare il procedimento.
Il test  Χ2  viene usato per verificare che le frequenze dei valori osservati si adattino alle frequenze teoriche di una distribuzione di probabilità prefissata, ossia se vi sono delle differenze significative tra i valori attesi ed i valori osservati.



oi=frequenze osservate
ei=frequenze attese
A questo punto, occorre impostare l'ipotesi nulla:
H0= Non vi sono sostanziali differenze, quindi le lettere sono dello stesso autore

e stabilire l'errore tollerato:
α=0.01
Applicando la formula ai dati, il valore che si ottiene è 294,7.
Andando, infine, ad esaminare le tavole della distribuzione chi quadrato,  per α=0.01 e per 9 gradi di libertà (i 10 valori della variabile  -1) il valore corrispondente è 21,7 , molto distante da quello ottenuto nel test, quindi occorre respingere l'ipotesi H0: le lettere non appartengono a Mark Twain .
E, dopo la verifica di ipotesi, concludiamo con le previsioni.
Jim  predice il futuro di Huck utilizzando un quarto di dollaro ed una palla di setole; vediamo cosa dice al ragazzo....
Dalle “Avventure di Huckleberry Finn”:
Sometimes you gwyne to git hurt, en sometimes you gwyne to git sick; but every time you’s gwyne to git well agin.
A volte vi ferirete, a volte vi ammalerete; ma, alla fine, guarirete.



1 Brinegar, C., "Mark Twain and the Quintus Curtius Snodgrass Letters: A Statistical Test of Authorship", Journal. American Statistical Association

Nessun commento:

Posta un commento