Principale » broker » T-Test

T-Test

broker : T-Test
Che cos'è un test T?

Un t-test è un tipo di statistica inferenziale utilizzata per determinare se esiste una differenza significativa tra le medie di due gruppi, che può essere correlata in determinate caratteristiche. Viene utilizzato principalmente quando i set di dati, come il set di dati registrato come risultato del lancio di una moneta 100 volte, seguono una distribuzione normale e possono presentare varianze sconosciute. Un t-test viene utilizzato come strumento di verifica delle ipotesi, che consente di verificare un'ipotesi applicabile a una popolazione.

Un test t esamina la statistica t, i valori di distribuzione t e i gradi di libertà per determinare la probabilità di differenza tra due serie di dati. Per condurre un test con tre o più variabili, è necessario utilizzare un'analisi della varianza.

01:38

T-Test

Spiegare il T-Test

In sostanza, un test t ci consente di confrontare i valori medi dei due set di dati e determinare se provengono dalla stessa popolazione. Negli esempi precedenti, se prendessimo un campione di studenti della classe A e un altro campione di studenti della classe B, non ci aspetteremmo che abbiano esattamente la stessa media e deviazione standard. Allo stesso modo, i campioni prelevati dal gruppo di controllo alimentato con placebo e quelli prelevati dal gruppo prescritto dal farmaco dovrebbero avere una deviazione standard e media leggermente diversa.

Matematicamente, il test t preleva un campione da ciascuno dei due insiemi e stabilisce l'affermazione del problema assumendo un'ipotesi nulla che i due mezzi siano uguali. Sulla base delle formule applicabili, alcuni valori vengono calcolati e confrontati con i valori standard e l'ipotesi nulla assunta viene accettata o respinta di conseguenza.

Se l'ipotesi nulla si qualifica per essere respinta, indica che le letture dei dati sono forti e non casuali. Il t-test è solo uno dei tanti test utilizzati a questo scopo. Gli statistici devono inoltre utilizzare test diversi dal test t per esaminare più variabili e test con campioni di dimensioni maggiori. Per campioni di grandi dimensioni, gli statistici utilizzano un test z. Altre opzioni di test includono il test chi-quadro e il test f.

Esistono tre tipi di t-test e sono classificati come t-test dipendenti e indipendenti.

Key Takeaways

  • Un t-test è un tipo di statistica inferenziale utilizzata per determinare se esiste una differenza significativa tra le medie di due gruppi, che può essere correlata in determinate caratteristiche.
  • Il t-test è uno dei tanti test utilizzati ai fini del test di ipotesi in statistica.
  • Il calcolo di un test t richiede tre valori di dati chiave. Includono la differenza tra i valori medi di ciascun set di dati (chiamato differenza media), la deviazione standard di ciascun gruppo e il numero di valori dei dati di ciascun gruppo.
  • Esistono diversi tipi di test t che possono essere eseguiti in base ai dati e al tipo di analisi richiesta.

Risultati dei test ambigui

Considera che un produttore di farmaci vuole testare un farmaco appena inventato. Segue la procedura standard per provare il farmaco su un gruppo di pazienti e somministrare un placebo a un altro gruppo, chiamato gruppo di controllo. Il placebo somministrato al gruppo di controllo è una sostanza senza valore terapeutico previsto e funge da punto di riferimento per misurare il modo in cui l'altro gruppo, a cui viene somministrato il farmaco effettivo, risponde.

Dopo la sperimentazione farmacologica, i membri del gruppo di controllo alimentato con placebo hanno riportato un aumento dell'aspettativa di vita media di tre anni, mentre i membri del gruppo a cui è stato prescritto il nuovo farmaco riportano un aumento dell'aspettativa di vita media di quattro anni. L'osservazione istantanea può indicare che il farmaco funziona davvero poiché i risultati sono migliori per il gruppo che utilizza il farmaco. Tuttavia, è anche possibile che l'osservazione possa essere dovuta a un evento casuale, in particolare a un colpo di fortuna sorprendente. Un test t è utile per concludere se i risultati sono effettivamente corretti e applicabili a tutta la popolazione.

In una scuola, 100 studenti in classe A hanno ottenuto una media dell'85% con una deviazione standard del 3%. Altri 100 studenti appartenenti alla classe B hanno ottenuto una media dell'87% con una deviazione standard del 4%. Mentre la media della classe B è migliore di quella della classe A, potrebbe non essere corretto saltare alla conclusione che il rendimento complessivo degli studenti nella classe B è migliore di quello degli studenti nella classe A. Questo perché, insieme al significa che anche la deviazione standard della classe B è superiore a quella della classe A. Indica che le loro percentuali estreme, sui lati inferiore e superiore, erano molto più distanti rispetto a quella della classe A. Un test t può aiutare a determinare quale classe è andata meglio.

Presupposti del T-Test

  1. La prima ipotesi relativa ai test t riguarda la scala di misurazione. Il presupposto per un test t è che la scala di misurazione applicata ai dati raccolti segue una scala continua o ordinale, come i punteggi per un test QI.
  2. La seconda ipotesi è quella di un semplice campione casuale, che i dati sono raccolti da una porzione rappresentativa, selezionata casualmente della popolazione totale.
  3. Il terzo presupposto è che i dati, quando tracciati, producono una curva di distribuzione normale a forma di campana.
  4. Il quarto presupposto è che venga utilizzata una dimensione del campione ragionevolmente grande. Le dimensioni più grandi del campione indicano che la distribuzione dei risultati dovrebbe avvicinarsi a una normale curva a campana.
  5. L'ipotesi finale è l'omogeneità della varianza. La varianza omogenea o uguale esiste quando le deviazioni standard dei campioni sono approssimativamente uguali.

Calcolo dei test T.

Il calcolo di un test t richiede tre valori di dati chiave. Includono la differenza tra i valori medi di ciascun set di dati (chiamato differenza media), la deviazione standard di ciascun gruppo e il numero di valori dei dati di ciascun gruppo.

Il risultato del test t produce il valore t. Questo valore t calcolato viene quindi confrontato con un valore ottenuto da una tabella dei valori critici (chiamata tabella di distribuzione T). Questo confronto aiuta a determinare con quale probabilità la differenza tra i mezzi si è verificata per caso o se i set di dati presentano davvero differenze intrinseche. Il test t si domanda se la differenza tra i gruppi rappresenti una vera differenza nello studio o se è probabilmente una differenza statistica priva di significato.

Tabelle di distribuzione a T.

La tabella di distribuzione T è disponibile nei formati a una coda ea due code. Il primo viene utilizzato per valutare casi che hanno un valore o un intervallo fissi con una direzione chiara (positiva o negativa). Ad esempio, qual è la probabilità che il valore di output rimanga al di sotto di -3 o che ottenga più di sette lanciando una coppia di dadi? Quest'ultimo viene utilizzato per l'analisi del limite di intervallo, ad esempio chiedendo se le coordinate cadono tra -2 e +2.

I calcoli possono essere eseguiti con programmi software standard che supportano le funzioni statistiche necessarie, come quelle che si trovano in MS Excel.

Valori T e gradi di libertà

Il test t produce due valori come output: valore t e gradi di libertà. Il valore t è un rapporto della differenza tra la media dei due set di campioni e la differenza esistente all'interno dei set di campioni. Mentre il valore del numeratore (la differenza tra la media dei due set di campioni) è semplice da calcolare, il denominatore (la differenza che esiste all'interno dei set di campioni) può diventare un po 'complicato a seconda del tipo di valori di dati coinvolti. Il denominatore del rapporto è una misura della dispersione o della variabilità. Valori più alti del valore t, chiamato anche t-score, indicano che esiste una grande differenza tra i due set di campioni. Più piccolo è il valore t, maggiore è la somiglianza tra i due set di campioni.

  • Un t-score elevato indica che i gruppi sono diversi.
  • Un piccolo punteggio T indica che i gruppi sono simili.

Il grado di libertà si riferisce ai valori di uno studio che ha la libertà di variare e sono essenziali per valutare l'importanza e la validità dell'ipotesi nulla. Il calcolo di questi valori di solito dipende dal numero di set di dati disponibili nel set di campioni.

Test T correlato (o associato)

Il test t correlato viene eseguito quando i campioni sono generalmente costituiti da coppie abbinate di unità simili o quando vi sono casi di misure ripetute. Ad esempio, potrebbero esserci casi in cui gli stessi pazienti vengono sottoposti a test ripetuti, prima e dopo aver ricevuto un trattamento particolare. In tali casi, ciascun paziente viene utilizzato come campione di controllo contro se stesso.

Questo metodo si applica anche ai casi in cui i campioni sono in qualche modo correlati o hanno caratteristiche corrispondenti, come un'analisi comparativa che coinvolge bambini, genitori o fratelli. I t-test correlati o associati sono di tipo dipendente, in quanto comportano casi in cui le due serie di campioni sono correlate.

La formula per calcolare il valore t e i gradi di libertà per un test t associato è:

  • Mean1 e mean2 sono i valori medi di ciascuno dei set di campioni, mentre var1 e var2 rappresentano la varianza di ciascuno dei set di campioni.

I restanti due tipi appartengono ai test t indipendenti. I campioni di questi tipi vengono selezionati indipendentemente l'uno dall'altro, ovvero i set di dati nei due gruppi non fanno riferimento agli stessi valori. Includono casi come un gruppo di 100 pazienti suddivisi in due serie da 50 pazienti ciascuna. Uno dei gruppi diventa il gruppo di controllo e riceve un placebo, mentre l'altro gruppo riceve il trattamento prescritto. Ciò costituisce due gruppi di campioni indipendenti che non sono accoppiati tra loro.

Test T pari varianza (o aggregata)

Il test t di varianza uguale viene utilizzato quando il numero di campioni in ciascun gruppo è lo stesso o la varianza dei due set di dati è simile. La seguente formula viene utilizzata per il calcolo del valore t e dei gradi di libertà per il test t di uguale varianza:

T-value = mean1 − mean2 (n1−1) × var12 + (n2−1) × var22n1 + n2−2 × 1n1 + 1n2where: mean1 e mean2 = Valori medi di ciascuno dei set di campionivar1 e var2 = Varianza di ciascuno dei set di campioni n1 e n2 = Numero di record in ciascun set di campioni \ begin {align} & \ text {T-value} = \ frac {mean1 - mean2} {\ sqrt {\ frac {(n1 - 1) \ times var1 ^ 2 + (n2 - 1) \ times var2 ^ 2} {n1 + n2 - 2}} \ times \ sqact {\ frac {1} {n1} + \ frac {1} {n2}}} \\ & \ textbf { dove:} \\ & mean1 \ text {e} mean2 = \ text {Valori medi di ciascuno} \\ & \ text {dei set di campioni} \\ & var1 \ text {e} var2 = \ text {Varianza di ciascuno dei set di campioni} \\ & n1 \ text {e} n2 = \ text {Numero di record in ciascun set di campioni} \\ \ end {allineato} Valore T = n1 + n2−2 (n1−1) × var12 + (n2 −1) × var22 × n11 + n21 mean1 − mean2 dove: mean1 e mean2 = valori medi di ciascuno dei set di campionivar1 e var2 = varianza di ciascuno dei set di campioni n1 e n2 = numero di record in ciascun campione set

e,

Gradi di libertà = n1 + n2−2 dove: n1 e n2 = Numero di record in ciascun set di campioni \ inizio {allineato} & \ text {Gradi di libertà} = n1 + n2 - 2 \\ & \ textbf {dove:} \\ & n1 \ text {and} n2 = \ text {Numero di record in ciascun set di campioni} \\ \ end {allineato} Gradi di libertà = n1 + n2−2where: n1 e n2 = Numero di record in ciascun set di campioni

Test T con varianza diseguale

Il test t di varianza disuguale viene utilizzato quando il numero di campioni in ciascun gruppo è diverso e anche la varianza dei due set di dati è diversa. Questo test è anche chiamato test t di Welch. La seguente formula viene utilizzata per il calcolo del valore t e dei gradi di libertà per un test t di varianza disuguale:

T-value = mean1 − mean2var12n1 + var22n2where: mean1 e mean2 = Valori medi di ciascuno dei set di campionivar1 e var2 = Varianza di ciascuno dei set di campioni n1 e n2 = Numero di record in ciascun set di campioni \ inizio {allineato} & \ testo {T-value} = \ frac {mean1 - mean2} {\ sqrt {\ frac {var1 ^ 2} {n1} + \ frac {var2 ^ 2} {n2}}} \\ & \ textbf {dove:} \ \ & mean1 \ text {e} mean2 = \ text {Valori medi di ciascuno} \\ & \ text {dei set di campioni} \\ & var1 \ text {e} var2 = \ text {Varianza di ciascuno dei set di campioni} \ \ & n1 \ text {and} n2 = \ text {Numero di record in ciascun set di campioni} \\ \ end {allineato} Valore T = n1var12 + n2var22 mean1 − mean2 dove: mean1 e mean2 = Valori medi di ciascuno dei set di campionivar1 e var2 = varianza di ciascuno dei set di campioni n1 e n2 = numero di record in ciascun set di campioni

e,

Gradi di libertà = (var12n1 + var22n2) 2 (var12n1) 2n1−1 + (var22n2) 2n2−1where: var1 e var2 = Varianza di ciascuno dei set di campioni n1 e n2 = Numero di record in ciascun set di campioni \ inizio {allineato } & \ text {Gradi di libertà} = \ frac {\ left (\ frac {var1 ^ 2} {n1} + \ frac {var2 ^ 2} {n2} \ right) ^ 2} {\ frac {\ left ( \ frac {var1 ^ 2} {n1} \ right) ^ 2} {n1 - 1} + \ frac {\ left (\ frac {var2 ^ 2} {n2} \ right) ^ 2} {n2 - 1}} \\ & \ textbf {dove:} \\ & var1 \ text {e} var2 = \ text {Varianza di ciascuno dei set di campioni} \\ & n1 \ text {e} n2 = \ text {Numero di record in ciascun set di campioni } \\ \ end {allineato} Gradi di libertà = n1−1 (n1var12) 2 + n2−1 (n2var22) 2 (n1var12 + n2var22) 2 dove: var1 e var2 = Varianza di ciascuno dei set di campioni n1 e n2 = Numero di record in ciascun set di campioni

Determinazione del test T corretto da utilizzare

Il seguente diagramma di flusso può essere utilizzato per determinare quale test t deve essere utilizzato in base alle caratteristiche dei set di campioni. Gli elementi chiave da considerare includono se i record del campione sono simili, il numero di record di dati in ciascun set di campioni e la varianza di ciascun set di campioni.

Immagine di Julie Bang © Investopedia 2019

Esempio di T-Test di varianza diseguale

Supponiamo che stiamo eseguendo una misurazione diagonale dei dipinti ricevuti in una galleria d'arte. Un gruppo di campioni comprende 10 dipinti, mentre l'altro include 20 dipinti. I set di dati, con i corrispondenti valori di media e varianza, sono i seguenti:

Set 1Set 2
19, 728.3
20.426.7
19.620.1
17.823.3
18.525.2
18, 922.1
18, 317, 7
18, 927.6
19.520, 6
21.9513.7
23.2
17.5
20, 6
18
23.9
21.6
24.3
20.4
23.9
13.3
Significare19.421.6
Varianza1.417.1

Sebbene la media del Set 2 sia superiore a quella del Set 1, non possiamo concludere che tutti i dipinti abbiano una lunghezza media di circa 21, 6 unità poiché la varianza del Set 2 è significativamente superiore al Set 1. È questo per caso o esistono delle differenze? nella popolazione complessiva di tutti i dipinti ricevuti nella galleria d'arte ">

Poiché il numero di set di dati è diverso (n1 = 10 e n2 = 20) e anche la varianza è diversa, il valore t e i gradi di libertà sono calcolati per il set di dati sopra usando la formula menzionata nel test T varianza diseguale sezione.

Il valore t è -2.24787. Poiché il segno meno può essere ignorato quando si confrontano i due valori t, il valore calcolato è 2, 24787.

Il valore dei gradi di libertà è 24, 38 ed è ridotto a 24, a causa della definizione della formula che richiede l'arrotondamento del valore al valore intero meno possibile.

Ogni volta che si assume una distribuzione normale, si può specificare un livello di probabilità (livello alfa, livello di significatività, p ) come criterio per l'accettazione. Nella maggior parte dei casi, si può assumere un valore del 5%.

Utilizzando il valore del grado di libertà come 24 e un livello di significatività del 5%, uno sguardo alla tabella di distribuzione del valore t dà un valore di 2.064. Il confronto di questo valore con il valore calcolato di 2, 247 indica che il valore t calcolato è maggiore del valore della tabella con un livello di significatività del 5%. Pertanto, è sicuro rifiutare l'ipotesi nulla che non vi sia alcuna differenza tra i mezzi. L'insieme della popolazione presenta differenze intrinseche e non sono casuali.

Confronta i conti di investimento Nome del fornitore Descrizione Descrizione dell'inserzionista × Le offerte che compaiono in questa tabella provengono da società di persone da cui Investopedia riceve un compenso.

Termini correlati

Come funziona l'analisi della varianza (ANOVA) L'analisi della varianza (ANOVA) è uno strumento di analisi statistica che separa la variabilità totale rilevata all'interno di un insieme di dati in due componenti: fattori casuali e sistematici. altro Comprensione della distribuzione T La distribuzione AT è un tipo di funzione di probabilità che è appropriata per stimare i parametri della popolazione per campioni di piccole dimensioni o varianze sconosciute. più Gradi di libertà Definizione Gradi di libertà si riferisce al numero massimo di valori logicamente indipendenti, che sono valori che hanno la libertà di variare, nel campione di dati. altro Come funziona la deviazione standard residua La deviazione standard residua è un termine statistico usato per descrivere la differenza nelle deviazioni standard dei valori osservati rispetto ai valori previsti, come mostrato dai punti in un'analisi di regressione. altro Come funziona la statistica Chi Square Una statistica chi square (χ2) è un test che misura il modo in cui le aspettative si confrontano con i dati effettivamente osservati (o i risultati del modello). I dati utilizzati nel calcolo di una statistica chi quadrato devono essere casuali, grezzi, reciprocamente esclusivi, tratti da variabili indipendenti e ricavati da un campione sufficientemente ampio. altro Come viene utilizzato il test Wilcoxon Il test Wilcoxon, che fa riferimento al test di somma dei ranghi o al test di classificazione firmato, è un test non parametrico che confronta due gruppi accoppiati. più collegamenti dei partner
Raccomandato
Lascia Il Tuo Commento