Intervallo di confidenza standard. Intervallo di confidenza per la stima della media (la varianza è nota) in MS EXCEL

Qualsiasi campione fornisce solo un'idea approssimativa della popolazione generale e tutte le caratteristiche statistiche del campione (media, moda, varianza ...) sono un'approssimazione o dicono una stima dei parametri generali, che nella maggior parte dei casi non possono essere calcolati a causa di l'inaccessibilità della popolazione generale (Figura 20) .

Figura 20. Errore di campionamento

Ma puoi specificare l'intervallo in cui, con un certo grado di probabilità, si trova il vero valore (generale) della caratteristica statistica. Questo intervallo è chiamato D intervallo di confidenza (CI).

Quindi la media generale con una probabilità del 95% si trova all'interno

da a, (20)

Dove T - valore tabulare del criterio di Student per α =0,05 e F= N-1

Può essere trovato e 99% CI, in questo caso T scelto per α =0,01.

Qual è il significato pratico di un intervallo di confidenza?

    Un ampio intervallo di confidenza indica che la media campionaria non riflette accuratamente la media della popolazione. Ciò è solitamente dovuto a una dimensione insufficiente del campione o alla sua eterogeneità, ad es. grande dispersione. Entrambi danno un grande errore nella media e, di conseguenza, un IC più ampio. E questo è il motivo per tornare alla fase di progettazione della ricerca.

    I limiti superiore e inferiore dell'IC valutano se i risultati saranno clinicamente significativi

Soffermiamoci più in dettaglio sulla questione del significato statistico e clinico dei risultati dello studio delle proprietà di gruppo. Ricordiamo che il compito della statistica è rilevare almeno alcune differenze nelle popolazioni generali, sulla base di dati campionari. È compito del clinico trovare tali differenze (non nessuna) che possano aiutare la diagnosi o il trattamento. E non sempre le conclusioni statistiche sono la base per le conclusioni cliniche. Pertanto, una diminuzione statisticamente significativa dell'emoglobina di 3 g/l non è motivo di preoccupazione. E, al contrario, se qualche problema nel corpo umano non ha un carattere di massa a livello dell'intera popolazione, questo non è un motivo per non affrontare questo problema.

Prenderemo in considerazione questa posizione in esempio.

I ricercatori si sono chiesti se i ragazzi che avevano qualche tipo di malattia infettiva fossero in ritardo rispetto ai loro coetanei nella crescita. A tale scopo è stato condotto uno studio selettivo, a cui hanno preso parte 10 ragazzi affetti da questa malattia. I risultati sono presentati nella tabella 23.

Tabella 23. Risultati statistici

limite inferiore

limite superiore

Specifiche (cm)

mezzo

Da questi calcoli ne consegue che l'altezza media selettiva dei ragazzi di 10 anni che hanno avuto qualche tipo di malattia infettiva è vicina alla norma (132,5 cm). Tuttavia, il limite inferiore dell'intervallo di confidenza (126,6 cm) indica che esiste una probabilità del 95% che la vera altezza media di questi bambini corrisponda al concetto di "bassa statura", cioè questi bambini sono rachitici.

In questo esempio, i risultati dei calcoli dell'intervallo di confidenza sono clinicamente significativi.

Stima degli intervalli di confidenza

Obiettivi formativi

Le statistiche considerano quanto segue due compiti principali:

    Abbiamo una stima basata su dati campione e vogliamo fare un'affermazione probabilistica su dove si trova il vero valore del parametro stimato.

    Abbiamo un'ipotesi specifica che deve essere testata sulla base di dati campione.

In questo argomento consideriamo il primo problema. Introduciamo anche la definizione di intervallo di confidenza.

Un intervallo di confidenza è un intervallo costruito attorno al valore stimato di un parametro e mostra dove si trova il vero valore del parametro stimato con una data probabilità a priori.

Dopo aver studiato il materiale su questo argomento, tu:

    conoscere qual è l'intervallo di confidenza della stima;

    imparare a classificare i problemi statistici;

    padroneggiare la tecnica di costruzione degli intervalli di confidenza, sia utilizzando formule statistiche che utilizzando strumenti software;

    imparare a determinare le dimensioni del campione richieste per raggiungere determinati parametri di accuratezza delle stime statistiche.

Distribuzioni delle caratteristiche del campione

T-distribuzione

Come discusso in precedenza, la distribuzione della variabile casuale è vicina a una distribuzione normale standardizzata con parametri 0 e 1. Poiché non conosciamo il valore di σ, lo sostituiamo con una stima s . La quantità ha già una distribuzione diversa, vale a dire, o Distribuzione degli studenti, che è determinato dal parametro n -1 (numero di gradi di libertà). Questa distribuzione è vicina alla distribuzione normale (maggiore è n, più vicine sono le distribuzioni).

Sulla fig. 95
Viene presentata la distribuzione degli studenti con 30 gradi di libertà. Come puoi vedere, è molto vicino alla distribuzione normale.

Analogamente alle funzioni per lavorare con la distribuzione normale DISTRIB.NORM e INV.NORM, ci sono funzioni per lavorare con la distribuzione t - DISTRIB.STUD (DISTRIB.T) e STUDRASPBR (TINV). Un esempio di utilizzo di queste funzioni è riportato nel file STUDRIST.XLS (template e soluzione) e in fig. 96
.

Distribuzioni di altre caratteristiche

Come già sappiamo, per determinare l'accuratezza della stima attesa, abbiamo bisogno di una distribuzione t. Per stimare altri parametri, come la varianza, sono necessarie altre distribuzioni. Due di loro sono la distribuzione F e x 2 -distribuzione.

Intervallo di confidenza per la media

Intervallo di confidenzaè un intervallo che è costruito attorno al valore stimato del parametro e mostra dove si trova il vero valore del parametro stimato con una data probabilità a priori.

Si verifica la costruzione di un intervallo di confidenza per il valore medio nel seguente modo:

Esempio

Il ristorante fast food prevede di ampliare il proprio assortimento con un nuovo tipo di sandwich. Per stimare la domanda, il gestore prevede di selezionare a caso 40 visitatori tra quelli che l'hanno già provato e chiedere loro di valutare il loro atteggiamento nei confronti del nuovo prodotto su una scala da 1 a 10. Il gestore vuole stimare il numero previsto di punti che il nuovo prodotto riceverà e costruire un intervallo di confidenza del 95% per questa stima. Come farlo? (vedi file SANDWICH1.XLS (modello e soluzione).

Soluzione

Per risolvere questo problema, puoi usare . I risultati sono presentati in fig. 97
.

Intervallo di confidenza per il valore totale

A volte, in base ai dati del campione, è necessario stimare non l'aspettativa matematica, ma la somma totale dei valori. Ad esempio, in una situazione con un revisore, potrebbe essere interessante stimare non il valore medio di una fattura, ma la somma di tutte le fatture.

Sia N il numero totale di elementi, n la dimensione del campione, T 3 la somma dei valori nel campione, T" la stima della somma sull'intera popolazione, quindi , e l'intervallo di confidenza è calcolato dalla formula , dove s è la stima della deviazione standard per il campione, è la stima della media per il campione.

Esempio

Supponiamo che un ufficio delle imposte voglia stimare l'importo dei rimborsi fiscali totali per 10.000 contribuenti. Il contribuente riceve un rimborso o paga tasse aggiuntive. Trova l'intervallo di confidenza del 95% per l'importo del rimborso, ipotizzando un campione di 500 persone (vedi file REFUND AMOUNT.XLS (modello e soluzione).

Soluzione

Non esiste una procedura speciale in StatPro per questo caso, tuttavia, puoi vedere che i limiti possono essere ottenuti dai limiti per la media utilizzando le formule precedenti (Fig. 98
).

Intervallo di confidenza per la proporzione

Sia p l'aspettativa di una quota di clienti, e pv una stima di tale quota, ottenuta da un campione di dimensione n. Si può dimostrare che per sufficientemente grande la distribuzione stimata sarà vicina alla normale con p media e deviazione standard . L'errore standard della stima in questo caso è espresso come , e l'intervallo di confidenza as .

Esempio

Il ristorante fast food prevede di ampliare il proprio assortimento con un nuovo tipo di sandwich. Per stimare la domanda, il gestore ha selezionato a caso 40 visitatori tra quelli che l'avevano già provato e ha chiesto loro di valutare il loro atteggiamento nei confronti del nuovo prodotto su una scala da 1 a 10. Il gestore vuole stimare la proporzione prevista di clienti che valutano il nuovo prodotto almeno di 6 punti (si aspetta che questi clienti siano i consumatori del nuovo prodotto).

Soluzione

Inizialmente, creiamo una nuova colonna sulla base di 1 se il punteggio del cliente era superiore a 6 punti e 0 altrimenti (vedi il file SANDWICH2.XLS (template e soluzione).

Metodo 1

Contando l'importo di 1, stimiamo la quota e quindi utilizziamo le formule.

Il valore di z cr è tratto da speciali tabelle di distribuzione normale (ad esempio, 1,96 per un intervallo di confidenza del 95%).

Utilizzando questo approccio e dati specifici per costruire un intervallo del 95%, otteniamo i seguenti risultati (Fig. 99
). Il valore critico del parametro z cr è 1,96. L'errore standard della stima è 0,077. Il limite inferiore dell'intervallo di confidenza è 0,475. Il limite superiore dell'intervallo di confidenza è 0,775. Pertanto, un manager può presumere con una certezza del 95% che la percentuale di clienti che valutano un nuovo prodotto con 6 punti o più sarà compresa tra 47,5 e 77,5.

Metodo 2

Questo problema può essere risolto utilizzando gli strumenti StatPro standard. Per fare ciò è sufficiente notare che la quota in questo caso coincide con il valore medio della colonna Tipo. Quindi applicare StatPro/Inferenza statistica/Analisi di un campione per costruire un intervallo di confidenza per il valore medio (stima prevista) per la colonna Tipo. I risultati ottenuti in questo caso saranno molto vicini al risultato del 1° metodo (Fig. 99).

Intervallo di confidenza per la deviazione standard

s viene utilizzato come stima della deviazione standard (la formula è riportata nella Sezione 1). La funzione di densità della stima s è la funzione chi-quadrato, che, come la distribuzione t, ha n-1 gradi di libertà. Ci sono funzioni speciali per lavorare con questa distribuzione CHI2DIST (CHIDIST) e CHI2OBR (CHIINV) .

L'intervallo di confidenza in questo caso non sarà più simmetrico. Lo schema condizionale dei confini è mostrato in fig. 100 .

Esempio

La macchina dovrebbe produrre pezzi con un diametro di 10 cm, tuttavia, a causa di varie circostanze, si verificano errori. Il controllore della qualità si preoccupa di due cose: primo, il valore medio dovrebbe essere di 10 cm; in secondo luogo, anche in questo caso, se le deviazioni sono ampie, molti dettagli verranno respinti. Ogni giorno realizza un campione di 50 parti (vedi file QUALITY CONTROL.XLS (modello e soluzione). Quali conclusioni può dare un tale campione?

Soluzione

Costruiamo intervalli di confidenza al 95% per la media e per la deviazione standard utilizzando StatPro/Inferenza statistica/ Analisi di un campione(figura 101
).

Inoltre, utilizzando l'ipotesi di una normale distribuzione dei diametri, calcoliamo la proporzione di prodotti difettosi, impostando una deviazione massima di 0,065. Utilizzando le capacità della tabella di ricerca (il caso di due parametri), costruiamo la dipendenza della percentuale di scarti dal valore medio e dalla deviazione standard (Fig. 102
).

Intervallo di confidenza per la differenza di due medie

Questa è una delle applicazioni più importanti dei metodi statistici. Esempi di situazione.

    Un gestore di un negozio di abbigliamento vorrebbe sapere quanto più o meno spende nel negozio l'acquirente donna media rispetto a un uomo.

    Le due compagnie aeree effettuano rotte simili. Un'organizzazione di consumatori vorrebbe confrontare la differenza tra i tempi medi di ritardo del volo previsti per entrambe le compagnie aeree.

    L'azienda invia coupon per determinati tipi di merci in una città e non invia in un'altra. I manager vogliono confrontare gli acquisti medi di questi articoli nei prossimi due mesi.

    Un concessionario di automobili si occupa spesso di coppie sposate alle presentazioni. Per comprendere le loro reazioni personali alla presentazione, le coppie vengono spesso intervistate separatamente. Il manager vuole valutare la differenza nelle valutazioni date da uomini e donne.

Caso di campioni indipendenti

La differenza media avrà una distribuzione t con n 1 + n 2 - 2 gradi di libertà. L'intervallo di confidenza per μ 1 - μ 2 è espresso dal rapporto:

Questo problema può essere risolto non solo con le formule di cui sopra, ma anche con gli strumenti StatPro standard. Per fare questo, è sufficiente applicare

Intervallo di confidenza per differenza tra proporzioni

Sia l'aspettativa matematica delle azioni. Siano le loro stime campionarie costruite rispettivamente su campioni di dimensione n 1 e n 2. Poi è una stima per la differenza . Pertanto, l'intervallo di confidenza per questa differenza è espresso come:

Qui z cr è il valore ottenuto dalla distribuzione normale di tabelle speciali (ad esempio, 1,96 per l'intervallo di confidenza del 95%).

L'errore standard della stima è espresso in questo caso dalla relazione:

.

Esempio

Il negozio, in preparazione della grande svendita, ha intrapreso le seguenti ricerche di mercato. I primi 300 acquirenti sono stati selezionati e divisi casualmente in due gruppi di 150 membri ciascuno. A tutti gli acquirenti selezionati sono stati inviati gli inviti a partecipare alla vendita, ma solo per i membri del primo gruppo è stato allegato un coupon che dava diritto ad uno sconto del 5%. Durante la vendita sono stati registrati gli acquisti di tutti i 300 acquirenti selezionati. Come può un manager interpretare i risultati e dare un giudizio sull'efficacia del couponing? (Vedi file COUPONS.XLS (modello e soluzione)).

Soluzione

Nel nostro caso specifico, su 150 clienti che hanno ricevuto un buono sconto, 55 hanno effettuato un acquisto in saldo, e tra i 150 che non hanno ricevuto un buono, solo 35 hanno effettuato un acquisto (Fig. 103
). Quindi i valori delle proporzioni del campione sono rispettivamente 0,3667 e 0,2333. E la differenza campionaria tra loro è pari a 0,1333, rispettivamente. Assumendo un intervallo di confidenza del 95%, troviamo dalla tabella della distribuzione normale z cr = 1.96. Il calcolo dell'errore standard della differenza campionaria è 0,0524. Infine, otteniamo che il limite inferiore dell'intervallo di confidenza al 95% è 0,0307 e il limite superiore è 0,2359, rispettivamente. I risultati ottenuti possono essere interpretati in modo tale che per ogni 100 clienti che hanno ricevuto un buono sconto, possiamo aspettarci da 3 a 23 nuovi clienti. Tuttavia, va tenuto presente che questa conclusione di per sé non significa l'efficienza dell'utilizzo dei coupon (perché fornendo uno sconto, perdiamo profitto!). Dimostriamolo su dati specifici. Supponiamo che l'importo medio dell'acquisto sia di 400 rubli, di cui 50 rubli. c'è un profitto del negozio. Quindi il profitto atteso per 100 clienti che non hanno ricevuto un coupon è pari a:

50 0,2333 100 \u003d 1166,50 rubli.

Calcoli simili per 100 acquirenti che hanno ricevuto un coupon danno:

30 0,3667 100 \u003d 1100,10 rubli.

La diminuzione del profitto medio a 30 è spiegata dal fatto che, utilizzando lo sconto, gli acquirenti che hanno ricevuto un coupon effettueranno, in media, un acquisto per 380 rubli.

Pertanto, la conclusione finale indica l'inefficienza dell'utilizzo di tali coupon in questa particolare situazione.

Commento. Questo problema può essere risolto utilizzando gli strumenti StatPro standard. Per fare ciò, è sufficiente ridurre questo problema al problema di stimare la differenza di due medie con il metodo, e quindi applicare StatPro/Inferenza statistica/Analisi a due campioni costruire un intervallo di confidenza per la differenza tra due valori medi.

Controllo dell'intervallo di confidenza

La lunghezza dell'intervallo di confidenza dipende da seguenti condizioni:

    dati diretti (deviazione standard);

    livello di significatività;

    misura di prova.

Dimensione del campione per la stima della media

Consideriamo prima il problema nel caso generale. Indichiamo il valore della metà della lunghezza dell'intervallo di confidenza che ci è stato dato come B (Fig. 104
). Sappiamo che l'intervallo di confidenza per il valore medio di una variabile casuale X è espresso come , Dove . Supponendo:

ed esprimendo n , otteniamo .

Sfortunatamente, non conosciamo il valore esatto della varianza della variabile casuale X. Inoltre, non conosciamo il valore di t cr in quanto dipende da n attraverso il numero di gradi di libertà. In questa situazione, possiamo fare quanto segue. Invece della varianza s, usiamo una stima della varianza per alcune realizzazioni disponibili della variabile casuale in esame. Invece del valore t cr, usiamo il valore z cr per la distribuzione normale. Questo è abbastanza accettabile, poiché le funzioni di densità per le distribuzioni normale e t sono molto vicine (ad eccezione del caso di n piccolo). Pertanto, la formula desiderata assume la forma:

.

Poiché la formula fornisce, in generale, risultati non interi, l'arrotondamento con un eccesso del risultato viene considerato come dimensione del campione desiderata.

Esempio

Il ristorante fast food prevede di ampliare il proprio assortimento con un nuovo tipo di sandwich. Per stimare la domanda, il gestore prevede di selezionare a caso un numero di visitatori tra quelli che l'hanno già provato e chiedere loro di valutare il loro atteggiamento nei confronti del nuovo prodotto su una scala da 1 a 10. Il gestore desidera per stimare il numero previsto di punti che il nuovo prodotto riceverà prodotto e tracciare l'intervallo di confidenza del 95% di quella stima. Tuttavia, vuole che metà dell'ampiezza dell'intervallo di confidenza non superi 0,3. Di quanti visitatori ha bisogno per sondare?

come segue:

Qui rottureè una stima della frazione p, e B è una data metà della lunghezza dell'intervallo di confidenza. Un valore gonfiato per n può essere ottenuto utilizzando il valore rotture= 0,5. In questo caso, la lunghezza dell'intervallo di confidenza non supererà il valore dato B per qualsiasi valore vero di p.

Esempio

Lascia che il manager dell'esempio precedente pianifichi di stimare la proporzione di clienti che preferiscono un nuovo tipo di prodotto. Vuole costruire un intervallo di confidenza al 90% la cui semilunghezza sia minore o uguale a 0,05. Quanti client devono essere campionati in modo casuale?

Soluzione

Nel nostro caso, il valore di z cr = 1.645. Pertanto, la quantità richiesta viene calcolata come .

Se il manager avesse motivo di credere che il valore desiderato di p sia, ad esempio, circa 0,3, allora sostituendo questo valore nella formula sopra, otterremmo un valore minore del campione casuale, vale a dire 228.

Formula da determinare dimensioni del campione casuali in caso di differenza tra due medie scritto come:

.

Esempio

Alcune società di computer hanno un centro di assistenza clienti. Di recente, il numero di reclami dei clienti sulla scarsa qualità del servizio è aumentato. Il centro servizi impiega principalmente due tipi di dipendenti: quelli con poca esperienza, ma che hanno completato corsi di formazione speciali, e quelli con una vasta esperienza pratica, ma che non hanno completato corsi speciali. L'azienda desidera analizzare i reclami dei clienti negli ultimi sei mesi e confrontare i loro numeri medi per ciascuno dei due gruppi di dipendenti. Si presume che i numeri nei campioni per entrambi i gruppi siano gli stessi. Quanti dipendenti devono essere inclusi nel campione per ottenere un intervallo del 95% con una mezza lunghezza non superiore a 2?

Soluzione

Qui σ ots è una stima della deviazione standard di entrambe le variabili casuali nell'ipotesi che siano vicine. Pertanto, nel nostro compito, dobbiamo in qualche modo ottenere questa stima. Questo può essere fatto, ad esempio, come segue. Esaminando i dati sui reclami dei clienti negli ultimi sei mesi, un manager può notare che generalmente ci sono tra 6 e 36 reclami per dipendente. Sapendo che per una distribuzione normale praticamente tutti i valori non sono più di tre deviazioni standard dalla media, può ragionevolmente ritenere che:

, da cui σ ots = 5.

Sostituendo questo valore nella formula, otteniamo .

Formula da determinare la dimensione di un campione casuale nel caso di stima della differenza tra le azioni sembra:

Esempio

Alcune aziende hanno due fabbriche per la produzione di prodotti simili. Il manager di un'azienda desidera confrontare i tassi di difettosità di entrambi gli stabilimenti. Secondo le informazioni disponibili, il tasso di rifiuto in entrambi gli stabilimenti va dal 3 al 5%. Dovrebbe costruire un intervallo di confidenza del 99% con una mezza lunghezza non superiore a 0,005 (o 0,5%). Quanti prodotti devono essere selezionati da ciascuna fabbrica?

Soluzione

Qui p 1ot ep 2ot sono stime di due frazioni incognite di scarti del 1° e del 2° stabilimento. Se mettiamo p 1ots \u003d p 2ots \u003d 0.5, otterremo un valore sovrastimato per n. Ma poiché nel nostro caso abbiamo alcune informazioni a priori su queste azioni, prendiamo la stima superiore di queste azioni, vale a dire 0,05. Noi abbiamo

Quando alcuni parametri della popolazione sono stimati a partire da dati campionari, è utile fornire non solo una stima puntuale del parametro, ma anche un intervallo di confidenza che mostri dove può trovarsi il valore esatto del parametro oggetto di stima.

In questo capitolo abbiamo anche familiarizzato con le relazioni quantitative che ci permettono di costruire tali intervalli per vari parametri; imparato modi per controllare la lunghezza dell'intervallo di confidenza.

Notiamo inoltre che il problema della stima della dimensione del campione (problema di pianificazione dell'esperimento) può essere risolto utilizzando gli strumenti StatPro standard, vale a dire StatPro/Inferenza statistica/Selezione dimensione campione.

Costruiamo un intervallo di confidenza in MS EXCEL per stimare il valore medio della distribuzione nel caso di un valore noto della varianza.

Ovviamente la scelta livello di fiducia dipende completamente dal compito da svolgere. Pertanto, il grado di fiducia del passeggero aereo nell'affidabilità dell'aeromobile, ovviamente, dovrebbe essere superiore al grado di fiducia dell'acquirente nell'affidabilità della lampadina.

Formulazione del compito

Supponiamo che da popolazione aver preso campione taglia nf. Si presume che deviazione standard questa distribuzione è nota. Necessario sulla base di questo campioni valutare l'ignoto media di distribuzione(μ, ) e costruire il corrispondente bilaterale intervallo di confidenza.

Stima puntuale

Come è noto da statistiche(chiamiamolo X cfr) È stima imparziale della media Questo popolazione e ha distribuzione N(μ;σ 2 /n).

Nota: E se hai bisogno di costruire intervallo di confidenza nel caso della distribuzione, che non è normale? In questo caso, viene in soccorso, che dice che con una taglia sufficientemente grande campioni n dalla distribuzione non- normale, distribuzione campionaria delle statistiche Х av Volere circa corrispondere distribuzione normale con parametri N(μ;σ 2 /n).

COSÌ, stima puntuale mezzo valori di distribuzione abbiamo è campione medio, cioè. X cfr. Ora diamoci da fare intervallo di confidenza.

Costruire un intervallo di confidenza

Di solito, conoscendo la distribuzione ei suoi parametri, possiamo calcolare la probabilità che una variabile casuale assuma un valore da un dato intervallo. Ora facciamo il contrario: troviamo l'intervallo in cui la variabile casuale cade con una data probabilità. Ad esempio, dalle proprietà distribuzione normaleè noto che con una probabilità del 95%, una variabile casuale distribuita su legge normale, rientrerà nell'intervallo di circa +/- 2 da valore medio(vedi articolo su). Questo intervallo servirà come nostro prototipo per intervallo di confidenza.

Ora vediamo se conosciamo la distribuzione , calcolare questo intervallo? Per rispondere alla domanda, dobbiamo specificare la forma di distribuzione ei suoi parametri.

Sappiamo che la forma di distribuzione è distribuzione normale(ricorda che stiamo parlando di distribuzione campionaria statistiche X cfr).

Il parametro μ ci è sconosciuto (deve solo essere stimato usando intervallo di confidenza), ma abbiamo la sua stima X cfr, calcolato in base a campione, che può essere utilizzato.

Il secondo parametro è media campionaria deviazione standard sarà noto, è uguale a σ/√n.

Perché non sappiamo μ, allora costruiremo l'intervallo +/- 2 deviazioni standard non da valore medio, ma dalla sua stima nota X cfr. Quelli. durante il calcolo intervallo di confidenza NON lo assumeremo X cfr rientrerà nell'intervallo +/- 2 deviazioni standard da μ con una probabilità del 95% e assumeremo che l'intervallo sia +/- 2 deviazioni standard da X cfr con una probabilità del 95% coprirà μ - la media della popolazione generale, da cui campione. Queste due affermazioni sono equivalenti, ma la seconda affermazione ci permette di costruire intervallo di confidenza.

Inoltre, perfezioniamo l'intervallo: una variabile casuale distribuita su legge normale, con una probabilità del 95% rientra nell'intervallo +/- 1.960 deviazioni standard, non +/- 2 deviazioni standard. Questo può essere calcolato usando la formula \u003d NORM.ST.OBR ((1 + 0,95) / 2), cm. file di esempio Spaziatura foglio.

Ora possiamo formulare un'affermazione probabilistica che ci servirà per formare intervallo di confidenza:
"La probabilità che popolazione media situato da media del campione entro 1.960" deviazioni standard della media campionaria", è pari al 95%.

Il valore di probabilità menzionato nell'affermazione ha un nome speciale , a cui è associato livello di significatività α (alfa) mediante una semplice espressione livello di fiducia =1 . Nel nostro caso livello di significatività α =1-0,95=0,05 .

Ora, sulla base di questa affermazione probabilistica, scriviamo un'espressione per il calcolo intervallo di confidenza:

dove Zα/2 standard distribuzione normale(un tale valore di una variabile casuale z.z, Che cosa P(z.z>=Zα/2 )=α/2).

Nota: Quantile α/2 superiore definisce la larghezza intervallo di confidenza v deviazioni standard campione medio. Quantile α/2 superiore standard distribuzione normaleè sempre maggiore di 0, il che è molto conveniente.

Nel nostro caso, a α=0.05, α/2-quantile superiore è uguale a 1,960. Per altri livelli di significatività α (10%; 1%) α/2-quantile superiore Zα/2 può essere calcolato utilizzando la formula \u003d NORM.ST.OBR (1-α / 2) o, se noto livello di fiducia, =NORM.ST.OBR((1+livello di confidenza)/2).

Di solito durante la costruzione intervalli di confidenza per la stima della media Usare solo α superiore/2-quantile e non utilizzare α inferiore/2-quantile. Questo è possibile perché standard distribuzione normale simmetrico rispetto all'asse x ( densità della sua distribuzione simmetrico circa media, cioè 0). Pertanto, non è necessario calcolare α/2-quantile inferiore(si chiama semplicemente α /2-quantile), Perché è uguale α superiore/2-quantile con un segno meno.

Ricordiamo che, indipendentemente dalla forma della distribuzione di x, la corrispondente variabile casuale X cfr distribuito circa Bene N(μ;σ 2 /n) (vedi articolo su). Pertanto, in generale, l'espressione precedente per intervallo di confidenzaè solo approssimativo. Se x è distribuito su legge normale N(μ;σ 2 /n), quindi l'espressione per intervallo di confidenzaè accurato.

Calcolo dell'intervallo di confidenza in MS EXCEL

Risolviamo il problema.
Il tempo di risposta di un componente elettronico a un segnale di ingresso è una caratteristica importante di un dispositivo. Un ingegnere desidera tracciare un intervallo di confidenza per il tempo di risposta medio a un livello di confidenza del 95%. Per esperienza precedente, l'ingegnere sa che la deviazione standard del tempo di risposta è di 8 ms. È noto che l'ingegnere ha effettuato 25 misurazioni per stimare il tempo di risposta, il valore medio era di 78 ms.

Soluzione: Un ingegnere vuole conoscere il tempo di risposta di un dispositivo elettronico, ma capisce che il tempo di risposta non è fisso, ma una variabile casuale che ha una sua distribuzione. Quindi il meglio che può sperare è determinare i parametri e la forma di questa distribuzione.

Sfortunatamente, dalla condizione del problema, non conosciamo la forma della distribuzione del tempo di risposta (non deve essere normale). , anche questa distribuzione è sconosciuta. Solo lui è conosciuto deviazione standardσ=8. Pertanto, mentre non possiamo calcolare le probabilità e costruire intervallo di confidenza.

Tuttavia, anche se non conosciamo la distribuzione tempo risposta separata, sappiamo che secondo CPT, distribuzione campionaria tempo medio di rispostaè approssimativamente normale(supponiamo che le condizioni CPT vengono eseguite, perché misurare campioni abbastanza grande (n=25)) .

Inoltre, media questa distribuzione è uguale a valore medio distribuzioni di risposta unitaria, cioè μ. UN deviazione standard di questa distribuzione (σ/√n) può essere calcolata utilizzando la formula =8/ROOT(25) .

È anche noto che l'ingegnere ha ricevuto stima puntuale parametro μ pari a 78 ms (X cf). Pertanto, ora possiamo calcolare le probabilità, perché conosciamo la forma di distribuzione ( normale) e i suoi parametri (Х ср e σ/√n).

L'ingegnere vuole sapere valore attesoμ della distribuzione del tempo di risposta. Come detto sopra, questo μ è uguale a aspettativa della distribuzione campionaria del tempo medio di risposta. Se usiamo distribuzione normale N(X cf; σ/√n), allora il μ desiderato sarà compreso nell'intervallo +/-2*σ/√n con una probabilità di circa il 95%.

Livello di significatività equivale a 1-0,95=0,05.

Infine, trova il bordo sinistro e destro intervallo di confidenza.
Bordo sinistro: \u003d 78-NORM.ST.INR (1-0.05 / 2) * 8 / RADICE (25) = 74,864
Bordo destro: \u003d 78 + NORM ST OBR (1-0,05 / 2) * 8 / RADICE (25) \u003d 81,136

Bordo sinistro: =NORM.INV(0.05/2; 78; 8/SQRT(25))
Bordo destro: =INV.NORM.(1-0.05/2; 78; 8/SQRT(25))

Risposta: intervallo di confidenza A Livello di confidenza del 95% e σ=8msec equivale 78+/-3.136 ms

IN file di esempio su foglio Sigma noto ha creato un modulo per il calcolo e la costruzione bilaterale intervallo di confidenza per arbitrario campioni con un dato σ e livello di significatività.

CONFIDENZA.NORM() funzione

Se i valori campioni sono nella gamma SI20: SI79 , UN livello di significatività pari a 0,05; quindi formula MS EXCEL:
=MEDIA(B20:B79)-FIDUCIA(0.05,σ, CONTEGGIO(B20:B79))
restituirà il bordo sinistro intervallo di confidenza.

Lo stesso limite può essere calcolato utilizzando la formula:
=MEDIA(B20:B79)-INV.ST.NORM(1-0.05/2)*σ/SQRT(COUNT(B20:B79))

Nota: La funzione TRUST.NORM() è apparsa in MS EXCEL 2010. Le versioni precedenti di MS EXCEL utilizzavano la funzione TRUST().

"Katren-Style" continua a pubblicare un ciclo di Konstantin Kravchik sulle statistiche mediche. In due articoli precedenti, l'autore ha toccato la spiegazione di concetti come e.

Konstantin Kravčik

Analista matematico. Specialista nel campo della ricerca statistica in ambito medico e umanistico

Città di Mosca

Molto spesso negli articoli sugli studi clinici è possibile trovare una frase misteriosa: "intervallo di confidenza" (95% CI o 95% CI - intervallo di confidenza). Ad esempio, un articolo potrebbe dire: "Il test t di Student è stato utilizzato per valutare la significatività delle differenze, con un intervallo di confidenza del 95% calcolato".

Qual è il valore dell'"intervallo di confidenza al 95%" e perché calcolarlo?

Cos'è un intervallo di confidenza? - Questo è l'intervallo in cui cadono i veri valori medi nella popolazione. E cosa, ci sono medie "false"? In un certo senso, sì, lo fanno. In abbiamo spiegato che è impossibile misurare il parametro di interesse nell'intera popolazione, quindi i ricercatori si accontentano di un campione limitato. In questo campione (ad esempio, in base al peso corporeo) esiste un valore medio (un certo peso), in base al quale giudichiamo il valore medio nell'intera popolazione generale. Tuttavia, è improbabile che il peso medio nel campione (soprattutto piccolo) coincida con il peso medio nella popolazione generale. Pertanto, è più corretto calcolare e utilizzare l'intervallo di valori medi della popolazione generale.

Ad esempio, supponiamo che l'intervallo di confidenza al 95% (IC 95%) per l'emoglobina sia compreso tra 110 e 122 g/L. Ciò significa che con una probabilità del 95 %, il vero valore medio dell'emoglobina nella popolazione generale sarà compreso tra 110 e 122 g/l. In altre parole, non conosciamo l'emoglobina media nella popolazione generale, ma possiamo indicare l'intervallo di valori per questa caratteristica con una probabilità del 95%.

Gli intervalli di confidenza sono particolarmente rilevanti per la differenza nelle medie tra i gruppi, o ciò che viene chiamato la dimensione dell'effetto.

Supponiamo di confrontare l'efficacia di due preparazioni di ferro: una che è sul mercato da molto tempo e una che è appena stata registrata. Dopo il corso della terapia, è stata valutata la concentrazione di emoglobina nei gruppi di pazienti studiati e il programma statistico ha calcolato per noi che la differenza tra i valori medi dei due gruppi con una probabilità del 95% è compresa tra da 1,72 a 14,36 g/l (Tabella 1).

Scheda. 1. Criterio per campioni indipendenti
(i gruppi vengono confrontati in base al livello di emoglobina)

Questo dovrebbe essere interpretato come segue: in una parte dei pazienti della popolazione generale che assumono un nuovo farmaco, l'emoglobina sarà mediamente più alta di 1,72-14,36 g/l rispetto a quelli che hanno assunto un farmaco già noto.

In altre parole, nella popolazione generale, la differenza dei valori medi dell'emoglobina nei gruppi con una probabilità del 95% rientra in questi limiti. Spetterà al ricercatore giudicare se questo è molto o poco. Il punto di tutto ciò è che non stiamo lavorando con un valore medio, ma con un intervallo di valori, quindi stimiamo in modo più affidabile la differenza in un parametro tra i gruppi.

Nei pacchetti statistici, a discrezione del ricercatore, è possibile restringere o espandere autonomamente i confini dell'intervallo di confidenza. Abbassando le probabilità dell'intervallo di confidenza, restringiamo l'intervallo delle medie. Ad esempio, al 90% CI, l'intervallo delle medie (o differenze medie) sarà più ristretto rispetto al 95% CI.

Al contrario, aumentando la probabilità al 99% si allarga l'intervallo di valori. Quando si confrontano i gruppi, il limite inferiore dell'IC può superare il segno zero. Ad esempio, se abbiamo esteso i limiti dell'intervallo di confidenza al 99 %, allora i limiti dell'intervallo variavano da –1 a 16 g/L. Ciò significa che nella popolazione generale ci sono gruppi, la differenza tra le medie tra cui per il tratto studiato è 0 (M=0).

Gli intervalli di confidenza possono essere utilizzati per testare ipotesi statistiche. Se l'intervallo di confidenza incrocia il valore zero, allora l'ipotesi nulla, che presuppone che i gruppi non differiscano nel parametro studiato, è vera. Un esempio è descritto sopra, quando abbiamo ampliato i limiti al 99%. Da qualche parte nella popolazione generale, abbiamo trovato gruppi che non differivano in alcun modo.

Intervallo di confidenza del 95% della differenza nell'emoglobina, (g/l)


La figura mostra l'intervallo di confidenza al 95% della differenza media di emoglobina tra i due gruppi come una linea. La linea passa il segno zero, quindi, c'è una differenza tra i mezzi pari a zero, che conferma l'ipotesi nulla che i gruppi non differiscono. La differenza tra i gruppi varia da -2 a 5 g/l, il che significa che l'emoglobina può diminuire di 2 g/l o aumentare di 5 g/l.

L'intervallo di confidenza è un indicatore molto importante. Grazie ad esso, puoi vedere se le differenze nei gruppi erano davvero dovute alla differenza delle medie o a un campione ampio, perché con un campione grande le possibilità di trovare differenze sono maggiori che con uno piccolo.

In pratica, potrebbe sembrare così. Abbiamo preso un campione di 1000 persone, misurato il livello di emoglobina e scoperto che l'intervallo di confidenza per la differenza delle medie è compreso tra 1,2 e 1,5 g/L. Il livello di significatività statistica in questo caso p

Vediamo che la concentrazione di emoglobina è aumentata, ma quasi impercettibilmente, quindi la significatività statistica è apparsa proprio a causa della dimensione del campione.

Gli intervalli di confidenza possono essere calcolati non solo per le medie, ma anche per le proporzioni (e gli indici di rischio). Ad esempio, siamo interessati all'intervallo di confidenza delle proporzioni di pazienti che hanno raggiunto la remissione durante l'assunzione del farmaco sviluppato. Si supponga che l'intervallo di confidenza al 95% per le proporzioni, ovvero per la proporzione di tali pazienti, sia compreso tra 0,60 e 0,80. Pertanto, possiamo dire che la nostra medicina ha un effetto terapeutico nel 60-80% dei casi.

In statistica, ci sono due tipi di stime: punto e intervallo. Stima puntualeè una singola statistica campionaria utilizzata per stimare un parametro della popolazione. Ad esempio, la media campionaria è una stima puntuale della media della popolazione e della varianza campionaria S2- stima puntuale della varianza della popolazione σ2. è stato dimostrato che la media campionaria è una stima imparziale dell'aspettativa della popolazione. La media campionaria è chiamata imparziale perché la media di tutte le medie campionarie (con la stessa dimensione campionaria N) è uguale all'aspettativa matematica della popolazione generale.

In ordine per la varianza campionaria S2 divenne uno stimatore imparziale della varianza della popolazione σ2, il denominatore della varianza campionaria deve essere posto uguale a N – 1 , ma no N. In altre parole, la varianza della popolazione è la media di tutte le possibili varianze campionarie.

Quando si stimano i parametri della popolazione, si dovrebbe tenere presente che statistiche campionarie come , dipendono da campioni specifici. Per tener conto di questo fatto, per ottenere stima dell'intervallo l'aspettativa matematica della popolazione generale analizza la distribuzione delle medie campionarie (per maggiori dettagli, vedi). L'intervallo costruito è caratterizzato da un certo livello di confidenza, che è la probabilità che il vero parametro della popolazione generale sia stimato correttamente. Intervalli di confidenza simili possono essere utilizzati per stimare la proporzione di una caratteristica R e la principale massa distribuita della popolazione generale.

Scarica nota in formato o, esempi in formato

Costruzione di un intervallo di confidenza per l'aspettativa matematica della popolazione generale con deviazione standard nota

Costruire un intervallo di confidenza per la proporzione di un tratto nella popolazione generale

In questa sezione, il concetto di intervallo di confidenza viene esteso ai dati categorici. Ciò consente di stimare la quota del tratto nella popolazione generale R con una quota campione RS=X/N. Come accennato, se i valori NR E N(1 - p) supera il numero 5, la distribuzione binomiale può essere approssimata da quella normale. Pertanto, per stimare la quota di un tratto nella popolazione generale Rè possibile costruire un intervallo il cui livello di confidenza è pari a (1 - α)x100%.


Dove PS- quota campionaria della caratteristica, pari a X/N, cioè. il numero di successi diviso per la dimensione del campione, R- la quota del tratto nella popolazione generale, zè il valore critico della distribuzione normale standardizzata, N- misura di prova.

Esempio 3 Ipotizziamo di estrarre dal sistema informativo un campione, costituito da 100 fatture emesse nell'ultimo mese. Diciamo che 10 di queste fatture non sono corrette. Così, R= 10/100 = 0,1. Il livello di confidenza del 95% corrisponde al valore critico Z = 1,96.

Pertanto, esiste una probabilità del 95% che tra il 4,12% e il 15,88% delle fatture contenga errori.

Per una data dimensione del campione, l'intervallo di confidenza contenente la proporzione del tratto nella popolazione generale sembra essere più ampio che per una variabile casuale continua. Questo perché le misurazioni di una variabile casuale continua contengono più informazioni rispetto alle misurazioni di dati categorici. In altre parole, i dati categorici che accettano solo due valori contengono informazioni insufficienti per stimare i parametri della loro distribuzione.

INcalcolo di stime tratte da una popolazione finita

Stima dell'aspettativa matematica. Fattore di correzione per la popolazione finale ( fpc) è stato utilizzato per ridurre l'errore standard di un fattore di . Quando si calcolano gli intervalli di confidenza per le stime dei parametri della popolazione, viene applicato un fattore di correzione in situazioni in cui i campioni vengono prelevati senza sostituzione. Pertanto, l'intervallo di confidenza per l'aspettativa matematica, con un livello di confidenza pari a (1 - α)x100%, è calcolato dalla formula:

Esempio 4 Per illustrare l'applicazione di un fattore di correzione per una popolazione finita, torniamo al problema del calcolo dell'intervallo di confidenza per l'importo medio delle fatture discusso nell'esempio 3. Supponiamo che una società emetta 5.000 fatture al mese e X=110,27 USD, S= $ 28,95 N = 5000, N = 100, α = 0,05, t99 = 1,9842. Dalla formula (6) si ottiene:

Stima della quota della caratteristica. Quando si sceglie nessun ritorno, l'intervallo di confidenza per la proporzione dell'elemento che ha un livello di confidenza uguale a (1 - α)x100%, è calcolato dalla formula:

Intervalli di confidenza e questioni etiche

Quando si campiona una popolazione e si formulano inferenze statistiche, spesso sorgono problemi etici. Il principale è come concordano gli intervalli di confidenza e le stime puntuali delle statistiche campionarie. Pubblicare stime puntuali senza specificare gli intervalli di confidenza appropriati (solitamente a livelli di confidenza del 95%) e la dimensione del campione da cui derivano può essere fuorviante. Ciò può dare all'utente l'impressione che una stima puntuale sia esattamente ciò di cui ha bisogno per prevedere le proprietà dell'intera popolazione. Pertanto, è necessario capire che in qualsiasi ricerca, non le stime puntuali, ma gli intervalli dovrebbero essere messe in primo piano. Inoltre, è necessario prestare particolare attenzione alla scelta corretta delle dimensioni del campione.

Molto spesso, gli oggetti delle manipolazioni statistiche sono i risultati di indagini sociologiche della popolazione su varie questioni politiche. Allo stesso tempo, i risultati del sondaggio vengono pubblicati sulle prime pagine dei giornali e l'errore di campionamento e la metodologia dell'analisi statistica vengono stampati da qualche parte nel mezzo. Per dimostrare la validità delle stime puntuali ottenute, è necessario indicare la dimensione del campione sulla base della quale sono state ottenute, i limiti dell'intervallo di confidenza e il suo livello di significatività.

Prossima nota

Vengono utilizzati materiali tratti dal libro Levin et al., Statistiche per manager. - M.: Williams, 2004. - p. 448–462

Teorema del limite centrale afferma che, data una dimensione campionaria sufficientemente ampia, la distribuzione campionaria delle medie può essere approssimata da una distribuzione normale. Questa proprietà non dipende dal tipo di distribuzione della popolazione.