Eroare standard

Standard de eroare sau eroarea de eșantionare este o măsură a dispersiei pentru o funcție de estimare pentru un parametru necunoscut al populației . Eroarea standard este definită ca deviația standard a estimatorului, adică rădăcina pătrată pozitivă a varianței . În științele naturii și metrologie, este folosit și termenul de incertitudine standard , inventat de GUM . ${\ displaystyle {\ hat {\ vartheta}}}$ ${\ displaystyle \ vartheta}$ ${\ displaystyle \ sigma ({\ hat {\ vartheta}}) = + {\ sqrt {\ operatorname {Var} ({\ hat {\ vartheta}})}}$ ${\ displaystyle {\ hat {\ vartheta}}}$

În cazul unui estimator imparțial , eroarea standard este deci o măsură a deviației medii a valorii parametrului estimat de la valoarea parametrului adevărat. Cu cât este mai mică eroarea standard, cu atât mai precis parametrul necunoscut poate fi estimat folosind estimatorul. Eroarea standard depinde, printre altele, de

mărimea eșantionului și
varianța populației.

În general, cu cât eșantionul este mai mare, cu atât este mai mică eroarea standard; cu cât varianța este mai mică, cu atât este mai mică eroarea standard.

Eroarea standard joacă, de asemenea, un rol important în calcularea erorilor de estimare , a intervalelor de încredere și a statisticilor de testare .

interpretare

Eroarea standard oferă o declarație despre calitatea parametrului estimat. Cu cât sunt mai multe valori individuale, cu atât este mai mică eroarea standard și cu atât mai precis poate fi estimat parametrul necunoscut. Eroarea standard face ca răspândirea măsurată (deviația standard) a două seturi de date cu dimensiuni diferite ale eșantionului să fie comparabile prin normalizarea deviației standard la dimensiunea eșantionului.

Dacă parametrul necunoscut este estimat cu ajutorul mai multor eșantioane, rezultatele vor varia de la eșantion la eșantion. Desigur, această variație nu provine dintr-o variație a parametrului necunoscut (deoarece este fix), ci din influențe aleatorii, de ex. B. Inexactități de măsurare. Eroarea standard este abaterea standard a parametrilor estimate în multe eșantioane. În general, înjumătățirea erorii standard necesită de patru ori dimensiunea eșantionului.

Spre deosebire de aceasta, abaterea standard descrie răspândirea efectivă într-o populație , care este prezentă, de asemenea, cu cea mai mare precizie de măsurare și un număr infinit de măsurători individuale (de exemplu, pentru distribuția greutății, distribuția mărimii, venitul lunar). Acesta arată dacă valorile individuale sunt apropiate sau dacă datele sunt răspândite pe scară largă.

exemplu

Să presupunem că studiați populația copiilor din liceu în funcție de performanța lor de inteligență. Deci, parametrul necunoscut este performanța medie a inteligenței copiilor care frecventează liceul. Dacă din această populație se extrage un eșantion aleatoriu de mărime (adică cu copii), atunci valoarea medie poate fi calculată din toate rezultatele măsurătorilor . Dacă, după acest eșantion, se extrage un alt eșantion aleatoriu cu același număr de copii și se determină valoarea sa medie, cele două valori medii nu se vor potrivi exact. Dacă se extrage un număr mare de alte probe aleatorii ale domeniului de aplicare , atunci se poate determina răspândirea tuturor valorilor medii determinate empiric în jurul valorii medii a populației. Această răspândire este eroarea standard. Deoarece media eșantionului este cea mai bună estimare a mediei populației, eroarea standard este dispersia mediilor empirice în jurul mediei populației. Nu arată distribuția inteligenței copiilor, ci acuratețea mediei calculate. ${\ displaystyle n}$ ${\ displaystyle n}$ ${\ displaystyle n}$ ${\ displaystyle n}$ ${\ displaystyle n}$

notaţie

Pentru eroarea standard se utilizează diferiți termeni pentru a o deosebi de abaterea standard a populației și pentru a clarifica faptul că este răspândirea parametrului estimat al eșantioanelor: ${\ displaystyle \ sigma}$

${\ displaystyle \ sigma _ {n}}$ ,
${\ displaystyle \ sigma ({\ hat {\ vartheta}})}$ sau
${\ displaystyle \ sigma _ {\ hat {\ vartheta}}}$ .

estima

Deoarece eroarea standard a populației este inclusă în eroarea standard, deviația standard în populație trebuie estimată folosind un estimator cât mai precis posibil pentru a estima eroarea standard. ${\ displaystyle \ sigma}$

Intervalele și testele de încredere

Eroarea standard joacă, de asemenea, un rol important în intervalele de încredere și teste . Dacă estimatorul este corect față de așteptări și cel puțin aproximativ distribuit în mod normal ( ), atunci este ${\ displaystyle {\ hat {\ vartheta}}}$ ${\ displaystyle {\ mathcal {N}} (\ vartheta, \ sigma ^ {2} ({\ hat {\ vartheta}}))}$

{\ displaystyle {\ frac {{\ hat {\ vartheta}} - \ vartheta} {\ sigma ({\ hat {\ vartheta}})}} \ approx {\ mathcal {N}} (0; 1)}

.

Pe această bază, - Intervalele de încredere pot fi specificate pentru parametrul necunoscut : ${\ displaystyle (1- \ alpha)}$ ${\ displaystyle \ vartheta}$

{\ displaystyle P ({\ hat {\ vartheta}} - z_ {1- \ alpha / 2} \ sigma ({\ hat {\ vartheta}}) \ leq \ vartheta \ leq {\ hat {\ vartheta}} + z_ {1- \ alpha / 2} \ sigma ({\ hat {\ vartheta}})) = 1- \ alpha}

sau formulați teste, de ex. B. dacă parametrul își asumă o anumită valoare : ${\ displaystyle \ vartheta _ {0}}$

{\ displaystyle H_ {0}: \ vartheta = \ vartheta _ {0}}

vs.

{\ displaystyle H_ {1}: \ vartheta \ neq \ vartheta _ {0}}

iar statistica testului rezultă în:

{\ displaystyle V = {\ frac {{\ hat {\ vartheta}} - \ vartheta _ {0}} {\ sigma ({\ hat {\ vartheta}})}} \ approx {\ mathcal {N}} ( 0; 1)}

.

${\ displaystyle z_ {1- \ alpha / 2}}$ este - cuantila distribuției normale standard și este, de asemenea, valoarea critică pentru testul formulat. De regulă, trebuie estimat din eșantion, astfel încât ${\ displaystyle (1- \ alpha / 2)}$ ${\ displaystyle \ sigma ({\ hat {\ vartheta}})}$

{\ displaystyle V = {\ frac {{\ hat {\ vartheta}} - \ vartheta _ {0}} {{\ hat {\ sigma}} ({\ hat {\ vartheta}})} \ approx t_ { n-1}}

deține, unde este numărul de observații. Pentru distribuția t se poate aproxima prin distribuția normală standard. ${\ displaystyle n}$ ${\ displaystyle n \ geq 30}$

Eroare standard a mediei aritmetice

Eroarea standard a mediei aritmetice este aceeași

{\ displaystyle \ sigma ({\ overline {X}}) = {\ frac {\ sigma} {\ sqrt {n}}}}

,

unde denotă abaterea standard a unei singure măsurători. ${\ displaystyle \ sigma}$

Derivare

Media unei mărimi a eșantionului este definită de ${\ displaystyle n}$

{\ displaystyle {\ overline {x}} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} x_ {i}.}

Privind estimatorul

{\ displaystyle {\ overline {X}} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} X_ {i}}

cu variabile aleatorii independente, distribuite identic cu varianță finită , eroarea standard este definită ca rădăcina pătrată a varianței lui . Folosind regulile de calcul pentru varianțe și ecuația Bienaymé, se calculează : ${\ displaystyle X_ {1}, \ ldots, X_ {n}}$ ${\ displaystyle \ sigma ^ {2}}$ ${\ displaystyle {\ overline {X}}}$

{\ displaystyle \ sigma ({\ overline {X}}) ^ {2} = \ operatorname {Var} \ left ({\ overline {X}} \ right) = \ operatorname {Var} \ left ({\ frac { 1} {n}} \ sum _ {i = 1} ^ {n} X_ {i} \ right) = {\ frac {1} {n ^ {2}}} \ operatorname {Var} \ left (\ sum _ {i = 1} ^ {n} X_ {i} \ right) = {\ frac {1} {n ^ {2}}} \ sum _ {i = 1} ^ {n} \ operatorname {Var} \ left (X_ {i} \ right) = {\ frac {1} {n ^ {2}}} n \ sigma ^ {2} = {\ frac {\ sigma ^ {2}} {n}}}

din care urmează formula erorii standard. Dacă este adevărat, atunci urmează în mod analog ${\ displaystyle \ operatorname {Var} (X_ {i}) = \ sigma _ {i} ^ {2}}$

{\ displaystyle \ sigma ({\ overline {X}}) ^ {2} = {\ frac {1} {n ^ {2}}} \ sum _ {i = 1} ^ {n} \ sigma _ {i } ^ {2}}

.

Calculul ${\ displaystyle \ sigma}$

Presupunând o distribuție a eșantionului, eroarea standard poate fi calculată utilizând varianța distribuției eșantionului:

în distribuția binomială cu parametri ${\ displaystyle N, \, p}$

{\ displaystyle \ sigma _ {{\ bar {x}}, \ mathrm {binom}} = {\ frac {\ sqrt {N \ cdot p \ cdot (1-p)}} {\ sqrt {n}}} }

,

pentru distribuția exponențială cu parametri (valoare așteptată = deviație standard = ): ${\ displaystyle \ lambda}$ ${\ displaystyle 1 / \ lambda}$

{\ displaystyle \ sigma _ {{\ bar {x}}, \ mathrm {exp}} = {\ frac {1} {\ lambda {\ sqrt {n}}}}}

și pentru distribuția Poisson cu parametri (valoare așteptată = varianță = ): ${\ displaystyle \ lambda}$ ${\ displaystyle \ lambda}$

{\ displaystyle \ sigma _ {{\ bar {x}}, \ mathrm {poisson}} = {\ sqrt {\ frac {\ lambda} {n}}}}

Desemnează-l

${\ displaystyle \ sigma _ {{\ bar {x}}, \ mathrm {binom}}, \ sigma _ {{\ bar {x}}, \ mathrm {exp}}, \ sigma _ {{\ bar {x }}, \ mathrm {poisson}}}$ erorile standard ale distribuțiilor respective și
${\ displaystyle n}$ mărimea eșantionului.

Dacă trebuie estimată eroarea standard pentru medie, atunci varianța este estimată cu varianța corectată a eșantionului . ${\ displaystyle \ sigma ^ {2}}$

exemplu

Pentru datele de înghețată, media aritmetică, eroarea standard și abaterea standard pentru anii 1951, 1952 și 1953 au fost calculate pentru consumul de înghețată pe cap de locuitor (măsurat în pinte ).

an	In medie	Eroare standard a mediei	Abaterea standard	Numărul de observații
1951	0,34680	0,01891	0,05980	10
1952	0,34954	0,01636	0,05899	13
1953	0,39586	0,03064	0,08106	Al 7-lea

Pentru anii 1951 și 1952, valorile medii estimate și abaterile standard, precum și numerele de observație sunt aproximativ aceleași. Prin urmare, erorile standard estimate oferă, de asemenea, aproximativ aceeași valoare. În 1953, pe de o parte, numărul de observații este mai mic, iar abaterea standard este mai mare. Prin urmare, eroarea standard este aproape dublă față de erorile standard din 1951 și 1952.

Intervalele de estimare de 95% timp de trei ani pentru media aritmetică a consumului de înghețată pe cap de locuitor.

Reprezentarea grafică poate avea loc prin intermediul unei diagrame cu bare de eroare . Intervalele de estimare de 95% pentru anii 1951, 1952 și 1953 sunt afișate în dreapta. Dacă funcția eșantionului este cel puțin aproximativ distribuită în mod normal, atunci intervalele de estimare de 95% sunt date de cu și media eșantionului și varianțele eșantionului. ${\ displaystyle {\ bar {X}}}$ ${\ displaystyle {\ bar {x_ {j}}} \ pm 1 {,} 96 \ cdot s_ {j} / {\ sqrt {n_ {j}}}}$ ${\ displaystyle j = 1951.1952.1953}$ ${\ displaystyle {\ bar {x}} _ {j}}$ ${\ displaystyle s_ {j} ^ {2}}$

Și aici se poate vedea clar că valoarea medie pentru 1953 poate fi estimată mai imprecis decât valorile medii pentru 1951 și 1952 (bară mai lungă pentru 1953).

Eroare standard a coeficienților de regresie în modelul de regresie simplu

Modelul clasic de regresie pentru regresia liniară simplă presupune că ${\ displaystyle Y_ {i} = \ beta _ {0} + \ beta _ {1} x_ {i} + \ varepsilon _ {i}}$

a termenilor perturbatori sunt în mod normal distribuite , ${\ displaystyle \ varepsilon _ {i} \ sim \, (0, \ sigma ^ {2})}$
termenii sunt independenți și
valorile sunt fixe (adică nu există variabile aleatorii), ${\ displaystyle x_ {i}}$

cu observațiile făcute prin alergare. Pentru estimatori ${\ displaystyle i = 1, \ ldots, n}$

{\ displaystyle {\ hat {\ beta}} _ {1} = {\ frac {\ sum _ {i} (x_ {i} - {\ overline {x}}) (Y_ {i} - {\ overline { Y}})} {\ sum _ {i} (x_ {i} - {\ overline {x}}) ^ {2}}}}

și

{\ displaystyle {\ hat {\ beta}} _ {0} = {\ overline {Y}} - {\ hat {\ beta}} _ {1} {\ overline {x}}}

apoi rezultă

{\ displaystyle {\ hat {\ beta}} _ {1} \ sim {\ mathcal {N}} (\ beta _ {1}, \ sigma _ {{\ hat {\ beta}} _ {1}} ^ {2} \ cdot a_ {1}) \,}

și .

{\ displaystyle {\ hat {\ beta}} _ {0} \ sim {\ mathcal {N}} (\ beta _ {0}, \ sigma _ {{\ hat {\ beta}} _ {0}} ^ {2} \ cdot a_ {0})}

Cele Erorile standard ale coeficienților de regresie sunt date de

{\ displaystyle \ sigma _ {{\ hat {\ beta}} _ {1}} = \ operatorname {SD} ({\ hat {\ beta}} _ {1}) = \ sigma {\ sqrt {\ underbrace { \ frac {1} {\ sum \ nolimits _ {i = 1} ^ {n} (x_ {i} - {\ overline {x}}) ^ {2}}} _ {=: a_ {1}}} } = \ sigma \ cdot {\ sqrt {a_ {1}}}}

și

{\ displaystyle \ sigma _ {{\ hat {\ beta}} _ {0}} = \ operatorname {SD} ({\ hat {\ beta}} _ {0}) = \ sigma {\ sqrt {\ underbrace { \ frac {\ sum \ nolimits _ {i = 1} ^ {n} x_ {i} ^ {2}} {n \ sum \ nolimits _ {i = 1} ^ {n} (x_ {i} - {\ overline {x}}) ^ {2}}} _ {=: a_ {0}}}} = \ sigma \ cdot {\ sqrt {a_ {0}}}}

.

Exemplu : Pentru datele de înghețată, s-a efectuat o regresie liniară simplă pentru consumul de înghețată pe cap de locuitor (măsurat în jumătate de litri) cu temperatura medie săptămânală (în Fahrenheit) ca variabilă independentă. Estimarea modelului de regresie a dus la:

{\ displaystyle {\ text {Consumul pe cap de locuitor}} = 0 {,} 20686 + 0 {,} 00311 \ cdot {\ text {Temperatura}}}

.

model	Coeficienți nestandardizați		Coeficienți standardizați	T	Sig.
	Coeficienți de regresie	Eroare standard	Coeficienți standardizați
constant	0,20686	0,02470		8,375	0,000
temperatura	0,00311	0,00048	0,776	6.502	0,000

Deși coeficientul de regresie estimat pentru temperatura medie săptămânală este foarte mic, eroarea standard estimată a dat o valoare și mai mică. Precizia cu care se estimează coeficientul de regresie este de 6,5 ori mai mică decât coeficientul în sine.

Relația cu log-probabilitatea

Termenul este, de asemenea, cunoscut sub numele de eroare standard a estimatorului de maximă probabilitate , unde funcția log-probabilitate și reprezintă informațiile Fisher observate (informațiile Fisher în locul estimatorului ML ). ${\ displaystyle \ sigma ({\ hat {\ theta}} _ {ML}) = {\ frac {1} {\ sqrt {- {\ frac {\ partial ^ {2}} {\ partial \ theta ^ {2 }}} \ ell ({\ hat {\ theta}} _ {ML})}}}}$ ${\ displaystyle \ ell (\ cdot) = \ log {\ mathcal {L}} (\ cdot)}$ ${\ displaystyle - {\ frac {\ partial ^ {2}} {\ partial \ theta ^ {2}}} \ ell ({\ hat {\ theta}} _ {ML})}$ ${\ displaystyle {\ hat {\ theta}} _ {ML}}$

Vezi si

Eroare standard de regresie

Dovezi individuale

↑ ^a^b Koteswara Rao Kadiyala (1970): Testarea independenței tulburărilor de regresie. În: Econometrica , 38, 97-117.
↑ ^a^b date de înghețată. În: Data and Story Library , accesat la 16 februarie 2010
↑ Supliment: Intervale de probabilitate de log și de încredere. Adus la 14 iulie 2021 .

[krk-1] Koteswara Rao Kadiyala (1970): Testarea independenței tulburărilor de regresie. În: Econometrica , 38, 97-117.

[icecream-2] date de înghețată. În: Data and Story Library , accesat la 16 februarie 2010

[Loglikelihood_and_Confidence_Intervals-3] Supliment: Intervale de probabilitate de log și de încredere. Adus la 14 iulie 2021 .

Languages

Eroare standard

cuprins

interpretare

exemplu

notaţie

estima

Intervalele și testele de încredere