Hvad er den centrale grænse sætning?

Hvad er den centrale grænse sætning?
Anonim

Svar:

Den centrale grænse sætning gør det intuitivt, at estimater af middelværdien (estimeret fra en prøve) af en vis måling i forbindelse med en del befolkning forbedres efterhånden som prøvenes størrelse stiger.

Forklaring:

Forestil dig en skov med 100 træer.

Forestil dig nu at (temmelig urealistisk) at målt i meter, en fjerdedel af dem har en højde på 2, en fjerdedel af dem har en højde på 3, en fjerdedel af dem har en højde på 4, og en fjerdedel af dem har en højde på 5

Forestil dig at måle højden af hvert træ i skoven og bruge oplysningerne til at konstruere et histogram med passende udvalgte binstørrelser (f.eks. 1,5 til 2,5, 2,5 til 3,5, 3,5 til 4,5 og 5,5 til 6,5; jeg er klar over, at jeg ikke har angivet den bakke, som grænserne hører til, men det er ligegyldigt her).

Du kan bruge histogrammet til at estimere sandsynlighedsfordelingen af træerne. Det ville helt klart ikke være normalt.Faktisk ville det være ensartet at give endepunkterne passende, fordi der ville være ens antal træer svarende til en af de angivne højder i hver bin.

Forestil dig nu at gå ind i skoven og måle højden på kun to træer; Beregn middelhøjden af disse to træer og noter den. Gentag denne operation flere gange, så du ville have en samling af middelværdierne for prøver af størrelse 2. Hvis du skulle plotte et histogram af estimaterne af middelværdien, ville det ikke længere være ensartet. I stedet er det sandsynligt, at der ville være flere målinger (estimater af middelværdien baseret på prøver af størrelse 2) nær den samlede gennemsnitlige højde af alle træerne i skoven (i dette særlige tilfælde,

#(2 + 3 + 4 + 5)/4 = 3.5# meter).

Som der ville være mere estimater af middelværdien i nærheden af sand befolkning betyder (hvilket er kendt i dette urealistiske eksempel), end langt fra det gennemsnitlige, ville formen på dette nye histogram være tættere på en normal fordeling (med en top nær gennemsnittet).

Forestil dig nu at gå ind i skoven og gentage øvelsen, bortset fra at du måler højden af 3 træer, beregner middelværdien i hvert tilfælde og noterer det. Det histogram, du ville konstruere, ville have endnu flere estimater af middelværdien nær det sande middel, med mindre spredning (chancen for at vælge tre træer i en enkelt prøve, så de alle kommer fra en af slutgrupperne --- enten selve høj eller meget kort --- er mindre end at vælge tre træer med et udvalg af højder). Formen på dit histogram, der omfatter et estimat af middelstørrelsen (hvert middel baseret på tre målinger) ville være tættere på en normalfordeling, og den tilsvarende standardafvigelse (af estimaterne af middelværdien, ikke af forældrenes befolkning) ville være mindre.

Gentag dette for 4, 5, 6 osv. Træer per gennemsnit, og det histogram, du ville konstruere, ville mere og mere se ud som en normal fordeling (med gradvist større prøvestørrelser) med middelværdien af distribution af det estimater af middelværdien at være tættere på det sande middel, og standardafvigelsen af estimaterne af middelværdien bliver smalere og snævrere.

Hvis du gentager øvelsen for den (degenererede) sag, hvor alle træerne måles (ved flere lejligheder, bemærkede middelværdien i hvert tilfælde), vil histogrammet kun have estimater af middelværdien kun i en af bakkerne (den der svarer til det sande middel) uden nogen variation, således at standardafvigelsen for (sandsynlighedsfordelingen estimeret fra) at "histogram" ville være nul.

Så bemærker den centrale grænsesætning, at middelværdien af det enkelte estimat af gennemsnittet af nogle befolkninger nærmer sig det sande middel, og standardafvigelsen af estimatet af middelværdien (i stedet for standardafvigelsen for fordeling af moderpopulationen) bliver gradvis mindre for større stikstørrelser.