Ang empirical na halaga ng Pearson criterion ay tinutukoy ng formula. Pagsubok sa pamamahagi ng hypothesis

Ang pagsubok sa mga istatistikal na hypotheses ay may kasamang malaking bilang ng mga gawain mga istatistika ng matematika. Dahil alam ang ilang katangian ng sample (o simpleng pagkakaroon ng sample na data), maaari naming subukan ang mga hypotheses tungkol sa uri ng pamamahagi ng isang random na variable o mga parameter nito (mga halimbawa ng mga gawaing ito sa pahina Pagsubok ng mga hypotheses tungkol sa mga parameter ng pamamahagi).

Sa ibaba, sa mga halimbawa, susuriin namin ang mga pangunahing gawaing pang-edukasyon para sa pagsubok ng mga hypotheses tungkol sa uri ng pamamahagi. Kadalasan, ang Pearson $\chi^2$ goodness-of-fit criterion, gayundin ang Kolmogorov-Smirnov criterion, ay ginagamit para sa layuning ito.

Pearson goodness-of-fit test(o ang $\chi^2$ criterion - "chi square") - kadalasang ginagamit upang subukan ang hypothesis na ang isang partikular na sample ay kabilang sa isang theoretical distribution law (sa mga gawaing pang-edukasyon Kadalasan ay sinusuri nila ang "normalidad" - pamamahagi ayon sa normal na batas).

Sa mga gawaing pang-edukasyon ang mga sumusunod ay karaniwang ginagamit algorithm:

  1. Pagpili ng isang teoretikal na batas sa pamamahagi (karaniwang tinukoy nang maaga; kung hindi tinukoy, sinusuri namin ang sample, halimbawa, gamit ang isang histogram ng mga kamag-anak na frequency, na ginagaya ang density ng pamamahagi).
  2. Tinatantya namin ang mga parameter ng pamamahagi para sa sample (para dito kinakalkula namin inaasahang halaga at pagkakaiba-iba): $a, \sigma$ para sa normal, $a,b$ - para sa uniporme, $\lambda$ - para sa Poisson distribution, atbp.
  3. Ang mga halaga ng teoretikal na dalas ay kinakalkula (sa pamamagitan ng mga teoretikal na posibilidad na mahulog sa pagitan) at inihambing sa mga orihinal (sample).
  4. Ang halaga ng estadistika ng $\chi^2$ ay sinusuri at ang isang konklusyon ay ginawa tungkol sa pagsunod (o hindi) sa teoretikal na batas sa pamamahagi.

Makakakita ka ng mga detalyadong halimbawa para sa iba't ibang distribusyon at pamantayan sa ibaba.


Nagustuhan? Idagdag sa mga bookmark

Mga halimbawa ng mga solusyon para sa pagsubok ng mga hypotheses online

Pearson test, normal na pamamahagi

Halimbawa 1. Gamit ang Pearson test, sa antas ng kahalagahan na 0.05, suriin kung ang hypothesis tungkol sa normal na pamamahagi populasyon X batay sa mga resulta ng sampling:
X 0.3 0.5 0.7 0.9 1.1 1.3 1.5 1.7 1.9 2.1 2.3
N 7 9 28 27 30 26 21 25 22 9 5

Halimbawa 2. 200 natapos na mga bahagi ay napagmasdan para sa mga paglihis ng tunay na sukat mula sa kinakalkula. Ang pinagsama-samang data ay ipinapakita sa sumusunod na talahanayan:
Bumuo ng histogram batay sa istatistikal na seryeng ito. Batay sa anyo ng histogram, maglagay ng hypothesis tungkol sa uri ng batas sa pamamahagi (halimbawa, ipagpalagay na ang halagang pinag-aaralan ay may normal na batas sa pamamahagi). Piliin ang mga parameter ng batas sa pamamahagi (katumbas ng kanilang mga pagtatantya batay sa pang-eksperimentong data). Sa parehong graph, i-plot ang probability density function na naaayon sa hypothesis na iniharap. Gamit ang goodness-of-fit test, suriin kung ang hypothesis ay sumasang-ayon sa pang-eksperimentong data. Kunin ang antas ng kahalagahan, halimbawa, katumbas ng 0.05.

Pearson test, Poisson distribution

Halimbawa 3. Sinuri ng departamento ng teknikal na kontrol ang n batch ng mga katulad na produkto at nalaman na ang bilang ng mga hindi karaniwang produkto sa isang batch ay may empirical distribution na ipinapakita sa talahanayan, ang isang linya nito ay nagpapahiwatig ng bilang xi ng mga hindi karaniwang produkto sa isang batch, at ang kabilang linya ay nagpapahiwatig ng bilang ng mga batch na naglalaman ng xi na hindi karaniwang mga produkto. Kinakailangang subukan ang hypothesis sa antas ng kabuluhan na α0.05 na ang random variable X (ang bilang ng mga hindi karaniwang produkto sa isang batch) ay ibinahagi ayon sa batas ng Poisson.

Halimbawa 4. Bilang isang resulta ng isang survey ng 150 mga tao, ang data ay nakuha sa bilang ng mga kulay na isinalarawan na mga magazine na binili bawat buwan. Ito ba ay sumusunod? ibinigay na pamamahagi Ang batas ni Poisson ng mga bihirang kaganapan?

Pearson criterion, exponential distribution

Halimbawa 5. Bilang resulta ng pagsubok sa 1000 elemento para sa oras ng operasyon na walang kabiguan (mga oras), nakuha ang pamamahagi na ipinapakita sa talahanayan. Sa antas ng kahalagahan, kinakailangan upang subukan ang hypothesis na ang data sa populasyon ay ipinamamahagi ayon sa isang exponential law.
Uptime 0-10 10-20 20-30 30-40 40-50 50-60 60-70
Bilang ng mga nabigong elemento 365 245 150 100 70 45 25

Pearson criterion, pare-parehong pamamahagi

Halimbawa 6. Sa ilang lugar, ang average na pang-araw-araw na temperatura ng hangin ay naitala sa loob ng 300 araw. Bilang resulta ng mga obserbasyon, nakuha ang isang empirical distribution, na ipinapakita sa Talahanayan 40 (ang unang hanay ay nagpapakita ng pagitan ng temperatura sa mga degree, ang pangalawang hanay ay nagpapakita ng dalas $n_i$, ibig sabihin, ang bilang ng mga araw na ang average na pang-araw-araw na temperatura ay kabilang dito. pagitan).
Kinakailangang subukan ang hypothesis na ang average na pang-araw-araw na temperatura ng hangin ay pantay na ipinamamahagi sa antas ng kabuluhan na 0.05.

Ang pamantayan ng Kolmogorov

Halimbawa 7. May mga pumipiling data sa bilang ng mga transaksyong natapos ng kompanya sa mga indibidwal sa buwan:
- bilang ng mga natapos na transaksyon 0-10 10-20 20-30 30-40 40-50
- bilang ng mga indibidwal 23 24 11 9 3
Suriin sa antas ng kahalagahan na 0.05, gamit ang Kolmogorov goodness-of-fit test, ang hypothesis ng isang normal na batas sa pamamahagi.

Halimbawa 8. Isinagawa ang mga spot check sa loob ng isang buwan mga retail outlet mga bayan na nagbebenta ng mga gulay. Ang mga resulta ng dalawang pagsusuri sa mga kulang sa timbang sa mga mamimili ng isang uri ng gulay ay ipinapakita sa talahanayan: Posible bang ipagpalagay, sa antas ng kahalagahan na 0.05, na ang mga kulang sa timbang ng mga gulay ay isang matatag at natural na proseso kapag nagbebenta ng mga gulay sa isang partikular na lungsod (ibig sabihin, inilalarawan sila ng parehong function ng pamamahagi) ?

Pearson goodness-of-fit test:

Halimbawa 1. Gamit ang Pearson test, sa antas ng kahalagahan na 0.05, suriin kung ang hypothesis tungkol sa normal na distribusyon ng populasyon X ay pare-pareho sa empirical distribution ng sample size n = 200.

Solusyon maghanap gamit ang isang calculator.

x iDami, f ix i * f iNaipon na dalas, S(x - x avg) * f(x - x avg) 2 * f(x - x avg) 3 * fDalas, f i /n
5 15 75 15 114.45 873.25 -6662.92 0.075
7 26 182 41 146.38 824.12 -4639.79 0.13
9 25 225 66 90.75 329.42 -1195.8 0.13
11 30 330 96 48.9 79.71 -129.92 0.15
13 26 338 122 9.62 3.56 1.32 0.13
15 21 315 143 49.77 117.95 279.55 0.11
17 24 408 167 104.88 458.33 2002.88 0.12
19 20 380 187 127.4 811.54 5169.5 0.1
21 13 273 200 108.81 910.74 7622.89 0.065
200 2526 800.96 4408.62 2447.7 1

.
Weighted average


Mga tagapagpahiwatig ng pagkakaiba-iba.
.

R = X max - X min
R = 21 - 5 = 16
Pagpapakalat


Walang pinapanigan na variance estimator


Karaniwang lihis.

Ang bawat halaga ng serye ay naiiba sa average na halaga na 12.63 nang hindi hihigit sa 4.7
.

.
normal na batas




n = 200, h=2 (lapad ng pagitan), σ = 4.7, x av = 12.63

ix iu iφin*i
1 5 -1.63 0,1057 9.01
2 7 -1.2 0,1942 16.55
3 9 -0.77 0,2943 25.07
4 11 -0.35 0,3752 31.97
5 13 0.0788 0,3977 33.88
6 15 0.5 0,3503 29.84
7 17 0.93 0,2565 21.85
8 19 1.36 0,1582 13.48
9 21 1.78 0,0804 6.85
in in*in i -n* i(n i -n* i) 2(n i -n* i) 2 /n* i
1 15 9.01 -5.99 35.94 3.99
2 26 16.55 -9.45 89.39 5.4
3 25 25.07 0.0734 0.00539 0.000215
4 30 31.97 1.97 3.86 0.12
5 26 33.88 7.88 62.14 1.83
6 21 29.84 8.84 78.22 2.62
7 24 21.85 -2.15 4.61 0.21
8 20 13.48 -6.52 42.53 3.16
9 13 6.85 -6.15 37.82 5.52
200 200 22.86



Hinahanap natin ang hangganan nito K kp = χ 2 (k-r-1;α) gamit ang mga talahanayan ng pamamahagi ng chi-square at ibinigay na mga halagaσ, k = 9, r=2 (ang mga parameter x cp at σ ay tinatantya mula sa sample).
Kkp(0.05;6) = 12.59159; Kobbl = 22.86
Ang naobserbahang halaga ng istatistika ng Pearson ay nahuhulog sa kritikal na rehiyon: Knabl > Kkp, kaya may dahilan upang tanggihan ang pangunahing hypothesis. Naipamahagi ang sample na data hindi ayon sa normal na batas. Sa madaling salita, malaki ang pagkakaiba ng empirical at theoretical frequency.

Halimbawa 2. Gamit ang Pearson test, sa antas ng kahalagahan na 0.05, suriin kung ang hypothesis tungkol sa normal na distribusyon ng populasyon X ay pare-pareho sa empirical distribution ng sample size n = 200.
Solusyon.
Talahanayan para sa pagkalkula ng mga tagapagpahiwatig.

x iDami, f ix i * f iNaipon na dalas, S(x - x avg) * f(x - x avg) 2 * f(x - x avg) 3 * fDalas, f i /n
0.3 6 1.8 6 5.77 5.55 -5.34 0.03
0.5 9 4.5 15 6.86 5.23 -3.98 0.045
0.7 26 18.2 41 14.61 8.21 -4.62 0.13
0.9 25 22.5 66 9.05 3.28 -1.19 0.13
1.1 30 33 96 4.86 0.79 -0.13 0.15
1.3 26 33.8 122 0.99 0.0375 0.00143 0.13
1.5 21 31.5 143 5 1.19 0.28 0.11
1.7 24 40.8 167 10.51 4.6 2.02 0.12
1.9 20 38 187 12.76 8.14 5.19 0.1
2.1 8 16.8 195 6.7 5.62 4.71 0.04
2.3 5 11.5 200 5.19 5.39 5.59 0.025
200 252.4 82.3 48.03 2.54 1

Mga tagapagpahiwatig ng sentro ng pamamahagi.
Weighted average


Mga tagapagpahiwatig ng pagkakaiba-iba.
Mga ganap na pagkakaiba-iba.
Ang saklaw ng pagkakaiba-iba ay ang pagkakaiba sa pagitan ng maximum at minimum na mga halaga ng pangunahing katangian ng serye.
R = X max - X min
R = 2.3 - 0.3 = 2
Pagpapakalat- nailalarawan ang sukat ng dispersion sa paligid ng average na halaga nito (isang sukatan ng dispersion, ibig sabihin, paglihis mula sa average).


Walang pinapanigan na variance estimator- pare-parehong pagtatantya ng pagkakaiba.


Katamtaman karaniwang lihis .

Ang bawat halaga ng serye ay naiiba sa average na halaga na 1.26 nang hindi hihigit sa 0.49
Pagtataya ng standard deviation.

Pagsubok ng mga hypotheses tungkol sa uri ng pamamahagi.
1. Suriin natin ang hypothesis na ang X ay ipinamamahagi sa ibabaw normal na batas gamit ang Pearson goodness-of-fit test.

kung saan ang n* i ay theoretical frequency:

Kalkulahin natin ang mga teoretikal na frequency, na isinasaalang-alang na:
n = 200, h=0.2 (lapad ng pagitan), σ = 0.49, xav = 1.26

ix iu iφin*i
1 0.3 -1.96 0,0573 4.68
2 0.5 -1.55 0,1182 9.65
3 0.7 -1.15 0,2059 16.81
4 0.9 -0.74 0,3034 24.76
5 1.1 -0.33 0,3765 30.73
6 1.3 0.0775 0,3977 32.46
7 1.5 0.49 0,3538 28.88
8 1.7 0.89 0,2661 21.72
9 1.9 1.3 0,1691 13.8
10 2.1 1.71 0,0909 7.42
11 2.3 2.12 0,0422 3.44

Paghambingin natin ang empirical at theoretical frequency. Gumawa tayo ng talahanayan ng pagkalkula kung saan makikita natin ang naobserbahang halaga ng criterion:

21.72 -2.28 5.2 0.24 9 20 13.8 -6.2 38.41 2.78 10 8 7.42 -0.58 0.34 0.0454 11 5 3.44 -1.56 2.42 0.7 ∑ 200 200 12.67

Alamin natin ang hangganan ng kritikal na rehiyon. Dahil sinusukat ng istatistika ng Pearson ang pagkakaiba sa pagitan ng empirical at theoretical distributions, mas malaki ang naobserbahang halaga nito K obs, mas malakas ang argumento laban sa pangunahing hypothesis.
Samakatuwid, ang kritikal na rehiyon para sa mga istatistikang ito ay palaging nasa kanang kamay :)