Paano i-interpret ang halaga ng chi-square test ni Pearson? Paghahambing ng dalawang distribusyon ng dalas. Chi-square na pagsubok

Ang paggamit ng pamantayang ito ay batay sa paggamit ng naturang sukat (statistika) ng pagkakaiba sa pagitan ng teoretikal F(x) at empirikal na pamamahagi F* P (x) , na tinatayang sumusunod sa batas ng pamamahagi χ 2 . Hypothesis H 0 Ang pagkakapare-pareho ng mga pamamahagi ay sinusuri sa pamamagitan ng pagsusuri sa pamamahagi ng mga istatistikang ito. Ang aplikasyon ng pamantayan ay nangangailangan ng pagbuo ng isang serye ng istatistika.

Kaya, hayaang ang sample ay kinakatawan ng isang statistical row na may bilang ng mga digit M. Naobserbahang rate ng hit sa i- ika ranggo n i. Alinsunod sa theoretical distribution law, ang inaasahang dalas ng mga hit sa i-ang digit ay F i. Ang pagkakaiba sa pagitan ng naobserbahan at inaasahang dalas ay ang halaga ( n iF i). Upang mahanap ang kabuuang antas ng pagkakaiba sa pagitan F(x) at F* P (x) kinakailangan upang kalkulahin ang timbang na kabuuan ng mga parisukat na pagkakaiba para sa lahat ng mga numero ng serye ng istatistika

χ halaga 2 na may walang limitasyong pagpapalaki n ay may χ 2 -distribution (asymptotically distributed bilang χ 2). Ang pamamahagi na ito ay depende sa bilang ng mga antas ng kalayaan k, ibig sabihin. ang bilang ng mga independiyenteng halaga ng mga termino sa pagpapahayag (3.7). Ang bilang ng mga antas ng kalayaan ay katumbas ng bilang y bawasan ang bilang ng mga linear na link na ipinataw sa sample. Ang isang koneksyon ay umiiral dahil sa ang katunayan na ang anumang dalas ay maaaring kalkulahin mula sa hanay ng mga frequency sa natitira M-1 digit. Bilang karagdagan, kung ang mga parameter ng pamamahagi ay hindi alam nang maaga, pagkatapos ay mayroong isa pang limitasyon dahil sa pag-angkop ng pamamahagi sa sample. Kung tinutukoy ng sample S mga parameter ng pamamahagi, kung gayon ang bilang ng mga antas ng kalayaan ay magiging k= MS–1.

Lugar ng pagtanggap ng hypothesis H 0 ay tinutukoy ng kondisyon χ 2 < χ 2 (k; a) , kung saan χ 2 (k; a) ay ang kritikal na punto ng χ2-distribution na may antas ng kahalagahan a. Ang posibilidad ng isang error ng unang uri ay a, ang posibilidad ng isang type II na error ay hindi malinaw na matukoy, dahil mayroong isang walang katapusang bilang ng iba't ibang paraan ng hindi pagkakatugma ng mga distribusyon. Ang kapangyarihan ng pagsubok ay depende sa bilang ng mga digit at sa laki ng sample. Ang pamantayan ay inirerekomenda para sa n>200, pinapayagan ang aplikasyon sa n>40, nasa ilalim ng mga ganitong kundisyon na pare-pareho ang criterion (bilang panuntunan, tinatanggihan nito ang isang maling null hypothesis).

Algoritmo ng pagsusuri ng pamantayan

1. Bumuo ng histogram sa paraang equiprobable.

2. Sa pamamagitan ng anyo ng histogram, maglagay ng hypothesis

H 0: f(x) = f 0 (x),

H 1: f(x) ¹ f 0 (x),

saan f 0 (x) ay ang probability density ng hypothetical distribution law (halimbawa, uniporme, exponential, normal).

Magkomento. Ang hypothesis ng isang exponential distribution law ay maaaring iharap kung ang lahat ng mga numero sa sample ay positibo.

3. Kalkulahin ang halaga ng criterion gamit ang formula

,

saan
dalas ng pagtama i-ika agwat;

p i- teoretikal na posibilidad na matamaan ang isang random na variable i- ika agwat na ibinigay na ang hypothesis H 0 ay tama.

Mga formula para sa pagkalkula p i sa kaso ng exponential, uniporme at normal na mga batas, ayon sa pagkakabanggit, ay pantay.

Exponential Law

. (3.8)

Kung saan A 1 = 0, B m = +¥.

pare-parehong batas

normal na batas

. (3.10)

Kung saan A 1 = -¥, B M = +¥.

Remarks. Pagkatapos kalkulahin ang lahat ng mga probabilidad p i suriin kung nasiyahan ang control ratio

Function F( X) ay kakaiba. Ф(+¥) = 1.

4. Mula sa talahanayang "Chi-square" ng Application, pipiliin ang isang value
, kung saan ang a ay ang ibinigay na antas ng kahalagahan (a = 0.05 o a = 0.01), at k- ang bilang ng mga antas ng kalayaan, na tinutukoy ng formula

k = M - 1 - S.

Dito S- ang bilang ng mga parameter kung saan nakasalalay ang napiling hypothesis H 0 batas sa pamamahagi. Mga halaga S para sa pare-parehong batas ito ay 2, para sa exponential - 1, para sa normal - 2.

5. Kung
, pagkatapos ay ang hypothesis H 0 ay tinanggihan. Kung hindi, walang dahilan upang tanggihan ito: na may posibilidad na 1 - b ito ay totoo, at may posibilidad - b ito ay mali, ngunit ang halaga ng b ay hindi alam.

Halimbawa3 . 1. Gamit ang criterion c 2, ilagay at subukan ang isang hypothesis tungkol sa batas ng distribusyon ng isang random variable. X, isang serye ng pagkakaiba-iba, mga talahanayan ng pagitan at mga histogram ng pamamahagi kung saan ay ibinigay sa halimbawa 1.2. Ang antas ng kahalagahan a ay 0.05.

Solusyon . Sa pamamagitan ng anyo ng mga histograms, ini-hypothesize namin iyon random na halaga X ipinamahagi ayon sa normal na batas:

H 0: f(x) = N(m, s);

H 1: f(x) ¹ N(m, s).

Ang halaga ng pamantayan ay kinakalkula ng formula:

(3.11)

Tulad ng nabanggit sa itaas, kapag sinusubukan ang isang hypothesis, mas mainam na gumamit ng equiprobable histogram. Sa kasong ito

Mga teoretikal na posibilidad p i kinakalkula namin sa pamamagitan ng formula (3.10). Sa parehong oras, ipinapalagay namin iyon

p 1 = 0.5(F((-4.5245+1.7)/1.98)-F((-¥+1.7)/1.98)) = 0.5(F(-1.427) -Ф(-¥)) =

0,5(-0,845+1) = 0,078.

p 2 = 0.5(F((-3.8865+1.7)/1.98)-F((-4.5245+1.7)/1.98)) =

0.5(F(-1.104)+0.845) = 0.5(-0.729+0.845) = 0.058.

p 3 = 0,094; p 4 = 0,135; p 5 = 0,118; p 6 = 0,097; p 7 = 0,073; p 8 = 0,059; p 9 = 0,174;

p 10 \u003d 0.5 (Ф ((+ ¥ + 1.7) / 1.98) - Ф ((0.6932 + 1.7) / 1.98)) \u003d 0.114.

Pagkatapos nito, sinusuri namin ang katuparan ng ugnayan ng kontrol

100 × (0.0062 + 0.0304 + 0.0004 + 0.0091 + 0.0028 + 0.0001 + 0.0100 +

0.0285 + 0.0315 + 0.0017) = 100 × 0.1207 = 12.07.

Pagkatapos nito, mula sa talahanayan na "Chi - square" pipiliin namin ang kritikal na halaga

.

kasi
pagkatapos ay ang hypothesis H 0 ang tinatanggap (walang dahilan para tanggihan ito).

Chi-squared test - unibersal na pamamaraan sinusuri ang kasunduan sa pagitan ng mga resulta ng eksperimento at ang ginamit na modelong istatistika.

Distansiya ng Pearson X 2

Pyatnitsky A.M.

Russian State Medical University

Noong 1900, iminungkahi ni Karl Pearson ang isang simple, unibersal at mabisang paraan pagpapatunay ng kasunduan sa pagitan ng mga hula ng modelo at pang-eksperimentong data. Ang kanyang "chi-square test" ay ang pinakamahalaga at pinakakaraniwang ginagamit na statistical test. Karamihan sa mga problemang nauugnay sa pagtatantya ng hindi kilalang mga parameter ng modelo at pagsuri sa kasunduan sa pagitan ng modelo at pang-eksperimentong data ay malulutas sa tulong nito.

Hayaang magkaroon ng isang priori ("pre-experimental") na modelo ng bagay o prosesong pinag-aaralan (sa mga istatistika ay binabanggit nila ang "null hypothesis" H 0), at ang mga resulta ng eksperimento sa bagay na ito. Kinakailangang magpasya kung ang modelo ay sapat (ito ba ay tumutugma sa katotohanan)? Hindi ba ang mga resulta ng eksperimento ay sumasalungat sa aming mga ideya tungkol sa kung paano gumagana ang katotohanan, o sa madaling salita, dapat bang tanggihan ang H 0? Kadalasan ang gawaing ito ay maaaring bawasan sa paghahambing ng naobserbahan (O i = Observed ) at inaasahan ayon sa modelo (E i =Expected ) average na frequency ng paglitaw ng ilang mga pangyayari. Ito ay pinaniniwalaan na ang mga naobserbahang frequency ay nakuha sa isang serye ng N independyente (!) na mga obserbasyon na ginawa sa ilalim ng pare-pareho (!) na mga kondisyon. Bilang resulta ng bawat obserbasyon, isa sa M na kaganapan ang nakarehistro. Ang mga kaganapang ito ay hindi maaaring mangyari nang sabay-sabay (sila ay magkapares na hindi magkatugma) at isa sa mga ito ay kinakailangang mangyari (ang kanilang mga kumbinasyon na anyo tiyak na kaganapan). Ang kabuuan ng lahat ng mga obserbasyon ay binabawasan sa isang talahanayan (vector) ng mga frequency (O i )=(O 1 ,… O M ), na ganap na naglalarawan sa mga resulta ng eksperimento. Ang value O 2 =4 ay nangangahulugan na ang event number 2 ay nangyari nang 4 na beses. Ang kabuuan ng mga frequency O 1 +… O M =N. Mahalagang makilala sa pagitan ng dalawang kaso: Ang N ay naayos, hindi random, ang N ay isang random na variable. Sa isang nakapirming kabuuang bilang Ang mga eksperimento sa dalas ng N ay may polynomial distribution. Ipaliwanag natin ang pangkalahatang pamamaraan na ito simpleng halimbawa.

Paglalapat ng chi-square test upang subukan ang mga simpleng hypotheses.

Hayaan ang modelo (null hypothesis H 0) na ang dice ay regular - lahat ng mga mukha ay pantay na madalas na mahuhulog na may posibilidad na p i =1/6, i =, M=6. Ang isang eksperimento ay isinagawa, na binubuo sa katotohanan na ang buto ay itinapon ng 60 beses (N = 60 independiyenteng mga pagsubok ang isinagawa). Ayon sa modelo, inaasahan namin na ang lahat ng naobserbahang frequency O i ng paglitaw 1,2,... 6 na puntos ay dapat na malapit sa kanilang mga average na halaga E i =Np i =60∙(1/6)=10. Ayon sa H 0 ang mid-frequency vector (E i )=(Np i )=(10, 10, 10, 10, 10, 10). (Ang mga hypotheses kung saan ang mga average na frequency ay ganap na nalalaman bago ang simula ng eksperimento ay tinatawag na simple.) Kung ang naobserbahang vector (O i ) ay katumbas ng (34,0,0,0,0,26), kung gayon ito ay kaagad malinaw na ang modelo ay hindi tama - ang buto ay hindi maaaring tama, dahil 1 at 6 lamang ang nahulog ng 60 beses. Ang posibilidad ng naturang kaganapan para sa isang tamang dice ay bale-wala: P = (2/6) 60 =2.4*10 -29 . Gayunpaman, ang paglitaw ng mga halatang pagkakaiba sa pagitan ng modelo at karanasan ay isang pagbubukod. Hayaang ang vector ng mga naobserbahang frequency (O i ) ay katumbas ng (5, 15, 6, 14, 4, 16). Sumasang-ayon ba ito sa H 0? Kaya, kailangan nating paghambingin ang dalawang frequency vectors (E i ) at (O i ). Kasabay nito, ang vector ng mga inaasahang frequency (E i ) ay hindi random, ngunit ang vector ng mga naobserbahang frequency (O i ) ay random - sa susunod na eksperimento (sa isang bagong serye ng 60 throws) ito ay magiging magkaiba. Ito ay kapaki-pakinabang upang ipakilala ang isang geometric na interpretasyon ng problema at ipagpalagay na sa frequency space (sa kasong ito 6 dimensional) dalawang puntos ang ibinibigay na may mga coordinate (5, 15, 6, 14, 4, 16) at (10, 10, 10, 10, 10, 10). Sapat na ba ang distansya ng mga ito upang isaalang-alang na hindi ito tugma sa H 0 ? Sa madaling salita, kailangan natin:

  1. matutunan kung paano sukatin ang mga distansya sa pagitan ng mga frequency (mga puntos sa espasyo ng frequency),
  2. magkaroon ng criterion para sa kung anong distansya ang dapat isaalang-alang din ("improbably") malaki, iyon ay, hindi naaayon sa H 0 .

Ang parisukat ng karaniwang distansya ng Euclidean ay magiging:

X 2 Euclid = S(O i -E i) 2 = (5-10) 2 + (15-10) 2 + (6-10) 2 + (14-10) 2 + (4-10) 2 + (16-10) 2

Bukod dito, ang mga ibabaw X 2 Euclid = const ay palaging mga sphere kung aayusin natin ang mga halaga ng E i at babaguhin ang O i . Nabanggit ni Karl Pearson na hindi dapat gamitin ang Euclidean distance sa frequency space. Kaya, mali na ipagpalagay na ang mga puntos (O =1030 at E =1000) at (O =40 at E =10) ay nasa pantay na distansya mula sa isa't isa, bagaman sa parehong mga kaso ang pagkakaiba O -E =30. Pagkatapos ng lahat, mas malaki ang inaasahang dalas, mas malaki ang mga paglihis mula dito ay dapat isaalang-alang na posible. Samakatuwid, ang mga puntos (O =1030 at E =1000) ay dapat ituring na "malapit", at ang mga puntos (O =40 at E =10) ay "malayo" sa isa't isa. Maaaring ipakita na kung ang hypothesis H 0 ay totoo, kung gayon ang pagbabagu-bago ng frequency O i na may paggalang sa E i ay may magnitude ng order. parisukat na ugat(!) mula sa E i . Samakatuwid, iminungkahi ni Pearson na kapag kinakalkula ang distansya, parisukat hindi ang mga pagkakaiba (O i -E i ), ngunit ang mga normalized na pagkakaiba (O i -E i )/E i 1/2 . Kaya, narito ang formula para sa pagkalkula ng distansya ng Pearson (talagang ito ang parisukat ng distansya):

X 2 Pearson = S((O i -E i )/E i 1/2) 2 = S(O i -E i ) 2 /E i

Sa aming halimbawa:

X 2 Pearson = (5-10) 2 /10+(15-10) 2 /10 +(6-10) 2 /10+(14-10) 2 /10+(4-10) 2 /10+( 16-10) 2 /10=15.4

Para sa isang regular na dice, lahat ng inaasahang frequency E i ay pareho, ngunit kadalasan ay iba ang mga ito, kaya ang mga surface kung saan ang distansya ng Pearson ay pare-pareho (X 2 Pearson =const) ay nagiging ellipsoids, hindi mga sphere.

Ngayon, pagkatapos mapili ang formula para sa pagkalkula ng mga distansya, kinakailangan upang malaman kung aling mga distansya ang dapat ituring na "hindi masyadong malaki" (naaayon sa H 0). Kaya, halimbawa, kung ano ang masasabi tungkol sa distansya na aming kinakalkula 15.4 ? Sa anong porsyento ng mga kaso (o kung anong posibilidad) kung mag-eksperimento tayo sa isang regular na dice, makakakuha tayo ng layo na higit sa 15.4? Kung maliit ang porsyentong ito<0.05), то H 0 надо отвергнуть. Иными словами требуется найти распределение длярасстояния Пирсона. Если все ожидаемые частоты E i не слишком малы (≥5), и верна H 0 , то нормированные разности (O i - E i )/E i 1/2 приближенно эквивалентны стандартным гауссовским случайным величинам: (O i - E i )/E i 1/2 ≈N (0,1). Это, например, означает, что в 95% случаев| (O i - E i )/E i 1/2 | < 1.96 ≈ 2 (правило “двух сигм”).

Paliwanag. Ang bilang ng mga sukat O i na nahuhulog sa cell ng talahanayan na may numero i ay may binomial distribution na may mga parameter: m =Np i =E i ,σ =(Np i (1-pi )) 1/2 , kung saan ang N ay ang bilang ng mga sukat (N "1), ang p i ay ang posibilidad na mahulog ang isang pagsukat sa cell na ito (tandaan na ang mga sukat ay independyente at ginagawa sa ilalim ng pare-parehong mga kondisyon). Kung maliit ang p i, kung gayon: σ≈(Np i ) 1/2 =E i at ang binomial distribution ay malapit sa Poisson, kung saan ang average na bilang ng mga obserbasyon E i =λ, at ang standard deviation σ=λ 1/2 = E at 1/2. Para sa λ≥5, ang distribusyon ng Poisson ay malapit sa normal na N (m =E i =λ, σ=E i 1/2 =λ 1/2), at ang normalized na halaga (O i - E i )/E i 1 /2 ≈ N (0 ,isa).

Tinukoy ni Pearson ang random variable χ 2 n – “chi-square na may n degrees of freedom”, bilang kabuuan ng mga parisukat ng n independent standard normal r.v.:

χ 2 n = T 1 2 + T 2 2 + …+ T n 2 , nasaan ang lahat T i = N(0,1) - n. tungkol sa. R. Sa. sa.

Subukan nating biswal na maunawaan ang kahulugan ng pinakamahalagang random variable na ito sa mga istatistika. Upang gawin ito, sa isang eroplano (para sa n = 2) o sa espasyo (para sa n = 3) kinakatawan namin ang isang ulap ng mga puntos na ang mga coordinate ay independiyente at may karaniwang normal na pamamahagif T (x) ~exp (-x 2/2 ). Sa isang eroplano, ayon sa panuntunang "two sigma", na independiyenteng inilapat sa parehong mga coordinate, 90% (0.95*0.95≈0.90) ng mga puntos ay nakapaloob sa loob ng isang parisukat (-2).

f χ 2 2 (a) = Сexp(-a/2) = 0.5exp(-a/2).

Sa sapat na malaking bilang ng mga degree ng kalayaan n (n>30), ang distribusyon ng chi-squared ay lumalapit sa normal: N (m = n; σ = (2n) ½). Ito ay isang kinahinatnan ng "central limit theorem": ang kabuuan ng magkaparehong distributed na mga dami na may finite variance ay lumalapit sa normal na batas na may pagtaas sa bilang ng mga termino.

Sa pagsasagawa, dapat tandaan na ang average na parisukat ng distansya ay katumbas ng m (χ 2 n )=n , at ang pagpapakalat nito σ 2 (χ 2 n )=2n . Mula dito, madaling tapusin kung aling mga halaga ng chi-square ang dapat ituring na masyadong maliit at masyadong malaki: karamihan sa pamamahagi ay nasa hanay mula n -2 ∙ (2n ) ½ hanggang n + 2 ∙ (2n ) ½ .

Kaya, ang mga distansya ng Pearson na makabuluhang lumalampas sa n +2∙ (2n ) ½ ay dapat ituring na hindi kapani-paniwalang malaki (hindi pare-pareho sa H 0). Kung ang resulta ay malapit sa n +2∙(2n) ½, dapat mong gamitin ang mga talahanayan kung saan maaari mong malaman nang eksakto kung anong proporsyon ng mga kaso ang tulad at malalaking halaga ng chi-square\u200b\u200b ay maaaring lumitaw.

Mahalagang malaman kung paano pumili ng tamang halaga para sa bilang ng mga antas ng kalayaan (bilang antas ng kalayaan, pinaikling n .d .f .). Tila natural na isipin na ang n ay katumbas lamang ng bilang ng mga bit: n = M . Iminungkahi ni Pearson sa kanyang artikulo. Sa halimbawa ng dice, ito ay nangangahulugan na n = 6. Gayunpaman, pagkalipas ng ilang taon ay ipinakita na mali si Pearson. Ang bilang ng mga antas ng kalayaan ay palaging mas mababa kaysa sa bilang ng mga digit, kung may mga koneksyon sa pagitan ng mga random na variable O i. Para sa halimbawa ng dice, ang sum O i ay 60, at 5 frequency lamang ang maaaring baguhin nang nakapag-iisa, kaya ang tamang halaga ay n=6-1=5. Para sa halagang ito ng n, nakukuha natin ang n +2∙(2n) ½ =5+2∙(10) ½ =11.3. Dahil 15.4>11.3, kung gayon ang hypothesis H 0 - ang dice ay tama, ay dapat tanggihan.

Matapos linawin ang error, ang umiiral na mga talahanayan χ 2 ay kailangang dagdagan, dahil sa una ay walang kaso n = 1 sa kanila, dahil ang pinakamaliit na bilang ng mga digit = 2. Ngayon ay lumabas na maaaring may mga kaso kapag ang distansya ng Pearson ay may distribusyon χ 2 n =1 .

Halimbawa. Sa 100 tosses ng isang barya, ang bilang ng mga coats of arms ay O 1 = 65, at mga buntot O 2 = 35. Ang bilang ng mga digit M = 2. Kung simetriko ang barya, ang inaasahang frequency ay E 1 =50, E 2 =50.

X 2 Pearson = S(O i -E i) 2 / E i \u003d (65-50) 2 / 50 + (35-50) 2 / 50 \u003d 2 * 225/50 \u003d 9.

Ang resultang halaga ay dapat ihambing sa mga maaaring kunin ng random variable χ 2 n =1, na tinukoy bilang parisukat ng karaniwang normal na halaga χ 2 n =1 =T 1 2 ≥ 9 ó T 1 ≥3 o T 1 ≤-3. Ang posibilidad ng naturang kaganapan ay napakaliit P (χ 2 n =1 ≥9) = 0.006. Samakatuwid, ang barya ay hindi maaaring ituring na simetriko: H 0 ay dapat tanggihan. Ang katotohanan na ang bilang ng mga degree ng kalayaan ay hindi maaaring katumbas ng bilang ng mga bit ay makikita mula sa katotohanan na ang kabuuan ng mga naobserbahang frequency ay palaging katumbas ng kabuuan ng mga inaasahan, halimbawa O 1 + O 2 =65 +35 = E 1 +E 2 =50+50=100. Samakatuwid, ang mga random na puntos na may mga coordinate O 1 at O ​​2 ay matatagpuan sa isang tuwid na linya: O 1 + O 2 \u003d E 1 + E 2 \u003d 100 at ang distansya sa gitna ay lumalabas na mas mababa kaysa sa kung ang paghihigpit na ito ay hindi. doon, at sila ay matatagpuan sa buong eroplano. Sa katunayan, para sa dalawang independiyenteng random na mga variable na may mga inaasahan sa matematika E 1 =50, E 2 =50, ang kabuuan ng kanilang mga realisasyon ay hindi dapat palaging katumbas ng 100 - halimbawa, ang mga halaga O 1 =60, O 2 =55 ay maging katanggap-tanggap.

Paliwanag. Ihambing natin ang resulta ng Pearson criterion na may M = 2 sa kung ano ang ibinibigay ng Moivre-Laplace formula kapag tinatantya ang mga random na pagbabagu-bago sa dalas ng paglitaw ng isang kaganapan ν =K /N na may posibilidad na p sa isang serye ng N independiyenteng mga pagsubok sa Bernoulli ( K ang bilang ng mga tagumpay):

χ 2 n =1 = S(O i -E i) 2 / E i \u003d (O 1 -E 1) 2 / E 1 + (O 2 -E 2) 2 / E 2 \u003d (Nν -Np) 2 / (Np) + ( N ( 1-ν )-N (1-p )) 2 /(N (1-p ))=

=(Nν-Np) 2 (1/p + 1/(1-p))/N=(Nν-Np) 2 /(Np(1-p))=((K-Np)/(Npq) ½ ) 2 = T 2

Ang halaga T \u003d (K -Np) / (Npq) ½ \u003d (K -m (K)) / σ (K) ≈ N (0.1) na may σ (K) \u003d (Npq) ½ ≥3. Nakikita namin na sa kasong ito ang resulta ng Pearson ay eksaktong kapareho ng nakuha sa pamamagitan ng paglalapat ng normal na approximation sa binomial distribution.

Sa ngayon, isinaalang-alang namin ang mga simpleng hypotheses kung saan ang inaasahang average na mga frequency E i ay ganap na kilala nang maaga. Tingnan sa ibaba kung paano pumili ng tamang bilang ng mga antas ng kalayaan para sa mga kumplikadong hypotheses.

Paglalapat ng Chi-Square Test sa Test Complex Hypotheses

Sa mga halimbawa na may tamang dice at coin, ang mga inaasahang frequency ay maaaring matukoy bago(!) ang eksperimento. Ang ganitong mga hypotheses ay tinatawag na "simple". Sa pagsasagawa, ang "mga kumplikadong hypotheses" ay mas karaniwan. Kasabay nito, upang mahanap ang inaasahang mga frequency E i, isa o ilang mga dami (mga parameter ng modelo) ay dapat munang tantyahin, at ito ay magagawa lamang gamit ang pang-eksperimentong data. Bilang resulta, para sa "komplikadong hypotheses", ang inaasahang mga frequency E i ay lumalabas na nakadepende sa mga naobserbahang frequency O i at samakatuwid ay nagiging mga random na variable mismo, nagbabago depende sa mga resulta ng eksperimento. Sa proseso ng pag-aayos ng mga parameter, bumababa ang distansya ng Pearson - pinipili ang mga parameter sa paraang mapagbuti ang kasunduan sa pagitan ng modelo at ng eksperimento. Samakatuwid, ang bilang ng mga antas ng kalayaan ay dapat bumaba.

Paano suriin ang mga parameter ng modelo? Mayroong maraming iba't ibang mga paraan ng pagtatantya - "pinakamalaking paraan ng posibilidad", "paraan ng mga sandali", "paraan ng pagpapalit". Gayunpaman, posibleng hindi magsangkot ng anumang karagdagang pondo at maghanap ng mga pagtatantya ng parameter sa pamamagitan ng pagliit ng distansya ng Pearson. Sa panahon ng pre-computer, ang diskarte na ito ay bihirang ginagamit: ito ay hindi maginhawa para sa mga manu-manong kalkulasyon at, bilang isang panuntunan, ay hindi nagpapahiram sa sarili sa isang analytical na solusyon. Kapag nagkalkula sa isang computer, ang numerical minimization ay kadalasang madaling natupad, at ang bentahe ng pamamaraang ito ay ang pagiging pandaigdigan nito. Kaya, ayon sa "chi-square minimization method", pinipili namin ang mga halaga ng hindi kilalang mga parameter upang ang distansya ng Pearson ay maging pinakamaliit. (Sa pamamagitan ng paraan, ang pag-aaral ng mga pagbabago sa distansya na ito na may maliliit na pagbabago na may kaugnayan sa nahanap na minimum, maaari mong tantiyahin ang sukat ng katumpakan ng pagtatantya: bumuo ng mga agwat ng kumpiyansa.) Matapos ang mga parameter at ang pinakamababang distansya na ito mismo ay natagpuan, ito ay kinakailangan muli upang sagutin ang tanong kung ito ay sapat na maliit.

Ang pangkalahatang pagkakasunud-sunod ng mga aksyon ay ang mga sumusunod:

  1. Pagpili ng modelo (hypotheses H 0).
  2. Pagpili ng mga digit at pagpapasiya ng vector ng mga naobserbahang frequency O i .
  3. Pagtatantya ng hindi kilalang mga parameter ng modelo at pagbuo ng mga agwat ng kumpiyansa para sa kanila (halimbawa, sa pamamagitan ng paghahanap para sa pinakamababa ng distansya ng Pearson).
  4. Pagkalkula ng mga inaasahang frequency E i .
  5. Paghahambing ng nahanap na halaga ng distansya ng Pearson X 2 sa kritikal na halaga ng chi-square χ 2 crit - ang pinakamalaki, na itinuturing pa rin bilang posible, tugma sa H 0 . Ang halaga, χ 2 crit, makikita natin mula sa mga talahanayan, nilulutas ang equation

P (χ 2 n > χ 2 crit)=1-α,

kung saan ang α ay ang “significance level” o “test size” o “Type I error value” (typical value α=0.05).

Karaniwan ang bilang ng mga antas ng kalayaan n ay kinakalkula ng formula

n = (bilang ng mga digit) – 1 – (bilang ng mga tinantyang parameter)

Kung X 2 > χ 2 crit, kung gayon ang hypothesis H 0 ay tinanggihan, kung hindi, ito ay tinatanggap. Sa α∙100% ng mga kaso (iyon ay, medyo bihira), ang ganitong paraan ng pagsuri sa H 0 ay hahantong sa isang "error ng unang uri": ang hypothesis na H 0 ay tatanggihan nang mali.

Halimbawa. Sa pag-aaral ng 10 serye ng 100 buto, binilang ang bilang ng mga green-eyed fly infestation. Natanggap na datos: O i =(16, 18, 11, 18, 21, 10, 20, 18, 17, 21);

Dito, ang vector ng mga inaasahang frequency ay hindi alam nang maaga. Kung ang data ay homogenous at nakuha para sa isang binomial distribution, kung gayon ang isang parameter ay hindi alam - ang proporsyon ng p ng mga nahawaang buto. Tandaan na sa orihinal na talahanayan, sa katunayan, walang 10 ngunit 20 frequency na nakakatugon sa 10 link: 16+84=100, ... 21+79=100.

X 2 \u003d (16-100p) 2 / 100p + (84-100 (1-p)) 2 / (100 (1-p)) + ... +

(21-100p) 2 /100p +(79-100(1-p)) 2 /(100(1-p))

Ang pagsasama-sama ng mga termino sa mga pares (tulad ng sa halimbawa na may isang barya), nakuha namin ang anyo ng pagsulat ng Pearson criterion, na kadalasang nakasulat kaagad:

X 2 \u003d (16-100p) 2 / (100p (1-p)) + ... + (21-100p) 2 / (100p (1-p)).

Ngayon, kung gagamitin natin ang pinakamababang distansya ng Pearson bilang paraan para sa pagtatantya ng p, kailangan nating maghanap ng p kung saan ang X 2 =min. (Sinusubukan ng modelo, kung maaari, na "i-adjust" sa pang-eksperimentong data.)

Ang pamantayan ng Pearson ay ang pinaka-unibersal sa lahat ng ginagamit sa mga istatistika. Maaari itong ilapat sa isang-dimensional at multidimensional na data, dami at husay na mga tampok. Gayunpaman, tiyak na dahil sa pagiging pangkalahatan na ang isa ay dapat mag-ingat na huwag magkamali.

Mahahalagang Punto

1. Pagpili ng mga ranggo.

  • Kung discrete ang pamamahagi, kadalasan ay walang arbitrariness sa pagpili ng mga digit.
  • Kung tuloy-tuloy ang pamamahagi, hindi maiiwasan ang arbitrariness. Maaari kang gumamit ng mga bloke na katumbas ng istatistika (lahat ng O ay pareho, halimbawa =10). Sa kasong ito, ang mga haba ng mga pagitan ay iba. Sa mga manu-manong kalkulasyon, sinubukan nilang gawing pareho ang mga pagitan. Dapat bang pantay ang mga pagitan sa pag-aaral ng pamamahagi ng isang one-dimensional na tampok? Hindi.
  • Kinakailangang pagsamahin ang mga bits upang ang inaasahang (hindi naobserbahan!) na mga frequency ay lumabas na hindi masyadong maliit (≥5). Alalahanin na sila (E i ) ang nasa denominator kapag kinakalkula ang X 2 ! Kapag sinusuri ang isang-dimensional na tampok, pinapayagang labagin ang panuntunang ito sa dalawang matinding bit E 1 =E max =1. Kung ang bilang ng mga bit ay malaki at ang inaasahang mga frequency ay malapit, ang X 2 ay malapit na tinatantya χ 2 kahit na para sa E i =2.

Pagtatantya ng Parameter. Ang paggamit ng "self-made", hindi mahusay na mga pamamaraan ng pagtatantya ay maaaring humantong sa labis na pagtatantya ng mga halaga ng distansya ng Pearson.

Pagpili ng tamang bilang ng mga antas ng kalayaan. Kung ang mga pagtatantya ng parameter ay ginawa hindi sa pamamagitan ng mga frequency, ngunit direkta sa pamamagitan ng data (halimbawa, ang arithmetic mean ay kinuha bilang isang pagtatantya ng mean), kung gayon ang eksaktong bilang ng mga antas ng kalayaan n ay hindi alam. Alam lang natin na natutugunan nito ang hindi pagkakapantay-pantay:

(bilang ng mga digit - 1 - bilang ng mga tinantyang parameter)< n < (число разрядов – 1)

Samakatuwid, kinakailangang ihambing ang X 2 sa mga kritikal na halaga χ 2 crit na kinakalkula sa buong saklaw na ito ng n .

Paano bigyang-kahulugan ang hindi kapani-paniwalang maliliit na halaga ng chi-square? Dapat bang ituring na simetriko ang isang barya kung, pagkatapos ng 10,000 tosses, mayroon itong 5,000 coats of arms? Noong nakaraan, maraming mga istatistika ang naniniwala na ang H 0 ay dapat ding tanggihan sa kasong ito. Ngayon ang isa pang diskarte ay iminungkahi: upang tanggapin ang H 0 , ngunit isailalim ang data at ang paraan ng kanilang pagsusuri sa karagdagang pag-verify. Mayroong dalawang mga posibilidad: alinman sa isang napakaliit na distansya ng Pearson ay nangangahulugan na ang pagtaas sa bilang ng mga parameter ng modelo ay hindi sinamahan ng isang wastong pagbaba sa bilang ng mga antas ng kalayaan, o ang data mismo ay napeke (marahil hindi sinasadyang nababagay sa inaasahang resulta. ).

Halimbawa. Kinakalkula ng dalawang investigator na A at B ang proporsyon ng recessive homozygotes aa sa ikalawang henerasyon sa isang AA * aa monohybrid cross. Ayon sa mga batas ni Mendel, ang proporsyon na ito ay 0.25. Ang bawat mananaliksik ay nagsagawa ng 5 eksperimento, at 100 organismo ang pinag-aralan sa bawat eksperimento.

Resulta A: 25, 24, 26, 25, 24. Konklusyon ng mananaliksik: Ang batas ni Mendel ay wasto (?).

Resulta B: 29, 21, 23, 30, 19. Konklusyon ng mananaliksik: Ang batas ni Mendel ay hindi wasto (?).

Gayunpaman, ang batas ni Mendel ay likas na istatistika, at ang isang quantitative analysis ng mga resulta ay binabaligtad ang mga konklusyon! Sa pagsasama-sama ng limang eksperimento sa isa, nakarating tayo sa isang chi-square distribution na may 5 degrees ng kalayaan (isang simpleng hypothesis ang sinusuri):

X 2 A = ((25-25) 2 +(24-25) 2 +(26-25) 2 +(25-25) 2 +(24-25) 2)/(100∙0.25∙0.75)=0.16

X 2 B = ((29-25) 2 +(21-25) 2 +(23-25) 2 +(30-25) 2 +(19-25) 2)/(100∙0.25∙0.75)=5.17

Mean value m [χ 2 n =5 ]=5, standard deviation σ[χ 2 n =5 ]=(2∙5) 1/2 =3.2.

Samakatuwid, nang walang pagtukoy sa mga talahanayan, malinaw na ang halaga ng X 2 B ay karaniwan, at ang halaga ng X 2 A ay hindi kapani-paniwalang maliit. Ayon sa mga talahanayan P (χ 2 n =5<0.16)<0.0001.

Ang halimbawang ito ay isang inangkop na bersyon ng isang tunay na kaso na naganap noong 1930s (tingnan ang gawa ni Kolmogorov na "On Another Proof of Mendel's Laws"). Nakakapagtaka, ang researcher A ay pabor sa genetics, habang ang researcher B ay tutol dito.

Pagkalito sa notasyon. Kinakailangang makilala ang distansya ng Pearson, na nangangailangan ng mga karagdagang kasunduan sa pagkalkula nito, mula sa konsepto ng matematika ng random variable na chi-square. Ang distansya ng Pearson sa ilalim ng ilang mga kundisyon ay may distribusyon na malapit sa isang chi-square na may n degree ng kalayaan. Samakatuwid, ito ay kanais-nais na HINDI upang tukuyin ang distansya ng Pearson sa pamamagitan ng χ 2 n , ngunit gumamit ng katulad ngunit magkaibang notasyon para sa X 2. .

Ang pamantayan ng Pearson ay hindi omnipotent. Mayroong walang katapusang bilang ng mga alternatibo para sa H 0 , na hindi niya magawang isaalang-alang. Hayaan mong subukan ang hypothesis na ang tampok ay may pare-parehong pamamahagi, mayroon kang 10 bits at ang vector ng mga naobserbahang frequency ay (130,125,121,118,116,115,114,113,111,110). Ang pamantayan ng Pearson ay hindi maaaring "mapansin" na ang mga frequency ay bumababa nang monotonically at ang H 0 ay hindi tatanggihan. Kung ito ay pupunan ng criterion ng serye, kung gayon oo!

Ang quantitative na pag-aaral ng biological phenomena ay kinakailangang nangangailangan ng paglikha ng mga hypotheses na maaaring magamit upang ipaliwanag ang mga phenomena na ito. Upang subukan ito o ang hypothesis na iyon, isang serye ng mga espesyal na eksperimento ang inilalagay at ang aktwal na data na nakuha ay inihambing sa mga teoretikal na inaasahan ayon sa hypothesis na ito. Kung may tugma, ito ay maaaring sapat na dahilan upang tanggapin ang hypothesis. Kung ang pang-eksperimentong data ay hindi sumasang-ayon sa teoretikal na inaasahan, may malaking pagdududa tungkol sa kawastuhan ng iminungkahing hypothesis.

Ang antas ng pagsunod ng aktwal na data sa inaasahang (hypothetical) ay sinusukat ng chi-square fit test:

 ang aktwal na naobserbahang halaga ng tampok sa ako- laruan; - ang teoretikal na inaasahang numero o tanda (tagapagpahiwatig) para sa isang grupo, k-bilang ng mga pangkat ng data.

Ang criterion ay iminungkahi ni K. Pearson noong 1900 at kung minsan ay tinatawag na Pearson's criterion.

Isang gawain. Sa 164 na mga bata na nagmana ng kadahilanan mula sa isang magulang at ang kadahilanan mula sa isa pa, mayroong 46 na mga bata na may kadahilanan, 50 na may kadahilanan, 68 sa pareho. Kalkulahin ang mga inaasahang frequency sa isang 1:2:1 ratio sa pagitan ng mga grupo at tukuyin ang antas ng pagkakasundo sa pagitan ng empirical data gamit ang Pearson's test.

Solusyon: Ang ratio ng mga naobserbahang frequency ay 46:68:50, theoretically inaasahang 41:82:41.

Itakda natin ang antas ng kahalagahan sa 0.05. Ang halaga ng tabular ng pagsubok ng Pearson para sa antas ng kahalagahan na ito na may bilang ng mga antas ng kalayaan na katumbas nito ay naging 5.99. Samakatuwid, ang hypothesis tungkol sa pagsusulatan ng pang-eksperimentong data sa teoretikal ay maaaring tanggapin, dahil, .

Tandaan na kapag kinakalkula ang chi-square test, hindi na namin itinatakda ang kundisyon para sa kailangang-kailangan na normalidad ng distribusyon. Maaaring gamitin ang chi-square test para sa anumang mga distribusyon na malaya nating piliin sa ating mga pagpapalagay. Mayroong ilang pagiging pangkalahatan sa pamantayang ito.

Ang isa pang aplikasyon ng pamantayan ni Pearson ay ang paghahambing ng isang empirical distribution na may Gaussian normal distribution. Kasabay nito, maaari itong maiugnay sa pangkat ng mga pamantayan para sa pagsuri sa normalidad ng pamamahagi. Ang tanging paghihigpit ay ang katotohanan na ang kabuuang bilang ng mga halaga (variant) kapag ginagamit ang pamantayang ito ay dapat na sapat na malaki (hindi bababa sa 40), at ang bilang ng mga halaga sa mga indibidwal na klase (mga agwat) ay dapat na hindi bababa sa 5. Kung hindi, dapat pagsamahin ang mga katabing agwat. Ang bilang ng mga antas ng kalayaan kapag sinusuri ang normalidad ng pamamahagi ay dapat kalkulahin bilang:.

    1. Ang pamantayan ni Fisher.

Ang parametric test na ito ay nagsisilbing pagsubok sa null hypothesis tungkol sa pagkakapantay-pantay ng mga pagkakaiba-iba ng mga normal na distributed na populasyon.

O kaya.

Para sa maliliit na laki ng sample, ang aplikasyon ng t-test ng Estudyante ay maaaring tama lamang kung ang mga pagkakaiba ay pantay. Samakatuwid, bago subukan ang pagkakapantay-pantay ng sample na paraan, kinakailangan upang tiyakin na ang t-test ng Estudyante ay wasto.

saan N 1 , N 2 mga laki ng sample, 1 , 2 - ang bilang ng mga antas ng kalayaan para sa mga sample na ito.

Kapag gumagamit ng mga talahanayan, dapat tandaan na ang bilang ng mga antas ng kalayaan para sa isang sample na may mas malaking pagkakaiba ay pinili bilang numero ng hanay ng talahanayan, at para sa isang mas maliit na pagkakaiba, bilang row number ng talahanayan.

Para sa antas ng kabuluhan ayon sa mga talahanayan ng mga istatistika ng matematika, nakakita kami ng isang halaga ng tabular. Kung, kung gayon ang hypothesis ng pagkakapantay-pantay ng mga pagkakaiba ay tinanggihan para sa napiling antas ng kahalagahan.

Halimbawa. Pinag-aralan ang epekto ng cobalt sa timbang ng katawan ng mga kuneho. Ang eksperimento ay isinagawa sa dalawang pangkat ng mga hayop: eksperimental at kontrol. Nakaranas ang nakatanggap ng isang additive sa diyeta sa anyo ng isang may tubig na solusyon ng cobalt chloride. Sa panahon ng eksperimento, ang pagtaas ng timbang ay nasa gramo:

Kontrolin

Kung sakaling ang nakuha na halaga ng criterion χ 2 ay mas malaki kaysa sa kritikal, napagpasyahan namin na mayroong istatistikal na kaugnayan sa pagitan ng pinag-aralan na kadahilanan ng panganib at ang kinalabasan sa naaangkop na antas ng kahalagahan.

Isang halimbawa ng pagkalkula ng Pearson chi-square test

Alamin natin ang istatistikal na kahalagahan ng impluwensya ng kadahilanan ng paninigarilyo sa saklaw ng arterial hypertension ayon sa talahanayan sa itaas:

1. Kalkulahin ang mga inaasahang halaga para sa bawat cell:

2. Hanapin ang halaga ng chi-square test ni Pearson:

χ 2 \u003d (40-33.6) 2 / 33.6 + (30-36.4) 2 / 36.4 + (32-38.4) 2 / 38.4 + (48-41.6) 2 / 41.6 \u003d 4.396.

3. Ang bilang ng mga antas ng kalayaan f = (2-1)*(2-1) = 1. Hanapin ang kritikal na halaga ng Pearson chi-square test mula sa talahanayan, na, sa antas ng kahalagahan na p=0.05 at ang bilang ng mga antas ng kalayaan 1, ay 3.841.

4. Inihahambing namin ang nakuhang halaga ng chi-square test sa kritikal na isa: 4.396 > 3.841, samakatuwid, ang pag-asa ng saklaw ng arterial hypertension sa pagkakaroon ng paninigarilyo ay makabuluhang istatistika. Ang antas ng kahalagahan ng relasyong ito ay tumutugma sa p<0.05.

Gayundin, ang chi-square test ni Pearson ay kinakalkula ng formula

Ngunit para sa isang 2x2 table, ang Yates-corrected criterion ay nagbibigay ng mas tumpak na mga resulta.

Kung ang pagkatapos H(0) tinanggap,

Kailan tinanggap H(1)

Kapag ang bilang ng mga obserbasyon ay maliit at ang dalas na mas mababa sa 5 ay nangyayari sa mga cell ng talahanayan, ang chi-square test ay hindi naaangkop at ginagamit upang subukan ang mga hypotheses. Eksaktong pagsubok ni Fisher . Ang pamamaraan para sa pagkalkula ng pamantayang ito ay medyo matrabaho, at sa kasong ito ay mas mahusay na gumamit ng mga programa sa computer para sa pagtatasa ng istatistika.

Ayon sa talahanayan ng contingency, maaari mong kalkulahin ang sukatan ng ugnayan sa pagitan ng dalawang katangian ng husay - ito ay ang Yule association coefficient Q (analogue ng correlation coefficient)

Q Nasa saklaw mula 0 hanggang 1. Ang isang koepisyent na malapit sa pagkakaisa ay nagpapahiwatig ng isang malakas na ugnayan sa pagitan ng mga tampok. Kung ito ay katumbas ng zero, walang koneksyon .

Katulad nito, ginagamit ang phi-square coefficient (φ 2).

PAMANTAYANG GAWAIN

Inilalarawan ng talahanayan ang kaugnayan sa pagitan ng mga rate ng mutation sa mga grupo ng Drosophila na pinapakain at hindi pinapakain.



Pagsusuri ng cross table

Upang pag-aralan ang talahanayan ng contingency, ang H 0 ay iniharap - isang hypothesis, iyon ay, ang kawalan ng impluwensya ng pinag-aralan na katangian sa resulta ng pag-aaral. Para dito, ang inaasahang dalas ay kinakalkula, at isang talahanayan ng inaasahan ay binuo.

Waiting table

mga grupo Mga kultura ng chilo Kabuuan
Nagbigay ng mutasyon Hindi nag mutate
Aktwal na dalas Inaasahang dalas Aktwal na dalas Inaasahang dalas
Gamit ang top dressing
Nang walang top dressing
Kabuuan

Paraan #1

Tukuyin ang dalas ng paghihintay:

2756 - X ;

2. 3561 – 3124

Kung ang bilang ng mga obserbasyon sa mga grupo ay maliit, kapag gumagamit ng X 2, sa kaso ng paghahambing ng aktwal at inaasahang mga frequency na may discrete distribution, ito ay nauugnay sa ilang mga kamalian. Upang mabawasan ang kamalian, ang Yates correction ay ginagamit.

  • Math
  • Sa artikulong ito, pag-uusapan natin ang tungkol sa pag-aaral ng kaugnayan sa pagitan ng mga tampok, o, ayon sa gusto mo, mga random na variable, mga variable. Sa partikular, susuriin namin kung paano ipakilala ang isang sukatan ng pagtitiwala sa pagitan ng mga tampok gamit ang Chi-square na pagsubok at ihambing ito sa koepisyent ng ugnayan.

    Bakit maaaring kailanganin ito? Halimbawa, upang maunawaan kung aling mga feature ang mas nakadepende sa target na variable kapag gumagawa ng credit scoring - tinutukoy ang posibilidad ng default ng isang kliyente. O, tulad ng sa aking kaso, upang maunawaan kung anong mga tagapagpahiwatig ang dapat gamitin upang mag-program ng isang robot ng kalakalan.

    Hiwalay, tandaan ko na para sa pagsusuri ng data ay ginagamit ko ang wikang c#. Marahil ang lahat ng ito ay naipatupad na sa R ​​o Python, ngunit ang paggamit ng c# para sa akin ay nagpapahintulot sa akin na maunawaan ang paksa nang detalyado, bukod dito, ito ang aking paboritong programming language.

    Magsimula tayo sa isang napakasimpleng halimbawa, gumawa tayo ng apat na column sa Excel gamit ang random number generator:
    X=RANDOMBETWEEN(-100,100)
    Y =X*10+20
    Z =X*X
    T=RANDOMBETWEEN(-100,100)

    Tulad ng nakikita mo, ang variable Y linearly nakadepende sa X; variable Z quadratically nakadepende sa X; mga variable X at T malaya. Sinadya ko ang pagpiling ito, dahil ihahambing natin ang ating sukat ng pagtitiwala sa koepisyent ng ugnayan. Tulad ng alam mo, sa pagitan ng dalawang random na variable ito ay modulo 1 kung sa pagitan nila ang pinaka "matibay" na uri ng pagtitiwala ay linear. Walang ugnayan sa pagitan ng dalawang independiyenteng random na variable, ngunit ang kalayaan ng koepisyent ng ugnayan ay hindi sumusunod sa pagkakapantay-pantay ng koepisyent ng ugnayan. Makikita natin ito mamaya sa halimbawa ng mga variable. X at Z.

    Ise-save namin ang file bilang data.csv at simulan ang mga unang pagtatantya. Una, kalkulahin natin ang koepisyent ng ugnayan sa pagitan ng mga halaga. Hindi ko inilagay ang code sa artikulo, ito ay nasa aking github. Nakukuha namin ang ugnayan para sa lahat ng posibleng mga pares:

    Ito ay makikita na para sa linearly umaasa X at Y ang koepisyent ng ugnayan ay 1. Ngunit para sa X at Z ito ay katumbas ng 0.01, bagama't tahasan naming itinakda ang pagtitiwala Z=X*X. Maliwanag, kailangan namin ng panukalang mas "nararamdaman" ang dependency. Ngunit bago magpatuloy sa Chi-square test, tingnan natin kung ano ang contingency matrix.

    Upang bumuo ng isang contingency matrix, hinahati namin ang hanay ng mga variable na halaga sa mga pagitan (o ikategorya). Mayroong maraming mga paraan ng naturang paghahati, habang walang unibersal. Ang ilan sa mga ito ay nahahati sa mga pagitan upang ang parehong bilang ng mga variable ay nahulog sa kanila, ang iba ay nahahati sa mga pagitan ng pantay na haba. Personal kong gustong pagsamahin ang mga diskarteng ito. Nagpasya akong gamitin ang paraang ito: Ibinabawas ko ang marka mula sa variable. inaasahan, pagkatapos ay hatiin ko ang resulta sa pagtatantya ng karaniwang paglihis. Sa madaling salita, isentro ko at gawing normal ang random variable. Ang resultang halaga ay pinarami ng isang kadahilanan (sa halimbawang ito ito ay katumbas ng 1), pagkatapos nito ang lahat ay bilugan hanggang sa isang integer. Ang output ay isang variable ng uri ng int, na siyang identifier ng klase.

    Kaya't kunin natin ang ating mga senyales X at Z, ikinategorya namin ito sa paraang inilarawan sa itaas, pagkatapos ay kinakalkula namin ang bilang at posibilidad ng paglitaw ng bawat klase at ang mga posibilidad ng paglitaw ng mga pares ng mga tampok:

    Ito ay isang matrix ayon sa dami. Dito sa mga linya - ang bilang ng mga paglitaw ng mga variable na klase X, sa mga column - ang bilang ng mga paglitaw ng mga variable na klase Z, sa mga cell - ang bilang ng mga paglitaw ng mga pares ng mga klase sa parehong oras. Halimbawa, ang klase 0 ay nangyayari nang 865 beses para sa isang variable X, 823 beses para sa variable Z at hindi kailanman nagkaroon ng isang pares (0,0). Lumipat tayo sa mga probabilidad sa pamamagitan ng paghahati ng lahat ng mga halaga sa pamamagitan ng 3000 (kabuuang bilang ng mga obserbasyon):

    Nakatanggap ng contingency matrix na nakuha pagkatapos ng pagkakategorya ng mga feature. Ngayon ay oras na upang isipin ang tungkol sa pamantayan. Sa pamamagitan ng kahulugan, ang mga random na variable ay independyente kung ang mga sigma-algebra na nabuo ng mga random na variable na ito ay independyente. Ang kalayaan ng sigma-algebras ay nagpapahiwatig ng magkapares na kalayaan ng mga kaganapan mula sa kanila. Ang dalawang kaganapan ay tinatawag na independiyente kung ang posibilidad ng kanilang magkasanib na paglitaw ay katumbas ng produkto ng mga probabilidad ng mga kaganapang ito: Pij = Pi*Pj. Ito ang pormula na gagamitin natin sa pagbuo ng criterion.

    Null hypothesis: mga tampok na nakategorya X at Z malaya. Katumbas nito: ang pamamahagi ng contingency matrix ay ibinibigay lamang ng mga probabilidad ng paglitaw ng mga klase ng mga variable (ang mga probabilidad ng mga hilera at haligi). O kaya: ang mga cell ng matrix ay ang produkto ng mga katumbas na probabilidad ng mga row at column. Gagamitin namin ang pormulasyon na ito ng null hypothesis upang bumuo ng panuntunan ng desisyon: isang makabuluhang pagkakaiba sa pagitan Pij at Pi*Pj magiging batayan para sa pagtanggi sa null hypothesis.

    Hayaan - ang posibilidad ng paglitaw ng klase 0 sa variable X. Sa kabuuan mayroon kami n mga klase X at m mga klase Z. Lumalabas na upang maitakda ang pamamahagi ng matrix, kailangan nating malaman ang mga ito n at m mga probabilidad. Pero sa totoo lang, kung alam natin n-1 posibilidad para sa X, pagkatapos ay ang huli ay matatagpuan sa pamamagitan ng pagbabawas ng kabuuan ng iba mula sa 1. Kaya, upang mahanap ang pamamahagi ng contingency matrix, kailangan nating malaman l=(n-1)+(m-1) mga halaga. O meron ba tayo l-dimensional parametric space, ang vector kung saan nagbibigay sa amin ng aming nais na pamamahagi. Ang istatistika ng chi-square ay magiging ganito:

    at, ayon sa Fisher's theorem, ay mayroong Chi-squared distribution na may n*m-l-1=(n-1)(m-1) antas ng kalayaan.

    Itakda natin ang antas ng kahalagahan sa 0.95 (o ang posibilidad ng isang Type I error ay 0.05). Hanapin natin ang dami ng Chi-squared distribution para sa ibinigay na antas ng kahalagahan at antas ng kalayaan mula sa halimbawa (n-1)(m-1)=4*3=12: 21.02606982. Ang chi-square statistic mismo para sa mga variable X at Z katumbas ng 4088.006631. Makikita na hindi tinatanggap ang independence hypothesis. Maginhawang isaalang-alang ang ratio ng Chi-squared statistic sa halaga ng threshold - sa kasong ito ito ay katumbas ng Chi2Coeff=194.4256186. Kung ang ratio na ito ay mas mababa sa 1, kung gayon ang independence hypothesis ay tinatanggap; kung ito ay mas malaki, pagkatapos ay hindi. Hanapin natin ang ratio na ito para sa lahat ng pares ng feature:

    Dito Salik1 at salik2- mga pangalan ng tampok
    src_cnt1 at src_cnt2- ang bilang ng mga natatanging halaga ng mga orihinal na tampok
    mod_cnt1 at mod_cnt2- bilang ng mga natatanging halaga ng tampok pagkatapos ng pagkakategorya
    chi2- Mga istatistika ng Chi-square
    chi2max- halaga ng threshold ng mga istatistika ng Chi-squared para sa antas ng kahalagahan na 0.95
    chi2Coeff- ratio ng chi-square statistic sa halaga ng threshold
    corr- koepisyent ng ugnayan

    Makikita na sila ay independyente (chi2coeff<1) получились следующие пары признаков - (X,T), (Y,T) at ( Z,T), na lohikal, dahil ang variable T random na nabuo. Mga variable X at Z umaasa, ngunit mas mababa sa linear na umaasa X at Y, na lohikal din.

    Na-post ko ang code ng utility na kinakalkula ang mga indicator na ito sa github, sa parehong lugar ang data.csv file. Tumatanggap ang utility ng isang csv file bilang input at kinakalkula ang mga dependency sa pagitan ng lahat ng pares ng column: PtProject.Dependency.exe data.csv