Pagsubok sa hypothesis na ang mean ng pangkalahatang populasyon ay katumbas ng ilang ibinigay na halaga. Pagsubok sa hypothesis tungkol sa pagkakapantay-pantay ng mga paraan ng dalawang normal na distribusyon na may alam na mga pagkakaiba

Kabilang sa mga pinakamahalagang katangian ng generalizing, hinggil sa kung aling mga hypotheses ang kadalasang inilalagay, ay average na halaga. Upang masubukan ang hypothesis tungkol sa pagkakapantay-pantay ng mga paraan sa pangkalahatang populasyon, kinakailangan na bumalangkas ng null hypothesis. Sa kasong ito, bilang panuntunan, ipinapalagay na ang parehong mga sample ay kinuha mula sa isang karaniwang ipinamamahaging pangkalahatang populasyon na may inaasahan sa matematika katumbas ng X at may pagkakaiba-iba na katumbas ng c0 . Kung tama ang palagay na ito, kung gayon x1 - x2 ~ x. Sa katunayan, ang sample ay nangangahulugan na ang X1 at X2 ay hindi magkapantay dahil sa randomness ng sample. Samakatuwid, kinakailangan upang malaman ang kahalagahan ng mga pagkakaiba sa pagitan ng x1 x2 - kung ang kanilang pagkakaiba ay nasa loob ng mga limitasyon ng isang posibleng random na pagkakaiba-iba o kung ito ay lumampas sa mga limitasyong ito. Pagkatapos ang gawain ng pagsubok ng hypothesis ay nabawasan upang masuri ang kahalagahan ng pagkakaiba

Ang bawat sample mean ay may sariling error. /at:

Ang pagkakaroon ng pagtukoy sa mga pagkakaiba-iba at karaniwang error sample ay nangangahulugan, maaari mong kalkulahin ang aktwal na halaga ng I-test at ihambing ito sa kritikal (tabular) na halaga sa naaangkop na antas ng kahalagahan at ang bilang ng mga antas ng kalayaan ng pagkakaiba-iba (para sa mga sample na may n > 30, ang U-test Ginagamit normal na pamamahagi, at para sa mga sample na may numero n< 30 - и-критерий Стьюдента).

Ang aktwal na halaga ng i-criterion ay tinutukoy ng formula

Kung ang sample na halaga ng criterion ay bumaba sa kritikal na rehiyon (їfakі> O), ang null hypothesis tungkol sa pagkakapantay-pantay ng mga paraan ay tatanggihan; kung ang sample na halaga ng criterion ay bumaba sa rehiyon pinahihintulutang halaga(Іfakg< їа), нулевая гипотеза принимается.

Ang null hypothesis na ang ibig sabihin sa dalawang populasyon ay pantay ay maaari ding masuri sa pamamagitan ng paghahambing ng aktwal na mean na pagkakaiba. [єFa,.t = ~~2 ) na may limitadong random na error sa isang naibigay na antas ng kahalagahan (ea). Kung ang aktwal na pagkakaiba sa pagitan ng sample na ibig sabihin ay nasa loob ng random na error< еа), нулевая гипотеза принимается. Если же фактическая разница между средними выходит за пределы случайной ошибки (еф^т >ea), ang null hypothesis ay tinanggihan.

Kapag nilulutas ang mga partikular na problema ng pagsubok ng mga istatistikal na hypotheses tungkol sa mga average, kinakailangang isaalang-alang ang mga sumusunod na punto: 1) ang sampling scheme (mga sample ay independyente at umaasa); 2) pagkakapantay-pantay o hindi pagkakapantay-pantay ng mga laki ng sample; 3) pagkakapantay-pantay o hindi pagkakapantay-pantay ng mga pagkakaiba-iba ng pangkalahatang populasyon.

Ang algorithm para sa pagsubok ng hypothesis tungkol sa dalawang paraan ay medyo nagbabago kung ang mga pagkakaiba para sa mga sample (512 at 522) ay makabuluhang naiiba. Sa kasong ito, kapag tinutukoy ang bilang ng mga antas ng kalayaan, ipinakilala ang isang susog:

Kapag, na may hindi pantay na pagkakaiba-iba sa mga sample, ang kanilang mga numero ay hindi rin pantay (n1 at n2), ang tabular na halaga ng t-test ng Mag-aaral ay dapat kalkulahin gamit ang formula

kung saan ang u1 at u2 ay ang mga tabular na halaga ng t-test ng Estudyante, na kinukuha alinsunod sa n1- 1 at n2 - 1 degree ng kalayaan.

Isaalang-alang ang isang halimbawa ng pagsubok sa isang istatistikal na hypothesis tungkol sa pagkakapantay-pantay ng dalawang average na independiyenteng mga sample ng pantay na laki (n1=n2) at pantay na pagkakaiba-iba(SG;2 =).

Oo, may mga data sa buhay na timbang ng mga guya sa kapanganakan para sa dalawang grupo ng mga itim-at-puting baka (mga baka sa parehong edad). Ang unang grupo ng mga baka ay may normal na tagal ng paggagatas (305 araw), at ang pangalawang grupo ay ginatasan ng 320 araw. Bawat pangkat ay may kasamang 5 baka. Ang mga obserbasyon na ito ay ibinigay sa talahanayan. 7.2.

Talahanayan 7.2. Live na timbang ng mga guya sa kapanganakan ng mga grupo ng mga baka na may magkaibang tagal paggagatas

Ang paghahambing ng mga live na timbang ng mga guya sa dalawang grupo ng mga baka ay nagpapakita na ang isang mas mataas na buhay na timbang ng mga guya ay sinusunod sa mga baka ng I group na may normal na tagal ng paggagatas. Gayunpaman, dahil sa ang katunayan na ang bilang ng mga sample ay maliit (n = 5), ang posibilidad ay hindi pinasiyahan na ang mga hindi pagkakasundo sa pagitan ng mga live na timbang ay nakuha bilang isang resulta ng mga random na dahilan.

Kinakailangang suriin sa istatistika ang pagkakaiba sa pagitan ng mga average para sa dalawang grupo ng mga baka.

Batay sa mga resulta ng pagsubok sa hypothesis, tapusin na ang pagkakaiba sa pagitan ng mga paraan ay nasa loob ng mga limitasyon ng mga random na pagbabagu-bago, o ang pagkakaibang ito ay napakahalaga na hindi ito pare-pareho sa null hypothesis tungkol sa random na katangian ng mga pagkakaiba sa pagitan ng mga paraan.

Kung ang pangalawang posisyon ay napatunayan at ang una ay tinanggihan, maaari itong maitalo na ang tagal ng paggagatas ay nakakaapekto sa buhay na timbang ng mga guya.

Ang kondisyon ng problema ay ipinapalagay na ang parehong mga sample ay kinuha mula sa isang normal na distributed pangkalahatang populasyon. Ang pagbuo ng mga grupo ay random (independyente), kaya dapat suriin ang pagkakaiba sa pagitan ng mga paraan.

Tukuyin natin ang average na buhay na timbang ng mga guya para sa dalawang grupo ng mga baka:

Ang aktwal na pagkakaiba sa pagitan ng mga paraan ay:

Dapat masuri ang kahalagahan ng pagkakaibang ito. Upang gawin ito, kinakailangan upang subukan ang hypothesis na ang dalawang paraan ay pantay.

Isaalang-alang natin nang detalyado ang lahat ng mga yugto ng pamamaraan ng pagsubok ng hypothesis. 1. Bumuo tayo ng zero But at Na alternatibong hypotheses:

2. Kumuha tayo ng antas ng kahalagahan a = 0.05, na ginagarantiyahan ang pagtanggap ng hypothesis o ang pagtanggi nito na may posibilidad na magkamali lamang sa 5 kaso sa 100.

3. Ang pinakamakapangyarihang pamantayan para sa pagsubok sa ganitong uri ng hypothesis H0 ay ang u-test ng Mag-aaral.

4. Bumuo tayo ng panuntunan para sa paggawa ng desisyon batay sa mga resulta

sinusuri ang H0. Dahil ayon sa alternatibong hypothesis x1 maaaring mas kaunti o higit pa x2, kung gayon ang kritikal na rehiyon ay dapat na maitatag mula sa dalawa

panig: at - ~ ia at at - ia, o sa madaling salita: ia.

Ang form na ito ng pagtatakda ng criterion ay tinatawag bilateral na kritikal na rehiyon. Ang kritikal na rehiyon sa a = 0.05 ay ilalagay sa loob - lahat ng value na mas mataas kaysa sa itaas na 2.5% at mas mababa sa 2.5% ng distribution point ng u-test ng Student.

Sa pagtingin sa itaas, ang mga konklusyon sa pagsuri sa H0 ay maaaring mabalangkas tulad ng sumusunod: ang hypothesis H0 ay tatanggihan kung ang aktwal na halaga ng Γ-criterion ay lumabas na

higit pang tabular na halaga, iyon ay, kung kung > ia. Kung hindi, dapat tanggapin si Ka.

5. Upang suriin ang H0, kailangan mong matukoy ang aktwal na halaga ng G-test ng Mag-aaral at ihambing ito sa halaga ng talahanayan.

Upang matukoy ang aktwal na halaga ng t-test ng Mag-aaral, ginagawa namin ang mga sumusunod na kalkulasyon.

6. Kalkulahin para sa bawat sample ang pagkakaiba-iba ng pagkakaiba-iba na naitama para sa pagkawala ng mga antas ng kalayaan. Upang gawin ito, kuwadrado muna namin ang mga halaga ng хц at х2і:

7. Kalkulahin ang mga squared mean error para sa bawat sample at ang generalised mean error ng mean difference:

8. Kalkulahin ang aktwal na halaga ng G-test ng Mag-aaral:

9. Tukuyin ang tabular value ng G-Student test, batay sa antas ng kahalagahan a = 0.05 at ang bilang ng mga degree ng kalayaan para sa dalawang sample:

Ayon sa talahanayan Mga kritikal na puntos Pamamahagi ng mag-aaral" (karagdagang 3) ay makikita natin at sa a = 0.05 at k = 8: i005 = 2.31.

10. Paghambingin natin ang aktwal at tabular na halaga-Pantayan ng Mag-aaral:

Since ifackg< и^05 (выборочное значение критерия находится в области допустимых значений), нулевая гипотеза о равенстве средних генеральных совокупностях принимается.

Kaya, ang epekto ng tagal ng paggagatas sa buhay na timbang ng mga guya sa kapanganakan ay underestimated.

Gayunpaman, dapat bigyang-pansin ng isa ang isang mahalagang punto: ang buhay na timbang ng mga guya sa kapanganakan sa lahat ng mga obserbasyon ng eksperimento ay mas mataas sa unang pangkat ng mga baka na may normal na tagal ng paggagatas. Samakatuwid, sa halip na ang alternatibong hypothesis Sa x1 f x2 isa pa ang pwedeng kunin. Dahil walang dahilan upang maniwala na sa isang normal na tagal ng paggagatas, ang buhay na timbang ng mga guya ay magiging mas mababa, malinaw na ang isang mas naaangkop na anyo ng alternatibong hypothesis ay: Ha: x1 > x2.

Pagkatapos ang kritikal na rehiyon, na 0.05 ng buong lugar sa ilalim ng kurba ng pamamahagi, ay matatagpuan lamang sa isang (kanan) na bahagi, dahil mga negatibong halaga ang mga nabubuhay na masa ay itinuturing na hindi tugma sa mga kondisyon ng problema. Sa pagsasaalang-alang na ito, dapat na matukoy ang tabular value-criterion sa dobleng halaga ng antas ng kahalagahan (i.e. sa 2a; ia = 2 o 0.05 = 0.10). Ang criterion para sa pagsubok sa hypothesis ay nabuo tulad ng sumusunod: ang null hypothesis ay tinatanggihan kung > і2а.

Ang form na ito ng kritikal na problema sa rehiyon ay tinatawag unilateral. Ang one-tailed test ay mas sensitibo sa mga error ng pangalawang uri, ngunit ang paggamit nito ay pinahihintulutan lamang kung ang bisa ng alternatibong hypothesis na ito ay napatunayan.

Itatag natin ayon sa mga talahanayan (Appendix 3) ang tabular value-criterion sa a = 0.10 at k = 8, i0D0 = 1.86.

Kaya, kapag gumagamit ng one-tailed test, ang null hypothesis ay tinanggihan, i.e. ang criterion ay nasa kritikal na rehiyon (ifakg > i0d0; 2.14 > 1.86). Kaya, ang buhay na timbang ng mga guya sa kapanganakan sa pangkat ng mga baka na may normal na tagal ng paggagatas ay makabuluhang mas mataas. Ang konklusyon na ito ay mas tumpak kaysa sa nakuha mula sa isang dalawang-tailed na pagsubok, dahil dito ginagamit namin karagdagang impormasyon upang bigyang-katwiran ang kawastuhan ng paglalapat ng isang panig na pamantayan.

Ang parehong konklusyon ay maaaring makuha sa pamamagitan ng paghahambing ng posibleng marginal error ng dalawang sample ea sa aktwal na pagkakaiba sa pagitan ng mga paraan.

Kalkulahin natin ang posibleng marginal error ng pagkakaiba sa pagitan ng mga average para sa dalawang sample:

Ang paghahambing ng marginal na posibleng error sa aktwal na pagkakaiba sa mga paraan, maaari tayong gumuhit ng isang katulad na konklusyon na ang hypothesis na iniharap tungkol sa pagkakapantay-pantay ng mga paraan ay hindi sumasang-ayon sa mga resulta na nakuha.

Isasaalang-alang namin ang pagsubok sa hypothesis para sa kaso ng mga umaasang sample na may pantay na numero at pantay na pagkakaiba-iba gamit ang sumusunod na halimbawa.

Oo, mayroong sampling data sa pagiging produktibo ng mga ina na baka at anak na baka (Talahanayan 7.3).

Talahanayan 7.3. Produktibo ng ina at anak na baka

Kinakailangang subukan ang isang istatistikal na hypothesis tungkol sa ibig sabihin ng pagkakaiba sa pagitan ng mga pares ng mga kaugnay na obserbasyon sa populasyon.

Dahil ang mga obserbasyon ng dalawang sample ay pairwise interconnected (dependent samples), ito ay kinakailangan upang ihambing hindi ang pagkakaiba sa pagitan ng mga paraan, ngunit ang average na halaga ng mga pagkakaiba sa pagitan ng mga pares ng mga obserbasyon (u). Isaalang-alang natin ang lahat ng mga yugto ng pamamaraan ng pagsubok sa hypothesis. 1. Bumuo tayo ng null at alternatibong hypotheses:

Gamit ang alternatibong ito, dapat maglapat ng two-tailed test.

2. Kinukuha namin ang antas ng kahalagahan na katumbas ng a = 0.05.

3. Ang pinakamalakas na pagsusulit para sa H0 ay ang u-test ng Mag-aaral.

4. Kalkulahin ang average na pagkakaiba

5. Kalkulahin ang adjusted variance ng mean difference:

6. Tukuyin ang mean error ng mean difference:

7. Kalkulahin ang aktwal na halaga-pamantayan ng Mag-aaral:

8. Itakda ang bilang ng mga antas ng kalayaan batay sa bilang ng mga pares ng magkakaugnay na pagkakaiba:

9. Hanapin natin ang tabular value ng Student's G-test para sa sa= 4 at a = 0.05; V. = 2.78 (app. 3).

10. Ihambing natin ang aktwal at tabular na halaga ng criterion:

Ang aktwal na halaga ng criterion ay nasa itaas ng talahanayan. Samakatuwid, ang halaga ng average na pagkakaiba sa pagitan ng mga ani ng gatas ng dalawang sample ay makabuluhan at ang null hypothesis ay tinanggihan.

Nakukuha namin ang parehong mga konklusyon sa pamamagitan ng paghahambing ng posibleng marginal error sa aktwal na average na pagkakaiba:

Ang marginal error ay nagpapakita na bilang resulta ng random variation, ang average na pagkakaiba ay maaaring umabot sa 2.4 c. Ang aktwal na average na pagkakaiba ay mas mataas:

Kaya, ayon sa mga resulta ng pag-aaral, maaari itong pagtalunan na may mataas na antas ng posibilidad na ang mga pagkakaiba sa mga halaga ng average na ani ng gatas ng mga ina na baka at anak na baka ay maaaring mangyari.

3. VERIFICATION NG HYPOTHESIS SA EQUALITY OF AVERAGES

Ginagamit upang subukan ang panukala na ang ibig sabihin ng dalawang sukat na kinakatawan ng mga sample ay makabuluhang naiiba. May tatlong uri ng pagsubok: isa para sa mga kaugnay na sample, at dalawa para sa mga nakadiskonektang sample (na may pareho at magkaibang pagkakaiba). Kung ang mga sample ay hindi konektado, ang hypothesis ng pagkakapantay-pantay ng mga pagkakaiba ay dapat munang masuri upang matukoy kung alin sa mga pamantayan ang gagamitin. Tulad ng sa kaso ng paghahambing ng mga pagkakaiba-iba, mayroong 2 paraan upang malutas ang problema, na isasaalang-alang namin gamit ang isang halimbawa.

HALIMBAWA 3. may datos sa bilang ng mga benta ng mga kalakal sa dalawang lungsod. Subukan sa antas ng kahalagahan na 0.01 ang istatistikal na hypothesis na ang average na bilang ng mga benta ng isang produkto sa mga lungsod ay iba.

23 25 23 22 23 24 28 16 18 23 29 26 31 19
22 28 26 26 35 20 27 28 28 26 22 29

Ginagamit namin ang pakete ng Pagsusuri ng Data. Depende sa uri ng pagsubok, isa sa tatlo ang pipiliin: "Paired two-sample t-test for means" - para sa mga konektadong sample, at "Two-sample t-test na may parehong variances" o "Two-sample t-test na may iba't ibang pagkakaiba" - para sa mga nakadiskonektang sample. Tawagan ang pagsubok na may parehong mga pagkakaiba-iba, sa window na bubukas sa mga patlang na "Variable interval 1" at "Variable interval 2" ipasok ang mga link sa data (A1-N1 at A2-L2, ayon sa pagkakabanggit), kung mayroong mga label ng data, pagkatapos lagyan ng check ang kahon sa tabi ng "Mga Label ” (wala kaming mga ito, kaya hindi naka-check ang kahon). Susunod, ipasok ang antas ng kahalagahan sa field na "Alpha" - 0.01. Iwanang blangko ang field na Hypothetical Mean Difference. Sa seksyong "Mga Opsyon sa Output," maglagay ng checkmark sa tabi ng "Agwat ng output" at ilagay ang cursor sa field sa tapat ng inskripsiyon, mag-left-click sa cell B7. ang output ng resulta ay isasagawa simula sa cell na ito. Sa pamamagitan ng pag-click sa "OK" isang talahanayan ng mga resulta ay lilitaw. Ilipat ang hangganan sa pagitan ng mga column B at C, C at D, D at E, pataasin ang lapad ng column B, C at D upang magkasya ang lahat ng label. Ang pamamaraan ay nagpapakita ng mga pangunahing katangian ng sample, t-statistics, kritikal na halaga ang mga istatistikang ito at kritikal na antas kahalagahan "P(T<=t) одностороннее» и «Р(Т<=t) двухстороннее». Если по модулю t-статистика меньше критического, то средние показатели с заданной вероятностью равны. В нашем случае│-1,784242592│ < 2,492159469, следовательно, среднее число продаж значимо не отличается. Следует отметить, что если взять уровень значимости α=0,05, то результаты исследования будут совсем иными.



Dalawang-sample na t-test na may pantay na pagkakaiba-iba

Ang karaniwan 23,57142857 26,41666667
Pagpapakalat 17,34065934 15,35606061
Mga obserbasyon 14 12
Pinagsama-samang pagkakaiba-iba 16,43105159
Hypothetical mean difference 0
df 24
t-statistic -1,784242592
P(T<=t) одностороннее 0,043516846
t kritikal na unilateral 2,492159469
P(T<=t) двухстороннее 0,087033692
t kritikal na may dalawang panig 2,796939498

Lab #3

PAIR LINEAR REGRESSION

Layunin: Upang makabisado ang mga pamamaraan ng pagbuo ng isang linear pair regression equation gamit ang isang computer, upang malaman kung paano makuha at pag-aralan ang mga pangunahing katangian ng regression equation.

Isaalang-alang ang pamamaraan para sa pagbuo ng isang regression equation gamit ang isang halimbawa.

HALIMBAWA. Ang mga halimbawa ng mga kadahilanan x i at y i ay ibinigay. Batay sa mga halimbawang ito, hanapin ang linear regression equation ỹ = ax + b. Hanapin ang coefficient ng ugnayan ng pares. Suriin sa antas ng kahalagahan a = 0.05 ang modelo ng regression para sa kasapatan.

X 0 1 2 3 4 5 6 7 8 9
Y 6,7 6,3 4,4 9,5 5,2 4,3 7,7 7,1 7,1 7,9

Upang mahanap ang mga coefficients a at b ng regression equation, gamitin ang mga function na SLOPE at INTERCEPT, kategoryang "Statistical". Ipinasok namin ang pirma na "a =" sa A5, at sa katabing cell B5 ay ipinasok namin ang SLOPE function, ilagay ang cursor sa field na "Izv_value_u", itakda ang link sa mga cell B2-K2, na umiikot sa kanila gamit ang mouse. Ang resulta ay 0.14303. Hanapin natin ngayon ang coefficient b. Ipinasok namin sa A6 ang signature na "b =", at sa B6 ang INTERCEPT function na may parehong mga parameter tulad ng SLOPE function. Ang resulta ay 5.976364. kaya ang linear regression equation ay y=0.14303x+5.976364.

I-plot natin ang regression equation. Upang gawin ito, sa ikatlong linya ng talahanayan, ipinasok namin ang mga halaga ng function sa ibinigay na mga punto X (unang linya) - y (x 1). Para makuha ang mga value na ito, gamitin ang TREND function ng Statistical category. Ipinasok namin sa A3 ang lagda na "Y (X)" at, paglalagay ng cursor sa B3, tinatawag namin ang TREND function. Sa mga field na "From_value_y" at "From_value_x" nagbibigay kami ng link sa B2-K2 at B1-K1. sa field na "New_value_x", naglalagay din kami ng link sa B1-K1. sa field na "Constant" ipasok ang 1 kung ang regression equation ay may anyo na y=ax+b, at 0 kung y=ax. Sa aming kaso, pumasok kami sa unit. Ang TREND function ay isang array, kaya para ipakita ang lahat ng value nito, piliin ang B3-K3 area at pindutin ang F2 at Ctrl+Shift+Enter. Ang resulta ay ang mga halaga ng equation ng regression sa mga ibinigay na puntos. Bumubuo kami ng isang tsart. Inilalagay namin ang cursor sa anumang libreng cell, tawagan ang diagram wizard, piliin ang kategoryang "Nakabukas", ang uri ng graph ay isang linya na walang mga tuldok (sa kanang ibabang sulok), i-click ang "Next", sa field na "Diagnosis", ipasok isang link sa B3-K3. pumunta sa tab na "Row" at sa field na "X Values" magpasok ng link sa B1-K1, i-click ang "Tapos na". Ang resulta ay isang tuwid na linya ng pagbabalik. Tingnan natin kung paano naiiba ang mga graph ng pang-eksperimentong data at ang mga equation ng regression. Upang gawin ito, ilagay ang cursor sa anumang libreng cell, tawagan ang diagram wizard, ang kategoryang "Graph", ang uri ng graph ay isang putol na linya na may mga tuldok (pangalawa mula sa kaliwang tuktok), i-click ang "Next", sa "Range" field maglagay ng link sa pangalawa at pangatlong linya B2- K3. pumunta sa tab na "Row" at sa field na "Mga label ng X-axis", magpasok ng link sa B1-K1, i-click ang "Tapos na". Ang resulta ay dalawang linya (Blue - inisyal, pula - regression equation). Ito ay makikita na ang mga linya ay naiiba sa bawat isa.

a= 0,14303
b= 5,976364

Ang PEARSON function ay ginagamit upang kalkulahin ang correlation coefficient r xy. Inilalagay namin ang tsart upang ang mga ito ay matatagpuan sa itaas ng linya 25, at sa A25 ginagawa namin ang pirma na "Correlation", sa B25 tinawag namin ang PEARSON function, sa mga patlang kung saan ang "Array 2" ay nagpasok kami ng isang link sa paunang data B1 -K1 at B2-K2. ang resulta ay 0.993821. ang coefficient of determination R xy ay ang parisukat ng correlation coefficient r xy . Sa A26 ginagawa namin ang lagda na "Pagpapasiya", at sa B26 - ang formula na "=B25*B25". Ang resulta ay 0.265207.

Gayunpaman, mayroong isang function sa Excel na kinakalkula ang lahat ng mga pangunahing katangian ng linear regression. Ito ang LINEST function. Inilalagay namin ang cursor sa B28 at tinawag ang LINEST function, kategoryang "Statistical". Sa mga field na "From_value_y" at "From_value_x" nagbibigay kami ng link sa B2-K2 at B1-K1. ang "Constant" na field ay may parehong kahulugan sa TREND function, mayroon kaming katumbas ng 1. Ang field na "Stat" ay dapat maglaman ng 1 kung gusto mong magpakita ng buong istatistika tungkol sa regression. Sa aming kaso, naglagay kami ng isang yunit doon. Ang function ay nagbabalik ng array ng laki 2 column at 5 row. Pagkatapos pumasok, piliin ang cell B28-C32 gamit ang mouse at pindutin ang F2 at Ctrl + Shift + Enter. Ang resulta ay isang talahanayan ng mga halaga, ang mga numero kung saan may sumusunod na kahulugan:



Coefficient a

koepisyent b

Karaniwang error m o

Karaniwang error m h

Determination coefficient R xy

Standard deviation y

F - mga istatistika

Mga antas ng kalayaan n-2

Regression sum ng mga parisukat S n 2

Natirang kabuuan ng mga parisukat S n 2

0,14303 5,976364
0,183849 0,981484
0,070335 1,669889
0,60525 8
1,687758 22,30824

Pagsusuri ng resulta: sa unang linya - ang mga coefficient ng equation ng regression, ihambing ang mga ito sa mga kinakalkula na function SLOPE at INTERCEPT. Ang pangalawang linya ay ang mga karaniwang error ng mga coefficient. Kung ang isa sa kanila ay mas malaki sa ganap na halaga kaysa sa koepisyent mismo, kung gayon ang koepisyent ay itinuturing na zero. Ang koepisyent ng pagpapasiya ay nagpapakilala sa kalidad ng koneksyon sa pagitan ng mga kadahilanan. Ang nakuha na halaga ng 0.070335 ay nagpapahiwatig ng isang napakahusay na koneksyon ng mga kadahilanan, ang F - mga istatistika ay sumusubok sa hypothesis ng kasapatan ng modelo ng regression. Ang numerong ito ay dapat ihambing sa kritikal na halaga, upang makuha ito, ipinasok namin ang lagda na "F-kritikal" sa E33, at sa F33 ang function na FDISP, ang mga argumento kung saan ipinasok namin, ayon sa pagkakabanggit, "0.05" (antas ng kahalagahan), “1” (bilang ng mga salik X) at "8" (mga antas ng kalayaan).

F-kritikal 5,317655

Makikita na ang F-statistic ay mas mababa kaysa sa F-critical, na nangangahulugan na ang regression model ay hindi sapat. Ang huling linya ay nagpapakita ng regression sum ng mga parisukat at mga natitirang kabuuan ng mga parisukat . Mahalaga na ang kabuuan ng regression (ipinaliwanag ng regression) ay mas malaki kaysa sa nalalabi (hindi ipinaliwanag ng regression na dulot ng mga random na kadahilanan). Sa aming kaso, ang kundisyong ito ay hindi natutugunan, na nagpapahiwatig ng isang masamang regression.

Konklusyon: Sa kurso ng trabaho, pinagkadalubhasaan ko ang mga pamamaraan ng pagbuo ng isang linear pair regression equation gamit ang isang computer, natutunan kong makuha at pag-aralan ang mga pangunahing katangian ng equation ng regression.


Lab #4

NONLINEAR REGRESSION

Layunin: upang makabisado ang mga pamamaraan para sa pagbuo ng mga pangunahing uri ng nonlinear pair regression equation sa tulong ng isang computer (internally linear models), upang malaman kung paano makuha at pag-aralan ang mga indicator ng kalidad ng regression equation.

Isaalang-alang natin ang kaso kapag ang mga nonlinear na modelo ay maaaring gawing linear gamit ang pagbabago ng data (mga panloob na linear na modelo).

HALIMBAWA. Bumuo ng regression equation y = f(x) para sa sample x n y n (f = 1,2,…,10). Bilang f (x), isaalang-alang ang apat na uri ng mga function - linear, power, exponential at hyperbola:

y = Ax + B; y = Ax B; y \u003d Ae Bx; y \u003d A / x + B.

Ito ay kinakailangan upang mahanap ang kanilang mga coefficients A at B, at paghahambing ng mga tagapagpahiwatig ng kalidad, piliin ang function na pinakamahusay na naglalarawan sa pagtitiwala.

Kita Y 0,3 1,2 2,8 5,2 8,1 11,0 16,8 16,9 24,7 29,4
Kita X 0,25 0,50 0,75 1,00 1,25 1,50 1,75 2,00 2,25 2,50

Maglagay tayo ng data sa talahanayan kasama ang mga lagda (mga cell A1-K2). Mag-iwan tayo ng libreng tatlong linya sa ibaba ng talahanayan para sa pagpasok ng na-convert na data, piliin ang unang limang linya sa pamamagitan ng pag-swipe sa kaliwang grey na hangganan sa mga numero mula 1 hanggang 5 at pumili ng anumang kulay (light - yellow o pink) para makulayan ang background ng mga selula. Dagdag pa, simula sa A6, nakukuha namin ang mga parameter ng linear regression. Upang gawin ito, sa cell A6 ginagawa namin ang lagda na "Linear" at sa katabing cell B6 ay ipinasok namin ang LINEST function. Sa mga patlang na "From_value_x" nagbibigay kami ng isang link sa B2-K2 at B1-K1, ang susunod na dalawang field ay kumukuha ng mga halaga nang paisa-isa. Susunod, iguhit ang lugar sa ibaba sa 5 linya at sa kaliwa sa 2 linya at pindutin ang F2 at Ctrl + Shift + Enter. Ang resulta ay isang talahanayan na may mga parameter ng regression, kung saan ang determination coefficient sa unang column ay ang pangatlo mula sa itaas. Sa aming kaso, ito ay katumbas ng R 1 = 0.951262. Ang halaga ng F-criterion, na nagbibigay-daan sa iyo upang suriin ang kasapatan ng modelo F 1 = 156.1439

(ikaapat na hanay, unang hanay). Ang regression equation ay

y = 12.96 x +6.18 (ang mga coefficient a at b ay ibinibigay sa mga cell B6 at C6).

Linear 12,96 -6,18
1,037152 1,60884
0,951262 2,355101
156,1439 8
866,052 44,372

Tukuyin natin ang mga katulad na katangian para sa iba pang mga regression at, bilang resulta ng paghahambing ng mga koepisyent ng determinasyon, mahahanap natin ang pinakamahusay na modelo ng regression. Isaalang-alang ang hyperbolic regression. Para makuha ito, binabago namin ang data. Sa ikatlong linya, sa cell A3, ilagay ang caption na "1/x", at sa cell B3, ilagay ang formula na "=1/B2". Iunat natin ang cell na ito sa pamamagitan ng autofill sa lugar na B3-K3. Kunin natin ang mga katangian ng modelo ng regression. Sa cell A12, ipinasok namin ang signature na "Hyperbola", at sa katabing function na LINEST. Sa mga patlang na "From_value_y" at "From_value_x2" nagbibigay kami ng isang link sa B1-K1 at ang na-convert na data ng argumento x - B3-K3, ang susunod na dalawang field ay kumukuha ng mga halaga ng isa. Susunod, bilugan namin ang lugar sa ibaba ng 5 linya at sa kaliwa sa 2 linya at pindutin ang F2 at Ctrl + Shift + Enter. Kumuha kami ng isang talahanayan ng mga parameter ng regression. Ang koepisyent ng determinasyon sa kasong ito ay R 2 = 0.475661, na mas malala kaysa sa kaso ng linear regression. Ang F-statistic ay F 2 = 7.257293. Ang equation ng regression ay y = -6.25453x 18.96772 .

Hyperbola -6,25453 18,96772
2,321705 3,655951
0,475661 7,724727
7,257293 8
433,0528 477,3712

Isaalang-alang ang exponential regression. Upang i-linearize ito, makuha natin ang equation , kung saan ỹ = ln y, ã = b, = ln a. Makikita na ang pagbabago ng data ay kailangang gawin - palitan ang y ng ln y. Inilalagay namin ang cursor sa cell A4 at gawin ang heading na "ln y". Inilalagay namin ang cursor sa B4 at ipinasok ang formula LN (kategorya na "Mathematical"). Bilang isang argumento, gumawa kami ng isang sanggunian sa B1. Pinapalawak ng Autocomplete ang formula sa ikaapat na linya sa mga cell B4-K4. Susunod, sa cell F6, itinakda namin ang label na "Exponent" at sa katabing G6 ay ipinasok namin ang LINEST function, ang mga argumento kung saan ay ang na-convert na data na B4-K4 (sa field na "Iv_value_y"), at ang natitirang mga patlang ay kapareho ng para sa kaso ng linear regression (B2-K2, labing-isa). Susunod, bilugan ang mga cell G6-H10 at pindutin ang F2 at Ctrl+Shift+Enter. Ang resulta ay R 3 = 0.89079, F 3 = 65.25304, na nagpapahiwatig ng napakagandang regression. Upang mahanap ang mga coefficient ng regression equation b = ã; ilagay ang cursor sa J6 at gawin ang heading na "a =", at sa katabing K6 ang formula na "= EXP(H6)", sa J7 binibigyan namin ang heading na "b =", at sa K7 ang formula na "= G6". Ang equation ng regression ay y = 0.511707 e 6.197909 x .

Exhibitor 1,824212 -0,67 a= 0,511707
0,225827 0,350304 b= 6,197909
0,89079 0,512793
65,25304 8
17,15871 2,103652

Isaalang-alang ang power regression. Upang i-linearize ito, makuha natin ang equation na ỹ = ã, kung saan ỹ = ln y, = ln x, ã = b, = ln a. Makikita na kinakailangang gumawa ng pagbabagong-anyo ng data - palitan ang y ng ln y at palitan ang x ng ln x. Mayroon na tayong linya sa ln y. Baguhin natin ang mga variable na x. Sa cell A5 binibigyan namin ang lagda "ln x", at sa B5 ipinasok namin ang formula LN (kategorya "Mathematical"). Bilang argumento, gumawa kami ng sanggunian sa B2. Pinapalawak ng Autocomplete ang formula hanggang sa ikalimang row sa mga cell B5-K5. Susunod, sa cell F12, itinakda namin ang label na "Power" at sa katabing G12 ay ipinasok namin ang LINEST function, ang mga argumento kung saan ay ang na-convert na data na B4-K4 (sa field na "Measured_value_y"), at B5-K5 ( sa field na “Measured_value_x”), ang natitirang mga field ay mga unit. Susunod, ang mga libreng cell G12-H16 at pindutin ang F2 at Ctrl+Shift+Enter. Ang resulta R 4 = 0.997716, F 4 = 3494.117, na nagpapahiwatig ng magandang regression. Upang mahanap ang mga coefficient ng regression equation b = ã; ilagay ang cursor sa J12 at gawin ang heading na "a =", at sa katabing K12 ang formula na "= EXP(H12)", sa J13 binibigyan namin ang heading na "b =", at sa K13 ang formula na "= G12". Ang equation ng regression ay y = 4.90767/x + 7.341268.

kapangyarihan 1,993512 1,590799 a= 4,90767
0,033725 0,023823 b= 7,341268
0,997716 0,074163
3494,117 8
19,21836 0,044002

Suriin natin kung ang lahat ng mga equation ay sapat na naglalarawan sa data. Upang gawin ito, kailangan mong ihambing ang F-statistics ng bawat criterion sa isang kritikal na halaga. Upang makuha ito, ipinasok namin sa A21 ang lagda na "F-kritikal", at sa B21 ang function na FDISP, ang mga argumento kung saan ipinasok namin ayon sa pagkakabanggit "0.05" (antas ng kahalagahan), "1" (ang bilang ng mga kadahilanan X sa linya “Antas ng kahalagahan 1”) at “ 8" (degree ng kalayaan 2 = n - 2). Ang resulta ay 5.317655. F - mas kritikal kaysa sa F - ang mga istatistika ay nangangahulugan na ang modelo ay sapat. Ang natitirang mga regression ay sapat din. Upang matukoy kung aling modelo ang pinakamahusay na naglalarawan sa data, inihahambing namin ang mga indeks ng pagpapasiya para sa bawat modelo R 1 , R 2 , R 3 , R 4 . Ang pinakamalaki ay R 4 = 0.997716. Nangangahulugan ito na mas mainam na ilarawan ang pang-eksperimentong data bilang y = 4.90767/x + 7.341268.

Konklusyon: Sa kurso ng aking trabaho, pinagkadalubhasaan ko ang mga pamamaraan para sa pagbuo ng mga pangunahing uri ng nonlinear pair regression equation sa tulong ng isang computer (internally linear na mga modelo), natutunan kung paano makuha at pag-aralan ang mga tagapagpahiwatig ng kalidad ng mga equation ng regression.

Y 0,3 1,2 2,8 5,2 8,1 11 16,8 16,9 24,7 29,4
X 0,25 0,5 0,75 1 1,25 1,5 1,75 2 2,25 2,5
1/x 4 2 1,333333 1 0,8 0,666667 0,571429 0,5 0,444444 0,4
ln y -1,20397 0,182322 1,029619 1,648659 2,0918641 2,397895 2,821379 2,827314 3,206803 3,380995
sa x -1,38629 -0,69315 -0,28768 0 0,2231436 0,405465 0,559616 0,693147 0,81093 0,916291
Linear 12,96 -6,18 Exhibitor 1,824212 -0,67 a= 0,511707
1,037152 1,60884 0,225827 0,350304 b= 6,197909
0,951262 2,355101 0,89079 0,512793
156,1439 8 65,25304 8
866,052 44,372 17,15871 2,103652
Hyperbola -6,25453 18,96772 kapangyarihan 1,993512 1,590799 a= 4,90767
2,321705 3,655951 0,033725 0,023823 b= 7,341268
0,475661 7,724727 0,997716 0,074163
7,257293 8 3494,117 8
433,0528 477,3712 19,21836 0,044002
F - kritikal 5,317655

Lab #5

POLYNOMINAL REGRESSION

Layunin: Batay sa pang-eksperimentong data, bumuo ng isang regression equation ng form na y \u003d ax 2 + bx + c.

PROSESO NG PAGGAWA:

Ang pagtitiwala sa ani ng isang tiyak na pananim y i sa dami ng mineral fertilizers х i ipinakilala sa lupa ay isinasaalang-alang. Ipinapalagay na ang pag-asa na ito ay parisukat. Kinakailangang maghanap ng regression equation ng anyong ỹ = ax 2 + bx + c.

x 0 1 2 3 4 5 6 7 8 9
y 29,8 58,8 72,2 101,5 141 135,1 156,6 181,7 216,6 208,2

Ilagay natin ang data na ito sa isang spreadsheet kasama ng mga lagda sa mga cell A1-K2. Bumuo tayo ng isang graph. Upang gawin ito, bilugan ang data ng Y (mga cell B2-K2), tawagan ang chart wizard, piliin ang uri ng chart na "Graph", ang uri ng chart ay isang graph na may mga tuldok (pangalawa mula sa kaliwang tuktok), i-click ang "Next", pumunta sa tab na “Serye” at sa “ X-Axis Labels" gumawa ng link sa B2-K2, i-click ang "Tapos na." Ang graph ay maaaring tantiyahin ng isang 2nd degree polynomial y \u003d ax 2 + bx + c. Upang mahanap ang mga coefficient a, b, c, kailangan mong lutasin ang sistema ng mga equation:

Kalkulahin natin ang mga halaga. Upang gawin ito, sa cell A3, ipasok ang lagda na "X ^ 2", at sa B3 ipasok ang formula na "= B1 * B1" at Autocomplete ilipat ito sa buong linya B3-K3. Sa cell A4, ilagay ang signature na "X ^ 3", at sa B4 ang formula na "= B1 * B3" at Autocomplete ilipat ito sa buong linya B4-K4. Sa cell A5, ilagay ang "X ^ 4", at sa B5 ang formula na "= B4 * B1", awtomatikong kumpletuhin ang linya. Sa cell A6, ipasok ang "X * Y", at sa B8 ang formula na "= B2 * B1", awtomatikong punan ang linya. Sa cell A7, ilagay ang "X ^ 2 * Y", at sa B9 ang formula na "= B3 * B2", awtomatikong kumpletuhin ang linya. Ngayon binibilang namin ang mga halaga. I-highlight ang column L na may ibang kulay sa pamamagitan ng pag-click sa heading at pagpili ng kulay. Inilalagay namin ang cursor sa cell L1 at sa pamamagitan ng pag-click sa pindutan ng autosum na may icon na ∑, kinakalkula namin ang kabuuan ng unang hilera. Inililipat ng Autocomplete ang formula sa mga cell L1-710.

Lutasin natin ngayon ang sistema ng mga equation. Upang gawin ito, ipinakilala namin ang pangunahing matrix ng system. Sa cell A13 ipinasok namin ang pirma na "A =", at sa mga cell ng matrix B13-D15 ipinasok namin ang mga link na makikita sa talahanayan

B C D
13 =L5 =L4 =L3
14 =L3 =L2 =L1
15 =L2 =L1 =9

Ipinakilala rin namin ang mga tamang bahagi ng sistema ng mga equation. Sa G13 ipinasok namin ang lagda na "B =", at sa H13-H15 ay ipinasok namin, ayon sa pagkakabanggit, mga link sa mga cell "= L7", "= L6", "= L2". Nalulutas namin ang system sa pamamagitan ng matrix method. Mula sa mas mataas na matematika ay alam na ang solusyon ay katumbas ng A -1 B. Nahanap natin ang inverse matrix. Upang gawin ito, sa cell J13, ilagay ang lagda na "A arr." at, sa pamamagitan ng paglalagay ng cursor sa K13, itinakda namin ang MIND formula (kategorya na "Mathematical"). Bilang argumentong "Array" nagbibigay kami ng reference sa mga cell B13: D15. Ang resulta ay dapat ding isang 4x4 matrix. Upang makuha ito, bilugan ang mga cell K13-M15 gamit ang mouse, piliin ang mga ito at pindutin ang F2 at Ctrl + Shift + Enter. Ang resulta ay matrix A -1 . Hanapin natin ngayon ang produkto ng matrix na ito at column B (mga cell H13-H15). Ipinasok namin ang caption na "Coefficients" sa cell A18 at sa B18 ay itinakda namin ang function na MULTIPLE (category na "Mathematical"). Ang mga argumento ng function na "Array 1" ay isang reference sa matrix A -1 (mga cell K13-M15), at sa field na "Array 2" ay nagbibigay kami ng link sa column B (mga cell H13-H16). Susunod, piliin ang B18-B20 at pindutin ang F2 at Ctrl+Shift+Enter. Ang resultang array ay ang coefficients ng regression equation a, b, c. Bilang resulta, nakakakuha kami ng regression equation ng form: y \u003d 1.201082x 2 - 5.619177x + 78.48095.

I-plot natin ang mga graph ng paunang data at ang mga nakuha sa batayan ng equation ng regression. Upang gawin ito, sa cell A8 ipinasok namin ang lagda na "Regression" at sa B8 ipinasok namin ang formula na "=$B$18*B3+$B$19*B1+$B$20". Inililipat ng Autocomplete ang formula sa mga cell B8-K8. Upang bumuo ng isang graph, piliin ang mga cell B8-K8 at, habang pinipigilan ang Ctrl key, piliin din ang mga cell B2-M2. Tinatawag namin ang chart wizard, piliin ang uri ng chart na "Chart", ang uri ng chart ay isang tsart na may mga tuldok (pangalawa mula sa kaliwang tuktok), i-click ang "Next", pumunta sa tab na "Series" at sa "X-Axis Labels ” field na gumawa ng link sa B2-M2, i-click ang "Handa". Makikita na halos magkasabay ang mga kurba.

KONKLUSYON: sa proseso ng trabaho, natutunan ko mula sa pang-eksperimentong data upang bumuo ng isang regression equation ng form y \u003d ax 2 + bx + c.





Empirical distribution density ng random na nasuri na variable at pagkalkula ng mga katangian nito. Tinutukoy namin ang hanay ng available na data, i.e. pagkakaiba sa pagitan ng pinakamalaki at pinakamaliit na halaga ng sample (R = Xmax – Xmin): Pagpili ng bilang ng mga pagitan ng pagpapangkat k na may bilang ng mga obserbasyon n<100 – ориентировочное значение интервалов можно рассчитать с использованием формулы Хайнхольда и Гаеде: ...

data, mapagkakatiwalaan ng isang tao ang mga istatistikal na ugnayan na umiiral sa pagitan ng mga variable na sinisiyasat sa eksperimentong ito. Ang lahat ng mga pamamaraan ng pagsusuri sa matematika at istatistika ay may kondisyong nahahati sa pangunahin at pangalawa. Ang mga pamamaraan ay tinatawag na pangunahin, sa tulong kung saan posible na makakuha ng mga tagapagpahiwatig na direktang sumasalamin sa mga resulta ng mga sukat na ginawa sa eksperimento. Alinsunod dito sa ilalim ng...

Mga processor ng pangkalahatang layunin (halimbawa, sa Excel, Lotus 1-2-3, atbp.), pati na rin sa ilang mga database. Ang mga Western statistical packages (SPSS, SAS, BMDP, atbp.) ay may mga sumusunod na feature: Pinapayagan nila ang pagpoproseso ng malaking halaga ng data. May kasamang mga tool para sa paglalarawan ng mga gawain sa built-in na wika. Ginagawa nilang posible na bumuo sa kanilang batayan ng mga sistema ng pagproseso ng impormasyon para sa buong negosyo. Payagan...



Kurso ng masahe at sa loob ng 1-2 buwan pagkatapos nito. 1.2 Mga anyo ng therapeutic massage Ang anyo ng impluwensya ng therapeutic massage ay nahahati sa pangkalahatan at partikular. Ang mga form na ito ay katangian ng lahat ng uri at pamamaraan ng masahe. Parehong pribado at pangkalahatang masahe ay maaaring isagawa ng massage therapist sa anyo ng mutual massage, mag-asawa o self-massage. 1.2.1 Pangkalahatang masahe Ang pangkalahatang masahe ay isang sesyon ng masahe (anuman ang ...

x 0 1 2 3 4 5 6 7 8 9
y 29,8 58,8 72,2 101,5 141 135,1 156,6 181,7 216,6 208,2
X^2 0 1 4 9 16 25 36 49 64 81
X^3 0 1 8 27 64 125 216 343 512 729
X^4 0 1 16 81 256 625 1296 2401 4096 6561
X*Y 0 58,8 144,4 304,5 564 675,5 939,6 1271,9 1732,8 1873,8
X^2*Y 0 58,8 288,8 913,5 2256 3377,5 5637,6 8903,3 13862,4 16864,2
Regression. 78,48095 85,30121 94,52364 106,1482 120,175 136,6039 155,435 176,6682 200,3036 226,3412
A= 15333 2025 285 B= 52162,1 Isang Rev. 0,003247 -0,03247 0,059524
2025 285 45 7565,3 -0,03247 0,341342 -0,67857
285 45 9 1301,5 0,059524 -0,67857 1,619048
Coefficient 1,201082 a
5,619177

Ang paghahambing ng mga average ng dalawang populasyon ay may malaking praktikal na kahalagahan. Sa pagsasagawa, kadalasan ay may kaso kapag ang average na resulta ng isang serye ng mga eksperimento ay naiiba sa average na resulta ng isa pang serye. Sa kasong ito, lumilitaw ang tanong kung ang naobserbahang pagkakaiba sa pagitan ng mga average ay maaaring ipaliwanag ng hindi maiiwasang random na mga error ng eksperimento, o kung ito ay sanhi ng ilang mga regularidad. Sa industriya, ang gawain ng paghahambing ng mga average ay madalas na lumitaw kapag nagsa-sample ng kalidad ng mga produkto na ginawa sa iba't ibang mga pag-install o sa ilalim ng iba't ibang mga teknolohikal na rehimen, sa pagsusuri sa pananalapi - kapag inihambing ang antas ng kakayahang kumita ng iba't ibang mga asset, atbp.

Bumuo tayo ng problema. Hayaang magkaroon ng dalawang populasyon na nailalarawan sa pamamagitan ng pangkalahatang paraan at at kilalang mga pagkakaiba-iba at. Kinakailangang subukan ang hypothesis tungkol sa pagkakapantay-pantay ng mga pangkalahatang average, i.e. :=. Upang subukan ang hypothesis, dalawang independiyenteng sample ng mga volume at kinuha mula sa mga populasyon na ito, kung saan ang ibig sabihin ng aritmetika at at sample na mga pagkakaiba ay natagpuan. Sa sapat na malalaking sukat ng sample, ang sample ay nangangahulugan at may humigit-kumulang na normal na batas sa pamamahagi, ayon sa pagkakabanggit, at Kung ang hypothesis ay totoo, ang pagkakaiba - ay may normal na batas sa pamamahagi na may mathematical na inaasahan at dispersion.

Samakatuwid, kapag ang hypothesis ay natupad, ang mga istatistika

ay may karaniwang normal na distribusyon N(0; 1).

Pagsubok ng mga hypotheses tungkol sa mga numerical na halaga ng mga parameter

Ang mga hypotheses tungkol sa mga numerical na halaga ay nangyayari sa iba't ibang mga problema. Hayaan ang mga halaga ng ilang parameter ng mga produktong ginawa ng awtomatikong line machine, at hayaan ang ibinigay na nominal na halaga ng parameter na ito. Ang bawat indibidwal na halaga ay maaaring, siyempre, kahit papaano ay lumihis mula sa ibinigay na halaga ng mukha. Malinaw, upang masuri ang tamang mga setting ng makinang ito, kailangan mong tiyakin na ang average na halaga ng parameter para sa mga produktong ginawa dito ay tumutugma sa nominal na halaga, i.e. subukan ang isang hypothesis laban sa isang alternatibo, o, o

Sa isang arbitrary na setting ng makina, maaaring kailanganin upang subukan ang hypothesis na ang katumpakan ng mga produkto ng pagmamanupaktura para sa isang ibinigay na parameter, na ibinigay ng dispersion, ay katumbas ng isang ibinigay na halaga, i.e. o, halimbawa, ang katotohanan na ang proporsyon ng mga may sira na produkto na ginawa ng makina ay katumbas ng ibinigay na halaga p 0, i.e. atbp.

Maaaring lumitaw ang mga katulad na problema, halimbawa, sa pagsusuri sa pananalapi, kapag, ayon sa sample na data, kinakailangan upang matukoy kung ang pagbabalik sa isang asset ng isang tiyak na uri o portfolio ng mga seguridad ay maaaring isaalang-alang, o ang panganib nito ay katumbas ng isang naibigay na numero; o, batay sa mga resulta ng isang piling pag-audit ng mga katulad na dokumento, kailangan mong tiyakin kung ang porsyento ng mga pagkakamaling nagawa ay maituturing na katumbas ng halaga ng mukha, atbp.

Sa pangkalahatang kaso, ang mga hypotheses ng ganitong uri ay may anyo, kung saan mayroong isang tiyak na parameter ng pamamahagi sa ilalim ng pag-aaral, at ang lugar ng mga tiyak na halaga nito, na binubuo sa isang partikular na kaso ng isang halaga.

8.1. Ang konsepto ng umaasa at independiyenteng mga sample.

Pagpili ng criterion para sa pagsubok ng hypothesis

ay pangunahing tinutukoy kung ang mga sample na isinasaalang-alang ay nakasalalay o independyente. Ipakilala natin ang mga kaukulang kahulugan.

Def. Ang mga sample ay tinatawag malaya, kung ang pamamaraan para sa pagpili ng mga yunit sa unang sample ay hindi konektado sa pamamaraan para sa pagpili ng mga yunit sa pangalawang sample.

Ang isang halimbawa ng dalawang independiyenteng sample ay ang mga sample na tinalakay sa itaas ng mga lalaki at babae na nagtatrabaho sa parehong negosyo (sa parehong industriya, atbp.).

Tandaan na ang pagsasarili ng dalawang sample ay hindi nangangahulugan na walang kinakailangan para sa isang partikular na uri ng pagkakatulad ng mga sample na ito (ang kanilang homogeneity). Kaya, sa pag-aaral ng antas ng kita ng mga kalalakihan at kababaihan, malamang na hindi namin pinapayagan ang ganitong sitwasyon kapag ang mga lalaki ay pinili mula sa kapaligiran ng mga negosyante sa Moscow, at mga kababaihan mula sa mga aborigine ng Australia. Ang mga kababaihan ay dapat ding Muscovites at, bukod dito, "mga babaeng negosyante". Ngunit narito hindi namin pinag-uusapan ang pag-asa ng mga sample, ngunit tungkol sa pangangailangan ng homogeneity ng pinag-aralan na hanay ng mga bagay, na dapat masiyahan kapwa sa koleksyon at sa pagsusuri ng sociological data.

Def. Ang mga sample ay tinatawag umaasa, o ipinares, kung ang bawat yunit ng isang sample ay "nakatali" sa isang partikular na yunit ng pangalawang sample.

Ang huling kahulugan ay malamang na magiging mas malinaw kung magbibigay tayo ng isang halimbawa ng mga umaasa na sample.

Ipagpalagay na nais nating malaman kung ang katayuan sa lipunan ng ama ay, sa karaniwan, ay mas mababa kaysa sa katayuan sa lipunan ng anak na lalaki (naniniwala kami na masusukat natin ang masalimuot at hindi maliwanag na katangiang panlipunan ng isang tao). Tila halata na sa ganoong sitwasyon ay nararapat na pumili ng mga pares ng mga sumasagot (ama, anak) at ipalagay na ang bawat elemento ng unang sample (isa sa mga ama) ay "nakatali" sa isang tiyak na elemento ng pangalawang sample (kanyang anak). Ang dalawang sample na ito ay tatawaging dependent.

8.2. Pagsusuri ng hypothesis para sa mga independiyenteng sample

Para sa malaya ang pagpili ng criterion ay depende sa kung alam natin ang mga pangkalahatang pagkakaiba s 1 2 at s 2 2 ng tampok na isinasaalang-alang para sa mga pinag-aralan na sample. Isasaalang-alang namin ang problemang ito na nalutas, sa pag-aakalang ang mga pagkakaiba-iba ng sample ay nag-tutugma sa mga pangkalahatan. Sa kasong ito, ang criterion ay ang halaga:

Bago magpatuloy sa isang talakayan ng sitwasyon kapag ang mga pangkalahatang pagkakaiba (o hindi bababa sa isa sa mga ito) ay hindi alam sa amin, tandaan namin ang mga sumusunod.

Ang lohika ng paggamit ng criterion (8.1) ay katulad ng inilarawan sa amin kapag isinasaalang-alang ang criterion na "Chi-square" (7.2). Mayroon lamang isang pangunahing pagkakaiba. Sa pagsasalita tungkol sa kahulugan ng criterion (7.2), itinuring namin ang isang walang katapusang bilang ng mga sample ng laki n, "na-scoop" mula sa aming pangkalahatang populasyon. Dito, sinusuri ang kahulugan ng criterion (8.1), ipinapasa namin sa pagsasaalang-alang ng isang walang katapusang bilang singaw mga sample ng laki n 1 at n 2 . Para sa bawat pares at , isang istatistika ng form (8.1) ang kinakalkula. Ang hanay ng mga nakuha na halaga ng naturang mga istatistika, alinsunod sa aming notasyon, ay tumutugma sa normal na pamamahagi (tulad ng aming napagkasunduan, ang letrang z ay ginagamit upang italaga ang gayong pamantayan, na tumutugma sa normal na pamamahagi).

Kaya, kung ang mga pangkalahatang pagkakaiba ay hindi alam sa amin, mapipilitan kaming gamitin ang kanilang mga sample na pagtatantya s 1 2 at s 2 2 sa halip. Gayunpaman, sa kasong ito, ang normal na distribusyon ay dapat palitan ng distribusyon ng Estudyante - ang z ay dapat palitan ng t (gaya ng nangyari sa isang katulad na sitwasyon kapag gumagawa ng agwat ng kumpiyansa para sa inaasahan sa matematika). Gayunpaman, para sa sapat na malalaking sukat ng sample (n 1 , n 2 ³ 30), tulad ng alam na natin, ang distribusyon ng Estudyante ay halos tumutugma sa normal. Sa madaling salita, sa malalaking sample, maaari naming patuloy na gamitin ang criterion:

Ang sitwasyon ay mas kumplikado kapag ang parehong mga pagkakaiba ay hindi alam at ang laki ng hindi bababa sa isang sample ay maliit. Pagkatapos ay isa pang kadahilanan ang papasok. Ang uri ng pamantayan ay nakasalalay sa kung maaari nating isaalang-alang ang hindi alam na mga pagkakaiba-iba ng isinasaalang-alang na tampok sa dalawang nasuri na mga sample upang maging pantay. Upang malaman, kailangan nating subukan ang hypothesis:

H 0: s 1 2 = s 2 2 . (8.3)

Upang subukan ang hypothesis na ito, ginagamit ang pamantayan

Ang mga detalye ng paggamit ng pamantayang ito ay tatalakayin sa ibaba, at ngayon ay patuloy nating tatalakayin ang algorithm para sa pagpili ng kriterya na gumagamit ng mga inaasahan sa matematika upang subukan ang mga hypotheses tungkol sa pagkakapantay-pantay.

Kung ang hypothesis (8.3) ay tinanggihan, ang criterion ng interes sa amin ay nasa anyo:

(8.5)

(ibig sabihin, ito ay naiiba sa pagsusulit (8.2) na ginamit para sa malalaking sample na ang katumbas na istatistika ay walang normal na distribusyon, ngunit isang distribusyon ng Mag-aaral). Kung tinanggap ang hypothesis (8.3), ang uri ng pamantayang ginamit ay nagbabago:

(8.6)

Isa-isahin natin kung paano napili ang criterion para sa pagsubok sa hypothesis ng pagkakapantay-pantay ng pangkalahatang mga inaasahan sa matematika batay sa pagsusuri ng dalawang independiyenteng sample.

kilala

hindi kilala

malaki ang sample size

H 0: s 1 = s 2 ay tinanggihan

tinanggap

8.3. Pagsusuri ng hypothesis para sa mga umaasa na sample

Magpatuloy tayo sa pagsasaalang-alang sa mga nakadependeng sample. Hayaan ang mga pagkakasunod-sunod ng mga numero

X 1 , X 2 , … , X n ;

Y 1 , Y 2 , … , Y n –

ito ang mga halaga ng itinuturing na random para sa mga elemento ng dalawang umaasa na sample. Ipakilala natin ang notasyon:

D i = X i - Y i , i = 1, ... , n.

Para sa umaasa sampling criterion na nagpapahintulot sa iyo na subukan ang isang hypothesis

tulad ng sumusunod:

Tandaan na ang ibinigay na expression para sa s D ay walang iba kundi isang bagong expression para sa kilalang formula na nagpapahayag ng standard deviation. Sa kasong ito, pinag-uusapan natin ang karaniwang paglihis ng mga halaga D i. Ang ganitong pormula ay kadalasang ginagamit sa pagsasanay bilang isang mas simple (kumpara sa "frontal" na pagkalkula ng kabuuan ng mga parisukat na paglihis ng mga halaga ng isinasaalang-alang na halaga mula sa kaukulang arithmetic mean) na paraan para sa pagkalkula ng pagkakaiba-iba.

Kung ihahambing namin ang mga formula sa itaas sa mga ginamit namin noong tinatalakay ang mga prinsipyo ng pagbuo ng isang agwat ng kumpiyansa, madaling makita na ang pagsubok sa hypothesis tungkol sa pagkakapantay-pantay ng mga paraan para sa kaso ng mga umaasa na sample ay mahalagang pagsubok sa pagkakapantay-pantay ng inaasahan sa matematika. ng mga halaga D i sa zero. Halaga

ay ang standard deviation para sa D i . Samakatuwid, ang halaga ng inilarawan lamang na criterion t n -1 ay mahalagang katumbas ng halaga ng D i na ipinahayag sa mga fraction ng standard deviation. Tulad ng sinabi namin sa itaas (kapag tinatalakay ang mga pamamaraan para sa pagbuo ng mga agwat ng kumpiyansa), ang indicator na ito ay maaaring gamitin upang hatulan ang posibilidad ng itinuturing na halaga D i . Ang pagkakaiba ay na sa itaas ay pinag-uusapan natin ang tungkol sa isang simpleng arithmetic mean, normal na ibinahagi, at dito pinag-uusapan natin ang tungkol sa mga average na pagkakaiba, ang mga naturang average ay may distribusyon ng Mag-aaral. Ngunit ang pangangatwiran tungkol sa ugnayan sa pagitan ng posibilidad ng paglihis ng sample na arithmetic mean mula sa zero (na may mathematical expectation na katumbas ng zero) at kung gaano karaming mga unit ng s ang deviation na ito ay nananatiling wasto.