Pagtatasa ng kahalagahan ng multiple regression equation. Pagtatasa ng kahalagahan ng mga parameter ng linear regression at ang buong equation sa kabuuan

Matapos matagpuan ang linear regression equation, ang kahalagahan ng parehong equation sa kabuuan at ang mga indibidwal na parameter nito ay tinasa.

Suriin ang kahalagahan ng equation ng regression - ibig sabihin upang matukoy kung matematikal na modelo, na nagpapahayag ng ugnayan sa pagitan ng mga variable, pang-eksperimentong data, at kung may sapat na mga variable na nagpapaliwanag (isa o higit pa) na kasama sa equation upang ilarawan ang dependent variable.

Ang pagsusuri sa kahalagahan ay batay sa pagsusuri ng pagkakaiba-iba.

Ayon sa ideya ng pagsusuri ng pagkakaiba-iba, ang kabuuang kabuuan ng mga squared deviations (RMS) ng y mula sa mean na halaga ay nabubulok sa dalawang bahagi - ipinaliwanag at hindi naipaliwanag:

o, ayon sa pagkakabanggit:

Mayroong dalawang matinding kaso dito: kapag ang kabuuang standard deviation ay eksaktong katumbas ng residual at kapag ang kabuuang standard deviation ay katumbas ng factorial.

Sa unang kaso, ang x factor ay hindi nakakaapekto sa resulta, ang buong pagkakaiba-iba ng y ay dahil sa impluwensya ng iba pang mga kadahilanan, ang regression line ay kahanay sa Ox axis, at ang equation ay dapat magmukhang.

Sa pangalawang kaso, ang iba pang mga kadahilanan ay hindi nakakaapekto sa resulta, ang y ay nauugnay sa x sa pagganap, at ang natitirang standard deviation ay zero.

Gayunpaman, sa pagsasagawa ang parehong mga termino ay naroroon sa kanang bahagi. Ang kaangkupan ng linya ng regression para sa hula ay depende sa kung gaano karami sa kabuuang pagkakaiba sa y ang nabilang sa ipinaliwanag na pagkakaiba. Kung ang ipinaliwanag na RMSD ay mas malaki kaysa sa natitirang RMSD, kung gayon ang regression equation ay istatistikal na makabuluhan at ang x factor ay may makabuluhang epekto sa y resulta. Katumbas ito ng katotohanan na ang coefficient of determination ay lalapit sa pagkakaisa.

Ang bilang ng mga antas ng kalayaan (df-degrees ng kalayaan) ay ang bilang ng mga value ng feature na independently variable.

Ang pangkalahatang karaniwang paglihis ay nangangailangan ng (n-1) mga independiyenteng paglihis,

Ang factorial standard deviation ay may isang antas ng kalayaan, at

Kaya, maaari tayong sumulat:

Mula sa balanseng ito, tinutukoy natin na = n-2.

Sa pamamagitan ng paghahati sa bawat karaniwang paglihis sa bilang ng mga antas ng kalayaan nito, nakukuha natin ang mean square ng mga deviations, o ang pagkakaiba sa bawat isang antas ng kalayaan: - kabuuang pagkakaiba, - factorial, - nalalabi.

Pagsusuri ng statistical significance ng linear regression coefficients

Kahit na ang mga teoretikal na halaga ng mga coefficient ng linear dependence equation ay ipinapalagay na pare-pareho, ang mga pagtatantya ng a at b ng mga coefficient na ito na nakuha sa kurso ng pagbuo ng equation mula sa random sampling data ay mga random na variable. Kung ang mga error sa regression ay may normal na pamamahagi, kung gayon ang mga pagtatantya ng mga coefficient ay normal ding ipinamamahagi at maaaring mailalarawan sa pamamagitan ng kanilang mga mean na halaga at pagkakaiba. Samakatuwid, ang pagsusuri ng mga coefficient ay nagsisimula sa pagkalkula ng mga katangiang ito.

Ang mga coefficient variances ay kinakalkula ng mga formula:

Pagkakaiba-iba ng coefficient ng regression:

nasaan ang natitirang dispersion sa bawat isang antas ng kalayaan.

Parameter dispersion:

Samakatuwid, ang karaniwang error ng regression coefficient ay tinutukoy ng formula:

Ang karaniwang error ng parameter ay tinutukoy ng formula:

Nagsisilbi ang mga ito upang subukan ang mga null hypotheses na ang tunay na halaga ng regression coefficient b o intercept a ay zero: .

Ang alternatibong hypothesis ay may anyo: .

Ang t-statistics ay may t-estudyante na pamamahagi na may mga antas ng kalayaan. Ayon sa mga talahanayan ng pamamahagi ng Mag-aaral, sa isang tiyak na antas ng kahalagahan b at antas ng kalayaan, isang kritikal na halaga ang matatagpuan.

Kung, kung gayon, ang null hypothesis ay dapat tanggihan, ang mga coefficient ay itinuturing na makabuluhang istatistika.

Kung, kung gayon ang null hypothesis ay hindi maaaring tanggihan. (Kung ang koepisyent b ay hindi gaanong mahalaga sa istatistika, ang equation ay dapat magmukhang ganito, at nangangahulugan ito na walang kaugnayan sa pagitan ng mga tampok. Kung ang koepisyent a ay hindi gaanong mahalaga sa istatistika, inirerekomenda na suriin ang bagong equation sa anyo).

Mga pagtatantya ng koepisyent ng pagitan linear equation regressions:

Agwat ng kumpiyansa para sa a: .

Agwat ng kumpiyansa para sa b:

Nangangahulugan ito na sa isang naibigay na pagiging maaasahan (nasaan ang antas ng kahalagahan), ang mga tunay na halaga ng a, b ay nasa ipinahiwatig na mga pagitan.

Ang koepisyent ng regression ay may malinaw na interpretasyong pang-ekonomiya, kaya ang mga limitasyon ng kumpiyansa ng agwat ay hindi dapat maglaman ng hindi magkatugma na mga resulta, halimbawa, Hindi dapat isama ang mga ito ng zero.

Pagsusuri ng istatistikal na kahalagahan ng equation sa kabuuan.

Fisher distribution sa regression analysis

Ang pagtatasa ng kahalagahan ng regression equation sa kabuuan ay ibinibigay gamit ang Fisher's F-test. Sa kasong ito, ang null hypothesis ay iniharap na ang lahat ng regression coefficient, maliban sa libreng term a, ay katumbas ng zero at, samakatuwid, ang x factor ay hindi nakakaapekto sa resulta y (o).

Ang halaga ng F - criterion ay nauugnay sa koepisyent ng pagpapasiya. Kailan maramihang pagbabalik:

kung saan ang m ay ang bilang ng mga malayang variable.

Kailan pairwise regression formula F - ang mga istatistika ay tumatagal sa anyo:

Kapag hinahanap ang tabular na halaga ng F-criterion, nakatakda ang isang antas ng kahalagahan (karaniwan ay 0.05 o 0.01) at dalawang antas ng kalayaan: - sa kaso ng maramihang pagbabalik, - para sa ipinares na pagbabalik.

Kung, pagkatapos ito ay tinanggihan at isang konklusyon ay ginawa tungkol sa kahalagahan ng istatistikal na relasyon sa pagitan ng y at x.

Kung, kung gayon ang posibilidad ng equation ng regression na itinuturing na hindi gaanong mahalaga sa istatistika ay hindi tinatanggihan.

Magkomento. Sa pairwise linear regression. Gayundin, samakatuwid. Kaya, ang pagsubok ng mga hypothesis tungkol sa kahalagahan ng regression at correlation coefficient ay katumbas ng pagsubok sa hypothesis tungkol sa kahalagahan ng linear regression equation.

Ang distribusyon ng Fisher ay maaaring gamitin hindi lamang upang subukan ang hypothesis na ang lahat ng linear regression coefficient ay sabay-sabay na katumbas ng zero, kundi pati na rin ang hypothesis na ang ilan sa mga coefficient na ito ay katumbas ng zero. Ito ay mahalaga sa pagbuo ng isang linear na regression na modelo, dahil pinapayagan nito ang pagtatasa ng bisa ng pagbubukod ng mga indibidwal na variable o kanilang mga grupo mula sa bilang ng mga paliwanag na variable, o, sa kabaligtaran, kasama ang mga ito sa numerong ito.

Hayaan, halimbawa, sa una, ang maramihang linear regression ay tinantya para sa n obserbasyon na may m paliwanag na mga variable, at ang koepisyent ng determinasyon ay pantay, pagkatapos ay ang huling k variable ay hindi kasama sa listahan ng mga paliwanag na variable, at ang equation kung saan ang koepisyent ng pagpapasiya ay (, dahil (ang bawat karagdagang variable ay nagpapaliwanag ng isang bahagi, gaano man kaliit, ng variation sa dependent variable).

Upang masubukan ang hypothesis tungkol sa sabay-sabay na pagkakapantay-pantay sa zero ng lahat ng mga coefficient na may mga ibinukod na variable, kinakalkula ang halaga

na mayroong pamamahagi ng Fisher na may mga antas ng kalayaan.

Ayon sa mga talahanayan ng pamamahagi ni Fisher, sa isang naibigay na antas ng kahalagahan, nahanap nila. At kung, ang null hypothesis ay tinanggihan. Sa kasong ito, hindi tama na ibukod ang lahat ng k variable mula sa equation.

Maaaring isagawa ang katulad na pangangatwiran tungkol sa bisa ng pagsasama ng isa o higit pang k bagong mga variable na nagpapaliwanag sa equation ng regression.

Sa kasong ito, ang F ay kinakalkula - mga istatistika

pagkakaroon ng pamamahagi. At kung ito ay lumampas kritikal na antas, pagkatapos ay ang pagsasama ng mga bagong variable ay nagpapaliwanag ng isang makabuluhang bahagi ng dati nang hindi maipaliwanag na pagkakaiba-iba ng umaasa na variable (ibig sabihin, ang pagsasama ng mga bagong nagpapaliwanag na mga variable ay makatwiran).

Remarks. 1. Maipapayo na isama ang mga bagong variable nang paisa-isa.

2. Upang kalkulahin ang F - mga istatistika, kapag isinasaalang-alang ang pagsasama ng mga paliwanag na variable sa equation, ito ay kanais-nais na isaalang-alang ang koepisyent ng pagpapasiya na nababagay para sa bilang ng mga antas ng kalayaan.

F - Fisher statistics ay ginagamit din upang subukan ang hypothesis tungkol sa coincidence ng regression equation para sa mga indibidwal na grupo ng mga obserbasyon.

Hayaang mayroong 2 sample na naglalaman, ayon sa pagkakabanggit, mga obserbasyon. Para sa bawat isa sa mga sample na ito, nasuri ang equation ng regression ng species. Hayaan ang standard deviation mula sa regression line (i.e.) maging pantay para sa kanila, ayon sa pagkakabanggit, .

Ang null hypothesis ay nasubok: na ang lahat ng kaukulang coefficient ng mga equation na ito ay katumbas ng bawat isa, i.e. ang regression equation para sa mga sample na ito ay pareho.

Hayaang matantya ang equation ng regression ng parehong uri para sa lahat ng mga obserbasyon nang sabay-sabay, at RMS.

Pagkatapos ay kinakalkula ang F - mga istatistika ayon sa formula:

Mayroon itong pamamahagi ng Fisher na may mga antas ng kalayaan. F - ang mga istatistika ay magiging malapit sa zero kung ang equation para sa parehong mga sample ay pareho, dahil sa kasong ito. Yung. kung, kung gayon ang null hypothesis ay tinatanggap.

Kung, kung gayon ang null hypothesis ay tinanggihan, at ang isang solong regression equation ay hindi mabuo.

Mga huling pagsusulit sa econometrics

1. Ang pagtatasa ng kahalagahan ng mga parameter ng equation ng regression ay isinasagawa batay sa:

A) t - Ang pamantayan ng mag-aaral;

b) F-criterion ng Fisher - Snedekor;

c) ibig sabihin ng square error;

d) average na error sa pagtatantya.

2. Ang koepisyent ng regression sa equation na nagpapakilala sa ugnayan sa pagitan ng dami ng mga benta (milyong rubles) at kita ng mga negosyo sa industriya ng automotive para sa taon (milyong rubles) ay nangangahulugan na sa isang pagtaas sa dami ng mga benta sa pamamagitan ng 1 milyong rubles pagtaas ng kita ng:

d) 0.5 milyon kuskusin.;

c) 500 libo. kuskusin.;

D) 1.5 milyong rubles

3. Ang ratio ng ugnayan (correlation index) ay sumusukat sa antas ng pagiging malapit ng relasyon sa pagitan ng X atY:

a) lamang sa isang non-linear na anyo ng pagtitiwala;

B) sa anumang anyo ng pagkagumon;

c) lamang sa isang linear na relasyon.

4. Sa direksyon ng komunikasyon mayroong:

a) katamtaman;

B) tuwid;

c) rectilinear.

5. Batay sa 17 obserbasyon, isang equation ng regression ang binuo:
.
Upang suriin ang kahalagahan ng equation, kinakalkula naminnaobserbahang halagat- mga istatistika: 3.9. Konklusyon:

A) Ang equation ay makabuluhan para sa a = 0,05;

b) Ang equation ay hindi gaanong mahalaga sa a = 0.01;

c) Ang equation ay hindi makabuluhan sa a = 0.05.

6. Ano ang mga kahihinatnan ng paglabag sa OLS assumption "ang inaasahan ng mga nalalabi sa regression ay zero"?

A) Mga may kinikilingang pagtatantya ng mga coefficient ng regression;

b) Mahusay ngunit hindi pare-pareho ang mga pagtatantya ng mga coefficient ng regression;

c) Hindi mahusay na mga pagtatantya ng mga coefficient ng regression;

d) Hindi magkatugma na mga pagtatantya ng mga coefficient ng regression.

7. Alin sa mga sumusunod na pahayag ang totoo sa kaso ng heteroskedasticity ng mga residual?

A) Ang mga konklusyon sa t at F-statistics ay hindi mapagkakatiwalaan;

d) Ang mga pagtatantya ng mga parameter ng equation ng regression ay biased.

8. Ano ang batayan ng pagsusulit? ugnayan ng ranggo Spearman?

A) Sa paggamit ng t - mga istatistika;

c) Sa paggamit ;

9. Ano ang batayan ng White test?

b) Sa paggamit ng F-statistics;

B) ginagamit ;

d) Sa graphical na pagsusuri ng mga nalalabi.

10. Anong paraan ang maaaring gamitin upang maalis ang autocorrelation?

11. Ano ang tawag sa paglabag sa pagpapalagay ng constancy ng variance ng residuals?

a) Multicollinearity;

b) Autocorrelation;

B) Heteroskedasticity;

d) Homoscedasticity.

12. Ang mga dummy variable ay ipinakilala sa:

a) sa mga linear na modelo lamang;

b) lamang sa maramihang non-linear regression;

c) lamang sa mga nonlinear na modelo;

D) parehong linear at non-linear na mga modelo ay binawasan sa isang linear na anyo.

13. Kung sa matrix ng paired correlation coefficients mayroong
, pagkatapos ito ay nagpapakita ng:

A) Tungkol sa pagkakaroon ng multicollinearity;

b) Tungkol sa kawalan ng multicollinearity;

c) Tungkol sa pagkakaroon ng autocorrelation;

d) Tungkol sa kawalan ng heteroscedasticity.

14. Anong panukala ang imposibleng maalis ang multicollinearity?

a) Pagtaas ng sample size;

D) Pagbabago ng random na bahagi.

15. Kung
at ang ranggo ng matrix A ay mas mababa sa (K-1) pagkatapos ay ang equation:

a) labis na pagkakakilanlan;

B) hindi nakilala;

c) tumpak na natukoy.

16. Ang equation ng regression ay ganito ang hitsura:

PERO)
;

b)
;

sa)
.

17. Ano ang problema ng pagkakakilanlan ng modelo?

A) pagkuha ng natatanging tinukoy na mga parameter ng modelo na ibinigay ng sistema ng sabay-sabay na mga equation;

b) pagpili at pagpapatupad ng mga pamamaraan para sa istatistikal na pagtatantya ng hindi kilalang mga parameter ng modelo ayon sa paunang istatistikal na data;

c) pagsuri sa kasapatan ng modelo.

18. Anong paraan ang ginagamit upang matantya ang mga parameter ng isang over-identified equation?

C) DMNK, KMNK;

19. Kung ang isang qualitative variable ay maykmga alternatibong halaga, pagkatapos ay ginagamit ng simulation ang:

A) (k-1) dummy variable;

b) kdummy variable;

c) (k+1) dummy variable.

20. Ang pagsusuri ng pagiging malapit at direksyon ng mga link ng dalawang palatandaan ay isinasagawa batay sa:

A) koepisyent ng ugnayan ng pares;

b) koepisyent ng pagpapasiya;

c) maramihang koepisyent ng ugnayan.

21. Sa isang linear equation x = a 0 +a 1 x regression coefficient ay nagpapakita ng:

a) ang lapit ng koneksyon;

b) proporsyon ng pagkakaiba-iba "Y" na nakasalalay sa "X";

C) kung magkano ang "Y" ay magbabago sa average kapag ang "X" ay nagbago ng isang yunit;

d) error sa koepisyent ng ugnayan.

22. Anong indicator ang ginagamit upang matukoy ang bahagi ng variation dahil sa pagbabago sa halaga ng salik na pinag-aaralan?

a) koepisyent ng pagkakaiba-iba;

b) koepisyent ng ugnayan;

C) koepisyent ng pagpapasiya;

d) koepisyent ng pagkalastiko.

23. Ang coefficient ng elasticity ay nagpapakita ng:

A) sa anong% magbabago ang halaga ng y kapag nagbago ang x ng 1%;

b) sa pamamagitan ng kung gaano karaming mga yunit ng pagsukat nito ang halaga ng y ay magbabago kapag ang x ay nagbago ng 1%;

c) sa kung magkano ang % magbabago ang halaga ng y kapag nagbago ang x ayon sa yunit. iyong sukat.

24. Anong mga pamamaraan ang maaaring magamit upang makita ang heteroscedasticity?

A) Golfeld-Quandt test;

B) pagsusulit sa ugnayan ng ranggo ng Spearman;

c) Pagsusulit sa Durbin-Watson.

25. Ano ang batayan ng Golfeld-Quandt test

a) Sa paggamit ng t-statistics;

B) Sa paggamit ng F - mga istatistika;

c) Sa paggamit ;

d) Sa graphical na pagsusuri ng mga nalalabi.

26. Anong mga pamamaraan ang hindi maaaring gamitin upang maalis ang autocorrelation ng mga nalalabi?

a) Pangkalahatang pamamaraan ng hindi bababa sa mga parisukat;

B) Weighted least squares method;

C) ang maximum na paraan ng posibilidad;

D) Dalawang-hakbang na paraan ng hindi bababa sa mga parisukat.

27. Ano ang tawag sa violation of the assumption of independence of residuals?

a) Multicollinearity;

B) Autocorrelation;

c) Heteroskedasticity;

d) Homoscedasticity.

28. Anong paraan ang maaaring gamitin upang maalis ang heteroscedasticity?

A) Pangkalahatang paraan ng hindi bababa sa mga parisukat;

b) Weighted least squares method;

c) Ang pinakamataas na paraan ng posibilidad;

d) Paraan ng two-step least squares.

30. Kung sa pamamagitan ngt-criterion, karamihan sa mga coefficient ng regression ay makabuluhan ayon sa istatistika, at ang modelo sa kabuuanF- ang criterion ay hindi gaanong mahalaga, kung gayon ito ay maaaring magpahiwatig:

a) Multicollinearity;

B) Sa autocorrelation ng mga nalalabi;

c) Sa heteroscedasticity ng residues;

d) Ang pagpipiliang ito ay hindi posible.

31. Posible bang alisin ang multicollinearity sa pamamagitan ng pagbabago ng mga variable?

a) Ang panukalang ito ay epektibo lamang kapag nadagdagan ang laki ng sample;

32. Anong paraan ang maaaring gamitin upang mahanap ang mga pagtatantya ng parameter ng linear regression equation:

A) ang paraan ng hindi bababa sa mga parisukat;

b) pagsusuri ng ugnayan at regression;

c) pagsusuri ng pagkakaiba.

33. Ang isang maramihang linear regression equation na may dummy variable ay binuo. Upang suriin ang kahalagahan ng mga indibidwal na coefficient, ginagamit namin pamamahagi:

a) Normal;

b) Mag-aaral;

c) Pearson;

d) Fischer-Snedekor.

34. Kung
at ang ranggo ng matrix A ay mas malaki kaysa sa (K-1) pagkatapos ay ang equation:

A) over-identified;

b) hindi nakilala;

c) tumpak na natukoy.

35. Upang matantya ang mga parameter ng isang tiyak na makikilalang sistema ng mga equation, ang sumusunod ay ginagamit:

a) DMNK, KMNK;

b) DMNK, MNK, KMNK;

36. Ang pamantayan ni Chow ay batay sa aplikasyon ng:

A) F - mga istatistika;

b) t - mga istatistika;

c) Pamantayan ng Durbin-Watson.

37. Ang mga dummy variable ay maaaring tumagal sa mga sumusunod na halaga:

d) anumang halaga.

39. Batay sa 20 obserbasyon, isang equation ng regression ang binuo:
.
Upang suriin ang kahalagahan ng equation, ang halaga ng istatistika ay kinakalkula:4.2. Mga konklusyon:

a) Ang equation ay makabuluhan sa a=0.05;

b) Ang equation ay hindi makabuluhan sa a=0.05;

c) Ang equation ay hindi makabuluhan sa a=0.01.

40. Alin sa mga sumusunod na pahayag ang hindi totoo kung ang mga nalalabi ay heteroscedastic?

a) Ang mga konklusyon sa mga istatistika ng t at F ay hindi mapagkakatiwalaan;

b) Ang heteroskedasticity ay nagpapakita ng sarili sa pamamagitan ng mababang halaga ng mga istatistika ng Durbin-Watson;

c) Sa heteroscedasticity, ang mga pagtatantya ay mananatiling epektibo;

d) Ang mga pagtatantya ay may kinikilingan.

41. Ang Chow test ay batay sa isang paghahambing:

A) pagpapakalat;

b) mga koepisyent ng pagpapasiya;

c) mga inaasahan sa matematika;

d) daluyan.

42. Kung sa Chow test
pagkatapos ito ay isinasaalang-alang:

A) na ang paghahati sa mga subinterval ay kapaki-pakinabang mula sa punto ng view ng pagpapabuti ng kalidad ng modelo;

b) ang modelo ay hindi gaanong mahalaga sa istatistika;

c) ang modelo ay makabuluhan sa istatistika;

d) na walang saysay na hatiin ang sample sa mga bahagi.

43. Ang mga variable na dummy ay mga variable:

a) kalidad;

b) random;

B) dami;

d) lohikal.

44. Alin sa mga sumusunod na pamamaraan ang hindi maaaring gamitin upang makita ang autocorrelation?

a) Paraan ng serye;

b) Pagsusulit sa Durbin-Watson;

c) pagsusulit sa ugnayan ng ranggo ng Spearman;

D) Pagsusulit ng puti.

45. Ang pinakasimpleng structural form ng modelo ay:

PERO)

b)

sa)

G)
.

46. ​​Anong mga hakbang ang maaaring gawin upang maalis ang multicollinearity?

a) Pagtaas ng sample size;

b) Pagbubukod ng mga variable na lubos na nauugnay sa iba pa;

c) Pagbabago ng detalye ng modelo;

d) Pagbabago ng random na bahagi.

47. Kung
at ang ranggo ng matrix A ay (K-1) pagkatapos ay ang equation:

a) labis na pagkakakilanlan;

b) hindi nakilala;

B) tumpak na natukoy;

48. Itinuturing na natukoy ang isang modelo kung:

a) sa mga equation ng modelo mayroong hindi bababa sa isang normal;

B) ang bawat equation ng system ay makikilala;

c) sa mga equation ng modelo mayroong hindi bababa sa isang hindi nakikilalang isa;

d) sa mga equation ng modelo ay mayroong kahit isang overidentified.

49. Anong paraan ang ginagamit upang matantya ang mga parameter ng isang hindi kilalang equation?

a) DMNK, KMNK;

b) DMNC, MNC;

C) ang mga parameter ng naturang equation ay hindi matantya.

50. Sa junction ng kung anong mga lugar ng kaalaman lumitaw ang econometrics:

A) teoryang pang-ekonomiya; pang-ekonomiya at mga istatistika sa matematika;

b) teoryang pang-ekonomiya, mga istatistika ng matematika at teorya ng posibilidad;

c) mga istatistika ng pang-ekonomiya at matematika, teorya ng posibilidad.

51. Sa multiple linear regression equation, ang mga pagitan ng kumpiyansa ay binuo para sa mga coefficient ng regression gamit ang distribution:

a) Normal;

B) Mag-aaral;

c) Pearson;

d) Fischer-Snedekor.

52. Batay sa 16 na obserbasyon, nabuo ang isang paired linear regression equation. Para saregression coefficient significance check computedt para sa 6l =2.5.

a) Ang koepisyent ay hindi gaanong mahalaga sa a=0.05;

b) Ang koepisyent ay makabuluhan sa a=0.05;

c) Ang koepisyent ay makabuluhan sa a=0.01.

53. Alam na sa pagitan ng mga damiXatYumiiralpositibong koneksyon. Hanggang saanang pairwise correlation coefficient ba?

a) mula -1 hanggang 0;

b) mula 0 hanggang 1;

C) mula -1 hanggang 1.

54. Ang multiple correlation coefficient ay 0.9. Ilang porsyentoang pagpapakalat ng resultang katangian ay ipinaliwanag ng impluwensya ng lahatsalik na katangian?

55. Alin sa mga sumusunod na pamamaraan ang hindi maaaring gamitin upang makita ang heteroscedasticity?

A) Golfeld-Quandt test;

b) pagsusulit ng ugnayan ng ranggo ng Spearman;

c) pamamaraan ng serye.

56. Ang ibinigay na anyo ng modelo ay:

a) isang sistema ng mga hindi linear na pag-andar ng mga exogenous na variable mula sa mga endogenous;

B) isang sistema ng mga linear function ng endogenous variable mula sa exogenous;

c) isang sistema ng mga linear na function ng mga exogenous variable mula sa endogenous;

d) isang sistema ng mga normal na equation.

57. Sa loob ng anong mga limitasyon nagbabago ang partial correlation coefficient na kinakalkula ng mga recursive formula?

a) mula sa - sa + ;

b) mula 0 hanggang 1;

c) mula 0 hanggang + ;

D) mula -1 hanggang +1.

58. Sa loob ng anong mga limitasyon nagbabago ang partial correlation coefficient na kinakalkula sa pamamagitan ng coefficient of determination?

a) mula sa - sa + ;

B) mula 0 hanggang 1;

c) mula 0 hanggang + ;

d) mula -1 hanggang +1.

59. Exogenous na mga variable:

a) mga umaasang variable;

B) mga malayang variable;

61. Kapag nagdaragdag ng isa pang paliwanag na kadahilanan sa equation ng regression, ang koepisyent ng maramihang ugnayan:

a) bababa

b) tataas;

c) panatilihin ang halaga nito.

62. Isang hyperbolic regression equation ang binuo:Y= a+ b/ X. Para saAng significance test ng equation ay gumagamit ng distribution:

a) Normal;

B) Mag-aaral;

c) Pearson;

d) Fischer-Snedekor.

63. Para sa anong mga uri ng mga sistema ang mga parameter ng indibidwal na econometric equation ay matatagpuan gamit ang tradisyonal na least squares method?

a) isang sistema ng mga normal na equation;

B) isang sistema ng mga independiyenteng equation;

C) isang sistema ng recursive equation;

D) isang sistema ng magkakaugnay na mga equation.

64. Mga endogenous na variable:

A) dependent variable;

b) mga independiyenteng variable;

c) napetsahan mula sa nakaraang mga punto sa oras.

65. Sa loob ng anong mga limitasyon nagbabago ang coefficient of determination?

a) mula 0 hanggang + ;

b) mula sa - sa + ;

C) mula 0 hanggang +1;

d) mula -l hanggang +1.

66. Ang isang multiple linear regression equation ay binuo. Upang suriin ang kahalagahan ng mga indibidwal na coefficient, ginagamit namin pamamahagi:

a) Normal;

b) Mag-aaral;

c) Pearson;

D) Fischer-Snedekor.

67. Kapag nagdaragdag ng isa pang paliwanag na kadahilanan sa equation ng regression, ang koepisyent ng determinasyon:

a) bababa

B) tataas;

c) panatilihin ang halaga nito;

d) hindi bababa.

68. Ang kakanyahan ng pamamaraan ng least squares ay:

A) ang pagtatantya ay tinutukoy mula sa kondisyon ng pagliit ng kabuuan ng mga parisukat na paglihis ng sample na data mula sa tinukoy na pagtatantya;

b) ang pagtatantya ay tinutukoy mula sa kondisyon ng pagliit ng kabuuan ng mga paglihis ng sample na data mula sa tinukoy na pagtatantya;

c) ang pagtatantya ay tinutukoy mula sa kondisyon ng pagliit ng kabuuan ng mga squared deviations ng sample mean mula sa sample variance.

69. Anong klase ng mga non-linear regression ang nabibilang sa parabola:

73. Anong klase ng mga non-linear regression ang nabibilang sa exponential curve:

74. Anong klase ng non-linear regression ang nabibilang sa isang function ng form na ŷ
:

A) mga regression na hindi linear na may paggalang sa mga variable na kasama sa pagsusuri, ngunit linear na may paggalang sa mga tinantyang parameter;

b) non-linear regressions sa mga tinantyang parameter.

78. Anong klase ng mga non-linear regression ang nabibilang sa isang function ng form na ŷ
:

a) mga regression na hindi linear na may paggalang sa mga variable na kasama sa pagsusuri, ngunit linear na may paggalang sa mga tinantyang parameter;

B) non-linear regressions sa mga tinantyang parameter.

79. Sa regression equation sa anyo ng hyperbola ŷ
kung ang halaga
b >0 , pagkatapos:

A) na may pagtaas sa katangian ng kadahilanan X ang halaga ng resultang katangian sa dahan-dahang bumaba, at x→∞ average na halaga sa ay magiging katumbas ng a;

b) ang halaga ng epektibong tampok sa tumataas sa mabagal na paglaki na may pagtaas sa katangian ng kadahilanan X, at sa x→∞

81. Ang koepisyent ng pagkalastiko ay tinutukoy ng formula

A) Linear function;

b) Mga Parabola;

c) Mga Hyperbola;

d) exponential curve;

e) Kapangyarihan.

82. Ang koepisyent ng pagkalastiko ay tinutukoy ng formula
para sa isang modelo ng regression sa anyo:

a) Linear function;

B) Mga Parabola;

c) Mga Hyperbola;

d) exponential curve;

e) Kapangyarihan.

86. Equation
tinatawag na:

A) isang linear na trend

b) parabolic trend;

c) hyperbolic trend;

d) exponential trend.

89. Equation
tinatawag na:

a) isang linear na kalakaran;

b) parabolic trend;

c) hyperbolic trend;

D) isang exponential trend.

90. Mga view ng system tinatawag na:

A) isang sistema ng mga independiyenteng equation;

b) isang sistema ng recursive equation;

c) isang sistema ng magkakaugnay (sabay-sabay, sabay-sabay) na mga equation.

93. Ang Econometrics ay maaaring tukuyin bilang:

A) ito ay isang independiyenteng siyentipikong disiplina na pinagsasama-sama ang isang hanay ng mga teoretikal na resulta, pamamaraan, pamamaraan at modelo na idinisenyo upang magbigay ng isang tiyak na quantitative expression sa pangkalahatan (qualitative) pattern dahil sa economic theory batay sa economic theory, economic statistics at mathematical at mga tool sa istatistika;

B) ang agham ng mga sukat sa ekonomiya;

C) pagsusuri sa istatistika ng data ng ekonomiya.

94. Ang mga gawain ng econometrics ay kinabibilangan ng:

A) pagtataya ng mga pang-ekonomiya at sosyo-ekonomikong tagapagpahiwatig na nagpapakilala sa estado at pag-unlad ng nasuri na sistema;

B) simulation ng mga posibleng senaryo para sa sosyo-ekonomikong pag-unlad ng sistema upang matukoy kung paano makakaapekto ang mga nakaplanong pagbabago sa ilang mapapamahalaang parameter sa mga katangian ng output;

c) pagsubok ng mga hypotheses ayon sa istatistikal na datos.

95. Ang mga relasyon ay nakikilala sa pamamagitan ng kanilang kalikasan:

A) functional at ugnayan;

b) functional, curvilinear at rectilinear;

c) ugnayan at kabaligtaran;

d) istatistika at direkta.

96. Sa isang direktang koneksyon sa isang pagtaas sa isang kadahilanan na katangian:

a) bumababa ang epektibong tanda;

b) hindi nagbabago ang mabisang katangian;

C) tumataas ang tagapagpahiwatig ng pagganap.

97. Anong mga pamamaraan ang ginagamit upang matukoy ang presensya, kalikasan at direksyon ng samahan sa mga istatistika?

a) average na mga halaga;

B) paghahambing ng mga parallel na hilera;

C) paraan ng analytical grouping;

d) mga kamag-anak na halaga;

D) paraan ng grapiko.

98. Anong paraan ang ginagamit upang matukoy ang mga anyo ng impluwensya ng ilang salik sa iba?

a) pagsusuri ng ugnayan;

B) pagsusuri ng regression;

c) pagsusuri ng index;

d) pagsusuri ng pagkakaiba.

99. Anong paraan ang ginagamit upang mabilang ang lakas ng epekto ng ilang salik sa iba:

A) pagsusuri ng ugnayan;

b) pagsusuri ng regression;

c) ang paraan ng mga average;

d) pagsusuri ng pagkakaiba.

100. Anong mga indicator sa kanilang magnitude ang umiiral sa hanay mula minus hanggang plus one:

a) koepisyent ng pagpapasiya;

b) ratio ng ugnayan;

C) linear correlation coefficient.

101. Ang regression coefficient para sa isang one-factor na modelo ay nagpapakita ng:

A) kung gaano karaming mga yunit ang nagbabago kapag ang argumento ay nagbabago ng isang yunit;

b) kung gaano karaming porsyento ang pagbabago ng function sa bawat pagbabago ng yunit sa argumento.

102. Ang coefficient ng elasticity ay nagpapakita ng:

a) sa kung gaano karaming porsyento ang pagbabago ng function na may pagbabago sa argumento ng isang yunit ng pagsukat nito;

B) kung gaano karaming porsyento ang pagbabago ng function na may pagbabago sa argumento ng 1%;

c) sa pamamagitan ng kung gaano karaming mga yunit ng pagsukat nito ang function ay nagbabago sa isang pagbabago sa argumento ng 1%.

105. Ang halaga ng index ng ugnayan, katumbas ng 0.087, ay nagpapahiwatig ng:

A) tungkol sa kanilang mahinang pag-asa;

b) isang matibay na relasyon;

c) mga pagkakamali sa mga kalkulasyon.

107. Ang halaga ng coefficient ng ugnayan ng pares, katumbas ng 1.12, ay nagpapahiwatig ng:

a) tungkol sa kanilang mahinang pag-asa;

b) isang matibay na relasyon;

C) tungkol sa mga error sa mga kalkulasyon.

109. Alin sa mga ibinigay na numero ang maaaring maging mga halaga ng coefficient ng ugnayan ng pares:

111. Alin sa mga ibinigay na numero ang maaaring maging mga halaga ng multiple correlation coefficient:

115. Markahan ang tamang anyo ng linear regression equation:

a) s
;

b) ŷ
;

c) ŷ
;

D) ŷ
.

Pagkatapos masuri ang indibidwal na istatistikal na kahalagahan ng bawat isa sa mga coefficient ng regression, ang pinagsama-samang kahalagahan ng mga coefficient ay karaniwang sinusuri, i.e. ang buong equation sa kabuuan. Ang nasabing pagsusuri ay isinasagawa batay sa pagsubok ng hypothesis tungkol sa pangkalahatang kahalagahan ng hypothesis tungkol sa sabay-sabay na pagkakapantay-pantay sa zero ng lahat ng mga coefficient ng regression na may mga paliwanag na variable:

H 0: b 1 = b 2 = ... = b m = 0.

Kung ang hypothesis na ito ay hindi tinanggihan, pagkatapos ay napagpasyahan na ang pinagsama-samang epekto ng lahat ng m paliwanag na mga variable X 1 , X 2 , ..., X m ng modelo sa dependent variable Y ay maaaring ituring na hindi gaanong mahalaga sa istatistika, at ang pangkalahatang kalidad ng regression equation ay mababa.

Ang hypothesis na ito ay nasubok sa batayan ng pagsusuri ng pagkakaiba-iba ng paghahambing ng ipinaliwanag at natitirang pagkakaiba.

H 0: (ipinaliwanag na pagkakaiba) = (natirang pagkakaiba),

H 1: (ipinaliwanag na pagkakaiba) > (natirang pagkakaiba).

Ang F-statistic ay binuo:

saan ay ang pagkakaiba na ipinaliwanag ng regression;

– natitirang dispersion (kabuuan ng mga squared deviations na hinati sa bilang ng mga degree ng kalayaan n-m-1). Kapag natugunan ang mga kinakailangan ng LSM, ang nabuong F-statistic ay mayroong Fisher distribution na may mga bilang ng degree ng kalayaan n1 = m, n2 = n–m–1. Samakatuwid, kung nasa kinakailangang antas ng kahalagahan a F obs > F a ; m n - m -1 \u003d F a (kung saan ang F a; m; n - m -1 ang kritikal na punto ng pamamahagi ng Fisher), pagkatapos ay lumihis ang H 0 pabor sa H 1. Nangangahulugan ito na ang pagkakaiba-iba na ipinaliwanag ng regression ay makabuluhang mas malaki kaysa sa natitirang variance, at, dahil dito, ang equation ng regression ay sumasalamin sa medyo qualitatively ang dinamika ng pagbabago sa dependent variable Y. Kung F observable< F a ; m ; n - m -1 = F кр. , то нет основания для отклонения Н 0 . Значит, объясненная дисперсия соизмерима с дисперсией, вызванной случайными факторами. Это дает основание считать, что совокупное влияние объясняющих переменных модели несущественно, а следовательно, общее качество модели невысоко.

Gayunpaman, sa pagsasagawa, sa halip na ang hypothesis na ito, ang isang malapit na nauugnay na hypothesis tungkol sa istatistikal na kahalagahan ng coefficient of determination R 2 ay sinusuri:



H 0: R 2 > 0.

Upang subukan ang hypothesis na ito, ang sumusunod na F-statistic ay ginagamit:

. (8.20)

Ang halaga ng F, sa kondisyon na ang mga kinakailangan ng LSM ay natutugunan at ang H 0 ay wasto, ay may pamamahagi ng Fisher na katulad ng pamamahagi ng mga istatistika ng F (8.19). Sa katunayan, hinahati ang numerator at denominator ng fraction sa (8.19) sa kabuuang kabuuan ng mga squared deviations at alam na ito ay nahahati sa kabuuan ng mga squared deviations, na ipinaliwanag ng regression, at ang natitirang kabuuan ng squared deviations (ito ay isang kinahinatnan, tulad ng ipapakita sa ibang pagkakataon, ng sistema ng mga normal na equation)

,

nakukuha namin ang formula (8.20):

Mula sa (8.20) kitang-kita na ang mga exponent F at R 2 ay pantay o hindi katumbas ng zero sa parehong oras. Kung F = 0, pagkatapos ay R 2 = 0, at ang regression line Y = ay ang pinakamahusay na OLS, at, samakatuwid, ang halaga ng Y ay hindi linearly nakadepende sa X 1 , X 2 , ..., X m . Upang subukan ang null hypothesis H 0: F = 0 sa isang naibigay na antas ng kahalagahan a ayon sa mga talahanayan kritikal na puntos Ang pamamahagi ng mangingisda ay ang kritikal na halaga F cr = F a ; m n - m -1 . Ang null hypothesis ay tinatanggihan kung F > F cr. Ito ay katumbas ng katotohanan na ang R 2 > 0, i.e. Ang R 2 ay makabuluhan sa istatistika.

Ang pagsusuri ng mga istatistika F ay nagpapahintulot sa amin na tapusin na upang tanggapin ang hypothesis ng sabay-sabay na pagkakapantay-pantay sa zero ng lahat ng mga coefficient ng linear regression, ang koepisyent ng determinasyon R 2 ay hindi dapat mag-iba nang malaki mula sa zero. Bumababa ang kritikal na halaga nito kasabay ng pagtaas ng bilang ng mga obserbasyon at maaaring maging arbitraryong maliit.

Hayaan, halimbawa, kapag tinatasa ang isang regression na may dalawang paliwanag na variable X 1 i , X 2 i para sa 30 obserbasyon R 2 = 0.65. Pagkatapos

Fobs = = 25.07.

Ayon sa mga talahanayan ng mga kritikal na punto ng pamamahagi ng Fisher, nakita namin ang F 0.05; 2; 27 = 3.36; F 0.01; 2; 27 = 5.49. Dahil F obl = 25.07 > F cr pareho sa 5% at sa 1% na antas ng kahalagahan, ang null hypothesis ay tinanggihan sa parehong mga kaso.

Kung sa parehong sitwasyon R 2 = 0.4, kung gayon

Fobs = = 9.

Ang pagpapalagay ng kawalang-halaga ng koneksyon ay tinanggihan din dito.

Tandaan na sa kaso ng pairwise regression, ang pagsubok sa null hypothesis para sa F-statistic ay katumbas ng pagsubok sa null hypothesis para sa t-statistic

koepisyent ng ugnayan. Sa kasong ito, ang F-statistic ay katumbas ng parisukat ng t-statistic. Ang koepisyent R 2 ay nakakakuha ng independiyenteng kahalagahan sa kaso ng maramihang linear regression.

8.6. Pagsusuri ng pagkakaiba upang mabulok ang kabuuang kabuuan ng mga squared deviations. Mga antas ng kalayaan para sa mga katumbas na kabuuan ng mga squared deviation

Ilapat natin ang teorya sa itaas para sa pairwise linear regression.

Matapos matagpuan ang linear regression equation, ang kahalagahan ng parehong equation sa kabuuan at ang mga indibidwal na parameter nito ay tinasa.

Ang pagtatasa ng kahalagahan ng regression equation sa kabuuan ay ibinibigay gamit ang Fisher F-test. Inilalagay nito ang null hypothesis na ang regression coefficient sero, ibig sabihin. b = 0, at samakatuwid ang salik na x ay walang epekto sa resultang y.

Ang direktang pagkalkula ng F-criterion ay nauuna sa pagsusuri ng pagkakaiba. Sentral na lokasyon ito ay tumatagal ng agnas ng kabuuang kabuuan ng mga squared deviations ng variable y mula sa mean value sa dalawang bahagi - "ipinaliwanag" at "hindi maipaliwanag":

Ang equation (8.21) ay bunga ng sistema ng mga normal na equation na nakuha sa isa sa mga naunang paksa.

Katibayan ng pagpapahayag (8.21).

Ito ay nananatiling patunayan na ang huling termino ay katumbas ng zero.

Kung susumahin mo ang lahat ng equation mula 1 hanggang n

y i = a+b×x i + e i , (8.22)

pagkatapos ay makukuha natin ang åy i = a×å1+b×åx i +åe i . Dahil åe i =0 at å1 =n, nakukuha namin

Pagkatapos .

Kung ibawas natin ang equation (8.23) mula sa expression (8.22), pagkatapos ay makukuha natin

Bilang resulta, nakukuha namin

Ang huling mga kabuuan ay katumbas ng zero dahil sa sistema ng dalawang normal na equation.

Ang kabuuang kabuuan ng mga squared deviations ng mga indibidwal na halaga ng epektibong katangian y mula sa average na halaga ay sanhi ng impluwensya ng maraming mga kadahilanan. Kondisyon naming hinahati ang buong hanay ng mga sanhi sa dalawang grupo: ang pinag-aralan na salik x at iba pang mga salik. Kung ang factor on ay walang epekto sa resulta, ang linya ng regression ay parallel sa OX axis at . Pagkatapos ang buong dispersion ng nagreresultang katangian ay dahil sa impluwensya ng iba pang mga salik at ang kabuuang kabuuan ng mga squared deviations ay mag-tutugma sa nalalabi. Kung ang ibang mga salik ay hindi makakaapekto sa resulta, ang y ay gumaganang nauugnay sa x at ang natitirang kabuuan ng mga parisukat ay zero. Sa kasong ito, ang kabuuan ng mga squared deviations na ipinaliwanag ng regression ay pareho sa kabuuang kabuuan ng mga parisukat.

Dahil hindi lahat ng mga punto ng patlang ng ugnayan ay nasa linya ng regression, ang kanilang scatter ay palaging nagaganap dahil sa impluwensya ng salik na x, i.e. pagbabalik ng y sa x, at sanhi ng pagkilos ng iba pang mga sanhi (hindi maipaliwanag na pagkakaiba-iba). Ang kaangkupan ng linya ng regression para sa hula ay nakasalalay sa kung gaano karami sa kabuuang pagkakaiba-iba ng katangian y ang isinasaalang-alang ng ipinaliwanag na pagkakaiba-iba. Malinaw, kung ang kabuuan ng mga squared deviations dahil sa regression ay mas malaki kaysa sa natitirang kabuuan ng mga parisukat, kung gayon ang regression equation ay istatistikal na makabuluhan at ang x factor ay may malaking epekto sa y sign. Katumbas ito ng katotohanan na ang coefficient of determination ay lalapit sa pagkakaisa.

Ang anumang kabuuan ng mga parisukat ay nauugnay sa bilang ng mga antas ng kalayaan (df - mga antas ng kalayaan), sa bilang ng kalayaan ng independiyenteng pagkakaiba-iba ng tampok. Ang bilang ng mga antas ng kalayaan ay nauugnay sa bilang ng mga yunit ng populasyon n at ang bilang ng mga constant na tinutukoy mula dito. Kaugnay ng problemang pinag-aaralan, ang bilang ng mga antas ng kalayaan ay dapat magpakita kung gaano karaming mga independiyenteng paglihis sa n posible ang kinakailangan upang makabuo ng isang naibigay na kabuuan ng mga parisukat. Kaya, para sa kabuuang kabuuan ng mga parisukat, (n-1) ang mga independiyenteng paglihis ay kinakailangan, dahil sa pinagsama-samang n mga yunit, pagkatapos kalkulahin ang average, lamang (n-1) ang bilang ng mga paglihis ay malayang nag-iiba. Halimbawa, mayroon kaming serye ng mga y value: 1,2,3,4,5. Ang average ng mga ito ay 3, at pagkatapos ay ang n deviations mula sa average ay: -2, -1, 0, 1, 2. Dahil , pagkatapos ay apat na deviations lamang ang malayang nag-iiba, at ang ikalimang paglihis ay maaaring matukoy kung ang nakaraang apat ay kilala.

Kapag kinakalkula ang ipinaliwanag o factorial na kabuuan ng mga parisukat Ang teoretikal (kinakalkula) na mga halaga ng epektibong tampok ay ginagamit

Pagkatapos ang kabuuan ng mga squared deviations dahil sa linear regression ay katumbas ng

Dahil, para sa isang naibigay na halaga ng mga obserbasyon sa x at y, ang factorial sum ng mga parisukat sa linear regression ay nakasalalay lamang sa regression constant b, ang kabuuan ng mga parisukat na ito ay may isang antas lamang ng kalayaan.

Mayroong pagkakapantay-pantay sa pagitan ng bilang ng mga antas ng kalayaan ng kabuuan, factorial at natitirang kabuuan ng mga squared deviations. Ang bilang ng mga antas ng kalayaan ng natitirang kabuuan ng mga parisukat sa linear regression ay n-2. Ang bilang ng mga antas ng kalayaan ng kabuuang kabuuan ng mga parisukat ay tinutukoy ng bilang ng mga yunit ng mga variable na tampok, at dahil ginagamit namin ang average na kinakalkula mula sa sample na data, nawalan kami ng isang antas ng kalayaan, i.e. df kabuuan = n–1.

Kaya mayroon kaming dalawang pagkakapantay-pantay:

Ang paghahati sa bawat kabuuan ng mga parisukat sa bilang ng mga antas ng kalayaan na naaayon dito, nakukuha natin ang ibig sabihin ng parisukat ng mga paglihis, o, katumbas nito, ang pagkakaiba-iba sa bawat isang antas ng kalayaan D.

;

;

.

Ang pagtukoy sa dispersion sa bawat isang antas ng kalayaan ay nagdadala ng mga dispersion sa isang maihahambing na anyo. Ang paghahambing ng factorial at natitirang mga pagkakaiba-iba sa bawat isang antas ng kalayaan, nakuha namin ang halaga ng Fisher's F-criterion

kung saan F-criterion para sa pagsubok ng null hypothesis H 0: D fact = D rest.

Kung totoo ang null hypothesis, hindi magkaiba ang factorial at residual variances sa isa't isa. Para sa H 0, kinakailangan ang isang pagtanggi upang ang pagkakaiba-iba ng kadahilanan ay lumampas sa nalalabi nang maraming beses. Gumawa ng mga talahanayan ang English statistician na si Snedecor kritikal na halaga F-relasyon sa iba't ibang antas ng kahalagahan ng null hypothesis at iba't ibang bilang ng antas ng kalayaan. Ang tabular na halaga ng F-criterion ay ang pinakamataas na halaga ng ratio ng mga pagkakaiba-iba na maaaring mangyari kung sila ay random na mag-iiba para sa isang partikular na antas ng posibilidad ng pagkakaroon ng isang null hypothesis. Ang kinakalkula na halaga ng F-ratio ay kinikilala bilang maaasahan kung ito ay mas malaki kaysa sa tabular. Kung F fact > F table, ang null hypothesis H 0: D fact = D rest tungkol sa kawalan ng isang relasyon ng mga feature ay tinanggihan at isang konklusyon ay ginawa tungkol sa kahalagahan ng relasyon na ito.

Kung ang F ay isang katotohanan< F табл, то вероятность нулевой гипотезы H 0: D факт = D ост выше заданного уровня (например, 0,05) и она не может быть отклонена без серьёзного риска сделать неправильный вывод о наличии связи. В этом случае уравнение регрессии считается статистически незначимым. Гипотеза H 0 не отклоняется.

Sa halimbawang ito mula sa Kabanata 3:

\u003d 131200 -7 * 144002 \u003d 30400 - ang kabuuang kabuuan ng mga parisukat;

1057.878*(135.43-7*(3.92571) 2) = 28979.8 - factor sum ng mga parisukat;

\u003d 30400-28979.8 \u003d 1420.197 - natitirang kabuuan ng mga parisukat;

D katotohanan = 28979.8;

D pahinga \u003d 1420.197 / (n-2) \u003d 284.0394;

F katotohanan \u003d 28979.8 / 284.0394 \u003d 102.0274;

Fa=0.05; 2; 5=6.61; Fa=0.01; 2; 5 = 16.26.

Dahil F fact > F table pareho sa 1% at sa 5% na antas ng kabuluhan, maaari nating tapusin na ang equation ng regression ay makabuluhan (ang relasyon ay napatunayan).

Ang halaga ng F-criterion ay nauugnay sa coefficient of determination. Ang factor sum ng squared deviations ay maaaring katawanin bilang

,

at ang natitirang kabuuan ng mga parisukat bilang

.

Pagkatapos ang halaga ng F-criterion ay maaaring ipahayag bilang

.

Ang isang pagtatasa ng kahalagahan ng isang regression ay karaniwang ibinibigay sa anyo ng isang pagsusuri ng talahanayan ng pagkakaiba

, ang halaga nito ay inihambing sa halaga ng talahanayan sa isang tiyak na antas ng kahalagahan α at ang bilang ng mga antas ng kalayaan (n-2).
Pinagmumulan ng Variation Bilang ng mga antas ng kalayaan Kabuuan ng mga squared deviations Pagpapakalat sa bawat antas ng kalayaan F-ratio
aktuwal Tabular sa a=0.05
Heneral
Ipinaliwanag 28979,8 28979,8 102,0274 6,61
Nalalabi 1420,197 284,0394

100 r bonus sa unang order

Piliin ang uri ng trabaho Graduate work gawaing kurso Abstract Master's thesis Report on practice Article Report Review Pagsusulit Monograph Paglutas ng problema Plano ng negosyo Mga sagot sa mga tanong malikhaing gawain Pagguhit ng Sanaysay Mga Sanaysay Pagsasalin Presentasyon Pagta-type Iba Pa Pagdaragdag ng pagiging kakaiba ng teksto Tesis ng Kandidato Gawain sa laboratoryo On-line na tulong

Pahingi ng presyo

Matapos matagpuan ang linear regression equation, ang pagtatantya ng kahalagahan bilang isang equation sa pangkalahatan, pati na rin sa indibidwal mga parameter. Suriin ang kahalagahan ng equation ng regression- nangangahulugan na itatag kung ang modelong matematikal na nagpapahayag ng ugnayan sa pagitan ng mga variable ay tumutugma sa pang-eksperimentong data at kung mayroong sapat na mga variable na nagpapaliwanag na kasama sa equation (isa o higit pa) upang ilarawan ang dependent variable. Upang magkaroon ng pangkalahatang paghuhusga tungkol sa kalidad ng modelo mula sa mga kaugnay na paglihis para sa bawat pagmamasid, tukuyin average na error sa pagtatantya: Average na error ang pagtatantya ay hindi dapat lumagpas sa 8-10%.

Ang pagtatasa ng kahalagahan ng regression equation sa kabuuan ay batay sa F- Pamantayan ni Fisher nauuna sa pagsusuri ng pagkakaiba. Ayon sa pangunahing ideya ng pagsusuri ng pagkakaiba-iba, ang kabuuang kabuuan ng mga squared deviations ng isang variable y mula sa karaniwan y ay nabubulok sa dalawang bahagi - "ipinaliwanag" at "hindi maipaliwanag": nasaan ang kabuuang kabuuan ng mga squared deviations; ay ang kabuuan ng mga squared deviations na ipinaliwanag ng regression (o ang factorial sum ng squared deviations); ay ang natitirang kabuuan ng mga squared deviations, na nagpapakilala sa impluwensya ng mga salik na hindi isinasaalang-alang sa modelo. Ang pagtukoy sa dispersion sa bawat isang antas ng kalayaan ay nagdadala ng mga dispersion sa isang maihahambing na anyo. Ang paghahambing ng salik at natitirang mga pagkakaiba-iba sa bawat isang antas ng kalayaan, nakuha namin ang halaga F- Pamantayan ni Fisher: tunay na halaga F- Ang criterion ni Fisher ay inihambing sa

halaga ng talahanayan F talahanayan(a; k 1; k 2) sa antas ng kahalagahan a at antas ng kalayaan k 1 = m at k 2= n-m-1.Gayunpaman, kung ang aktwal na halaga F- ang criterion ay mas malaki kaysa sa talahanayan ng isa, pagkatapos ito ay kinikilala istatistikal na kahalagahan mga equation sa pangkalahatan.

Para sa Pairwise Linear Regression m=1, kaya

Halaga F-ang pamantayan ay nauugnay sa koepisyent ng pagpapasiya R2, maaari itong kalkulahin gamit ang sumusunod na formula:

Sa paired linear regression, ang kahalagahan ng hindi lamang ng equation sa kabuuan, kundi pati na rin ng indibidwal nito. mga parameter. Para sa layuning ito, para sa bawat isa sa mga parameter, ang karaniwang error nito ay tinutukoy: m b at m a. Ang karaniwang error ng regression coefficient ay tinutukoy ng formula: , saan

Ang halaga ng karaniwang error, kasama ang t-Pamamahagi ng mag-aaral sa n-2 degrees ng kalayaan ay ginagamit upang subukan ang kahalagahan ng koepisyent ng regression at upang kalkulahin ang agwat ng kumpiyansa nito. Upang masuri ang kahalagahan ng coefficient ng regression, ang halaga nito ay inihambing sa nito karaniwang error, ibig sabihin. ang aktwal na halaga ay tinutukoy t-Pagsusulit ng mag-aaral: na pagkatapos ay ihahambing sa halaga ng tabular sa isang tiyak na antas ng kahalagahan a at ang bilang ng mga antas ng kalayaan (n-2). Ang confidence interval para sa regression coefficient ay tinukoy bilang b± t tabl × mb. Dahil ang tanda ng koepisyent ng regression ay nagpapahiwatig ng paglaki ng epektibong tampok y na may pagtaas sa sign-factor x(b>0), pagbaba sa epektibong feature na may pagtaas sa feature-factor ( b<0) или его независимость от независимой переменной (b=0), kung gayon ang mga hangganan ng agwat ng kumpiyansa para sa koepisyent ng regression ay hindi dapat maglaman ng mga magkasalungat na resulta, halimbawa, -1.5 £ b£0.8. Ang ganitong uri ng talaan ay nagpapahiwatig na ang tunay na halaga ng koepisyent ng regression ay sabay na naglalaman ng mga positibo at negatibong halaga at kahit na zero, na hindi maaaring.

karaniwang error parameter a ay tinutukoy ng formula: Ang pamamaraan para sa pagtatasa ng kahalagahan ng parameter na ito ay hindi naiiba sa isinasaalang-alang sa itaas para sa koepisyent ng regression. Nakalkula t-criterion: , ang halaga nito ay inihambing sa halaga ng talahanayan kapag n- 2 antas ng kalayaan.


PAKSANG-ARALIN 4. MGA PARAAN NG ISTATISTIKA PARA SA PAG-AARAL NG MGA RELASYON

Regression Equation - ito ay isang analytical na representasyon ng pag-asa sa ugnayan. Ang regression equation ay naglalarawan ng hypothetical functional na relasyon sa pagitan ng conditional average na halaga ng epektibong feature at ang value ng feature - factor (factors), i.e. ang pinagbabatayan na kalakaran ng pagkagumon.

Ang pagdepende sa ugnayan ng pares ay inilalarawan ng equation ng regression ng pares, pagdepende sa maraming ugnayan - sa pamamagitan ng equation ng multiple regression.

Ang feature-resulta sa regression equation ay ang dependent variable (tugon, explanatory variable), at ang feature-factor ay ang independent variable (argument, explanatory variable).

Ang pinakasimpleng uri ng regression equation ay ang equation ng isang paired linear na relasyon:

kung saan ang y ay ang dependent variable (sign-resulta); x ay isang malayang variable (sign-factor); at ang mga parameter ng equation ng regression; - Error sa pagtatantya.

Maaaring gamitin ang iba't ibang mga function ng matematika bilang isang equation ng regression. Ang mga equation ng linear dependence, parabola, hyperbola, steppe function, atbp. ay nakakahanap ng madalas na praktikal na aplikasyon.

Bilang isang patakaran, ang pagsusuri ay nagsisimula sa isang linear na relasyon, dahil ang mga resulta ay madaling bigyang kahulugan. Ang pagpili ng uri ng constraint equation ay isang mahalagang hakbang sa pagsusuri. Sa panahon ng "pre-computer", ang pamamaraang ito ay nauugnay sa ilang mga paghihirap at nangangailangan ng analyst na malaman ang mga katangian ng mga pag-andar ng matematika. Sa kasalukuyan, batay sa mga dalubhasang programa, posible na mabilis na bumuo ng isang hanay ng mga equation ng komunikasyon at, batay sa pormal na pamantayan, piliin ang pinakamahusay na modelo (gayunpaman, ang matematikal na literacy ng isang analyst ay hindi nawala ang kaugnayan nito).

Ang isang hypothesis tungkol sa uri ng pag-asa sa ugnayan ay maaaring iharap batay sa mga resulta ng pagbuo ng larangan ng ugnayan (tingnan ang panayam 6). Batay sa likas na katangian ng lokasyon ng mga punto sa graph (ang mga coordinate ng mga punto ay tumutugma sa mga halaga ng umaasa at independiyenteng mga variable), ang takbo ng ugnayan sa pagitan ng mga palatandaan (mga tagapagpahiwatig) ay ipinahayag. Kung ang linya ng regression ay dumaan sa lahat ng mga punto ng patlang ng ugnayan, kung gayon ito ay nagpapahiwatig ng isang functional na relasyon. Sa pagsasagawa ng socio-economic na pananaliksik, ang gayong larawan ay hindi maobserbahan, dahil mayroong isang istatistikal (kaugnayan) na dependence. Sa ilalim ng mga kondisyon ng pag-asa sa ugnayan, kapag gumuhit ng isang linya ng pagbabalik sa isang scatterplot, isang paglihis ng mga punto ng patlang ng ugnayan mula sa linya ng pagbabalik ay sinusunod, na nagpapakita ng tinatawag na mga residual o mga error sa pagtatantya (tingnan ang Larawan 7.1).

Ang pagkakaroon ng error sa equation ay dahil sa katotohanan na:

§ hindi lahat ng salik na nakakaimpluwensya sa resulta ay isinasaalang-alang sa equation ng regression;

§ ang anyo ng koneksyon ay maaaring maling napili - ang regression equation;

§ Hindi lahat ng salik ay kasama sa equation.

Upang makabuo ng isang equation ng regression ay nangangahulugang kalkulahin ang mga halaga ng mga parameter nito. Ang equation ng regression ay binuo batay sa aktwal na mga halaga ng mga nasuri na tampok. Ang pagkalkula ng mga parameter ay karaniwang ginagawa gamit paraan ng least squares (LSM).

Ang kakanyahan ng MNC ay posible na makakuha ng mga naturang halaga ng mga parameter ng equation, kung saan ang kabuuan ng mga squared deviations ng theoretical values ​​ng attribute-resulta (kinakalkula batay sa regression equation) mula sa aktwal nitong pinaliit ang mga halaga:

,

kung saan - ang aktwal na halaga ng sign-resulta ng i-th unit ng populasyon; - ang halaga ng sign-resulta ng i-th unit ng populasyon, na nakuha ng regression equation ().

Kaya, ang problema ay nalutas para sa isang extremum, iyon ay, ito ay kinakailangan upang mahanap sa kung anong mga halaga ng mga parameter, ang function na S ay umabot sa isang minimum.

Isinasagawa ang pagkita ng kaibhan, tinutumbasan ang mga partial derivatives sa zero:



, (7.3)

, (7.4)

kung saan ang average na produkto ng kadahilanan at mga halaga ng resulta; - ang average na halaga ng sign - factor; - ang average na halaga ng sign-resulta; - pagkakaiba-iba ng sign-factor.

Ang parameter sa equation ng regression ay nagpapakita ng slope ng linya ng regression sa graph. Ang pagpipiliang ito ay tinatawag na koepisyent ng regression at ang halaga nito ay nailalarawan sa pamamagitan ng kung gaano karaming mga yunit ng pagsukat nito ang mag-iiba ang resulta ng tanda kapag ang sign-factor ay nagbabago ng yunit ng pagsukat nito. Ang tanda ng koepisyent ng regression ay sumasalamin sa direksyon ng pag-asa (direkta o kabaligtaran) at kasabay ng pag-sign ng koepisyent ng ugnayan (sa ilalim ng mga kondisyon ng pagpapares na pag-asa).

Bilang bahagi ng halimbawang isinasaalang-alang, kinakalkula ng programa ng STATISTICA ang mga parameter ng equation ng regression na naglalarawan ng ugnayan sa pagitan ng antas ng average na per capita na kita sa pera ng populasyon at ang halaga ng gross regional product per capita sa mga rehiyon ng Russia, tingnan ang Talahanayan 7.1.

Talahanayan 7.1 - Pagkalkula at pagsusuri ng mga parameter ng equation na naglalarawan ng ugnayan sa pagitan ng antas ng average per capita monetary income ng populasyon at ang halaga ng gross regional product per capita sa mga rehiyon ng Russia, 2013

Ang column na "B" ng talahanayan ay naglalaman ng mga halaga ng mga parameter ng equation ng regression ng pares, samakatuwid, maaari mong isulat ang: = 13406.89 + 22.82 x. Inilalarawan ng equation na ito ang trend ng relasyon sa pagitan ng mga nasuri na katangian. Ang parameter ay ang regression coefficient. Sa kasong ito, ito ay katumbas ng 22.82 at nailalarawan ang mga sumusunod: na may pagtaas sa GRP per capita ng 1 libong rubles, ang average na per capita cash income ay tumaas sa average (tulad ng ipinahiwatig ng "+" sign) ng 22.28 rubles.

Ang parameter ng regression equation sa sosyo-ekonomikong pag-aaral, bilang panuntunan, ay hindi makahulugang binibigyang kahulugan. Pormal, ito ay sumasalamin sa halaga ng sign - ang resulta, sa kondisyon na ang sign - factor ay katumbas ng zero. Tinutukoy ng parameter ang lokasyon ng linya ng regression sa graph, tingnan ang Figure 7.1.

Figure 7.1 - Correlation field at regression line, na sumasalamin sa dependence ng antas ng average per capita monetary income ng populasyon sa mga rehiyon ng Russia at ang halaga ng GRP per capita

Ang halaga ng parameter ay tumutugma sa punto ng intersection ng linya ng regression sa Y-axis, sa X=0.

Ang pagbuo ng equation ng regression ay sinamahan ng isang pagtatasa ng istatistikal na kahalagahan ng equation sa kabuuan at ang mga parameter nito. Ang pangangailangan para sa mga naturang pamamaraan ay nauugnay sa isang limitadong halaga ng data, na maaaring maiwasan ang pagpapatakbo ng batas ng malalaking numero at, samakatuwid, ang pagkilala ng isang tunay na kalakaran sa kaugnayan ng mga nasuri na tagapagpahiwatig. Bilang karagdagan, ang anumang pinag-aralan na populasyon ay maaaring ituring bilang isang sample mula sa pangkalahatang populasyon, at ang mga katangiang nakuha sa panahon ng pagsusuri bilang isang pagtatantya ng mga pangkalahatang parameter.

Ang pagtatasa ng istatistikal na kahalagahan ng mga parameter at ang equation sa kabuuan ay ang pagpapatunay ng posibilidad ng paggamit ng itinayong modelo ng komunikasyon para sa paggawa ng mga desisyon sa pamamahala at pagtataya (pagmomodelo).

Istatistikong Kahalagahan ng Regression Equation sa pangkalahatan ay tinatantya gamit Fisher F-test, na ang ratio ng factorial at natitirang mga pagkakaiba-iba na kinakalkula para sa isang antas ng kalayaan:

saan - kadahilanan na pagkakaiba-iba ng tampok - resulta; k ay ang bilang ng mga antas ng kalayaan ng factorial dispersion (ang bilang ng mga kadahilanan sa equation ng regression); - ang ibig sabihin ng halaga ng dependent variable; - theoretical (nakuha ng regression equation) na halaga ng dependent variable para sa i-th unit ng populasyon; - natitirang pagkakaiba-iba ng pag-sign - resulta; n ay ang dami ng populasyon; Ang n-k-1 ay ang bilang ng mga antas ng kalayaan ng natitirang pagpapakalat.

Ang halaga ng F-test ni Fisher, ayon sa formula, ay nagpapakilala sa ratio sa pagitan ng salik at natitirang mga pagkakaiba-iba ng dependent variable, na nagpapakita, sa esensya, kung gaano karaming beses ang halaga ng ipinaliwanag na bahagi ng variation ay lumampas sa hindi maipaliwanag.

Ang Fisher's F-test ay naka-tabulate, ang input sa talahanayan ay ang bilang ng mga degree ng kalayaan ng factorial at residual variances. Ang paghahambing ng kinakalkula na halaga ng criterion sa tabular (kritikal) ay nagbibigay-daan sa pagsagot sa tanong: bahagi ba iyon ng variation ng trait-resulta na maaaring ipaliwanag ng mga salik na kasama sa equation ng ganitong uri na makabuluhang istatistika? Kung ang , kung gayon ang equation ng regression ay kinikilala bilang makabuluhang istatistika at, nang naaayon, ang koepisyent ng determinasyon ay makabuluhan din sa istatistika. Kung hindi ( ), ang equation ay hindi gaanong mahalaga sa istatistika, i.e. ang pagkakaiba-iba ng mga salik na isinasaalang-alang sa equation ay hindi nagpapaliwanag ng makabuluhang bahagi ng istatistika ng pagkakaiba-iba ng katangian-resulta, o ang equation ng relasyon ay hindi wastong napili.

Pagtataya ng istatistikal na kahalagahan ng mga parameter ng equation isinagawa sa batayan t-istatistika, na kinakalkula bilang ratio ng ganap na halaga ng mga parameter ng equation ng regression sa kanilang mga karaniwang error ( ):

, saan ; (7.6)

, saan ; (7.7)

saan - standard deviations ng sign - factor at sign - resulta; - koepisyent ng pagpapasiya.

Sa mga espesyal na programang istatistika, ang pagkalkula ng mga parameter ay palaging sinasamahan ng pagkalkula ng kanilang mga karaniwang (root-mean-square) na mga error at t-statistics (tingnan ang Talahanayan 7.1). Ang kinakalkula na halaga ng t-statistics ay inihambing sa tabular na isa, kung ang dami ng pinag-aralan na populasyon ay mas mababa sa 30 mga yunit (tiyak na isang maliit na sample), ang isa ay dapat sumangguni sa t-distribution table ng Estudyante, kung ang dami ng populasyon ay malaki, dapat isa gamitin ang normal na talahanayan ng pamamahagi (Laplace's probability integral). Ang isang parameter ng equation ay itinuturing na makabuluhang istatistika kung.

Ang pagtatantya ng mga parameter batay sa t-statistics, sa esensya, ay isang pagsubok ng null hypothesis tungkol sa pagkakapantay-pantay ng mga pangkalahatang parameter sa zero (H 0: =0; H 0: =0;), iyon ay, tungkol sa isang hindi gaanong istatistika. halaga ng mga parameter ng equation ng regression. Ang antas ng kahalagahan ng hypothesis, bilang panuntunan, ay kinuha: = 0.05. Kung ang kinakalkula na antas ng kahalagahan ay mas mababa sa 0.05, ang null hypothesis ay tinanggihan at ang alternatibo ay tinatanggap - tungkol sa istatistikal na kahalagahan ng parameter.

Ipagpatuloy natin ang halimbawa. Ang talahanayan 7.1 sa column na "B" ay nagpapakita ng mga halaga ng mga parameter, sa column na Std.Err.ofB - ang mga halaga ng mga karaniwang error ng mga parameter ( ), sa hanay na t (77 - ang bilang ng mga antas ng kalayaan) ang mga halaga ng t - mga istatistika ay kinakalkula na isinasaalang-alang ang bilang ng mga antas ng kalayaan. Upang masuri ang istatistikal na kahalagahan ng mga parameter, ang mga kinakalkula na halaga ng t-statistics ay dapat ihambing sa halaga ng talahanayan. Ang ibinigay na antas ng kahalagahan (0.05) sa normal na talahanayan ng pamamahagi ay tumutugma sa t = 1.96. Mula noong 18.02, 10.84, i.e. , dapat kilalanin ng isa ang istatistikal na kahalagahan ng nakuhang mga halaga ng parameter, i.e. ang mga halagang ito ay nabuo sa ilalim ng impluwensya ng mga di-random na mga kadahilanan at sumasalamin sa takbo ng ugnayan sa pagitan ng nasuri na mga tagapagpahiwatig.

Upang masuri ang istatistikal na kahalagahan ng equation sa kabuuan, bumaling tayo sa halaga ng F-test ni Fisher (tingnan ang Talahanayan 7.1). Ang kinakalkula na halaga ng F-criterion = 117.51, ang tabular value ng criterion, batay sa katumbas na bilang ng mga degree ng kalayaan (para sa factor variance d.f. =1, para sa natitirang variance d.f. =77), ay 4.00 (tingnan ang Appendix .. ... .). Sa ganitong paraan, , samakatuwid, ang equation ng regression sa kabuuan ay makabuluhan sa istatistika. Sa ganoong sitwasyon, maaari rin nating pag-usapan ang istatistikal na kahalagahan ng halaga ng koepisyent ng pagpapasiya, i.e. Ang 60 porsyentong pagkakaiba-iba sa average na per capita na kita ng populasyon sa mga rehiyon ng Russia ay maaaring ipaliwanag sa pamamagitan ng pagkakaiba-iba sa dami ng gross regional product per capita.

Sa pamamagitan ng pagtatasa ng istatistikal na kahalagahan ng equation ng regression at mga parameter nito, makakakuha tayo ng ibang kumbinasyon ng mga resulta.

· Ang equation sa pamamagitan ng F-test ay istatistikal na makabuluhan at lahat ng mga parameter ng equation sa pamamagitan ng t-statistics ay istatistikal din na makabuluhan. Ang equation na ito ay maaaring gamitin kapwa para sa paggawa ng mga desisyon sa pamamahala (kung aling mga salik ang dapat maimpluwensyahan upang makuha ang ninanais na resulta), at para sa paghula ng pag-uugali ng katangian ng resulta para sa ilang mga halaga ng mga kadahilanan.

· Ayon sa F-criterion, ang equation ay makabuluhang istatistika, ngunit ang mga parameter (parameter) ng equation ay hindi gaanong mahalaga. Ang equation ay maaaring gamitin upang gumawa ng mga desisyon sa pamamahala (tungkol sa mga salik kung saan ang istatistikal na kahalagahan ng kanilang impluwensya ay nakumpirma), ngunit ang equation ay hindi magagamit para sa pagtataya.

· Ang F-test equation ay hindi makabuluhan ayon sa istatistika. Hindi magagamit ang equation. Ang paghahanap para sa mga makabuluhang sign-factor o isang analytical form ng koneksyon sa pagitan ng argumento at ng tugon ay dapat ipagpatuloy.

Kung ang istatistikal na kahalagahan ng equation at ang mga parameter nito ay nakumpirma, kung gayon ang tinatawag na point forecast ay maaaring ipatupad, i.e. isang pagtatantya ng halaga ng attribute-resulta (y) ay nakuha para sa ilang mga halaga ng factor (x).

Halatang halata na ang hinulaang halaga ng dependent variable, na kinakalkula batay sa equation ng relasyon, ay hindi magkakasabay sa aktwal na halaga nito ( Sa graphically, ang sitwasyong ito ay kinumpirma ng katotohanan na hindi lahat ng mga punto ng patlang ng ugnayan ay namamalagi sa linya ng pagbabalik, tanging sa isang functional na koneksyon ang linya ng pagbabalik ay dadaan sa lahat ng mga punto ng scatter diagram. Ang pagkakaroon ng mga pagkakaiba sa pagitan ng aktwal at teoretikal na mga halaga ng umaasang variable ay pangunahin dahil sa mismong kakanyahan ng pag-asa sa ugnayan: sa parehong oras, maraming mga kadahilanan ang nakakaapekto sa resulta, kung saan isang bahagi lamang ang maaaring isaalang-alang sa isang tiyak na equation ng relasyon. Bilang karagdagan, ang anyo ng relasyon sa pagitan ng resulta at ang kadahilanan (ang uri ng equation ng regression) ay maaaring maling napili. Kaugnay nito, lumilitaw ang tanong kung gaano kabatid ang itinayong equation ng hadlang. Ang tanong na ito ay sinasagot ng dalawang tagapagpahiwatig: ang koepisyent ng pagpapasiya (napag-usapan na ito sa itaas) at ang karaniwang pagkakamali ng pagtatantya.

Ang pagkakaiba sa pagitan ng aktwal at teoretikal na halaga ng dependent variable ay tinatawag mga paglihis o pagkakamali, o mga natira. Batay sa mga halagang ito, kinakalkula ang natitirang pagkakaiba. Ang square root ng natitirang variance ay root-mean-square (standard) na error sa pagtatantya:

= (7.8)

Ang karaniwang error ng equation ay sinusukat sa parehong mga yunit bilang ang hinulaang rate. Kung ang mga error sa equation ay sumusunod sa isang normal na distribusyon (na may malaking halaga ng data), kung gayon 95 porsyento ng mga halaga ay dapat na mula sa linya ng regression sa layo na hindi lalampas sa 2S (batay sa pag-aari ng isang normal na distribusyon - ang panuntunan ng tatlong sigma). Ang halaga ng karaniwang error ng pagtatantya ay ginagamit sa pagkalkula ng mga agwat ng kumpiyansa kapag hinuhulaan ang halaga ng isang tanda - ang resulta para sa isang partikular na yunit ng populasyon.

Sa praktikal na pananaliksik, madalas na kinakailangan upang hulaan ang average na halaga ng isang tampok - ang resulta para sa isang partikular na halaga ng tampok - kadahilanan. Sa kasong ito, sa pagkalkula ng agwat ng kumpiyansa para sa mean na halaga ng dependent variable()

ang halaga ng average na error ay isinasaalang-alang:

(7.9)

Ang paggamit ng iba't ibang mga halaga ng error ay ipinaliwanag sa pamamagitan ng katotohanan na ang pagkakaiba-iba ng mga antas ng mga tagapagpahiwatig para sa mga tiyak na yunit ng populasyon ay mas mataas kaysa sa pagkakaiba-iba ng ibig sabihin ng halaga, samakatuwid, ang error sa pagtataya ng average na halaga ay mas maliit.

Agwat ng kumpiyansa ng pagtataya ng mean value ng dependent variable:

, (7.10)

saan - marginal estimation error (tingnan ang sampling theory); ang t ay ang confidence coefficient, ang halaga nito ay nasa kaukulang talahanayan, batay sa antas ng probabilidad na pinagtibay ng mananaliksik (bilang ng mga antas ng kalayaan) (tingnan ang teorya ng sampling).

Ang agwat ng kumpiyansa para sa hinulaang halaga ng katangian ng resulta ay maaari ding kalkulahin na isinasaalang-alang ang pagwawasto para sa shift (shift) ng linya ng regression. Ang halaga ng factor ng pagwawasto ay tinutukoy ng:

(7.11)

nasaan ang halaga ng attribute-factor, batay sa kung saan hinuhulaan ang halaga ng attribute-resulta.

Ito ay sumusunod na ang higit na halaga ay naiiba mula sa average na halaga ng attribute-factor, mas malaki ang halaga ng correction factor, mas malaki ang forecast error. Dahil sa coefficient na ito, kakalkulahin ang confidence interval ng forecast:

Ang katumpakan ng forecast batay sa regression equation ay maaaring maapektuhan ng iba't ibang dahilan. Una sa lahat, dapat itong isaalang-alang na ang pagsusuri ng kalidad ng equation at ang mga parameter nito ay batay sa pagpapalagay ng isang normal na pamamahagi ng mga random na nalalabi. Ang paglabag sa pagpapalagay na ito ay maaaring dahil sa pagkakaroon ng magkakaibang mga halaga sa data, na may hindi pantay na pagkakaiba-iba, na may pagkakaroon ng isang hindi linear na relasyon. Sa kasong ito, ang kalidad ng forecast ay nabawasan. Ang pangalawang punto na dapat tandaan ay ang mga halaga ng mga salik na isinasaalang-alang kapag hinuhulaan ang resulta ay hindi dapat lumampas sa hanay ng pagkakaiba-iba sa data kung saan binuo ang equation.

©2015-2019 site
Lahat ng karapatan ay pag-aari ng kanilang mga may-akda. Hindi inaangkin ng site na ito ang pagiging may-akda, ngunit nagbibigay ng libreng paggamit.
Petsa ng paggawa ng page: 2018-01-08