Matrix ng mga ipinares na coefficient ng ugnayan. Kahulugan ng multiple correlation coefficient sa MS Excel

Para sa mga teritoryo ng Southern Federal District ng Russian Federation, ang data ay ibinigay para sa 2011

Mga teritoryo ng pederal na distrito

Gross na produkto sa rehiyon, bilyong rubles, Y

Mga pamumuhunan sa nakapirming kapital, bilyong rubles, X1

1. Rep. Adygea

2. Rep. Dagestan

3. Rep. Ingushetia

4. Kabardino-Balkarian Republic

5. Rep. Kalmykia

6. Karachay-Cherkess Republic

7. Rep. Hilagang Ossetia Alania

8. rehiyon ng Krasnodar)

9. Teritoryo ng Stavropol

10. Rehiyon ng Astrakhan

11. rehiyon ng Volgograd

12. rehiyon ng Rostov

  • 1. Kalkulahin ang matrix ng mga ipinares na coefficient ng ugnayan; suriin ang istatistikal na kahalagahan ng mga coefficient ng ugnayan.
  • 2. Buuin ang larangan ng ugnayan ng nagresultang tampok at ang pinaka malapit na nauugnay na kadahilanan.
  • 3. Kalkulahin ang mga parameter ng linear pair regression para sa bawat factor X..
  • 4. Suriin ang kalidad ng bawat modelo sa pamamagitan ng coefficient of determination, ang average na error sa approximation at Fisher's F-test. Piliin ang pinakamahusay na modelo.

magiging 80% ng pinakamataas na halaga nito. Ipakita nang graphical: aktwal at mga halaga ng modelo, mga punto ng pagtataya.

  • 6. Gamit ang stepwise multiple regression (paraan ng pagbubukod o paraan ng pagsasama), bumuo ng isang modelo ng pagbuo ng presyo ng apartment dahil sa makabuluhang mga salik. Magbigay ng pang-ekonomiyang interpretasyon ng mga coefficient ng regression model.
  • 7. Suriin ang kalidad ng binuo na modelo. Napabuti ba ang kalidad ng modelo kumpara sa one-factor na modelo? Magbigay ng pagtatasa ng impluwensya ng mga makabuluhang salik sa resulta gamit coefficients ng elasticity, in- at -? coefficients.

Kapag nilutas ang problemang ito, ang mga kalkulasyon at pagbuo ng mga graph at diagram ay isasagawa gamit ang setting Pagsusuri ng Excel datos.

1. Kalkulahin ang matrix ng mga ipinares na coefficient ng ugnayan at suriin ang istatistikal na kahalagahan ng mga koepisyent ng ugnayan

Sa dialog box ng Correlation, sa field ng Input interval, ilagay ang hanay ng mga cell na naglalaman ng source data. Dahil pinili rin namin ang mga heading ng column, nilagyan namin ng check ang Mga Label sa unang row na checkbox.

Nakuha namin ang mga sumusunod na resulta:

Talahanayan 1.1 Matrix ng pairwise correlation coefficients

Ang pagsusuri ng matrix ng mga pares na coefficient ng ugnayan ay nagpapakita na ang dependent variable na Y, ibig sabihin, ang gross regional product, ay may mas malapit na kaugnayan sa X1 (investment in fixed capital). Ang koepisyent ng ugnayan ay 0.936. Nangangahulugan ito na ang dependent variable Y (gross regional product) ay 93.6% na nakadepende sa X1 (investment sa fixed assets).

Ang istatistikal na kahalagahan ng mga coefficient ng ugnayan ay matutukoy gamit ang t-test ng Mag-aaral. Ang halaga ng talahanayan ay inihambing sa mga kinakalkula na halaga.

Kalkulahin natin ang halaga ng talahanayan gamit ang STUDRIST function.

t talahanayan = 0.129 sa antas ng kumpiyansa katumbas ng 0.9 at antas ng kalayaan (n-2).

Ang X1 factor ay makabuluhan sa istatistika.

2. Buuin natin ang field ng ugnayan ng resultang katangian (gross regional product) at ang pinaka malapit na nauugnay na salik (investment sa fixed capital)

Upang gawin ito, gagamitin namin ang tool para sa pagbuo ng isang scatter plot sa Excel.

Bilang resulta, nakuha namin ang larangan ng ugnayan ng presyo ng kabuuang produkto ng rehiyon, bilyong rubles. at mga pamumuhunan sa nakapirming kapital, bilyong rubles. (Larawan 1.1.).

Larawan 1.1

3. Kalkulahin ang mga parameter ng linear pair regression para sa bawat factor X

Para kalkulahin ang mga parameter ng isang linear pairwise regression, gagamitin namin ang Regression tool na kasama sa setting ng Data Analysis.

Sa Regression dialog box, sa Input interval Y field, ipasok ang address ng hanay ng mga cell na kumakatawan sa dependent variable. Sa field

Input interval X ipinasok namin ang address ng hanay na naglalaman ng mga halaga ng mga independiyenteng variable. Kalkulahin natin ang pairwise regression na mga parameter para sa factor X.

Para sa X1, nakuha ang sumusunod na data, na ipinakita sa Talahanayan 1.2:

Talahanayan 1.2

Ang equation ng regression para sa pagdepende sa presyo ng kabuuang produkto ng rehiyon sa pamumuhunan sa nakapirming kapital ay may anyo:

4. Suriin natin ang kalidad ng bawat modelo sa pamamagitan ng coefficient of determination, ang average na error sa approximation at Fisher's F-criterion. Alamin natin kung aling modelo ang pinakamahusay.

Ang koepisyent ng pagpapasiya, ang average na error sa approximation, nakuha namin bilang isang resulta ng mga kalkulasyon na isinagawa sa talata 3. Ang data na nakuha ay ipinakita sa mga sumusunod na talahanayan:

Data para sa X1:

Talahanayan 1.3a

Talahanayan 1.4b

A) Tinutukoy ng coefficient of determination kung anong proporsyon ng variation ng feature na Y ang isinasaalang-alang sa modelo at dahil sa impluwensya ng factor X dito. Kung mas malaki ang value ng coefficient of determination, mas malapit ang relasyon sa pagitan ng mga tampok sa itinayo matematikal na modelo.

AT Excel program denoted R-square.

Batay sa pamantayang ito, ang pinakasapat na modelo ay ang regression equation ng dependence ng presyo ng gross regional product sa pamumuhunan sa fixed assets (X1).

B) Kalkulahin ang average na error sa approximation gamit ang formula:

kung saan ang numerator ay ang kabuuan ng mga squared deviations ng mga kinakalkula na halaga mula sa mga aktwal. Sa mga talahanayan, ito ay nasa SS column, Residuals row.

Kinakalkula namin ang average na halaga ng presyo ng isang apartment sa Excel gamit ang AVERAGE function. = 24.18182 bilyong rubles

Kapag nagsasagawa ng mga kalkulasyon sa ekonomiya, ang modelo ay itinuturing na sapat na tumpak kung ibig sabihin ng pagkakamali ang approximation ay mas mababa sa 5%, ang modelo ay itinuturing na katanggap-tanggap kung ang average na error sa approximation ay mas mababa sa 15%.

Ayon sa pamantayang ito, ang pinakasapat ay ang mathematical model para sa regression equation ng dependence ng presyo ng gross regional product sa pamumuhunan sa fixed assets (X1).

C) Ang isang F-test ay ginagamit upang subukan ang kahalagahan ng modelo ng regression. Para dito, ang paghahambing ay ginawa din ng mga kritikal (tabular) na halaga ng Fisher's F-test.

Ang mga kinakalkula na halaga ay ibinibigay sa mga talahanayan 1.4b (ipinahiwatig ng titik F).

Ang halaga ng talahanayan ng F-test ni Fisher ay kinakalkula sa Excel gamit ang FDISP function. Kinukuha namin ang probabilidad na katumbas ng 0.05. Natanggap: = 4.75

Ang mga kinakalkula na halaga ng Fisher's F-test para sa bawat kadahilanan ay maihahambing sa halaga ng talahanayan:

71.02 > = 4.75 ang modelo ay sapat ayon sa pamantayang ito.

Pagkatapos pag-aralan ang data para sa lahat ng tatlong pamantayan, maaari nating tapusin na ang pinakamahusay ay ang modelo ng matematika na binuo para sa gross regional product factor, na inilalarawan ng linear equation.

5. Para sa napiling modelo ng dependence ng presyo ng gross regional product

huhulaan natin ang average na halaga ng indicator sa antas ng kahalagahan kung ang hinulaang halaga ng factor ay 80% ng pinakamataas na halaga nito. Grapikong kumakatawan tayo: aktwal at mga halaga ng modelo, mga punto ng pagtataya.

Kalkulahin ang hinulaang halaga ng X, ayon sa kondisyon, ito ay magiging 80% ng pinakamataas na halaga.

Kalkulahin ang X max sa Excel gamit ang MAX function.

0,8 *52,8 = 42,24

Upang makakuha ng mga predictive na pagtatantya ng dependent variable, pinapalitan namin ang nakuhang halaga ng independent variable sa linear equation:

5.07 + 2.14 * 42.24 \u003d 304.55 bilyong rubles.

Tukuyin natin ang agwat ng kumpiyansa ng hula, na magkakaroon ng mga sumusunod na hangganan:

Upang makalkula agwat ng kumpiyansa para sa hinulaang halaga, kinakalkula namin ang paglihis mula sa linya ng regression.

Para sa isang ipinares na modelo ng regression, ang halaga ng paglihis ay kinakalkula:

mga. ang karaniwang halaga ng error mula sa Talahanayan 1.5a.

(Dahil ang bilang ng mga antas ng kalayaan ay katumbas ng isa, ang denominator ay magiging katumbas ng n-2). ugnayan pairwise regression hula

Upang kalkulahin ang koepisyent, gagamitin namin ang Excel function na STUDRASP, ang posibilidad ay kukunin na katumbas ng 0.1, ang bilang ng mga degree ng kalayaan ay 38.

Kinakalkula namin ang halaga gamit ang Excel, nakakakuha kami ng 12294.


Tukuyin natin ang upper at lower bounds ng interval.

  • 304,55+27,472= 332,022
  • 304,55-27,472= 277,078

Kaya, ang forecast value = 304.55 thousand dollars ay nasa pagitan ng lower limit, katumbas ng 277.078 thousand dollars. at isang itaas na limitasyon na katumbas ng 332.022 bilyong rubles. Kuskusin.

Ang aktwal at mga halaga ng modelo, ang mga forecast point ay ipinakita sa graphic na paraan sa Figure 1.2.


Larawan 1.2

6. Gamit ang stepwise multiple regression (exclusion method), gagawa tayo ng modelo para sa pagbuo ng presyo ng gross regional product dahil sa makabuluhang mga salik

Para sa gusali maramihang pagbabalik Gamitin natin ang Excel Regression function, kasama ang lahat ng mga salik dito. Bilang resulta, nakakakuha kami ng mga talahanayan ng resulta, kung saan kailangan namin ang t-test ng Mag-aaral.

Talahanayan 1.8a

Talahanayan 1.8b

Talahanayan 1.8c.

Nakukuha namin ang modelo ng view:

Sa abot ng< (4,75 < 71,024), уравнение регрессии следует признать адекватным.

Piliin natin ang pinakamaliit na modulo value ng Student's t-test, ito ay katumbas ng 8.427, ihambing ito sa tabular value na ating kinakalkula sa Excel, kunin ang antas ng kabuluhan na katumbas ng 0.10, ang bilang ng mga antas ng kalayaan n-m-1=12- 4=8: =1.8595

Dahil 8.427>1.8595 ang modelo ay dapat kilalanin bilang sapat.

7. Upang suriin ang makabuluhang kadahilanan ng nakuha na modelo ng matematika, kinakalkula namin ang mga coefficient ng elasticity, at - ang mga coefficient

Ang elasticity coefficient ay nagpapakita kung gaano karaming porsyento ang magiging resulta ng sign kapag nagbago ang factor sign ng 1%:

E X4 \u003d 2.137 * (10.69 / 24.182) \u003d 0.94%

Iyon ay, sa pagtaas ng pamumuhunan sa nakapirming kapital ng 1%, ang gastos ay tumataas ng average na 0.94%.

Ang koepisyent ay nagpapakita sa pamamagitan ng kung anong bahagi ng halaga ng standard deviation ang average na halaga ng dependent variable ay nagbabago sa isang pagbabago sa independent variable ng isang standard deviation.

2,137* (14.736/33,632) = 0,936.

Ang ibig sabihin ng data standard deviations kinuha mula sa mga talahanayan na nakuha gamit ang Descriptive Statistics tool.

Talahanayan 1.11 Mga deskriptibong istatistika (Y)

Talahanayan 1.12 Mga deskriptibong istatistika (X4)

Tinutukoy ng koepisyent ang bahagi ng impluwensya ng kadahilanan sa kabuuang impluwensya ng lahat ng mga kadahilanan:

Upang kalkulahin ang mga coefficient ng ugnayan ng pares, kinakalkula namin ang matrix ng mga coefficient ng ugnayan ng pares sa Excel gamit ang tool ng Correlation ng mga setting ng Pagsusuri ng Data.

Talahanayan 1.14

(0,93633*0,93626) / 0,87 = 1,00.

Konklusyon: Batay sa mga kalkulasyon na nakuha, maaari nating tapusin na ang epektibong katangian Y (gross regional product) ay lubos na nakadepende sa factor X1 (investment sa fixed capital) (sa pamamagitan ng 100%).

Bibliograpiya

  • 1. Magnus Ya.R., Katyshev P.K., Peresetsky A.A. Econometrics. Paunang kurso. Pagtuturo. 2nd ed. - M.: Delo, 1998. - p. 69 - 74.
  • 2. Workshop sa econometrics: Textbook / I.I. Eliseeva, S.V. Kurysheva, N.M. Gordeenko at iba pa 2002. - p. 49 - 105.
  • 3. Dougerty K. Panimula sa econometrics: Per. mula sa Ingles. - M.: INFRA-M, 1999. - XIV, p. 262 - 285.
  • 4. Aivyzyan S.A., Mikhtiryan V.S. Inilapat na matematika at mga pundasyon ng econometrics. -1998., pp. 115-147.
  • 5. Kremer N.Sh., Putko B.A. Econometrics. -2007. mula 175-251.

Gawain 2

1. Bumuo ng isang matrix ng mga ipinares na coefficient ng ugnayan. Suriin para sa multicollinearity. Bigyang-katwiran ang pagpili ng mga salik sa modelo.

2. Bumuo ng multiple regression equation sa linear form gamit ang mga napiling salik.

3. Suriin ang istatistikal na kahalagahan ng regression equation at ang mga parameter nito gamit ang Fisher and Student's test.

4. Bumuo ng isang regression equation na may makabuluhang mga salik sa istatistika. Tayahin ang kalidad ng regression equation gamit ang coefficient of determination R 2 . Tayahin ang katumpakan ng ginawang modelo.

5. Tantyahin ang pagtataya para sa dami ng output, kung ang mga halaga ng pagtataya ng mga kadahilanan ay 75% ng kanilang pinakamataas na halaga.

Mga kondisyon ng gawain (Pagpipilian 21)

Ayon sa data na ipinakita sa Talahanayan 1 (n = 17), pinag-aaralan namin ang pag-asa ng dami ng output Y (milyong rubles) sa mga sumusunod na salik (mga variable):

X 1 - ang bilang ng mga tauhan sa industriya at produksyon, mga tao.

X 2 - ang average na taunang gastos ng mga nakapirming asset, milyong rubles.

X 3 - depreciation ng fixed assets,%

X 4 - kapangyarihan ng kuryente, kWh.

X 5 - teknikal na kagamitan ng isang manggagawa, milyong rubles.

X 6 - produksyon ng mga mabibiling produkto bawat manggagawa, kuskusin.

Talahanayan 1. Data ng produksiyon

Y x1 x2 x3 x4 x5 x6
39,5 4,9 3,2
46,4 60,5 20,4
43,7 24,9 9,5
35,7 50,4 34,7
41,8 5,1 17,9
49,8 35,9 12,1
44,1 48,1 18,9
48,1 69,5 12,2
47,6 31,9 8,1
58,6 139,4 29,7
70,4 16,9 5,3
37,5 17,8 5,6
62,0 27,6 12,3
34,4 13,9 3,2
35,4 37,3 19,0
40,8 55,3 19,3
48,1 35,1 12,4


Bumuo ng isang matrix ng mga ipinares na coefficient ng ugnayan. Suriin para sa multicollinearity. Bigyang-katwiran ang pagpili ng mga salik sa modelo

Ang talahanayan 2 ay nagpapakita pares coefficient matrix para sa lahat ng mga variable na kasangkot sa pagsasaalang-alang. Matrix na nakuha gamit ang tool Kaugnayan mula sa pakete Pagsusuri sa datos sa Excel.

Talahanayan 2. Matrix ng mga coefficient ng ugnayan ng pares

Y X1 X2 X3 X4 X5 X6
Y
X1 0,995634
X2 0,996949 0,994947
X3 -0,25446 -0,27074 -0,26264
X4 0,12291 0,07251 0,107572 0,248622
X5 0,222946 0,166919 0,219914 -0,07573 0,671386
X6 0,067685 -0,00273 0,041955 -0,28755 0,366382 0,600899

Ang visual na pagsusuri ng matrix ay nagpapahintulot sa iyo na magtatag ng:

1) Sa ay medyo mataas ang pairwise correlations sa mga variable X1, X2 (>0,5) at mababa na may mga variable X3, X4, X5, X6 (<0,5);

2) Ang mga variable ng pagsusuri X1, X2 ay nagpapakita ng medyo mataas na pairwise correlations, na nangangailangan ng pagsuri sa mga salik para sa pagkakaroon ng multicollinearity sa pagitan nila. Bukod dito, ang isa sa mga kondisyon ng modelo ng klasikal na regression ay ang pagpapalagay ng kalayaan ng mga paliwanag na variable.

Upang matukoy ang multicollinearity ng mga salik, ginagawa namin Pagsubok ng Farrar-Glouber sa pamamagitan ng mga salik X1, X2, X3,X4,X5,X6.

Ang pag-verify ng Farrar-Glouber test para sa multicollinearity ng mga salik ay kinabibilangan ng ilang yugto.

1) Sinusuri ang multicollinearity ng buong hanay ng mga variable .

Isa sa mga kundisyon ng classical regression model ay ang pagpapalagay na ang mga variable na nagpapaliwanag ay independyente. Upang matukoy ang multicollinearity sa pagitan ng mga salik, ang matrix ng interfactorial correlations R ay kinakalkula gamit ang Data Analysis Package (Talahanayan 3).

Talahanayan 3. Interfactor correlation matrix R

X1 X2 X3 X4 X5 X6
X1 0,994947 -0,27074 0,07251 0,166919 -0,00273
X2 0,994947 -0,26264 0,107572 0,219914 0,041955
X3 -0,27074 -0,26264 0,248622 -0,07573 -0,28755
X4 0,07251 0,107572 0,248622 0,671386 0,366382
X5 0,166919 0,219914 -0,07573 0,671386 0,600899
X6 -0,00273 0,041955 -0,28755 0,366382 0,600899

Mayroong malakas na ugnayan sa pagitan ng mga salik na X1 at X2, X5 at X4, X6 at X5 (>0.5).

Ang determinant det (R) = 0.001488 ay kinakalkula gamit ang MOPRED function. Ang determinant ng matrix R ay may posibilidad na zero, na nagpapahintulot sa amin na gumawa ng isang pagpapalagay tungkol sa pangkalahatang multicollinearity ng mga kadahilanan.

2) Sinusuri ang multicollinearity ng bawat variable sa iba pang variable:

Kalkulahin ang inverse matrix R -1 gamit Mga function ng Excel MOBR (Talahanayan 4):

Talahanayan 4 baligtad na matris R-1

X1 X2 X3 X4 X5 X6
X1 150,1209 -149,95 3,415228 -1,70527 6,775768 4,236465
X2 -149,95 150,9583 -3,00988 1,591549 -7,10952 -3,91954
X3 3,415228 -3,00988 1,541199 -0,76909 0,325241 0,665121
X4 -1,70527 1,591549 -0,76909 2,218969 -1,4854 -0,213
X5 6,775768 -7,10952 0,325241 -1,4854 2,943718 -0,81434
X6 4,236465 -3,91954 0,665121 -0,213 -0,81434 1,934647

· Pagkalkula ng F-criteria , nasaan ang mga diagonal na elemento ng matrix , n=17, k = 6 (Talahanayan 5).

Talahanayan 5. Mga halaga ng F-criteria

F1 (Х1) F2 (Х2) F3 (X3) F4 (X4) F5 (X5) F6 (X6)
89,29396 89,79536 0,324071 0,729921 1,163903 0,559669

Ang aktwal na mga halaga ng F-criteria ay inihambing sa halaga ng talahanayan F talahanayan = 3.21(FDISP(0.05;6;10)) na may n1= 6 at n2 = n - k – 1=17-6-1=10 degrees ng kalayaan at antas ng kahalagahan α=0.05, kung saan ang k ay ang bilang ng mga salik.

· Ang mga halaga ng F-criteria para sa mga salik na X1 at X2 ay mas malaki kaysa sa halaga ng talahanayan, na nagpapahiwatig ng pagkakaroon ng multicollinearity sa pagitan ng mga salik na ito. Ang Factor X3 ay may pinakamaliit na epekto sa pangkalahatang multicollinearity ng mga salik.

3) Pagsusuri ng Multicollinearity para sa Bawat Pares ng Variable

Kalkulahin ang partial correlation coefficients gamit ang formula , nasaan ang mga elemento ng matrix (Talahanayan 6)

Talahanayan 6. Matrix ng mga coefficient ng mga bahagyang ugnayan

X1 X2 X3 X4 X5 X6
X1
X2 0,996086
X3 -0,22453 0,197329
X4 0,093432 -0,08696 0,415882
X5 -0,32232 0,337259 -0,1527 0,581191
X6 -0,24859 0,229354 -0,38519 0,102801 0,341239

· Pagkalkula t- pamantayan ayon sa pormula (talahanayan 7)

n - bilang ng data = 17

K - bilang ng mga salik = 6

Talahanayan 7.t-tests para sa partial correlation coefficients

X1 X2 X3 X4 X5 X6
X1
X2 35,6355
X3 -0,72862 0,636526
X4 0,296756 -0,27604 1,446126
X5 -1,07674 1,13288 -0,4886 2,258495
X6 -0,81158 0,745143 -1,31991 0,326817 1,147999

t talahanayan \u003d MAG-ARAL (0.05; 10) \u003d 2.23

Ang aktwal na mga halaga ng t-criteria ay inihambing sa halaga ng talahanayan sa antas ng kalayaan n-k-1 = 17-6-1=10 at antas ng kabuluhan α=0.05;

t21 > ttable

t54 > ttable

Ang mga talahanayan 6 at 7 ay nagpapakita na ang dalawang pares ng mga salik na X1 at X2, X4 at X5 ay may mataas na makabuluhang ugnayan sa istatistika, iyon ay, sila ay multicollinear. Upang maalis ang multicollinearity, maaaring alisin ang isa sa mga variable ng collinear pair. Sa isang pares ng X1 at X2 iniiwan namin ang X2, sa isang pares ng X4 at X5 iniiwan namin ang X5.

Kaya, bilang resulta ng pagsusuri sa Farrar-Glouber test, ang mga sumusunod na kadahilanan ay nananatili: X2, X3, X5, X6.

Ang pagkumpleto ng mga pamamaraan ng pagsusuri ng ugnayan, ipinapayong tingnan ang bahagyang mga ugnayan ng mga napiling salik na may resulta. Y.

Bumuo tayo ng isang matrix ng mga paired correlation coefficient batay sa data sa Talahanayan 8.

Talahanayan 8. Output data na may mga napiling salik X2, X3, X5, X6.

Bilang ng pagmamasid Y x2 x3 x5 x6
39,5 3,2
46,4 20,4
43,7 9,5
35,7 34,7
41,8 17,9
49,8 12,1
44,1 18,9
48,1 12,2
47,6 8,1
58,6 29,7
70,4 5,3
37,5 5,6
12,3
34,4 3,2
35,4
40,8 19,3
48,1 12,4

Ang huling column ng Table 9 ay nagpapakita ng mga t-test values ​​para sa column Y.

Talahanayan 9. Matrix ng mga coefficient ng bahagyang ugnayan sa resulta Y

Y X2 X3 X5 X6 t criterion (t tab (0.05; 11) = 2.200985
Y 0,996949 -0,25446 0,222946 0,067685
X2 0,996949 -0,26264 0,219914 0,041955 44,31676
X3 -0,25446 -0,26264 -0,07573 -0,28755 0,916144
X5 0,222946 0,219914 -0,07573 0,600899 -0,88721
X6 0,067685 0,041955 -0,28755 0,600899 1,645749

Ipinapakita sa talahanayan 9 na ang variable Y ay may mataas at kasabay na makabuluhang istatistikal na bahagyang ugnayan sa X2 kadahilanan.

Ang mga collinear factor ay...

At collinear.

4. Sa multiple regression model, ang determinant ng matrix ng mga ipinares na coefficient ng ugnayan sa pagitan ng mga salik , at malapit sa zero. Nangangahulugan ito na ang mga salik , at ... ay mga salik na multicollinear.

5. Para sa modelong ekonomiko linear equation multiple regression ng form, binuo ang isang matrix ng mga paired coefficients linear na ugnayan (y ay ang dependent variable; x (1),x (2), x (3), x(4)– mga independiyenteng variable):


Collinear (malapit na nauugnay) independiyenteng (nagpapaliwanag) na mga variable hindix(2) at x(3)

1. Ibinigay ang isang talahanayan ng paunang data para sa pagbuo ng isang modelo ng econometric regression:

dummy variable hindi

karanasan sa trabaho

produktibidad ng paggawa

2. Kapag pinag-aaralan ang pag-asa ng pagkonsumo ng karne sa antas ng kita at kasarian ng mamimili, maaari naming irekomenda ...

gumamit ng dummy variable - ang kasarian ng mamimili

hatiin ang populasyon sa dalawa: para sa mga babaeng mamimili at para sa mga lalaki na mamimili

3. Pinag-aaralan namin ang dependence ng presyo ng apartment ( sa) mula sa kanyang tirahan ( X) at uri ng bahay. Kasama sa modelo ang mga dummy variable na sumasalamin sa mga itinuturing na uri ng mga bahay: monolitik, panel, ladrilyo. Ang regression equation ay nakuha: ,
saan ,
Ang mga partikular na equation ng regression para sa brick at monolitik ay ...

para sa uri ng bahay na ladrilyo

para sa monolitikong uri ng bahay

4. Kapag sinusuri ang mga pang-industriya na negosyo sa tatlong rehiyon (ang Republika ng Mari El, ang Republika ng Chuvashia, ang Republika ng Tatarstan), tatlong bahagyang mga equation ng regression ang binuo:

para sa Republika ng Mari El;

para sa Republika ng Chuvashia;

para sa Republika ng Tatarstan.

Ipahiwatig ang uri ng dummy variable at ang equation na may dummy variables na nagsa-generalize ng tatlong partikular na regression equation.

5. Sa econometrics, ang isang dummy variable ay itinuturing na ...

isang variable na kumukuha ng mga halaga 0 at 1

naglalarawan sa isang quantitative na paraan ng isang qualitative sign

1. Para sa modelo ng regression ng dependence ng average na per capita monetary income ng populasyon (rubles, sa) ng dami ng kabuuang produkto ng rehiyon (libong rubles, x 1) at ang rate ng kawalan ng trabaho sa paksa (%, x 2) ang equation ay nakuha. Ang halaga ng regression coefficient para sa variable x 2 ay nagpapahiwatig na sa isang pagbabago sa rate ng kawalan ng trabaho ng 1%, ang average na per capita cash na kita ay ______ rubles, na may pare-parehong halaga ng gross regional product.

ay magbabago sa (-1.67)

2. Sa linear multiple regression equation: , kung saan ang halaga ng mga nakapirming assets (libong rubles); - bilang ng mga empleyado (isang libong tao); y- dami industriyal na produksyon(libong rubles) parameter na may variable x 1, katumbas ng 10.8, ay nangangahulugan na sa pagtaas ng dami ng fixed asset ng _____, ang volume ng industriyal na produksyon ay _____ na may pare-parehong bilang ng mga empleyado.


para sa 1 libong rubles. … tataas ng 10.8 libong rubles.

3. Nabatid na ang proporsyon ng natitirang variance ng dependent variable sa kabuuang variance nito ay 0.2. Pagkatapos ang halaga ng koepisyent ng pagpapasiya ay ... 0.8

4. Isang econometric na modelo ang binuo para sa pagtitiwala ng tubo sa mga benta ng isang yunit ng produksyon (rub., sa) sa halaga ng kapital ng paggawa ng negosyo (libong rubles, x 1): . Dahil dito, ang average na kita mula sa mga benta, na hindi nakasalalay sa dami ng kapital ng paggawa ng negosyo, ay _____ rubles. 10.75

5. Ang F-statistic ay kinakalkula bilang ratio ng ______ na pagkakaiba sa _______ na pagkakaiba na kinakalkula sa bawat antas ng kalayaan. factorial ... nalalabi

1. Para sa isang econometric na modelo ng regression equation, ang error sa modelo ay tinukoy bilang ______ sa pagitan ng aktwal na halaga ng dependent variable at ang kinakalkulang halaga nito. Pagkakaiba

2. Ang halaga ay tinatawag na ... random na bahagi

3. Sa econometric na modelo ng regression equation, ang paglihis ng aktwal na halaga ng dependent variable mula sa kinakalkula na halaga nito ay nagpapakilala ... ang error sa modelo

4. Nabatid na ang proporsyon ng ipinaliwanag na pagkakaiba sa kabuuang pagkakaiba ay 0.2. Kung gayon ang halaga ng koepisyent ng pagpapasiya ay ... 0.2

5. Gamit ang pamamaraan hindi bababa sa mga parisukat mga parameter ng equation ng singaw linear regression ay tinutukoy mula sa kondisyon ______ residues. pinaliit ang kabuuan ng mga parisukat

1. Upang makita ang autocorrelation sa mga residual, gamitin ang ...

Mga istatistika ng Durbin–Watson

2. Ito ay kilala na ang koepisyent ng autocorrelation ng mga nalalabi sa unang pagkakasunud-sunod katumbas ng –0.3. Ibinigay din ang mga kritikal na halaga ng mga istatistika ng Durbin-Watson para sa isang naibigay na bilang ng mga parameter na may hindi alam at ang bilang ng mga obserbasyon, . Ayon sa mga katangiang ito, maaari nating tapusin na ... walang autocorrelation ng mga nalalabi


Y X 1 X 2 X 3 X 4 X 5 X 6
Y
X 1 0,519
X 2 -0,273 0,030
X 3 0,610 0,813 -0,116
X 4 -0,572 -0,013 -0,022 -0,091
X 5 0,297 0,043 -0,461 0,120 -0,359
X 6 0,118 -0,366 -0,061 -0,329 -0,100 -0,290

Pagsusuri interfactorial(sa pagitan ng "xes"!) ng mga coefficient ng ugnayan ay nagpapakita na ang halaga ng 0.8 ay lumampas sa ganap na halaga tanging ang koepisyent ng ugnayan sa pagitan ng isang pares ng mga salik X 1 –X 3 (naka-highlight sa bold). Mga salik X 1 –X 3 ay kaya kinikilala bilang collinear.

2. Gaya ng ipinapakita sa talata 1, ang mga salik X 1 –X 3 ay collinear, ibig sabihin ay epektibo silang mga duplicate ng isa't isa, at ang pagsasama ng mga ito sa modelo sa parehong oras ay mali ang kahulugan ng kaukulang regression coefficient. Ito ay makikita na ang kadahilanan X 3 ay may mas malaki modulo koepisyent ng ugnayan sa resulta Y kaysa sa kadahilanan X 1: r y , x 1 =0,519; r y , x 3=0.610; (cm. tab. isa). Ito ay nagpapahiwatig ng mas malakas na impluwensya ng kadahilanan X 3 upang baguhin Y. Salik X 1 ay kaya hindi kasama sa pagsasaalang-alang.

Upang bumuo ng equation ng regression, ang mga halaga ng mga variable na ginamit ( Y,X 2 , X 3 , X 4 , X 5 , X 6) kopyahin sa isang blangkong worksheet ( adj. 3). Binubuo namin ang equation ng regression gamit ang add-on " Pagsusuri ng Data... Pagbabalik» (menu « serbisyo"® « Pagsusuri sa datos…» ® « Regression"). Ang panel ng pagsusuri ng regression na may mga punong field ay ipinapakita sa kanin. 2.

Ang mga resulta ng pagsusuri ng regression ay ibinigay sa adj. 4 at inilipat sa tab. 2. Ang equation ng regression ay may anyo (tingnan ang " Logro» sa tab. 2):

Ang equation ng regression ay kinikilala bilang makabuluhang istatistika, dahil ang posibilidad ng random na pagbuo nito sa anyo kung saan ito nakuha ay 8.80 × 10 -6 (tingnan ang Fig. "F Kahalagahan" sa tab. 2), na makabuluhang mas mababa kaysa sa tinatanggap na antas ng kahalagahan a=0.05.

X 3 , X 4 , X 6 sa ibaba ng tinatanggap na antas ng kahalagahan a=0.05 (tingnan ang “ P-Halaga" sa tab. 2), na nagpapahiwatig istatistikal na kahalagahan coefficients at ang makabuluhang epekto ng mga salik na ito sa pagbabago sa taunang tubo Y.

Ang posibilidad ng random na pagbuo ng mga coefficient sa mga kadahilanan X 2 at X 5 ay lumampas sa tinatanggap na antas ng kahalagahan a=0.05 (tingnan ang “ P-Halaga" sa tab. 2), at ang mga coefficient na ito ay hindi itinuturing na makabuluhang istatistika.

kanin. 2. Panel ng pagsusuri ng regression ng modelo Y(X 2 , X 3 , X 4 , X 5 , X 6)

talahanayan 2

Y(X 2 , X 3 , X 4 , X 5 , X 6)

Mga istatistika ng regression
Maramihang R 0,868
R-square 0,753
Normalized R-square 0,694
karaniwang error 242,3
Mga obserbasyon
Pagsusuri ng pagkakaiba-iba
df SS MS F Kahalagahan F
Regression 3749838,2 749967,6 12,78 8.80E-06
natitira 1232466,8 58688,9
Kabuuan 4982305,0
Regression Equation
Odds karaniwang error t-statistic P-halaga
Y-intersection 487,5 641,4 0,760 0,456
X2 -0,0456 0,0373 -1,224 0,235
X3 0,1043 0,0194 5,375 0,00002
X4 -0,0965 0,0263 -3,674 0,001
X5 2,528 6,323 0,400 0,693
X6 248,2 113,0 2,197 0,039

3. Batay sa mga resulta ng pagsusuri sa istatistikal na kahalagahan ng mga coefficient ng equation ng regression, na isinagawa sa nakaraang talata, bumuo kami ng isang bagong modelo ng regression na naglalaman lamang ng mga salik na nagbibigay-kaalaman, na kinabibilangan ng:

mga salik, ang mga koepisyent kung saan ay makabuluhan ayon sa istatistika;

mga kadahilanan na ang mga coefficient t Ang ‑statistics modulo ay lumampas sa isa (sa madaling salita, ang absolute value ng coefficient ay mas malaki kaysa sa karaniwang error nito).

Kasama sa unang pangkat ang mga kadahilanan X 3 , X 4 , X 6 , sa pangalawang - kadahilanan X 2. Salik X 5 ay hindi kasama sa pagsasaalang-alang bilang hindi nakapagtuturo, at ang huling modelo ng regression ay maglalaman ng mga salik X 2 , X 3 , X 4 , X 6 .

Upang bumuo ng isang regression equation, kopyahin ang mga halaga ng mga variable na ginamit sa isang blangkong worksheet ( adj. 5) at magsagawa ng pagsusuri ng regression ( kanin. 3). Ang mga resulta nito ay ibinigay sa adj. 6 at inilipat sa tab. 3. Ang regression equation ay ganito ang hitsura:

(cm." Logro» sa tab. 3).

kanin. 3. Pagsusuri ng regression ng panel ng modelo Y(X 2 , X 3 , X 4 , X 6)

Talahanayan 3

Mga Resulta ng Pagsusuri ng Pagbabalik ng Modelo Y(X 2 , X 3 , X 4 , X 6)

Mga istatistika ng regression
Maramihang R 0,866
R-square 0,751
Normalized R-square 0,705
karaniwang error 237,6
Mga obserbasyon
Pagsusuri ng pagkakaiba-iba
df SS MS F Kahalagahan F
Regression 3740456,2 935114,1 16,57 2.14E-06
natitira 1241848,7 56447,7
Kabuuan 4982305,0
Regression Equation
Odds karaniwang error t-statistic P-halaga
Y-intersection 712,2 303,0 2,351 0,028
X2 -0,0541 0,0300 -1,806 0,085
X3 0,1032 0,0188 5,476 0,00002
X4 -0,1017 0,0223 -4,560 0,00015
X6 227,5 98,5 2,310 0,031

Ang equation ng regression ay makabuluhang istatistika: ang posibilidad ng random na pagbuo nito ay mas mababa katanggap-tanggap na antas kahalagahan a=0.05 (tingnan ang " Kahalagahan F" sa tab. 3).

Ang makabuluhang istatistika ay mga coefficient din para sa mga salik X 3 , X 4 , X 6: ang posibilidad ng kanilang random na pagbuo ay mas mababa sa katanggap-tanggap na antas ng kahalagahan a=0.05 (tingnan ang " P-Halaga" sa tab. 3). Ito ay nagpapahiwatig ng malaking epekto ng taunang laki ng mga bayarin sa insurance. X 3, taunang pagbabayad ng insurance X 4 at mga anyo ng pagmamay-ari X 6 bawat pagbabago sa taunang kita Y.

Coefficient sa kadahilanan X 2 (taunang halaga ng mga reserbang insurance) ay hindi makabuluhan ayon sa istatistika. Gayunpaman, ang kadahilanan na ito ay maaari pa ring ituring na nagbibigay-kaalaman, dahil t-lumampas ang mga istatistika ng ratio nito modulo yunit, bagama't higit pang mga konklusyon tungkol sa salik X 2 ay dapat tratuhin nang may ilang pag-iingat.

4. Suriin ang kalidad at katumpakan ng huling equation ng regression gamit ang ilang istatistikal na katangian na nakuha sa pagsusuri ng regression (tingnan ang . « mga istatistika ng regression" sa tab. 3):

maramihang koepisyent ng determinasyon

nagpapakita na ang modelo ng regression ay nagpapaliwanag ng 75.1% ng taunang pagkakaiba-iba ng tubo Y, at ang pagkakaiba-iba na ito ay dahil sa isang pagbabago sa mga salik na kasama sa modelo ng regression X 2 , X 3 , X 4 at X 6 ;

· karaniwang error regression

libong rubles.

ay nagpapakita na ang mga halaga ng taunang kita na hinulaang ng equation ng regression Y naiiba mula sa aktwal na mga halaga sa pamamagitan ng isang average na 237.6 libong rubles.

Ang average na relatibong error sa pagtatantya ay tinutukoy ng tinatayang formula:

saan libong rubles. - ang average na halaga ng taunang kita (tinutukoy gamit ang built-in na function " AVERAGE»; adj. isa).

E Ipinapakita ng rel na ang mga halaga ng taunang kita na hinulaang ng equation ng regression Y naiiba mula sa aktwal na mga halaga sa pamamagitan ng isang average na 26.7%. Ang modelo ay may hindi kasiya-siyang katumpakan (sa - ang katumpakan ng modelo ay mataas, sa - mabuti, kasama - kasiya-siya, sa - hindi kasiya-siya).

5. Para sa pang-ekonomiyang interpretasyon ng mga koepisyent ng equation ng regression, itinatala namin ang mga average na halaga at karaniwang mga paglihis ng mga variable sa paunang data ( tab. 4) . Ang ibig sabihin ng mga halaga ay tinutukoy gamit ang built-in na function " AVERAGE", mga karaniwang paglihis - gamit ang built-in na function " STDEV"(cm. adj. isa).

Ang data sa ekonomiya ay mga quantitative na katangian ng anumang bagay o prosesong pang-ekonomiya. Ang mga ito ay nabuo sa ilalim ng impluwensya ng maraming mga kadahilanan, hindi lahat ay magagamit sa panlabas na kontrol. Ang hindi makontrol na mga kadahilanan ay maaaring kumuha ng mga random na halaga mula sa isang hanay ng mga halaga at sa gayon ay maging sanhi ng randomness ng data na kanilang tinutukoy. Isa sa mga pangunahing gawain sa pananaliksik sa ekonomiya ay pagsusuri ng mga dependencies sa pagitan ng mga variable.

Isinasaalang-alang ang mga dependency sa pagitan ng mga tampok, ito ay kinakailangan upang makilala una sa lahat ng dalawang uri ng mga relasyon:

  • functional - ay nailalarawan sa pamamagitan ng buong pagsusulatan sa pagitan ng pagbabago sa katangian ng kadahilanan at ng pagbabago sa resultang halaga: bawat halaga ng attribute-factor ay tumutugma sa mahusay na tinukoy na mga halaga ng epektibong katangian. Ang ganitong uri ng relasyon ay ipinahayag bilang isang formulaic na relasyon. Ang isang functional dependency ay maaaring mag-link ng isang resultang katangian sa isa o higit pang mga kadahilanang katangian. Oo, ang halaga sahod sa oras na sahod, depende ito sa bilang ng mga oras na nagtrabaho;
  • ugnayan- walang kumpletong pagsusulatan sa pagitan ng pagbabago ng dalawang palatandaan, ang impluwensya ng mga indibidwal na kadahilanan ay ipinapakita lamang sa karaniwan, kasama ang pagmamasid ng masa ng aktwal na data. Sabay-sabay na epekto sa pinag-aralan na katangian isang malaking bilang iba't ibang salik ang humahantong sa ang parehong halaga ng attribute-factor ay tumutugma sa buong pamamahagi ng mga halaga ng nagresultang katangian, dahil sa bawat partikular na kaso, maaaring baguhin ng ibang mga factor sign ang lakas at direksyon ng epekto nito.

Dapat itong isipin na kung mayroong isang functional na relasyon sa pagitan ng mga palatandaan, posible, alam ang halaga ng factor sign, upang tumpak na matukoy ang halaga ng resulta. Sa pagkakaroon ng isang pag-asa sa ugnayan, lamang takbo ng pagbabago ng mabisang tampok kapag binabago ang halaga ng factor sign.

Pag-aaral ng kaugnayan sa pagitan ng mga palatandaan, inuri sila ayon sa direksyon, anyo, bilang ng mga kadahilanan:

  • patungo sa ang mga koneksyon ay nahahati sa tuwid at reverse. Sa direktang koneksyon, ang direksyon ng pagbabago sa mabisang katangian ay tumutugma sa direksyon ng pagbabago sa sign-factor. Sa feedback, ang direksyon ng pagbabago sa epektibong feature ay kabaligtaran sa direksyon ng pagbabago sa feature-factor. Halimbawa, mas mataas ang kwalipikasyon ng isang manggagawa, mas mataas ang antas ng produktibidad ng kanyang paggawa (direktang relasyon). Kung mas mataas ang produktibidad ng paggawa, mas mababa ang halaga ng yunit ng produksyon (feedback);
  • sa anyo(uri ng function) ang mga koneksyon ay nahahati sa linear(rectilinear) at hindi linear(curvilinear). Ang isang linear na relasyon ay ipinapakita bilang isang tuwid na linya, isang hindi linear na relasyon - bilang isang curve (parabola, hyperbola, atbp.). Sa isang linear na relasyon na may pagtaas sa halaga ng katangian ng kadahilanan, mayroong isang pare-parehong pagtaas (pagbaba) sa halaga ng resultang katangian;
  • sa pamamagitan ng bilang ng mga salik na kumikilos sa epektibong tanda, nahahati ang mga komunikasyon sa single-factor(pinares) at multifactorial.

Ang pag-aaral ng pag-asa ng pagkakaiba-iba ng isang tanda sa mga nakapaligid na kondisyon ay ang nilalaman ng teorya ng ugnayan.

Kapag nagsasagawa ng pagsusuri ng ugnayan, ang buong hanay ng data ay itinuturing bilang isang hanay ng mga variable (mga kadahilanan), na ang bawat isa ay naglalaman ng P mga obserbasyon.

Kapag pinag-aaralan ang relasyon sa pagitan ng dalawang salik, kadalasang tinutukoy ang mga ito X=(x p x 2,...,x p) at Y= (y ( , y 2 ,..., y at).

Covariance - ito ay istatistika sukatan ng pakikipag-ugnayan dalawang variable. Halimbawa, ang isang positibong halaga para sa covariance ng mga return sa dalawang securities ay nagpapahiwatig na ang mga return sa mga securities ay may posibilidad na lumipat sa parehong direksyon.

Covariance sa pagitan ng dalawang variable X at Y kinakalkula tulad ng sumusunod:

nasaan ang aktwal na mga halaga ng mga variable

X at G;

Kung random variables Hee Y ay independyente, ang theoretical covariance ay zero.

Ang covariance ay nakasalalay sa mga yunit kung saan sinusukat ang mga variable Hee Y, ito ay isang hindi normal na dami. Samakatuwid, upang sukatin pwersa ng komunikasyon sa pagitan ng dalawang variable, isa pang istatistika ang ginagamit, na tinatawag na correlation coefficient.

Para sa dalawang variable X at Koepisyent ng ugnayan ng pares ng Y

ay tinukoy bilang mga sumusunod:

saan SSy- mga pagtatantya ng pagkakaiba-iba Hee Y. Ang mga pagtatantya na ito ay nagpapakilala antas ng pagpapakalat mga halaga x ( , x 2 , ..., x n (y 1 , y 2 , y n) sa paligid ng iyong average x (y ayon sa pagkakabanggit), o pagkakaiba-iba(variability) ng mga variable na ito sa isang set ng mga obserbasyon.

Pagpapakalat(variance estimate) ay tinutukoy ng formula

Sa pangkalahatang kaso, upang makakuha ng walang pinapanigan na pagtatantya ng pagkakaiba, ang kabuuan ng mga parisukat ay dapat na hatiin sa bilang ng mga antas ng kalayaan ng pagtatantya (atbp), saan P - laki ng sample, R - ang bilang ng mga link na ipinataw sa sample. Dahil ang sample ay ginamit nang isang beses upang matukoy ang ibig sabihin x, kung gayon ang bilang ng mga superimposed na bono sa kasong ito ay katumbas ng isa (p = 1), at ang bilang ng mga antas ng kalayaan ng pagtatantya (ibig sabihin, ang bilang ng mga independiyenteng sample na elemento) ay katumbas ng (P - 1).

Mas natural na sukatin ang antas ng pagkalat sa mga halaga ng mga variable sa parehong mga yunit kung saan ang variable mismo ay sinusukat. Ang problemang ito ay nalutas sa pamamagitan ng isang tagapagpahiwatig na tinatawag karaniwang lihis (karaniwang lihis) o karaniwang error variable X(variable Y) at tinutukoy ng kaugnayan

Ang mga termino sa numerator ng formula (3.2.1) ay nagpapahayag ng pakikipag-ugnayan ng dalawang variable at tinutukoy ang tanda ng ugnayan (positibo o negatibo). Kung, halimbawa, may malakas na positibong ugnayan sa pagitan ng mga variable (pagtaas sa isang variable kapag tumaas ang iba), ang bawat termino ay magiging positibong numero. Katulad nito, kung mayroong isang malakas na negatibong relasyon sa pagitan ng mga variable, ang lahat ng mga termino sa numerator ay magiging mga negatibong numero, na nagreresulta sa negatibong kahulugan mga ugnayan.

Ang denominator ng expression para sa coefficient ng ugnayan ng pares [tingnan. formula (3.2.2)] ay pina-normalize lang ang numerator sa paraang ang correlation coefficient ay lumabas na isang madaling ma-interpret na numero na walang dimensyon at kumukuha ng mga value mula -1 hanggang +1.

Ang numerator ng expression para sa correlation coefficient, na mahirap bigyang-kahulugan dahil sa hindi pangkaraniwang mga yunit, ay XY covariance. Sa kabila ng katotohanan na kung minsan ay ginagamit ito bilang isang independiyenteng katangian (halimbawa, sa teorya ng pananalapi upang ilarawan ang magkasanib na pagbabago sa mga presyo ng stock sa dalawang palitan), mas maginhawang gamitin ang koepisyent ng ugnayan. Ang ugnayan at covariance ay kumakatawan sa mahalagang parehong impormasyon, ngunit ang ugnayan ay nagpapakita ng impormasyong ito sa isang mas maginhawang anyo.

Para sa isang husay na pagtatasa ng koepisyent ng ugnayan, iba't ibang mga kaliskis ang ginagamit, kadalasan ang sukat ng Chaddock. Depende sa halaga ng koepisyent ng ugnayan, ang relasyon ay maaaring magkaroon ng isa sa mga sumusunod na pagtatantya:

  • 0.1-0.3 - mahina;
  • 0.3-0.5 - kapansin-pansin;
  • 0.5-0.7 - katamtaman;
  • 0.7-0.9 - mataas;
  • 0.9-1.0 - napakataas.

Ang pagtatasa ng antas ng pagiging malapit ng relasyon gamit ang koepisyent ng ugnayan ay isinasagawa, bilang panuntunan, batay sa higit pa o mas limitadong impormasyon tungkol sa hindi pangkaraniwang bagay na pinag-aaralan. Sa pagsasaalang-alang na ito, mayroong pangangailangan upang masuri ang kahalagahan linear coefficient ugnayan, na ginagawang posible na mapalawak ang mga konklusyon mula sa mga resulta ng sample hanggang sa pangkalahatang populasyon.

Ang pagtatasa ng kahalagahan ng koepisyent ng ugnayan para sa maliliit na laki ng sample ay isinasagawa gamit ang 7-test ng Mag-aaral. Sa kasong ito, ang aktwal (na-obserbahan) na halaga ng pamantayang ito ay tinutukoy ng formula

Ang halaga / obs na kinakalkula gamit ang formula na ito ay inihambing sa kritikal na halaga ng θ-criterion, na kinuha mula sa talahanayan ng mga halaga ng Estudyante /-test (tingnan ang Appendix 2), na isinasaalang-alang ang ibinigay na antas ng kahalagahan σ at ang bilang ng mga antas ng kalayaan (P - 2).

Kung 7 obs > 7 tab, ang nakuhang halaga ng correlation coefficient ay kinikilala bilang makabuluhan (i.e., ang null hypothesis na nagsasaad na ang correlation coefficient ay katumbas ng zero ay tinanggihan). At sa gayon ay napagpasyahan na mayroong malapit na istatistikal na relasyon sa pagitan ng mga pinag-aralan na mga variable.

Kung ang halaga y x malapit sa zero, mahina ang relasyon sa pagitan ng mga variable. Kung ang ugnayan sa pagitan ng mga random na variable:

  • ay positibo, pagkatapos habang ang isang random na variable ay tumataas, ang isa ay may posibilidad na tumaas sa karaniwan;
  • ay negatibo, pagkatapos habang ang isang random na variable ay tumataas, ang isa ay may posibilidad na bumaba sa karaniwan. Ang isang maginhawang graphical na tool para sa pagsusuri ng ipinares na data ay scatterplot, na kumakatawan sa bawat pagmamasid sa isang puwang ng dalawang dimensyon na tumutugma sa dalawang salik. Ang isang scatterplot, na naglalarawan ng isang hanay ng mga halaga ng dalawang tampok, ay tinatawag din larangan ng ugnayan. Ang bawat punto ng diagram na ito ay may x coordinate (. at y g Habang tumataas ang lakas ng linear na relasyon, ang mga punto sa graph ay mas malapit sa isang tuwid na linya, at ang magnitude G magiging mas malapit sa pagkakaisa.

Ang mga coefficient ng ugnayan ng pares ay ginagamit upang sukatin ang lakas ng mga linear na relasyon sa pagitan ng iba't ibang pares ng mga tampok mula sa kanilang hanay. Para sa isang hanay ng mga feature, kumuha matrix ng mga coefficient ng ugnayan ng pares.

Hayaang ang buong dataset ay binubuo ng isang variable Y==(sa r y 2 , ..., y p) at t mga variable (mga kadahilanan) x, ang bawat isa ay naglalaman ng P mga obserbasyon. Mga variable na halaga Y at x, na nakapaloob sa naobserbahang populasyon ay nakatala sa talahanayan (Talahanayan 3.2.1).

Talahanayan 3.2.1

Variable

Numero

mga obserbasyon

X t3

Х tp

Batay sa datos na nakapaloob sa talahanayang ito, kalkulahin ang matrix ng mga coefficient ng ugnayan ng pares R, ito ay simetriko tungkol sa pangunahing dayagonal:


Ang pagsusuri ng matrix ng mga coefficient ng ugnayan ng pares ay ginagamit sa pagbuo ng maramihang mga modelo ng regression.

Ang isang correlation matrix ay hindi maaaring ganap na ilarawan ang mga dependences sa pagitan ng mga dami. Para sa kadahilanang ito, sa isang multidimensional pagsusuri ng ugnayan dalawang gawain ang isinasaalang-alang:

  • 1. Pagtukoy sa higpit ng kaugnayan ng isang random na variable sa kabuuan ng iba pang mga variable na kasama sa pagsusuri.
  • 2. Pagtukoy sa higpit ng ugnayan sa pagitan ng dalawang dami habang inaayos o hindi kasama ang impluwensya ng iba pang dami.

Ang mga problemang ito ay nalutas, ayon sa pagkakabanggit, sa tulong ng maramihan at bahagyang mga koepisyent ng ugnayan.

Ang solusyon sa unang problema (pagtukoy sa pagiging malapit ng koneksyon ng isang random na variable sa hanay ng iba pang mga variable na kasama sa pagsusuri) ay isinasagawa gamit ang sampling rate maramihang ugnayan ayon sa pormula

saan R- R[cm. formula (3.2.6)]; Rjj- algebraic complement ng isang elemento ng parehong matrix R.

Ang parisukat ng multiple correlation coefficient SCHj2 j _j J+lm tinawag selective multiple coefficient of determination; ipinapakita nito kung anong proporsyon ng variation (random scatter) ng dami na pinag-aaralan Xj ipinapaliwanag ang pagkakaiba-iba ng iba mga random na variable X ( , X 2 ,..., X t.

Ang mga koepisyent ng maramihang ugnayan at pagpapasiya ay mga positibong halaga, kumukuha ng mga halaga sa hanay mula 0 hanggang 1. Kapag lumalapit ang koepisyent R 2 sa pagkakaisa, maaari nating tapusin na ang relasyon ng mga random na variable ay malapit, ngunit hindi tungkol sa direksyon nito. Ang multiple correlation coefficient ay maaari lamang tumaas kung ang mga karagdagang variable ay kasama sa modelo, at hindi tataas kung ang alinman sa mga available na feature ay hindi kasama.

Ang pagsuri sa kahalagahan ng coefficient of determination ay isinasagawa sa pamamagitan ng paghahambing ng kinakalkula na halaga ng /'-Fisher's criterion

may tabular F rabl. Ang halaga ng tabular ng criterion (tingnan ang Appendix 1) ay tinutukoy ng ibinigay na antas ng kahalagahan a at mga antas ng kalayaan v l \u003d mnv 2 \u003d n-m-l. Coefficient R2 ay makabuluhang naiiba mula sa zero kung ang hindi pagkakapantay-pantay

Kung ang itinuturing na random variables magkaugnay sa isa't isa kung gayon ang halaga ng koepisyent ng ugnayan ng pares ay bahagyang apektado ng impluwensya ng iba pang mga dami. Kaugnay nito, kailangang pag-aralan ang bahagyang ugnayan sa pagitan ng mga variable habang hindi kasama ang impluwensya ng iba pang mga random na variable (isa o higit pa).

Sample na partial correlation coefficient ay tinutukoy ng formula

saan RJk , Rjj, Rkk - algebraic na pagdaragdag sa mga kaukulang elemento ng matrix R[cm. formula (3.2.6)].

Ang bahagyang koepisyent ng ugnayan, pati na rin koepisyent ng pares ugnayan, nag-iiba mula -1 hanggang +1.

Pagpapahayag (3.2.9) sa ilalim ng kundisyon t = 3 ang magiging hitsura

Ang coefficient r 12(3) ay tinatawag koepisyent ng ugnayan sa pagitan ng x ( at x 2 para sa nakapirming x y Ito ay simetriko na may kinalaman sa mga pangunahing indeks 1, 2. Ang pangalawang indeks nito 3 ay tumutukoy sa isang nakapirming variable.

Halimbawa 3.2.1. Pagkalkula ng mga coefficient ng pares,

maramihan at bahagyang ugnayan.

Sa mesa. 3.2.2 ay nagbibigay ng impormasyon sa mga dami ng benta at mga gastos sa advertising ng isang kumpanya, pati na rin ang index ng paggasta ng consumer para sa ilang kasalukuyang taon.

  • 1. Bumuo ng scatterplot (correlation field) para sa mga variable na "volume ng benta" at "index ng paggasta ng consumer".
  • 2. Tukuyin ang antas ng impluwensya ng index ng paggasta ng mamimili sa dami ng mga benta (kalkulahin ang koepisyent ng ugnayan ng pares).
  • 3. Tayahin ang kahalagahan ng kalkuladong koepisyent ng ugnayan ng pares.
  • 4. Bumuo ng isang matrix ng mga pares na coefficient ng ugnayan para sa tatlong variable.
  • 5. Maghanap ng pagtatantya maramihang koepisyent mga ugnayan.
  • 6. Maghanap ng mga pagtatantya ng partial correlation coefficients.

1. Sa aming halimbawa, ang scatter diagram ay may anyo na ipinapakita sa fig. 3.2.1. Ang pagpahaba ng point cloud sa scatterplot kasama ang isang hilig na tuwid na linya ay nagpapahintulot sa amin na ipalagay na mayroong ilang layunin na tendensya para sa isang direktang linear na relasyon sa pagitan ng mga halaga ng mga variable. X 2 Y(dami ng mga benta).

kanin. 3.2.1.

2. Mga intermediate na kalkulasyon kapag kinakalkula ang koepisyent ng ugnayan sa pagitan ng mga variable X 2(index ng paggasta ng mga mamimili) at Y(dami ng benta) ay ibinigay sa talahanayan. 3.2.3.

Mga katamtaman mga random na variable X 2 at Y, alin ang mga pinakasimpleng tagapagpahiwatig na nagpapakilala sa mga pagkakasunud-sunod ng jCj, x 2,..., x 16 at y v y 2 ,..., y 16 , kinakalkula namin sa pamamagitan ng mga sumusunod na formula:


Dami ng benta Y, libong rubles

Index

ubusin

Telsky

gastos

Dami ng benta Y, libong rubles

Index

ubusin

Telsky

gastos

Talahanayan 3.2.3

l:, - X

(AT - Y)(x, - x)

(x, - x) 2

(y, - - y) 2

Pagpapakalat nailalarawan ang antas ng pagkalat ng mga halaga x v x 2 , x :

Isaalang-alang ngayon ang solusyon sa Halimbawa 3.2.1 sa Excel.

Upang kalkulahin ang ugnayan gamit ang Excel, maaari mong gamitin ang function =correl(), na tumutukoy sa mga address ng dalawang hanay ng mga numero, tulad ng ipinapakita sa fig. 3.2.2. Ang sagot ay inilagay sa D8 at katumbas ng 0.816.

kanin. 3.2.2.

(Tandaan: Mga argumento ng function Ang mga correl ay dapat na mga numero o pangalan, array o reference na naglalaman ng mga numero. Kung ang argument, na isang array o isang link, ay naglalaman ng text, boolean, o walang laman na mga cell, kung gayon ang mga halagang iyon ay hindi papansinin; gayunpaman, ang mga cell na naglalaman ng mga null na halaga ay binibilang.

Kung isang array! at array2 ay may ibang bilang ng mga data point, pagkatapos ay ang function Ibinabalik ng correl ang #n/a error value.

Kung ang array1 o array2 ay walang laman o kung o ( karaniwang lihis) ng kanilang mga halaga ay katumbas ng zero, pagkatapos ay ang function ibinabalik ng correl ang error value #div/0 !.)

kritikal na halaga/-Maaari ding makuha ang mga istatistika ng mag-aaral gamit ang function steudrasprobr 1 Excel package. Bilang mga argumento ng function, dapat mong tukuyin ang bilang ng mga antas ng kalayaan, katumbas ng P- 2 (sa aming halimbawa 16 - 2= 14) at antas ng kahalagahan a (sa aming halimbawa a = 0.1) (Larawan 3.2.3). Kung ang tunay na halaga/-statistics, kinuha modulo, higit pa mapanganib, pagkatapos ay may posibilidad na (1 - a) ang koepisyent ng ugnayan ay makabuluhang naiiba mula sa zero.


kanin. 3.2.3. Ang kritikal na halaga ng /-statistic ay 1.7613

Kasama sa Excel ang isang hanay ng mga tool sa pagsusuri ng data (ang tinatawag na package ng pagsusuri) na idinisenyo upang malutas ang iba't ibang mga problema sa istatistika. Upang kalkulahin ang matrix ng mga coefficient ng ugnayan ng pares R gamitin ang Correlation tool (Larawan 3.2.4) at itakda ang mga parameter ng pagsusuri sa kaukulang dialog box. Ang sagot ay ilalagay sa isang bagong worksheet (Larawan 3.2.5).

1 Sa Excel 2010, ang pangalan ng function ang steudrasprobr ay naging steu-

DENT.ORD.2X.

kanin. 3.2.4.


kanin. 3.2.5.

  • Ang mga istatistika ng Ingles na sina F. Galton (1822-1911) at K. Pearson (1857-1936) ay itinuturing na mga tagapagtatag ng teorya ng ugnayan. Ang terminong "kaugnayan" ay hiniram mula sa natural na agham at nangangahulugang "kaugnayan, pagsusulatan". Ang konsepto ng ugnayan bilang isang pagtutulungan sa pagitan ng mga random na variable ay sumasailalim sa matematika-statistikong teorya ng ugnayan.