Ipares ang correlation matrix. Kahulugan ng multiple correlation coefficient sa MS Excel

Z 1 (t)

Z 2 (t)

t

y(t)

Z 1 (t)

Z 2 (t)

t

y(t)

Ang pangunahing gawain kapag pumipili ng mga kadahilanan na kasama sa modelo ng ugnayan ay isama sa pagsusuri ang lahat ng mga pangunahing kadahilanan na nakakaapekto sa antas ng hindi pangkaraniwang bagay na pinag-aaralan. Gayunpaman, hindi ipinapayong ipasok ang isang malaking bilang ng mga kadahilanan sa modelo; mas tama na pumili lamang ng isang medyo maliit na bilang ng mga pangunahing kadahilanan na maaaring may kaugnayan sa napiling tagapagpahiwatig ng pagganap.

Magagawa ito gamit ang tinatawag na two-stage selection. Alinsunod dito, ang lahat ng paunang napiling mga kadahilanan ay kasama sa modelo. Pagkatapos sa kanila, sa batayan ng isang espesyal quantification at karagdagan sa pagsusuri ng husay, natutukoy ang mga hindi gaanong nakakaimpluwensyang mga salik, na unti-unting itinatapon hanggang sa may mga patungkol sa kung saan maaari itong pagtalunan na ang magagamit na istatistikal na materyal ay naaayon sa hypothesis ng kanilang magkasanib na makabuluhang epekto sa dependent variable na may napiling anyo ng relasyon .

Ang dalawang yugto na pagpili ay nakatanggap ng pinakakumpletong pagpapahayag nito sa pamamaraan ng tinatawag na multi-stage na pagpili. pagsusuri ng regression, kung saan ang pag-aalis ng mga hindi gaanong kabuluhan ay nangyayari batay sa mga tagapagpahiwatig ng kanilang kahalagahan, sa partikular, sa batayan ng halaga ng t f - ang kinakalkula na halaga ng pamantayan ng Mag-aaral.

Kalkulahin ang t f ayon sa nakitang pares na coefficient ng ugnayan at ihambing ang mga ito sa t kritikal para sa 5% na antas ng kabuluhan (two-sided) at 18 degrees ng kalayaan (ν = n-2).

kung saan ang r ay ang halaga ng coefficient ng ugnayan ng pares;

n – bilang ng mga obserbasyon (n=20)

Kapag inihambing ang t f para sa bawat koepisyent sa t kr = 2,101 nakuha namin na ang mga nahanap na coefficient ay kinikilala bilang makabuluhan, dahil t f > t cr.

t f para sa r yx 1 = 2, 5599 ;

t f para sa r yx 2 = 7,064206 ;

t f para sa r yx 3 = 2,40218 ;

t f para sa r x1 x 2 = 4,338906 ;

t f para sa r x1 x 3 = 15,35065;

t f para sa r x2 x 3 = 4,749981

Kapag pumipili ng mga salik na kasama sa pagsusuri, napapailalim sila sa mga partikular na kinakailangan. Una sa lahat, ang mga tagapagpahiwatig na nagpapahayag ng mga salik na ito ay dapat na quantifiable.

Ang mga salik na kasama sa modelo ay hindi dapat nasa isang functional o malapit na kaugnayan sa isa't isa. Ang pagkakaroon ng naturang mga bono ay nailalarawan sa pamamagitan ng multicollinearity.

Ang multicollinearity ay nagpapahiwatig na ang ilang mga kadahilanan ay nagpapakilala sa parehong bahagi ng hindi pangkaraniwang bagay na pinag-aaralan. Samakatuwid, ang kanilang sabay-sabay na pagsasama sa modelo ay hindi praktikal, dahil duplicate nila ang isa't isa sa isang tiyak na lawak. Kung walang mga espesyal na pagpapalagay na nagsasalita pabor sa isa sa mga salik na ito, ang kagustuhan ay dapat ibigay sa isa sa mga ito, na kung saan ay nailalarawan sa pamamagitan ng isang malaking koepisyent ng pares (o bahagyang) ugnayan.

Ito ay pinaniniwalaan na ang paglilimita ng halaga ay ang halaga ng koepisyent ng ugnayan sa pagitan ng dalawang salik, katumbas ng 0.8.

Ang multicollinearity ay karaniwang humahantong sa pagkabulok ng matrix ng mga variable at, dahil dito, sa katotohanan na ang pangunahing determinant ay bumababa sa halaga nito at, sa limitasyon, ay nagiging malapit sa zero. Ang mga pagtatantya ng mga coefficient ng equation ng regression ay lubos na nakadepende sa katumpakan ng paghahanap ng paunang data at kapansin-pansing baguhin ang kanilang mga halaga kapag nagbago ang bilang ng mga obserbasyon.


Y X 1 X 2 X 3 X 4 X 5 X 6
Y
X 1 0,519
X 2 -0,273 0,030
X 3 0,610 0,813 -0,116
X 4 -0,572 -0,013 -0,022 -0,091
X 5 0,297 0,043 -0,461 0,120 -0,359
X 6 0,118 -0,366 -0,061 -0,329 -0,100 -0,290

Pagsusuri interfactorial(sa pagitan ng "xes"!) ng mga coefficient ng ugnayan ay nagpapakita na ang halaga ng 0.8 ay lumampas sa ganap na halaga tanging ang koepisyent ng ugnayan sa pagitan ng isang pares ng mga salik X 1 –X 3 (naka-highlight sa bold). Mga salik X 1 –X 3 ay kaya kinikilala bilang collinear.

2. Gaya ng ipinapakita sa talata 1, ang mga salik X 1 –X 3 ay collinear, ibig sabihin ay epektibo silang mga duplicate ng isa't isa, at ang pagsasama ng mga ito sa modelo sa parehong oras ay mali ang kahulugan ng kaukulang regression coefficient. Ito ay makikita na ang kadahilanan X 3 ay may mas malaki modulo koepisyent ng ugnayan sa resulta Y kaysa sa kadahilanan X 1: r y , x 1 =0,519; r y , x 3=0.610; (cm. tab. isa). Ito ay nagpapahiwatig ng isang mas malakas na impluwensya ng kadahilanan X 3 upang baguhin Y. Salik X 1 sa gayon ay hindi kasama sa pagsasaalang-alang.

Upang bumuo ng equation ng regression, ang mga halaga ng mga variable na ginamit ( Y,X 2 , X 3 , X 4 , X 5 , X 6) kopyahin sa isang blangkong worksheet ( adj. 3). Binubuo namin ang equation ng regression gamit ang add-on " Pagsusuri ng Data... Pagbabalik» (menu « serbisyo"® « Pagsusuri sa datos…» ® « Regression"). Ang panel ng pagsusuri ng regression na may mga punong field ay ipinapakita sa kanin. 2.

Ang mga resulta ng pagsusuri ng regression ay ibinigay sa adj. apat at inilipat sa tab. 2. Ang equation ng regression ay may anyo (tingnan ang " Logro» sa tab. 2):

Ang equation ng regression ay kinikilala bilang makabuluhang istatistika, dahil ang posibilidad ng random na pagbuo nito sa anyo kung saan ito nakuha ay 8.80 × 10 -6 (tingnan ang Fig. "F Kahalagahan" sa tab. 2), na makabuluhang mas mababa kaysa sa tinatanggap na antas ng kahalagahan a=0.05.

X 3 , X 4 , X 6 sa ibaba ng tinatanggap na antas ng kahalagahan a=0.05 (tingnan ang “ P-Halaga" sa tab. 2), na nagpapahiwatig istatistikal na kahalagahan coefficient at ang makabuluhang epekto ng mga salik na ito sa pagbabago sa taunang tubo Y.

Ang posibilidad ng random na pagbuo ng mga coefficient sa mga kadahilanan X 2 at X 5 ay lumampas sa tinatanggap na antas ng kahalagahan a=0.05 (tingnan ang “ P-Halaga" sa tab. 2), at ang mga coefficient na ito ay hindi itinuturing na makabuluhang istatistika.

kanin. 2. Panel ng pagsusuri ng regression ng modelo Y(X 2 , X 3 , X 4 , X 5 , X 6)

talahanayan 2

Y(X 2 , X 3 , X 4 , X 5 , X 6)

Mga istatistika ng regression
Maramihang R 0,868
R-square 0,753
Normalized R-square 0,694
karaniwang error 242,3
Mga obserbasyon
Pagsusuri ng pagkakaiba-iba
df SS MS F Kahalagahan F
Regression 3749838,2 749967,6 12,78 8.80E-06
Natitira 1232466,8 58688,9
Kabuuan 4982305,0
Regression Equation
Odds karaniwang error t-statistic P-Halaga
Y-intersection 487,5 641,4 0,760 0,456
X2 -0,0456 0,0373 -1,224 0,235
X3 0,1043 0,0194 5,375 0,00002
X4 -0,0965 0,0263 -3,674 0,001
X5 2,528 6,323 0,400 0,693
X6 248,2 113,0 2,197 0,039

3. Batay sa mga resulta ng pagsuri sa istatistikal na kahalagahan ng mga coefficient ng equation ng regression, na isinagawa sa nakaraang talata, bumuo kami ng isang bagong modelo ng regression na naglalaman lamang ng mga salik na nagbibigay-kaalaman, na kinabibilangan ng:

mga kadahilanan, ang mga coefficient na kung saan ay makabuluhang istatistika;

mga kadahilanan na ang mga coefficient t Ang ‑statistics modulo ay lumampas sa isa (sa madaling salita, ang absolute value ng coefficient ay mas malaki kaysa sa karaniwang error nito).

Kasama sa unang pangkat ang mga kadahilanan X 3 , X 4 , X 6 , sa pangalawang - salik X 2. Salik X 5 ay hindi kasama sa pagsasaalang-alang bilang hindi nagbibigay-kaalaman, at ang huling modelo ng regression ay maglalaman ng mga salik X 2 , X 3 , X 4 , X 6 .

Upang bumuo ng isang equation ng regression, kopyahin ang mga halaga ng mga variable na ginamit sa isang blangkong worksheet ( adj. 5) at magsagawa ng pagsusuri ng regression ( kanin. 3). Ang mga resulta nito ay ibinigay sa adj. 6 at inilipat sa tab. 3. Ang regression equation ay ganito ang hitsura:

(cm." Logro» sa tab. 3).

kanin. 3. Pagsusuri ng regression ng panel ng modelo Y(X 2 , X 3 , X 4 , X 6)

Talahanayan 3

Mga Resulta ng Pagsusuri ng Pagbabalik ng Modelo Y(X 2 , X 3 , X 4 , X 6)

Mga istatistika ng regression
Maramihang R 0,866
R-square 0,751
Normalized R-square 0,705
karaniwang error 237,6
Mga obserbasyon
Pagsusuri ng pagkakaiba-iba
df SS MS F Kahalagahan F
Regression 3740456,2 935114,1 16,57 2.14E-06
Natitira 1241848,7 56447,7
Kabuuan 4982305,0
Regression Equation
Odds karaniwang error t-statistic P-Halaga
Y-intersection 712,2 303,0 2,351 0,028
X2 -0,0541 0,0300 -1,806 0,085
X3 0,1032 0,0188 5,476 0,00002
X4 -0,1017 0,0223 -4,560 0,00015
X6 227,5 98,5 2,310 0,031

Ang equation ng regression ay makabuluhang istatistika: ang posibilidad ng random na pagbuo nito ay mas mababa katanggap-tanggap na antas kahalagahan a=0.05 (tingnan ang " Kahalagahan F" sa tab. 3).

Ang makabuluhang istatistika ay mga coefficient din para sa mga salik X 3 , X 4 , X 6: ang posibilidad ng kanilang random na pagbuo ay mas mababa sa katanggap-tanggap na antas ng kahalagahan a=0.05 (tingnan ang " P-Halaga" sa tab. 3). Ito ay nagpapahiwatig ng malaking epekto ng taunang laki ng mga bayarin sa insurance. X 3, taunang pagbabayad ng insurance X 4 at mga anyo ng pagmamay-ari X 6 bawat pagbabago sa taunang kita Y.

Coefficient sa kadahilanan X 2 (taunang halaga ng mga reserbang insurance) ay hindi makabuluhan ayon sa istatistika. Gayunpaman, ang kadahilanan na ito ay maaari pa ring ituring na nagbibigay-kaalaman, dahil t-lumampas ang mga istatistika ng ratio nito modulo yunit, bagama't higit pang mga konklusyon tungkol sa salik X 2 ay dapat tratuhin nang may kaunting pag-iingat.

4. Sinusuri namin ang kalidad at katumpakan ng huling equation ng regression gamit ang ilang istatistikal na katangian na nakuha sa pagsusuri ng regression (tingnan ang . « istatistika ng regression" sa tab. 3):

maramihang koepisyent ng determinasyon

nagpapakita na ang modelo ng regression ay nagpapaliwanag ng 75.1% ng taunang pagkakaiba-iba ng tubo Y, at ang pagkakaiba-iba na ito ay dahil sa isang pagbabago sa mga salik na kasama sa modelo ng regression X 2 , X 3 , X 4 at X 6 ;

· karaniwang error regression

libong rubles.

ay nagpapakita na ang mga halaga ng taunang kita na hinulaang ng equation ng regression Y naiiba mula sa aktwal na mga halaga sa pamamagitan ng isang average na 237.6 libong rubles.

Ang average na relatibong error sa pagtatantya ay tinutukoy ng tinatayang formula:

saan libong rubles. - ang average na halaga ng taunang kita (tinutukoy gamit ang built-in na function " AVERAGE»; adj. isa).

E Ipinapakita ng rel na ang mga halaga ng taunang kita na hinulaang ng equation ng regression Y naiiba mula sa aktwal na mga halaga sa pamamagitan ng isang average na 26.7%. Ang modelo ay may hindi kasiya-siyang katumpakan (sa - ang katumpakan ng modelo ay mataas, sa - mabuti, kasama - kasiya-siya, sa - hindi kasiya-siya).

5. Para sa pang-ekonomiyang interpretasyon ng mga coefficient ng equation ng regression, itinatala namin ang average na mga halaga at standard deviations mga variable sa orihinal na data ( tab. apat) . Ang ibig sabihin ng mga halaga ay tinutukoy gamit ang built-in na function " AVERAGE", mga karaniwang paglihis - gamit ang built-in na function " STDEV"(cm. adj. isa).

Ang mga collinear factor ay...

At collinear.

4. Sa multiple regression model, ang determinant ng matrix ng mga ipinares na coefficient ng ugnayan sa pagitan ng mga salik , at malapit sa zero. Nangangahulugan ito na ang mga salik , at ... ay mga salik na multicollinear.

5. Para sa modelong ekonomiko linear equation multiple regression ng form, binuo ang isang matrix ng mga paired coefficients linear na ugnayan (y ay ang dependent variable; x (1),x (2), x (3), x(4)– mga independiyenteng variable):


Collinear (malapit na nauugnay) independiyenteng (nagpapaliwanag) na mga variable hindix(2) at x(3)

1. Ibinigay ang isang talahanayan ng paunang data para sa pagbuo ng isang modelo ng econometric regression:

dummy variable hindi

karanasan sa trabaho

produktibidad ng paggawa

2. Kapag pinag-aaralan ang pag-asa ng pagkonsumo ng karne sa antas ng kita at kasarian ng mamimili, maaari naming irekomenda ...

gumamit ng dummy variable - ang kasarian ng mamimili

hatiin ang populasyon sa dalawa: para sa mga babaeng mamimili at para sa mga lalaki na mamimili

3. Pinag-aaralan namin ang dependence ng presyo ng apartment ( sa) mula sa kanyang tirahan ( X) at uri ng bahay. Kasama sa modelo ang mga dummy variable na sumasalamin sa mga itinuturing na uri ng mga bahay: monolitik, panel, ladrilyo. Ang regression equation ay nakuha: ,
saan ,
Ang mga partikular na equation ng regression para sa brick at monolitik ay ...

para sa uri ng bahay na ladrilyo

para sa monolitikong uri ng bahay

4. Kapag sinusuri ang mga pang-industriya na negosyo sa tatlong rehiyon (ang Republika ng Mari El, ang Republika ng Chuvashia, ang Republika ng Tatarstan), tatlong partikular na mga equation ng regression ang binuo:

para sa Republika ng Mari El;

para sa Republika ng Chuvashia;

para sa Republika ng Tatarstan.

Ipahiwatig ang uri ng dummy variable at ang equation na may dummy variables na nag-generalize ng tatlong partikular na regression equation.

5. Sa econometrics, ang isang dummy variable ay itinuturing na ...

isang variable na kumukuha ng mga halaga 0 at 1

naglalarawan sa isang quantitative na paraan ng isang qualitative sign

1. Para sa modelo ng regression ng dependence ng average na per capita monetary income ng populasyon (rubles, sa) ng dami ng gross regional product (libong rubles, x 1) at ang rate ng kawalan ng trabaho sa paksa (%, x 2) ang equation ay nakuha. Ang halaga ng regression coefficient para sa variable x 2 ay nagpapahiwatig na sa isang pagbabago sa rate ng kawalan ng trabaho ng 1%, ang average na per capita cash na kita ay ______ rubles, na may pare-parehong halaga ng gross regional product.

ay magbabago sa (-1.67)

2. Sa linear multiple regression equation: , kung saan ang halaga ng mga nakapirming assets (libong rubles); - bilang ng mga empleyado (isang libong tao); y- dami industriyal na produksyon(libong rubles) parameter na may variable x 1, katumbas ng 10.8, ay nangangahulugan na sa pagtaas ng dami ng fixed asset ng _____, ang dami ng industriyal na produksyon ay _____ na may pare-parehong bilang ng mga empleyado.


para sa 1 libong rubles. … tataas ng 10.8 libong rubles.

3. Nabatid na ang proporsyon ng natitirang variance ng dependent variable sa kabuuang variance nito ay 0.2. Pagkatapos ang halaga ng koepisyent ng pagpapasiya ay ... 0.8

4. Isang econometric na modelo ang binuo para sa pagtitiwala ng tubo sa mga benta ng isang yunit ng produksyon (rub., sa) sa halaga ng kapital ng paggawa ng negosyo (libong rubles, x 1): . Dahil dito, ang average na kita mula sa mga benta, na hindi nakasalalay sa dami ng kapital ng paggawa ng negosyo, ay _____ rubles. 10.75

5. Ang F-statistic ay kinakalkula bilang ratio ng ______ na pagkakaiba sa _______ na pagkakaiba na kinakalkula sa bawat antas ng kalayaan. factorial ... nalalabi

1. Para sa isang econometric na modelo ng regression equation, ang error sa modelo ay tinukoy bilang ______ sa pagitan ng aktwal na halaga ng dependent variable at ang kinakalkulang halaga nito. Pagkakaiba

2. Ang halaga ay tinatawag na ... random na bahagi

3. Sa econometric na modelo ng regression equation, ang paglihis ng aktwal na halaga ng dependent variable mula sa kinakalkula na halaga nito ay nagpapakilala ... ang error sa modelo

4. Nabatid na ang proporsyon ng ipinaliwanag na pagkakaiba sa kabuuang pagkakaiba ay 0.2. Pagkatapos ang halaga ng koepisyent ng pagpapasiya ay ... 0.2

5. Gamit ang pamamaraan hindi bababa sa mga parisukat mga parameter ng equation ng singaw linear regression ay tinutukoy mula sa kondisyon ______ residues. pagliit ng kabuuan ng mga parisukat

1. Upang makita ang autocorrelation sa mga residual, gamitin ang ...

Mga istatistika ng Durbin–Watson

2. Ito ay kilala na ang koepisyent ng autocorrelation ng mga nalalabi sa unang pagkakasunud-sunod katumbas ng –0.3. Binigay din kritikal na halaga Mga istatistika ng Durbin-Watson para sa isang naibigay na bilang ng mga parameter na may hindi alam at bilang ng mga obserbasyon , . Ayon sa mga katangiang ito, maaari nating tapusin na ... walang autocorrelation ng mga nalalabi

Matrix ng pairwise correlation coefficients ay isang matrix na ang mga elemento ay ipinares na mga coefficient ng ugnayan. Halimbawa, para sa tatlong variable, ang matrix na ito ay mukhang:
- yx 1x2x 3
y1 r yx1r yx2r yx3
x 1rx1y1 rx1x2rx1x3
x2rx2yrx2x11 rx2x3
x 3rx3yrx3x1rx3x21

Ipasok ang matrix ng mga ipinares na coefficient sa kahon.

Halimbawa. Ayon sa 154 na negosyong pang-agrikultura Rehiyon ng Kemerovo 2003 upang pag-aralan ang kahusayan ng produksyon ng butil (Talahanayan 13).

  1. Tukuyin ang mga salik na bumubuo sa kakayahang kumita ng butil sa mga negosyong pang-agrikultura noong 2003.
  2. Mag-plot ng matrix ng pairwise correlation coefficients. Tukuyin kung aling mga salik ang multicollinear.
  3. Bumuo ng isang regression equation na nagpapakilala sa pagtitiwala ng kakayahang kumita ng mga cereal sa lahat ng mga kadahilanan.
  4. Tayahin ang kahalagahan ng resultang equation ng regression. Anong mga kadahilanan ang makabuluhang nakakaapekto sa pagbuo ng kakayahang kumita ng mga pananim ng butil sa modelong ito?
  5. Tayahin ang halaga ng kakayahang kumita ng produksyon ng butil sa negosyong pang-agrikultura No. 3.

Solusyon ginagamit namin ang calculator na Multiple regression equation:

1. Pagtataya ng equation ng regression.
Tukuyin natin ang vector ng mga pagtatantya ng mga coefficient ng regression. Ayon sa paraan ng least squares, ang vector ay nakuha mula sa expression:
s = (X T X) -1 X T Y
Matrix X

1 0.43 2.02 0.29
1 0.87 1.29 0.55
1 1.01 1.09 0.7
1 0.63 1.68 0.41
1 0.52 0.3 0.37
1 0.44 1.98 0.3
1 1.52 0.87 1.03
1 2.19 0.8 1.3
1 1.8 0.81 1.17
1 1.57 0.84 1.06
1 0.94 1.16 0.64
1 0.72 1.52 0.44
1 0.73 1.47 0.46
1 0.77 1.41 0.49
1 1.21 0.97 0.88
1 1.25 0.93 0.91
1 1.31 0.91 0.94
1 0.38 2.08 0.27
1 0.41 2.05 0.28
1 0.48 1.9 0.32
1 0.58 1.73 0.38
1 0 0 0

Matrix Y
0.22
0.67
0.79
0.42
0.32
0.24
0.95
1.05
0.99
0.96
0.73
0.52
2.1
0.58
0.87
0.89
0.91
0.14
0.18
0.27
0.37
0

XT Matrix
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
0.43 0.87 1.01 0.63 0.52 0.44 1.52 2.19 1.8 1.57 0.94 0.72 0.73 0.77 1.21 1.25 1.31 0.38 0.41 0.48 0.58 0
2.02 1.29 1.09 1.68 0.3 1.98 0.87 0.8 0.81 0.84 1.16 1.52 1.47 1.41 0.97 0.93 0.91 2.08 2.05 1.9 1.73 0
0.29 0.55 0.7 0.41 0.37 0.3 1.03 1.3 1.17 1.06 0.64 0.44 0.46 0.49 0.88 0.91 0.94 0.27 0.28 0.32 0.38 0

Multiply matrice, (X T X)
Hanapin ang determinant det(X T X) T = 34.35
Nahanap namin baligtad na matris(X T X) -1
0.6821 0.3795 -0.2934 -1.0118
0.3795 9.4402 -0.133 -14.4949
-0.2934 -0.133 0.1746 0.3204
-1.0118 -14.4949 0.3204 22.7272

Ang vector ng mga pagtatantya ng mga coefficient ng regression ay katumbas ng
s = (X T X) -1 X T Y =
0.1565
0.3375
0.0043
0.2986

Regression Equation (pagsusuri ng regression equation)
Y = 0.1565 + 0.3375X 1 + 0.0043X 2 + 0.2986X 3

Matrix ng pairwise correlation coefficients

Ang bilang ng mga obserbasyon ay n = 22. Ang bilang ng mga independiyenteng variable sa modelo ay eksaktong 3, at ang bilang ng mga regressor, na isinasaalang-alang ang unit vector, ay katumbas ng bilang ng mga hindi kilalang coefficient. Isinasaalang-alang ang sign Y, ang dimensyon ng matrix ay nagiging katumbas ng 5. Ang matrix ng mga independiyenteng variable X ay may sukat (22 x 5). Ang matrix X T X ay tinutukoy sa pamamagitan ng direktang multiplikasyon o sa pamamagitan ng mga sumusunod na paunang nakalkulang mga kabuuan.
Matrix na binubuo ng Y at X
1 0.22 0.43 2.02 0.29
1 0.67 0.87 1.29 0.55
1 0.79 1.01 1.09 0.7
1 0.42 0.63 1.68 0.41
1 0.32 0.52 0.3 0.37
1 0.24 0.44 1.98 0.3
1 0.95 1.52 0.87 1.03
1 1.05 2.19 0.8 1.3
1 0.99 1.8 0.81 1.17
1 0.96 1.57 0.84 1.06
1 0.73 0.94 1.16 0.64
1 0.52 0.72 1.52 0.44
1 2.1 0.73 1.47 0.46
1 0.58 0.77 1.41 0.49
1 0.87 1.21 0.97 0.88
1 0.89 1.25 0.93 0.91
1 0.91 1.31 0.91 0.94
1 0.14 0.38 2.08 0.27
1 0.18 0.41 2.05 0.28
1 0.27 0.48 1.9 0.32
1 0.37 0.58 1.73 0.38
1 0 0 0 0

Ang transposed matrix.
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
0.22 0.67 0.79 0.42 0.32 0.24 0.95 1.05 0.99 0.96 0.73 0.52 2.1 0.58 0.87 0.89 0.91 0.14 0.18 0.27 0.37 0
0.43 0.87 1.01 0.63 0.52 0.44 1.52 2.19 1.8 1.57 0.94 0.72 0.73 0.77 1.21 1.25 1.31 0.38 0.41 0.48 0.58 0
2.02 1.29 1.09 1.68 0.3 1.98 0.87 0.8 0.81 0.84 1.16 1.52 1.47 1.41 0.97 0.93 0.91 2.08 2.05 1.9 1.73 0
0.29 0.55 0.7 0.41 0.37 0.3 1.03 1.3 1.17 1.06 0.64 0.44 0.46 0.49 0.88 0.91 0.94 0.27 0.28 0.32 0.38 0

A T A matrix.
22 14.17 19.76 27.81 13.19
14.17 13.55 15.91 16.58 10.56
19.76 15.91 23.78 22.45 15.73
27.81 16.58 22.45 42.09 14.96
13.19 10.56 15.73 14.96 10.45

Ang resultang matrix ay may mga sumusunod na sulat:

Hanapin natin ang mga ipinares na coefficient ng ugnayan.
Para sa y at x 1

Mga katamtaman



Pagpapakalat





Koepisyent ng ugnayan

Para sa y at x 2
Ang equation ay y = ax + b
Mga katamtaman



Pagpapakalat


karaniwang lihis


Koepisyent ng ugnayan

Para sa y at x 3
Ang equation ay y = ax + b
Mga katamtaman



Pagpapakalat


karaniwang lihis


Koepisyent ng ugnayan

Para sa x 1 at x 2
Ang equation ay y = ax + b
Mga katamtaman



Pagpapakalat


karaniwang lihis


Koepisyent ng ugnayan

Para sa x 1 at x 3
Ang equation ay y = ax + b
Mga katamtaman



Pagpapakalat


karaniwang lihis


Koepisyent ng ugnayan

Para sa x 2 at x 3
Ang equation ay y = ax + b
Mga katamtaman



Pagpapakalat


karaniwang lihis


Koepisyent ng ugnayan

Matrix ng mga ipinares na coefficient ng ugnayan.
- y x 1 x2 x 3
y 1 0.62 -0.24 0.61
x 1 0.62 1 -0.39 0.99
x2 -0.24 -0.39 1 -0.41
x 3 0.61 0.99 -0.41 1

Ang pagsusuri sa unang hilera ng matrix na ito ay nagbibigay-daan sa pagpili ng mga tampok na salik na maaaring isama sa maramihang modelo ng ugnayan. Factor sign na may r yxi< 0.5 исключают из модели.
Ang collinearity ay ang relasyon sa pagitan ng mga salik. Ang pagsunod sa mga sumusunod na hindi pagkakapantay-pantay ay maaaring kunin bilang criterion para sa multicollinearity:
r(x j y) > r(x k x j) ; r(x k y) > r(x k x j).
Kung ang isa sa mga hindi pagkakapantay-pantay ay hindi sinusunod, kung gayon ang parameter x k o x j ay hindi kasama, ang kaugnayan kung saan sa epektibong tagapagpahiwatig na Y ay ang hindi bababa sa malapit.
3. Pagsusuri ng mga parameter ng equation ng regression.
Lumipat tayo sa istatistikal na pagsusuri ng resultang regression equation: pagsuri sa kahalagahan ng equation at mga coefficient nito, pag-aaral ng absolute at mga kamag-anak na pagkakamali mga pagtatantya
Para sa walang pinapanigan na pagtatantya ng pagkakaiba, ginagawa namin ang mga sumusunod na kalkulasyon:
Walang pinapanigan na error e = Y - X*s ( ganap na pagkakamali mga pagtatantya)
-0.18
0.05
0.08
-0.08
-0.12
-0.16
-0.03
-0.24
-0.13
-0.05
0.06
-0.02
1.55
0.01
0.04
0.04
0.03
-0.23
-0.21
-0.15
-0.1
-0.16

s e 2 = (Y - X*s) T (Y - X*s)
Ang walang pinapanigan na pagtatantya ng pagkakaiba ay

Grade karaniwang lihis ay katumbas ng

Maghanap ng pagtatantya ng covariance matrix ng vector k = a*(X T X) -1
0.26 0.15 -0.11 -0.39
0.15 3.66 -0.05 -5.61
-0.11 -0.05 0.07 0.12
-0.39 -5.61 0.12 8.8

Ang mga dispersion ng mga parameter ng modelo ay tinutukoy ng kaugnayan S 2 i = K ii , i.e. ay ang mga elemento sa pangunahing dayagonal
Upang mapalawak ang mga posibilidad ng isang makabuluhang pagsusuri ng modelo ng regression, ginagamit ang mga partial elasticity coefficient, na tinutukoy ng formula:


Bahagyang koepisyent ng pagkalastiko E 1< 1. Следовательно, его влияние на результативный признак Y незначительно.

Bahagyang koepisyent ng pagkalastiko E 2< 1. Следовательно, его влияние на результативный признак Y незначительно.

Bahagyang koepisyent ng pagkalastiko E 3< 1. Следовательно, его влияние на результативный признак Y незначительно.
Ang lapit ng magkasanib na impluwensya ng mga salik sa resulta ay tinatantya ng index maramihang ugnayan(mula 0 hanggang 1)

Katamtaman ang ugnayan sa pagitan ng trait Y factor X
Koepisyent ng determinasyon
R 2 = 0.62 2 = 0.38
mga. sa 38.0855% ng mga kaso, ang mga pagbabago sa x ay humahantong sa isang pagbabago sa y. Sa madaling salita, ang katumpakan ng pagpili ng equation ng regression ay karaniwan
Kahalagahan ng koepisyent ng ugnayan

Ayon sa talahanayan ng Mag-aaral, nakita namin ang Ttable
T talahanayan (n-m-1; a) = (18; 0.05) = 1.734
Dahil ang Tobs > Ttabl, tinatanggihan namin ang hypothesis na ang coefficient ng ugnayan ay katumbas ng 0. Sa madaling salita, ang koepisyent ng ugnayan ay makabuluhan sa istatistika
Pagtatantya ng pagitan para sa koepisyent ng ugnayan (agwat ng kumpiyansa)

Agwat ng kumpiyansa para sa koepisyent ng ugnayan
r(0.3882;0.846)
5. Pagsubok ng mga hypotheses tungkol sa mga koepisyent ng equation ng regression (pagsubok sa kahalagahan ng mga parameter maramihang equation regression).
1) t-statistic


Ang statistical significance ng regression coefficient b 0 ay hindi nakumpirma

Ang statistical significance ng regression coefficient b 1 ay hindi nakumpirma

Ang statistical significance ng regression coefficient b 2 ay hindi nakumpirma

Ang statistical significance ng regression coefficient b 3 ay hindi nakumpirma
Agwat ng kumpiyansa para sa mga coefficient ng equation ng regression
Tukuyin natin ang mga agwat ng kumpiyansa ng mga coefficient ng regression, na, na may 95% na pagiging maaasahan, ay ang mga sumusunod:
(b i - t i S i ; b i + t i S i)
b 0: (-0.7348;1.0478)
b 1: (-2.9781;3.6531)
b2: (-0.4466;0.4553)
b 3: (-4.8459;5.4431)

2) F-statistics. Ang pamantayan ni Fisher


fkp = 2.93
Dahil si F< Fkp, то коэффициент детерминации статистически не значим и уравнение регрессии статистически ненадежно.
6. Suriin ang pagkakaroon ng heteroscedasticity sa pamamagitan ng graphical na pagsusuri ng mga nalalabi.
Sa kasong ito, ang mga halaga ng paliwanag na variable X i ay naka-plot kasama ang abscissa, at ang mga parisukat ng deviation e i 2 ay naka-plot kasama ang ordinate.

y y(x) e=y-y(x) e 2
0.22 0.4 -0.18 0.03
0.67 0.62 0.05 0
0.79 0.71 0.08 0.01
0.42 0.5 -0.08 0.01
0.32 0.44 -0.12 0.02
0.24 0.4 -0.16 0.03
0.95 0.98 -0.03 0
1.05 1.29 -0.24 0.06
0.99 1.12 -0.13 0.02
0.96 1.01 -0.05 0
0.73 0.67 0.06 0
0.52 0.54 -0.02 0
2.1 0.55 1.55 2.41
0.58 0.57 0.01 0
0.87 0.83 0.04 0
0.89 0.85 0.04 0
0.91 0.88 0.03 0
0.14 0.37 -0.23 0.05
0.18 0.39 -0.21 0.04
0.27 0.42 -0.15 0.02
0.37 0.47 -0.1 0.01
0.16 -0.16 0.02

Ang mga collinear factor ay...

Solusyon:

Ipinapalagay na ang dalawang variable ay malinaw na collinear, i.e. ay linearly na nauugnay sa isa't isa kung . Sa aming modelo, tanging ang koepisyent ng ipinares na linear regression sa pagitan ng mga salik at mas malaki sa 0.7. , kaya ang mga kadahilanan at ay collinear.

4. Sa multiple regression model, ang determinant ng matrix ng mga ipinares na coefficient ng ugnayan sa pagitan ng mga salik , at malapit sa zero. Nangangahulugan ito na ang mga kadahilanan, at ...

multicollinear

malaya

mabibilang

Solusyon:

Upang masuri ang multicollinearity ng mga salik, maaaring gamitin ang determinant ng matrix ng mga paired correlation coefficient sa pagitan ng mga salik. Kung ang mga kadahilanan ay hindi nakakaugnay sa isa't isa, kung gayon ang matrix ng pairwise correlation coefficients sa pagitan ng mga kadahilanan ay magiging iisa. Dahil ang lahat ng off-diagonal na elemento magiging katumbas ng zero.
, dahil = = at = = =0.
Kung mayroong isang kumpletong linear dependence sa pagitan ng mga kadahilanan at lahat ng mga coefficient ng ugnayan ng pares ay katumbas ng isa, kung gayon ang determinant ng naturang matrix ay katumbas ng zero.


Ang mas malapit sa zero ang determinant ng interfactorial correlation matrix, mas malakas ang multicollinearity ng mga salik at mas hindi mapagkakatiwalaan ang mga resulta ng multiple regression. Sa kabaligtaran, mas malapit ang determinant ng interfactorial correlation matrix sa isa, mas mababa ang multicollinearity ng mga salik.

5. Para sa econometric na modelo ng isang linear multiple regression equation, isang matrix ng ipinares na linear correlation coefficients ( y ay ang dependent variable; x (1),x (2), x (3), x(4)– mga independiyenteng variable):


Collinear (malapit na nauugnay) independiyenteng (nagpapaliwanag) na mga variable hindi

x(2) at x(3)

x(1) at x(3)

x(1) at x(4)

x(2) at x(4)

Solusyon:

Kapag nagtatayo ng maraming modelo ng regression, kinakailangan na ibukod ang posibilidad ng isang malapit na linear na relasyon sa pagitan ng mga independiyenteng (paliwanag) na mga variable, na humahantong sa problema ng multicollinearity. Kasabay nito, sinusuri ang mga linear correlation coefficient para sa bawat pares ng mga independiyenteng (nagpapaliwanag) na mga variable. Ang mga halagang ito ay makikita sa matrix ng pairwise linear correlation coefficients. Ito ay pinaniniwalaan na ang pagkakaroon ng mga pares na coefficient ng ugnayan sa pagitan ng mga paliwanag na variable na lumalampas sa 0.7 sa ganap na halaga ay sumasalamin sa isang malapit na ugnayan sa pagitan ng mga variable na ito (ang pagiging malapit ng relasyon sa variable y hindi isinasaalang-alang sa kasong ito). Ang ganitong mga independiyenteng variable ay tinatawag na collinear. Kung ang halaga ng koepisyent ng ugnayan ng pares sa pagitan ng mga paliwanag na variable ay hindi lalampas sa 0.7 sa ganap na halaga, kung gayon ang mga naturang paliwanag na variable ay hindi collinear. Isaalang-alang natin ang mga halaga ng mga coefficient ng pares ng interfactorial correlation: sa pagitan x(1) at x(2) ang halaga ay 0.45; sa pagitan x(1) at x(3)- katumbas ng 0.82; sa pagitan x(1) at x(4)- katumbas ng 0.94; sa pagitan x(2) at x(3)– katumbas ng 0.3; sa pagitan x(2) at x(4)- katumbas ng 0.7; sa pagitan x(3) at x(4) ay katumbas ng 0.12. Kaya, ang mga halaga, , , ay hindi lalampas sa 0.7. Samakatuwid, collinear hindi mga kadahilanan x(1) at x(2), x(2) at x(3), x(3) at x(4). Sa mga huling nakalistang pares, mayroong isang pares sa mga pagpipilian sa sagot x(2) at x(3) ay ang tamang sagot. Para sa iba pang mag-asawa: x(1 at x(3), x(1) at x(4), x(2) at x(4)- ang mga halaga ng mga coefficient ng pares ng interfactorial correlation ay lumampas sa 0.7, at ang mga salik na ito ay collinear.

Paksa 3: Dummy variable

1. Ibinigay ang isang talahanayan ng paunang data para sa pagbuo ng isang modelo ng econometric regression:

dummy variable hindi

karanasan sa trabaho

produktibidad ng paggawa

ang antas ng edukasyon

antas ng kasanayan ng empleyado

Solusyon:

Kapag bumubuo ng isang modelo ng regression, maaaring lumitaw ang isang sitwasyon kapag kinakailangang isama sa equation, bilang karagdagan sa mga quantitative variable, mga variable na sumasalamin sa ilang katangiang katangian (kasarian, edukasyon, rehiyon, atbp.). Ang ganitong mga qualitative variable ay tinatawag na "dummy" variable. Upang bumuo ng modelo na tinukoy sa pahayag ng gawain, ginagamit ang mga dummy variable: ang antas ng edukasyon at ang antas ng kwalipikasyon ng empleyado. Iba pang mga variable hindi gawa-gawa lamang, sa mga iminungkahing opsyon ay ang haba ng serbisyo at produktibidad ng paggawa.

2. Kapag pinag-aaralan ang pag-asa ng pagkonsumo ng karne sa antas ng kita at kasarian ng mamimili, maaari naming irekomenda ...

gumamit ng dummy variable - ang kasarian ng mamimili

hatiin ang populasyon sa dalawa: para sa mga babaeng mamimili at para sa mga lalaki na mamimili

gumamit ng dummy variable - antas ng kita

ibukod mula sa pagsasaalang-alang ang kasarian ng mamimili, dahil ang salik na ito ay hindi masusukat sa dami

Solusyon:

Kapag bumubuo ng isang modelo ng regression, maaaring lumitaw ang isang sitwasyon kung kinakailangan na isama sa equation, bilang karagdagan sa mga quantitative variable, mga variable na sumasalamin sa ilang mga katangian na katangian (kasarian, edukasyon, rehiyon, atbp.). Ang ganitong mga qualitative variable ay tinatawag na "dummy" variable. Sinasalamin nila ang heterogeneity ng istatistikal na populasyon sa ilalim ng pag-aaral at ginagamit para sa mas mahusay na pagmomodelo ng mga dependency sa mga heterogenous na bagay ng pagmamasid. Kapag nagmomodelo ng mga indibidwal na dependency sa heterogenous na data, maaari mo ring gamitin ang paraan ng paghahati sa buong koleksyon ng heterogenous na data sa ilang magkakahiwalay na koleksyon, ang bilang nito ay katumbas ng bilang ng mga estado ng dummy variable. Kaya, ang mga tamang sagot ay: "gumamit ng dummy variable - ang kasarian ng mamimili" at "hatiin ang populasyon sa dalawa: para sa mga babaeng mamimili at para sa mga lalaking mamimili."

3. Pinag-aaralan namin ang dependence ng presyo ng apartment ( sa) mula sa kanyang tirahan ( X) at uri ng bahay. Kasama sa modelo ang mga dummy variable na sumasalamin sa mga itinuturing na uri ng mga bahay: monolitik, panel, ladrilyo. Ang regression equation ay nakuha: ,
saan ,
Ang mga partikular na equation ng regression para sa brick at monolitik ay ...

para sa uri ng bahay na ladrilyo

para sa monolitikong uri ng bahay

para sa uri ng bahay na ladrilyo

para sa monolitikong uri ng bahay

Solusyon:

Kinakailangang alamin ang pribadong regression equation para sa mga brick at monolithic na bahay. Para sa isang brick house, ang mga halaga ng dummy variable ay ang mga sumusunod , . Ang equation ay kukuha ng anyo: o para sa uri ng bahay na ladrilyo.
Para sa isang monolitikong bahay, ang mga halaga ng mga dummy variable ay ang mga sumusunod , . Ang equation ay kukuha ng form
o para sa uri ng bahay na monolitik.