Dalawang malayang variable. Multiple correlation coefficient at coefficient ng determinasyon

Gusali linear regression, ang pagsusuri ng mga parameter nito at ang kanilang kahalagahan ay maaaring maisagawa nang mas mabilis kapag ginagamit ang package Pagsusuri ng Excel(Regression). Isaalang-alang natin ang interpretasyon ng mga nakuhang resulta sa pangkalahatang kaso ( k mga variable na nagpapaliwanag) ayon sa halimbawa 3.6.

mesa mga istatistika ng regression ang mga halaga ay ibinigay:

Maramihan R – koepisyent ng maramihang ugnayan;

R- parisukat– koepisyent ng pagpapasiya R 2 ;

Normalized R - parisukat- inayos R 2 isinaayos para sa bilang ng mga antas ng kalayaan;

karaniwang error ay ang karaniwang error ng regression S;

Mga obserbasyon - bilang ng mga obserbasyon n.

mesa Pagsusuri ng pagkakaiba-iba ibinigay:

1. Hanay df - ang bilang ng mga antas ng kalayaan, katumbas ng

para sa string Regression df = k;

para sa string natitiradf = nk – 1;

para sa string Kabuuandf = n– 1.

2. Hanay SS- kabuuan ng mga squared deviations, katumbas ng

para sa string Regression ;

para sa string natitira ;

para sa string Kabuuan .

3. Hanay MS mga pagkakaiba-iba na tinutukoy ng formula MS = SS/df:

para sa string Regression- pagkakaiba sa kadahilanan;

para sa string natitira ay ang natitirang pagkakaiba.

4. Hanay F - kinakalkula na halaga F-pamantayan na kinakalkula ng formula

F = MS(pagbabalik)/ MS(natitira).

5. Hanay Kahalagahan F ay ang halaga ng antas ng kabuluhan na naaayon sa kinakalkula F-mga istatistika .

Kahalagahan F= FRIST( F- istatistika, df(pagbabalik), df(natitira)).

Kung kabuluhan F < стандартного уровня значимости, то R 2 ay makabuluhan sa istatistika.

Coefficients karaniwang error t-istatistika p-halaga ibaba 95% Nangungunang 95%
Y 65,92 11,74 5,61 0,00080 38,16 93,68
X 0,107 0,014 7,32 0,00016 0,0728 0,142

Ipinapakita ng talahanayang ito ang:

1. Odds– mga halaga ng koepisyent a, b.

2. Karaniwang errorkaraniwang mga error regression coefficients S a, Sb.



3. t- mga istatistika- mga kinakalkula na halaga t -pamantayan na kinakalkula ng formula:

t-statistic = Coefficients / Standard na error.

4.R-halaga (kahalagahan t) ay ang halaga ng antas ng kahalagahan na naaayon sa kinakalkula t- mga istatistika.

R-halaga = STUDRASP(t-mga istatistika, df(natitira)).

Kung ang R-ibig sabihin< стандартного уровня значимости, то соответствующий коэффициент статистически значим.

5. Ibaba 95% at Nangungunang 95% ay ang lower at upper bounds ng 95% confidence intervals para sa coefficients ng theoretical linear regression equation.

NANANATILING WITHDRAWAL
Pagmamasid Hinulaan y Nananatili e
72,70 -29,70
82,91 -20,91
94,53 -4,53
105,72 5,27
117,56 12,44
129,70 19,29
144,22 20,77
166,49 24,50
268,13 -27,13

mesa NANANATILING WITHDRAWAL ipinahiwatig:

sa isang kolum Pagmamasid- numero ng pagmamasid;

sa isang kolum hinulaan y ay ang mga kinakalkula na halaga ng dependent variable;

sa isang kolum Labi e ay ang pagkakaiba sa pagitan ng naobserbahan at kinakalkula na mga halaga ng dependent variable.

Halimbawa 3.6. Available ang data (arb. units) sa mga gastusin sa pagkain y at per capita income x para sa siyam na grupo ng mga pamilya:

x
y

Gamit ang mga resulta ng Excel analysis package (Regression), sinusuri namin ang dependence ng mga gastos sa pagkain sa halaga ng per capita income.

Ang mga resulta ng pagsusuri ng regression ay karaniwang nakasulat bilang:

kung saan nasa panaklong ang mga karaniwang error ng mga coefficient ng regression.

Mga coefficient ng regression a = 65,92 at b= 0.107. Direksyon ng komunikasyon sa pagitan y at x tinutukoy ang tanda ng coefficient ng regression b= 0.107, ibig sabihin. ang relasyon ay direkta at positibo. Coefficient b= 0.107 ay nagpapakita na sa pagtaas ng per capita income ng 1 arb. mga yunit ang mga gastos sa pagkain ay tumaas ng 0.107 conv. mga yunit

Tantyahin natin ang kahalagahan ng mga coefficient ng nakuha na modelo. Ang kahalagahan ng mga coefficient ( a, b) ay sinusuri laban sa t- pagsusulit:

p-value ( a) = 0,00080 < 0,01 < 0,05

p-value ( b) = 0,00016 < 0,01 < 0,05,

kaya ang mga coefficient ( a, b) ay makabuluhan sa 1% na antas, at higit pa sa 5% na antas ng kahalagahan. Kaya, ang mga coefficient ng regression ay makabuluhan at ang modelo ay sapat sa orihinal na data.

Ang mga resulta ng pagtatantya ng regression ay katugma hindi lamang sa nakuha na mga halaga ng mga coefficient ng regression, kundi pati na rin sa ilan sa kanilang set (confidence interval). Sa posibilidad na 95%, ang mga pagitan ng kumpiyansa para sa mga koepisyent ay (38.16 - 93.68) para sa a at (0.0728 - 0.142) para sa b.

Ang kalidad ng modelo ay tinasa ng koepisyent ng pagpapasiya R 2 .

Halaga R 2 = 0.884 ay nangangahulugan na ang per capita income factor ay maaaring ipaliwanag ang 88.4% ng variation (scatter) sa paggasta sa pagkain.

Kahalagahan R 2 sinuri ni F- pagsubok: kahalagahan F = 0,00016 < 0,01 < 0,05, следовательно, R 2 ay makabuluhan sa 1% na antas, at higit pa sa 5% na antas ng kahalagahan.

Sa kaso ng pairwise linear regression, ang correlation coefficient ay maaaring tukuyin bilang . Ang nakuhang halaga ng koepisyent ng ugnayan ay nagpapahiwatig na ang ugnayan sa pagitan ng mga paggasta sa pagkain at kita ng per capita ay napakalapit.

Ministri ng Edukasyon at Agham ng Russian Federation

autonomous ng pederal na estado institusyong pang-edukasyon mas mataas na propesyonal na edukasyon

Far Eastern Federal University

Paaralan ng Economics at Pamamahala

Departamento ng Business Informatics at Mga Paraang Pang-ekonomiya at Matematika

TRABAHO SA LABORATORY

sa disiplina na "Simulation"

Specialty 080801.65 "Applied Informatics (sa Economics)"

PAGSUSURI NG REGRESSION

Rudakova

Uliana Anatolievna

Vladivostok

ULAT

Gawain: isaalang-alang ang isang regression analysis procedure batay sa data (sales price at living area) sa 23 property.

Ang "Regression" operating mode ay ginagamit upang kalkulahin ang mga parameter ng linear regression equation at suriin ang kasapatan nito para sa prosesong pinag-aaralan.

Upang malutas ang problema ng pagsusuri ng regression sa MS Excel, pumili mula sa menu Serbisyoutos Pagsusuri sa datosat tool sa pagsusuri" Regression".

Sa lalabas na dialog box, itakda ang mga sumusunod na parameter:

1. Input interval Y- ito ang hanay ng data sa mabisang katangian. Dapat ito ay isang column.

2. Input interval Xay isang hanay ng mga cell na naglalaman ng mga halaga ng mga kadahilanan (mga independiyenteng variable). Ang bilang ng mga saklaw ng input (mga column) ay hindi dapat lumampas sa 16.

.Checkbox Mga tag, ay nakatakda kung ang unang linya ng hanay ay naglalaman ng pamagat.

5. Zero constant.Dapat itakda ang checkbox na ito kung ang linya ng regression ay dapat dumaan sa pinanggalingan (at 0=0).

6. Output Interval/ Bagong Worksheet/ Bagong Workbook -tukuyin ang address ng kaliwang tuktok na cell ng hanay ng output.

.Mga checkbox sa isang grupo Labiay nakatakda kung gusto mong isama ang mga kaukulang column o graph sa hanay ng output.

.Dapat paganahin ang check box ng Normal Probability Plot kung gusto mong magpakita ng scatter plot ng mga naobserbahang Y value kumpara sa awtomatikong nabuong percentile interval sa sheet.

Pagkatapos pindutin ang OK button sa hanay ng output, nakakakuha kami ng ulat.

Sa tulong ng isang hanay ng mga tool sa pagsusuri ng data, magagawa namin pagsusuri ng regression paunang datos.

Ang tool sa pagsusuri na "Regression" ay ginagamit upang piliin ang mga parameter ng equation ng regression gamit ang pamamaraan hindi bababa sa mga parisukat. Ang regression ay ginagamit upang pag-aralan ang epekto sa isang solong umaasa na variable ng mga halaga ng isa o higit pang mga independiyenteng variable.

TABLE REGRESSION STATISTICS

Halaga maramihan Ray ang ugat ng coefficient of determination (R-square). Tinatawag din itong correlation index o ang multiple correlation coefficient. Nagpapahayag ng antas ng pag-asa ng mga independyenteng variable (X1, X2) at dependent variable (Y) at katumbas ng parisukat na ugat mula sa koepisyent ng pagpapasiya, ang halagang ito ay kumukuha ng mga halaga sa hanay mula sa zero hanggang isa. Sa aming kaso, ito ay katumbas ng 0.7, na nagpapahiwatig ng isang makabuluhang relasyon sa pagitan ng mga variable.

Halaga R-squared (coefficient of determination), na tinatawag ding sukatan ng katiyakan, ay nagpapakilala sa kalidad ng nagreresultang linya ng pagbabalik. Ang kalidad na ito ay ipinahayag sa pamamagitan ng antas ng pagsusulatan sa pagitan ng orihinal na data at ng modelo ng regression (kinakalkulang data). Ang sukatan ng katiyakan ay palaging nasa pagitan.

Sa aming kaso, ang halaga ng R-squared ay 0.48, i.e. halos 50%, na nagpapahiwatig ng mahinang pagkakaakma ng linya ng regression sa orihinal na data. nahanap na halaga R-square = 48%<75%, то, следовательно, также можно сделать вывод о невозможности прогнозирования с помощью найденной регрессионной зависимости. Таким образом, модель объясняет всего 48% вариации цены, что говорит о недостаточности выбранных факторов, либо о недостаточном объеме выборки.

Normalized R-squareay ang parehong koepisyent ng pagpapasiya, ngunit nababagay para sa laki ng sample.

Norm R-square=1-(1-R-square)*((n-1)/(n-k)),

pagsusuri ng regression linear equation

kung saan ang n ay ang bilang ng mga obserbasyon; k - bilang ng mga parameter. Mas mainam na gamitin ang normalized na R-square sa kaso ng pagdaragdag ng mga bagong regressors (mga kadahilanan), dahil ang pagtaas ng mga ito ay tataas din ang R-squared na halaga, ngunit hindi ito magsasaad ng pagpapabuti sa modelo. Dahil sa aming kaso ang nakuha na halaga ay 0.43 (na naiiba sa R-square sa pamamagitan lamang ng 0.05), maaari nating pag-usapan ang mataas na kumpiyansa sa R-square coefficient.

karaniwang errornagpapakita ng kalidad ng approximation (approximation) ng mga resulta ng mga obserbasyon. Sa aming kaso, ang error ay 5.1. Kalkulahin bilang porsyento: 5.1/(57.4-40.1)=0.294 ≈ 29% (Itinuturing na mas mahusay ang modelo kapag ang karaniwang error ay<30%)

Mga obserbasyon- nagpapahiwatig ng bilang ng mga naobserbahang halaga (23).

TABLE ANALYSIS NG ANOVA

Upang makuha ang equation ng regression, -natutukoy ang mga istatistika - isang katangian ng katumpakan ng equation ng regression, na siyang ratio ng bahaging iyon ng pagkakaiba-iba ng dependent variable na ipinaliwanag ng equation ng regression sa hindi maipaliwanag (natirang) bahagi ng ang pagkakaiba.

Sa column df- ang bilang ng mga antas ng kalayaan k ay ibinibigay.

Para sa natitira, ito ay isang halaga na katumbas ng n-(m + 1), i.e. ang bilang ng mga unang puntos (23) na binawasan ang bilang ng mga coefficient (2) at binawasan ang libreng termino (1).

Sa column ng SS- mga kabuuan ng mga squared deviation mula sa mean value ng resultang feature. Nagpapakita ito ng:

Regression sum ng squared deviations mula sa mean value ng resultang feature ng theoretical values ​​na kinakalkula ng regression equation.

Ang natitirang kabuuan ng mga paglihis ng mga paunang halaga mula sa mga teoretikal na halaga.

Ang kabuuang kabuuan ng mga parisukat na paglihis ng mga orihinal na halaga mula sa nagresultang tampok.

Kung mas malaki ang regression sum ng squared deviations (o mas maliit ang natitirang kabuuan), mas maganda ang regression equation na tinatantya ang source point cloud. Sa aming kaso, ang natitirang halaga ay tungkol sa 50%. Samakatuwid, ang regression equation ay tinatantya ang source point cloud nang napakahina.

Sa column ng MS- walang pinapanigan na mga pagkakaiba-iba ng sample, regression at nalalabi.

Sa column F ang halaga ng criterion statistics ay kinakalkula upang masubukan ang kahalagahan ng regression equation.

Upang magsagawa ng istatistikal na pagsubok ng kahalagahan ng equation ng regression, ang isang null hypothesis ay nabuo tungkol sa kawalan ng isang relasyon sa pagitan ng mga variable (lahat ng mga coefficient para sa mga variable ay katumbas ng zero) at isang antas ng kahalagahan ay pinili.

Ang antas ng kabuluhan ay ang katanggap-tanggap na posibilidad ng paggawa ng isang uri I error - pagtanggi sa tamang null hypothesis bilang resulta ng pagsubok. Sa kasong ito, ang paggawa ng Type I error ay nangangahulugang kilalanin mula sa sample ang pagkakaroon ng relasyon sa pagitan ng mga variable sa pangkalahatang populasyon, kung sa katunayan wala ito. Ang antas ng kahalagahan ay karaniwang kinukuha na 5%. Ang paghahambing ng nakuhang halaga = 9.4 sa tabular na halaga = 3.5 (ang bilang ng mga antas ng kalayaan ay 2 at 20, ayon sa pagkakabanggit), maaari nating sabihin na ang equation ng regression ay makabuluhan (F>Fcr).

Sa kolum, ang kahalagahan ng F ang posibilidad ng nakuhang halaga ng mga istatistika ng pamantayan ay kinakalkula. Dahil sa aming kaso ang halagang ito = 0.00123, na mas mababa sa 0.05, maaari naming sabihin na ang regression equation (dependence) ay makabuluhan na may posibilidad na 95%.

Ang dalawang haligi na inilarawan sa itaas ay nagpapakita ng pagiging maaasahan ng modelo sa kabuuan.

Ang sumusunod na talahanayan ay naglalaman ng mga coefficient para sa mga regressor at ang kanilang mga pagtatantya.

Ang Y-intersection row ay hindi nauugnay sa anumang regressor, ito ay isang libreng koepisyent.

Sa column posibilidad ang mga halaga ng mga coefficient ng regression equation ay naitala. Kaya, lumabas ang equation:

Y=25.6+0.009X1+0.346X2

Ang regression equation ay dapat dumaan sa gitna ng inisyal na point cloud: 13.02≤M(b)≤38.26

Susunod, inihambing namin ang mga halaga ng mga haligi sa mga pares Mga Coefficient at Standard Error. Makikita na sa aming kaso, ang lahat ng mga ganap na halaga ng mga coefficient ay lumampas sa mga halaga ng mga karaniwang error. Maaaring ipahiwatig nito ang kahalagahan ng mga regressor, gayunpaman, ito ay isang magaspang na pagsusuri. Ang column na t-statistic ay naglalaman ng mas tumpak na pagtatasa ng kahalagahan ng mga coefficient.

Sa column na t-statistic naglalaman ng mga halaga ng t-test na kinakalkula ng formula:

t=(Coefficient)/(Karaniwang error)


n-(k+1)=23-(2+1)=20

Ayon sa talahanayan ng Mag-aaral, nakita namin ang halaga ttable = 2.086. Paghahambing

t sa ttable nakuha namin na ang regressor coefficient X2 ay hindi gaanong mahalaga.

Kolum p-halaga kumakatawan sa posibilidad na ang kritikal na halaga ng istatistika ng pagsusulit na ginamit (Estadistika ng mag-aaral) ay lalampas sa halaga na kinakalkula mula sa sample. Sa kasong ito, inihambing namin p-halaga na may napiling antas ng kahalagahan (0.05). Makikita na ang koepisyent lamang ng regressor X2=0.08>0.05 ay maaaring ituring na hindi gaanong mahalaga.

Ang mas mababang 95% at itaas na 95% na mga column ay nagpapakita ng mga hangganan para sa mga pagitan ng kumpiyansa na may 95% na kumpiyansa. Ang bawat koepisyent ay may sariling mga limitasyon: Coefficientttable*Pamantayang error

Ang mga pagitan ng kumpiyansa ay binuo lamang para sa mga halagang makabuluhan ayon sa istatistika.

LABI NG PAG-WITHDRAWAL NG TABLE

natitira ay ang paglihis ng isang indibidwal na punto (obserbasyon) mula sa linya ng regression (hulaang halaga).

Normality Assumption mga tira Ipinapalagay na ang distribusyon ng pagkakaiba sa pagitan ng hinulaang at naobserbahang mga halaga ay normal. Upang biswal na matukoy ang likas na katangian ng pamamahagi, i-on ang function natitirang tsart.

Ang mga natitirang plot ay nagpapakita ng mga pagkakaiba sa pagitan ng orihinal na mga halaga ng Y at ang mga nakalkula mula sa regression function para sa bawat bahagi ng halaga ng X1 at X2 variable. Ito ay ginagamit upang matukoy kung ang angkop na tuwid na linya na ginagamit ay katanggap-tanggap.

Maaaring gamitin ang fit plot upang mailarawan ang linya ng regression.

Mga karaniwang nalalabi - na-normalize na mga nalalabi upang matantya ang kanilang karaniwang paglihis.

AT mga istatistika ng regression ipahiwatig maramihang salik mga ugnayan (Multiple R) at determinasyon (R-squared) sa pagitan ng Y at ng hanay ng mga tampok na kadahilanan (na tumutugma sa mga halaga na nakuha nang mas maaga sa pagsusuri ng ugnayan)

Gitnang bahagi ng mesa (ANOVA) ay kinakailangan upang subukan ang kahalagahan ng equation ng regression.

Ang ibaba ng mesa ay

Mga pagtatantya ng bi ng pangkalahatang mga coefficient ng regression Вi, sinusuri ang kanilang kabuluhan at pagtatantya ng pagitan.

Pagtatantya ng vector ng mga coefficient b (column Odds):

Pagkatapos ang pagtatantya ng equation ng regression ay may anyo:

Kinakailangang suriin ang kahalagahan ng equation ng regression at ang mga resultang coefficient ng regression.

Suriin natin sa antas b=0.05 ang kahalagahan ng equation ng regression, i.e. hypothesis H0: в1=в2=в3=…=вk=0. Upang gawin ito, ang naobserbahang halaga ng F-statistic ay kinakalkula:

Ibinibigay ito ng Excel sa mga resulta pagsusuri ng pagkakaiba:

QR=527.4296; QRs=1109.8673 =>

Sa column F ipinahiwatig ang halaga Fobs.

Mula sa F-distribution table o gamit ang built-in na istatistika FDISTRIBUTION para sa antas ng kahalagahan b=0.05 at ang bilang ng mga antas ng kalayaan ng numerator n1=k=4 at ang denominator n2=n-k-1=45, nakita namin ang kritikal na halaga ng F-statistics na katumbas ng

Fcr = 2.578739184

Dahil ang naobserbahang halaga ng F-statistic ay lumampas sa kritikal na halaga nito 8.1957 > 2.7587, ang hypothesis tungkol sa pagkakapantay-pantay ng vector ng mga coefficient ay tinanggihan na may error na probabilidad na katumbas ng 0.05. Samakatuwid, ang hindi bababa sa isang elemento ng vector в=(в1,в2,в3,в4)T ay makabuluhang naiiba mula sa zero.

Suriin natin ang kahalagahan ng mga indibidwal na coefficient ng regression equation, i.e. hypothesis .

Ang pagsusuri sa kahalagahan ng mga coefficient ng regression ay isinasagawa batay sa t-statistic para sa antas ng kabuluhan.

Ang mga naobserbahang halaga ng t-statistics ay ipinahiwatig sa talahanayan ng mga resulta sa column t-mga istatistika.

Coefficients (bi)

t-statistics (tobs)

Y-intersection

Variable X5

Variable X7

Variable X10

Variable X15

Dapat silang ihambing sa kritikal na halaga na tcr na natagpuan para sa antas ng kahalagahan b = 0.05 at ang bilang ng mga antas ng kalayaan n = n - k - 1.

Upang gawin ito, ginagamit namin ang built-in na istatistika Pag-andar ng Excel STUDRASPOBR, sa pamamagitan ng pagpasok sa iminungkahing menu ng probabilidad b=0.05 at ang bilang ng mga antas ng kalayaan n= n–k-1=50-4-1=45. (Maaari mong mahanap ang mga halaga ng tcr mula sa mga talahanayan ng mga istatistika ng matematika.

Nakukuha namin ang tcr = 2.014103359.

Para sa naobserbahang halaga ng t-statistics ay mas mababa sa kritikal na halaga sa modulo 2.0141>|-0.0872|, 2.0141>|0.2630|, 2.0141>|0.7300|, 2.0141>|-1.6629 |.

Dahil dito, ang hypothesis na ang mga coefficient na ito ay katumbas ng zero ay hindi tinatanggihan na may error probability na katumbas ng 0.05, i.e. ang mga kaukulang coefficient ay hindi gaanong mahalaga.

Para sa naobserbahang halaga ng t-statistic ay mas malaki kaysa sa mapanganib modulo |3.7658|>2.0141, samakatuwid, ang hypothesis H0 ay tinanggihan, i.e. - makabuluhan.

Ang kahalagahan ng mga coefficient ng regression ay sinusuri din ng mga sumusunod na hanay ng resultang talahanayan:

Kolum p-ibig sabihin nagpapakita ng kahalagahan ng mga parameter ng modelo sa pamamagitan ng hangganan na 5% na antas, i.e. kung p≤0.05, kung gayon ang kaukulang coefficient ay itinuturing na makabuluhan, kung p>0.05, kung gayon ay hindi gaanong mahalaga.

At ang mga huling hanay - ibaba 95% at nangungunang 95% at ibaba 98% at nangungunang 98% - ito ay mga pagtatantya ng agwat ng mga coefficient ng regression na may mga ibinigay na antas ng pagiging maaasahan para sa r=0.95 (palaging ibinibigay) at r=0.98 (ibinigay kapag ang kaukulang karagdagang pagiging maaasahan ay itinakda).

Kung ang lower at upper limit ay may parehong sign (zero ay hindi kasama sa agwat ng kumpiyansa), kung gayon ang kaukulang regression coefficient ay itinuturing na makabuluhan, kung hindi - hindi gaanong mahalaga

Tulad ng makikita mula sa talahanayan, para sa koepisyent sa 3 p-value p=0.0005<0,05 и доверительные интервалы не включают ноль, т.е. по всем проверочным критериям этот коэффициент является значимым.

Ayon sa stepwise regression analysis algorithm na may pagbubukod ng mga hindi gaanong regressors, sa susunod na yugto ay kinakailangan upang ibukod mula sa pagsasaalang-alang ang isang variable na may hindi gaanong halaga ng regression coefficient.

Sa kaso kapag ang ilang mga hindi gaanong kabuluhan na coefficient ay natukoy sa panahon ng pagsusuri ng regression, ang regressor kung saan ang t-statistics () ay minimal sa absolute value ay hindi kasama sa regression equation muna. Ayon sa prinsipyong ito, sa susunod na yugto, kinakailangang ibukod ang variable na X5, na may hindi gaanong regression coefficient na 2

II YUGTO NG REGRESSION ANALYSIS.

Kasama sa modelo ang mga factor sign na X7, X10, X15, X5 ay hindi kasama.

RESULTA

Mga istatistika ng regression

Maramihang R

R-square

Normalized na R-square

karaniwang error

Mga obserbasyon

Pagsusuri ng pagkakaiba-iba

(bilang ng antas ng kalayaan n)

(kabuuan ng mga squared deviations Q)

(mean square MS=SS/n)

(Fobs= MSR/MSres)

Kahalagahan F

Regression

Coefficients

karaniwang error

t-istatistika

P-Halaga

Nangungunang 95% (bimax)

Mas mababa 98% (wimin)

Y-intersection

Variable X7

Variable X10

Variable X15

Ang coefficient ay may mga sumusunod na katangian:

1) walang sukat, samakatuwid, maihahambing para sa dami ng iba't ibang mga order;

2) nag-iiba-iba sa hanay mula -1 hanggang +1. Ang isang positibong halaga ay nagpapahiwatig ng isang direktang linear na relasyon, ang isang negatibong halaga ay nagpapahiwatig ng isang baligtad. Kung mas malapit ang ganap na halaga ng koepisyent sa isa, mas malapit ang relasyon. Ito ay pinaniniwalaan na ang relasyon ay sapat na malakas kung ang ganap na halaga ng koepisyent ay lumampas sa 0.7, at mahina kung ito ay mas mababa sa 0.3.

Ang halaga ng koepisyent ay madaling kalkulahin gamit MS Excel(Correl function).

Ang halaga r 2 ay tinatawag koepisyent ng pagpapasiya. Tinutukoy nito ang proporsyon ng variation sa isa sa mga variable na ipinaliwanag ng variation sa ibang variable.

6. Multiple correlation coefficient

Ang mga pang-ekonomiyang phenomena ay kadalasang sapat na inilalarawan nang tumpak ng mga multifactorial na modelo. Samakatuwid, nagiging kailangan na gawing pangkalahatan ang kaugnayan ng ugnayan (6.4) na isinasaalang-alang sa itaas sa kaso ng ilang mga variable.

Ang higpit ng linear na relasyon sa pagitan ng variable y at isang bilang ng mga variable xj, na isinasaalang-alang sa kabuuan, ay maaaring matukoy gamit ang maramihang koepisyent ng ugnayan.

Ipagpalagay natin na ang variable y ay naiimpluwensyahan ng dalawang variable - x at z. Sa kasong ito, ang multiple correlation coefficient ay maaaring matukoy ng formula:

. (6.9)

kung saan ang r yx , r yz , r xz ay simpleng linear pair correlation coefficients na tinutukoy mula sa kaugnayan (6.4).

Ang multiple correlation coefficient ay nasa loob ng 0 ≤ R ≤ 1. Ito ay hindi bababa sa absolute value ng anumang pares o partial correlation coefficient na may parehong pangunahing index.

Sa tulong ng maramihang koepisyent (habang ang R ay lumalapit sa 1), ang isang konklusyon ay ginawa tungkol sa lapit ng relasyon, ngunit hindi tungkol sa direksyon nito. Ang halaga ng R 2 , na tinatawag na maramihang koepisyent ng determinasyon, ay nagpapakita kung anong proporsyon ng variation ng variable na pinag-aaralan ( y) ipinapaliwanag ang pagkakaiba-iba ng natitirang mga variable na isinasaalang-alang ( x, z).

7. Partial correlation coefficient

Minsan ay interesante na sukatin ang mga bahagyang dependencies (sa pagitan ng y at xj) sa kondisyon na ang impluwensya ng iba pang mga kadahilanan na isinasaalang-alang ay aalisin. Habang kinukuha ang angkop na mga instrumento sa pagsukat partial correlation coefficients.

Isaalang-alang ang pamamaraan para sa pagkalkula ng koepisyent ng bahagyang ugnayan para sa kaso kapag mayroong tatlong random na variable sa relasyon - x, y, z. Para sa kanila, maaaring makuha ang mga simpleng coefficient ng linear pair correlation – r yx , r yz , r xz . Gayunpaman, ang malaking halaga ng koepisyent na ito ay maaaring dahil hindi lamang sa katotohanang iyon y at x ay talagang magkakaugnay, ngunit dahil din sa katotohanan na ang parehong mga variable ay nakakaranas ng isang malakas na epekto ng ikatlong kadahilanan - z.

Ang partial correlation coefficient ay naiiba sa simpleng linear pair correlation coefficient dahil sinusukat nito ang pairwise correlation ng mga kaukulang feature ( y at x) sa kondisyon na ang impluwensya ng ikatlong salik ( z) ay tinanggal.

Ang kaukulang formula ng pagkalkula:

. (6.10)

Ang partial correlation coefficient, pati na rin ang pares correlation coefficient r (kinakalkula ng formula (6.4)), ay maaaring tumagal ng mga halaga mula -1 hanggang 1.

Kapag nag-aaral ng mga kumplikadong phenomena, higit sa dalawang random na mga kadahilanan ang dapat isaalang-alang. Ang isang tamang ideya ng likas na katangian ng koneksyon sa pagitan ng mga salik na ito ay maaaring makuha lamang kung ang lahat ng mga random na kadahilanan na isinasaalang-alang ay susuriin nang sabay-sabay. Ang magkasanib na pag-aaral ng tatlo o higit pang random na mga salik ay magbibigay-daan sa mananaliksik na magtatag ng higit pa o hindi gaanong makatwirang mga pagpapalagay tungkol sa sanhi ng mga relasyon sa pagitan ng mga pinag-aralan na phenomena. Ang isang simpleng anyo ng maramihang relasyon ay isang linear na relasyon sa pagitan ng tatlong mga tampok. Ang mga random na kadahilanan ay tinutukoy bilang X 1 , X 2 at X 3 . Pairwise correlation coefficients sa pagitan X 1 at X 2 ay tinutukoy bilang r 12 , ayon sa pagkakabanggit sa pagitan X 1 at X 3 - r 12, sa pagitan X 2 at X 3 - r 23. Bilang isang sukatan ng higpit ng linear na relasyon ng tatlong mga tampok, maraming mga coefficient ng ugnayan ang ginagamit, na tinutukoy R 1-23, R 2 ּ 13, R 3 ּ 12 at partial correlation coefficients ay tinukoy r 12.3 , r 13.2 , r 23.1 .

Ang multiple correlation coefficient R 1.23 ng tatlong salik ay isang tagapagpahiwatig ng pagiging malapit ng isang linear na relasyon sa pagitan ng isa sa mga salik (index bago ang punto) at isang kumbinasyon ng dalawang iba pang mga salik (mga indeks pagkatapos ng punto).

Ang mga halaga ng coefficient R ay palaging nasa hanay mula 0 hanggang 1. Habang lumalapit ang R sa isa, ang antas ng linear na relasyon ng tatlong tampok ay tumataas.

Sa pagitan ng multiple correlation coefficient, halimbawa R 2 ּ 13 , at dalawang pares na coefficient ng ugnayan r 12 at r 23 may kaugnayan: ang bawat isa sa mga koepisyent ng pares ay hindi maaaring lumampas sa ganap na halaga R 2 ּ 13 .

Ang mga formula para sa pagkalkula ng maramihang mga coefficient ng ugnayan na may mga kilalang halaga ng mga pares na coefficient ng ugnayan r 12 , r 13 at r 23 ay:

Ang parisukat ng multiple correlation coefficient R 2 ang tumawag koepisyent ng maramihang pagpapasiya. Ipinapakita nito ang proporsyon ng variation sa dependent variable sa ilalim ng impluwensya ng mga pinag-aralan na salik.

Ang kahalagahan ng maramihang ugnayan ay tinatantya ng F- pamantayan:

n- laki ng sample; k- bilang ng mga kadahilanan. Sa kaso natin k = 3.

null hypothesis tungkol sa pagkakapantay-pantay ng multiple correlation coefficient sa populasyon sa zero ( h o:r=0) ay tinatanggap kung f f<f t, at tinatanggihan kung
f f ³ f t.

teoretikal na halaga f-natukoy ang pamantayan para sa v 1 = k- 1 at v 2 = n - k antas ng kalayaan at ang tinatanggap na antas ng kahalagahan a (Appendix 1).

Isang halimbawa ng pagkalkula ng multiple correlation coefficient. Kapag pinag-aaralan ang kaugnayan sa pagitan ng mga salik, nakuha ang mga coefficient ng ugnayan ng pares ( n =15): r 12 ==0.6; r 13 = 0.3; r 23 = - 0,2.

Ito ay kinakailangan upang malaman ang pagtitiwala ng pag-sign X 2 off sign X 1 at X 3 , ibig sabihin, kalkulahin ang maramihang koepisyent ng ugnayan:

Halaga ng talahanayan F-criterion sa n 1 = 2 at n 2 = 15 - 3 = 12 degrees ng kalayaan sa a = 0.05 F 0.05 = 3.89 at sa a = 0.01 F 0,01 = 6,93.

Kaya, ang relasyon sa pagitan ng mga tampok R 2.13 = 0.74 makabuluhan sa
1% antas ng kahalagahan F f > F 0,01 .

Sa paghusga sa pamamagitan ng koepisyent ng maramihang pagpapasiya R 2 = (0.74) 2 = 0.55, pagkakaiba-iba ng tampok X Ang 2 ay 55% na nauugnay sa epekto ng mga pinag-aralan na salik, at 45% ng variation (1-R 2) ay hindi maipaliwanag ng impluwensya ng mga variable na ito.

Bahagyang Linear na Kaugnayan

Bahagyang koepisyent ng ugnayan ay isang indicator na sumusukat sa antas ng conjugation ng dalawang katangian.

Binibigyang-daan ka ng mga istatistika ng matematika na magtatag ng isang ugnayan sa pagitan ng dalawang tampok na may pare-parehong halaga ng pangatlo, nang hindi nagse-set up ng isang espesyal na eksperimento, ngunit gumagamit ng mga ipinares na coefficient ng ugnayan. r 12 , r 13 , r 23 .

Ang mga partial correlation coefficient ay kinakalkula gamit ang mga formula:

Ang mga numero bago ang tuldok ay nagpapahiwatig sa pagitan ng kung aling mga tampok ang pag-asa ay pinag-aaralan, at ang bilang pagkatapos ng tuldok ay nagpapahiwatig ng impluwensya ng kung aling tampok ang ibinubukod (tinatanggal). Ang error at ang criterion ng kahalagahan ng bahagyang ugnayan ay tinutukoy ng parehong mga formula tulad ng para sa pairwise correlation:

.

teoretikal na halaga t- criterion ay tinutukoy para sa v = n– 2 antas ng kalayaan at tinatanggap na antas ng kahalagahan a (Appendix 1).

Ang null hypothesis tungkol sa pagkakapantay-pantay ng partial correlation coefficient sa pinagsama-samang zero ( Ho: r= 0) ay tinatanggap kung t f< t t, at tinatanggihan kung
t f ³ t t.

Ang mga partial coefficient ay maaaring kumuha ng mga halaga sa pagitan ng -1 at +1. Pribado mga koepisyent ng pagpapasiya ay matatagpuan sa pamamagitan ng pag-squaring ng mga partial correlation coefficients:

D 12.3 = r 2 12ּ3 ; d 13.2 = r 2 13ּ2 ; d 23ּ1 = r 2 23ּ1 .

Ang pagtukoy sa antas ng partikular na epekto ng mga indibidwal na salik sa nagreresultang tampok habang hindi kasama (inaalis) ang koneksyon nito sa iba pang mga tampok na pumipihit sa ugnayang ito ay kadalasang may malaking interes. Minsan nangyayari na sa patuloy na halaga ng inalis na katangian, imposibleng mapansin ang istatistikal na epekto nito sa pagkakaiba-iba ng iba pang mga katangian. Upang maunawaan ang pamamaraan para sa pagkalkula ng partial correlation coefficient, isaalang-alang ang isang halimbawa. Mayroong tatlong mga pagpipilian X, Y at Z. Para sa laki ng sample n= 180 ipinares na coefficient ng ugnayan ang natukoy

rxy = 0,799; rxz = 0,57; r yz = 0,507.

Tukuyin natin ang mga partial correlation coefficients:

Bahagyang koepisyent ng ugnayan sa pagitan ng parameter X at Y Z (r xyz = 0.720) ay nagpapakita na isang maliit na bahagi lamang ng kaugnayan ng mga tampok na ito sa kabuuang ugnayan ( rxy= 0.799) ay dahil sa impluwensya ng ikatlong tampok ( Z). Ang isang katulad na konklusyon ay dapat gawin patungkol sa partial correlation coefficient sa pagitan ng parameter X at parameter Z na may pare-parehong halaga ng parameter Y (r X zּy = 0.318 at rxz= 0.57). Sa kabaligtaran, ang bahagyang koepisyent ng ugnayan sa pagitan ng mga parameter Y at Z na may pare-parehong halaga ng parameter X r yz ּ x= 0.105 ay makabuluhang naiiba mula sa pangkalahatang koepisyent ng ugnayan r z= 0.507. Makikita mula dito na kung pipili ka ng mga bagay na may parehong halaga ng parameter X, pagkatapos ay ang kaugnayan sa pagitan ng mga tampok Y at Z sila ay magiging napakahina, dahil ang isang makabuluhang bahagi ng relasyon na ito ay dahil sa pagkakaiba-iba ng parameter X.

Sa ilang mga pagkakataon, ang bahagyang koepisyent ng ugnayan ay maaaring kabaligtaran sa sign sa ipinares.

Halimbawa, kapag pinag-aaralan ang kaugnayan sa pagitan ng mga tampok X, Y at Z- nakuha ang mga nakapares na coefficient ng ugnayan (na may n = 100): r xy = 0.6; r X z= 0,9;
r z = 0,4.

Mga bahagyang coefficient ng ugnayan kapag hindi kasama ang impluwensya ng ikatlong tampok:

Ipinapakita ng halimbawa na ang mga halaga ng koepisyent ng pares at ang bahagyang koepisyent ng ugnayan ay naiiba sa tanda.

Ginagawang posible ng partial correlation method na kalkulahin ang second-order partial correlation coefficient. Ang koepisyent na ito ay nagpapahiwatig ng kaugnayan sa pagitan ng una at pangalawang tampok na may pare-parehong halaga ng ikatlo at ikaapat. Ang pangalawang pagkakasunud-sunod na bahagyang koepisyent ay tinutukoy batay sa unang pagkakasunud-sunod na bahagyang coefficient ayon sa pormula:

saan r 12 . 4 , r 13-4, r 23 ּ4 - partial coefficients, ang halaga nito ay tinutukoy ng partial coefficient formula, gamit ang pares correlation coefficients r 12 , r 13 , r 14 , r 23 , r 24 , r 34 .