Ang mito tungkol sa kahalagahan ng koepisyent ng ugnayan. Istatistikong Kahalagahan ng Regression at Correlation Parameter

Dapat pansinin na ang tunay na tagapagpahiwatig ng antas ng linear na relasyon ng mga variable ay theoretical correlation coefficient, na kinakalkula batay sa data ng buong pangkalahatang populasyon (i.e. lahat ng posibleng halaga ng mga tagapagpahiwatig):

saan - teoretikal na covariance, na kinakalkula bilang mathematical na inaasahan ng mga produkto ng mga deviations ng SW
at mula sa kanilang mga inaasahan sa matematika.

Bilang isang tuntunin, hindi namin makalkula ang teoretikal na koepisyent ng ugnayan. Gayunpaman, dahil ang sampling coefficient ay hindi katumbas ng zero
hindi ito sumusunod na ang theoretical coefficient din
(i.e. ang mga indicator ay maaaring linearly independent). yun. batay sa random sampling data, hindi maitatalo na may kaugnayan sa pagitan ng mga indicator.

Ang sample correlation coefficient ay isang pagtatantya ng theoretical coefficient, dahil ito ay kinakalkula para lamang sa isang bahagi ng mga halaga ng mga variable.

Laging umiiral error sa koepisyent ng ugnayan. Ang error na ito ay ang pagkakaiba sa pagitan ng correlation coefficient ng sample volume at ang koepisyent ng ugnayan para sa pangkalahatang populasyon ay tinutukoy ng mga formula:

sa
; at
sa
.

Ang pagsubok sa kahalagahan ng linear correlation coefficient ay nangangahulugang pagsubok kung gaano natin mapagkakatiwalaan ang sample na data.

Para sa layuning ito, ang null hypothesis ay nasubok.
na ang halaga ng koepisyent ng ugnayan para sa pangkalahatang populasyon ay zero, i.e. walang ugnayan sa pangkalahatang populasyon. Ang kahalili ay ang hypothesis
.

Upang subukan ang hypothesis na ito, kinakalkula namin - mga istatistika ( -Pamantayan ng mag-aaral:

na mayroong distribusyon ng Mag-aaral na may
antas ng kalayaan 1.

Ayon sa mga talahanayan ng pamamahagi ng Mag-aaral, tinutukoy ang kritikal na halaga
.

Kung ang kinakalkula na halaga ng criterion
, pagkatapos ay ang null hypothesis ay tinanggihan, iyon ay, ang kinakalkula na koepisyent ng ugnayan ay makabuluhang naiiba mula sa zero na may posibilidad
.

Kung
, kung gayon ang null hypothesis ay hindi maaaring tanggihan. Sa kasong ito, hindi ibinukod na ang tunay na halaga ng koepisyent ng ugnayan ay katumbas ng zero, i.e. ang kaugnayan ng mga tagapagpahiwatig ay maaaring ituring na hindi gaanong mahalaga sa istatistika.

Halimbawa 1. Ipinapakita ng talahanayan ang data para sa 8 taon sa kabuuang kita at panghuling paggasta sa pagkonsumo .

Upang pag-aralan at sukatin ang higpit ng ugnayan sa pagitan ng mga ibinigay na tagapagpahiwatig.

Paksa 4. Pairwise linear regression. Pinakamababang parisukat na paraan

Ang koepisyent ng ugnayan ay nagpapahiwatig ng antas ng pagiging malapit ng relasyon sa pagitan ng dalawang tampok, ngunit hindi nito sinasagot ang tanong kung paano nakakaapekto ang pagbabago sa isang tampok ng isang yunit ng dimensyon nito sa pagbabago sa isa pang tampok. Upang masagot ang tanong na ito, ginagamit ang mga pamamaraan ng pagsusuri ng regression.

Pagsusuri ng regression nagtatatag anyo dependencies sa pagitan ng random variable at mga variable na halaga
, saka, mga halaga
itinuturing na eksaktong tinukoy.

Regression Equation ay isang formula para sa isang istatistikal na relasyon sa pagitan ng mga variable.

Kung linear ang formula na ito, kung gayon nag-uusap kami tungkol sa linear regression. Ang formula para sa istatistikal na relasyon ng dalawang variable ay tinatawag pairwise regression(ilang mga variable - maramihan).

Ang pagpili ng formula ng dependency ay tinatawag pagtutukoy mga equation ng regression. Tinatawag ang pagtatantya ng mga halaga ng mga parameter ng napiling formula parameterization.

Paano suriin ang mga halaga ng mga parameter at suriin ang pagiging maaasahan ng mga pagtatantya na ginawa?

Isaalang-alang ang pigura

Sa graph (a) ang relasyon X at sa ay malapit sa linear, ang tuwid na linya 1 dito ay malapit sa mga punto ng pagmamasid at ang huli ay lumihis mula dito bilang resulta lamang ng medyo maliit na random na mga impluwensya.

Sa graph (b) ang tunay na relasyon sa pagitan ng mga halaga X at sa ay inilalarawan ng isang non-linear na function 2, at kahit anong tuwid na linya ang iguguhit natin (halimbawa, 1), ang mga paglihis ng mga puntos mula rito ay hindi random.

Sa graph (c) ang ugnayan sa pagitan ng mga variable X at sa nawawala, at ang mga resulta ng parameterization ng anumang formula ng dependency ay mabibigo.

Ang panimulang punto ng econometric dependency analysis ay karaniwang isang pagtatantya ng linear dependence ng mga variable. Maaari mong palaging subukang gumuhit ng tulad ng isang tuwid na linya na magiging "pinakamalapit" sa mga punto ng pagmamasid sa mga tuntunin ng kanilang kabuuan (halimbawa, sa figure (c) ang linya 1 ay mas mahusay kaysa sa linya 2).

Theoretical Paired Linear Regression Equation mukhang:

saan
tinawag teoretikal na mga parameter (theoretical coefficients) pagbabalik; -random na paglihis(random na pagkakamali).

Sa pangkalahatan, ang teoretikal na modelo ay kinakatawan bilang:

Upang matukoy ang mga halaga ng mga coefficient ng teoretikal na regression, kinakailangang malaman ang lahat ng mga halaga ng mga variable. X at Y, ibig sabihin. lahat pangkalahatang populasyon, na halos imposible.

Ang gawain ay ang mga sumusunod: ayon sa magagamit na data ng pagmamasid
,
ito ay kinakailangan upang tantyahin ang mga halaga ng mga parameter
.

Hayaan a – pagtatantya ng parameter
,b – pagtatantya ng parameter .

Pagkatapos ang tinantyang regression equation ay may anyo:
,

saan
mga teoretikal na halaga ng dependent variable y, - naobserbahang mga halaga ng error . Ang equation na ito ay tinatawag empirical regression equation. Isusulat namin ito sa form
.

Ang pagtatantya ng mga parameter ng linear regression ay batay sa Pinakamababang parisukat na paraan (MNC) ay isang paraan para sa pagtatantya ng mga parameter ng isang linear regression na nagpapaliit sa kabuuan ng mga squared deviations ng mga obserbasyon ng dependent variable mula sa nais na linear function.

Function Q ay isang quadratic function dalawang parameter a at b. kasi ito ay tuloy-tuloy, matambok, at may hangganan mula sa ibaba (
), kaya umabot ito sa pinakamababa. Ang isang kinakailangang kondisyon para sa pagkakaroon ng isang minimum ay ang pagkakapantay-pantay sa zero ng mga partial derivatives nito na may kinalaman sa a at b:

Paghahati sa parehong equation ng system sa pamamagitan ng n, nakukuha natin:

Kung hindi, maaari kang sumulat:

at  karaniwang mga paglihis ng mga halaga ng parehong mga tampok.

yun. ang linya ng regression ay dumadaan sa punto na may mga mean na halaga X at sa
, a koepisyent ng regression b proporsyonal sa covariance at coefficient linear na ugnayan.

Kung bukod sa regression Y sa X para sa parehong mga empirikal na halaga ang regression equation X sa Y ay natagpuan (
, saan
), pagkatapos ay ang produkto ng mga coefficient
:

Upang koepisyent ng regression - isa itong value na nagpapakita kung gaano karaming mga unit ng dimensyon ang mababago ng value kapag binabago ang halaga isang yunit ng sukat nito. Ang coefficient .

Stage 3. Paghahanap ng kaugnayan sa pagitan ng data

Linear na Kaugnayan

Pangwakas na yugto ang mga gawain ng pag-aaral ng mga ugnayan sa pagitan ng mga phenomena - ang pagtatasa ng higpit ng koneksyon ayon sa mga tagapagpahiwatig ng ugnayan. Napakahalaga ng yugtong ito para sa pagtukoy ng mga dependency sa pagitan ng salik at mga resultang palatandaan, at, dahil dito, para sa posibilidad ng pag-diagnose at paghula ng hindi pangkaraniwang bagay na pinag-aaralan.

Diagnosis(mula sa Griyego. pagkilala sa diagnosis) - pagtukoy sa kakanyahan at katangian ng estado ng isang bagay o phenomenon batay sa komprehensibong pag-aaral nito.

Pagtataya(mula sa Greek. prognosis foresight, prediction) - anumang tiyak na hula, paghuhusga tungkol sa estado ng isang phenomenon sa hinaharap (weather forecast, resulta ng halalan, atbp.). Ang pagtataya ay isang hypothesis na pinatutunayan ng siyensya tungkol sa posibleng kalagayan sa hinaharap ng system, bagay o phenomenon sa ilalim ng pag-aaral at mga indicator na nagpapakita ng estadong ito. Pagtataya - pagbuo ng isang pagtataya, espesyal Siyentipikong pananaliksik tiyak na mga prospect para sa pagbuo ng isang phenomenon.

Alalahanin ang kahulugan ng ugnayan:

Kaugnayan- pag-asa sa pagitan ng mga random na variable, na ipinahayag sa katotohanan na ang pamamahagi ng isang variable ay nakasalalay sa halaga ng isa pang variable.

Ang ugnayan ay sinusunod hindi lamang sa pagitan ng dami, kundi pati na rin ng mga katangian ng husay. Umiiral iba't-ibang paraan at mga tagapagpahiwatig para sa pagtatasa ng lapit ng mga ugnayan. Pagtutuunan lang natin ng pansin linear pair correlation coefficient , na ginagamit kapag may linear na relasyon sa pagitan ng mga random na variable. Sa pagsasagawa, madalas na kinakailangan upang matukoy ang antas ng koneksyon sa pagitan ng mga random na variable ng hindi pantay na sukat, kaya kanais-nais na magkaroon ng ilang walang sukat na katangian ng koneksyon na ito. Ang ganitong katangian (sukat ng koneksyon) ay ang koepisyent ng linear correlation rxy, na tinutukoy ng formula

saan , .

Ang pagtukoy at , maaari mong makuha ang sumusunod na expression para sa pagkalkula ng koepisyent ng ugnayan

Kung ipinakilala natin ang konsepto normalized na paglihis , na nagpapahayag ng paglihis ng mga nauugnay na halaga mula sa mean sa mga fraction ng karaniwang paglihis:

pagkatapos ay ang expression para sa koepisyent ng ugnayan ay kukuha ng anyo

Kung kalkulahin natin ang koepisyent ng ugnayan batay sa mga huling halaga ng inisyal mga random na variable mula sa talahanayan ng pagkalkula, kung gayon ang koepisyent ng ugnayan ay maaaring kalkulahin ng formula

Mga katangian ng linear correlation coefficient:

isa). Ang correlation coefficient ay isang walang sukat na dami.

2). |r| £1 o .

3). , a,b= const, - ang halaga ng koepisyent ng ugnayan ay hindi magbabago kung ang lahat ng mga halaga ng mga random na variable X at Y ay pinarami (o hinati) sa isang pare-pareho.

4). , a,b= const, - ang halaga ng koepisyent ng ugnayan ay hindi magbabago kung ang lahat ng mga halaga ng mga random na variable X at Y ay nadagdagan (o nabawasan) ng isang pare-pareho.

5). Mayroong kaugnayan sa pagitan ng koepisyent ng ugnayan at koepisyent ng pagbabalik:

Ang mga halaga ng mga coefficient ng ugnayan ay maaaring bigyang-kahulugan bilang mga sumusunod:

Dami na pamantayan para sa pagtatasa ng lapit ng komunikasyon:

Para sa mga layunin ng prognostic, mga dami na may |r| > 0.7.

Ang koepisyent ng ugnayan ay nagbibigay-daan sa amin upang tapusin na mayroong isang linear na relasyon sa pagitan ng dalawang random na variable, ngunit hindi nagpapahiwatig kung alin sa mga variable ang nagiging sanhi ng pagbabago sa isa pa. Sa katunayan, ang isang relasyon sa pagitan ng dalawang random na variable ay maaaring umiral nang walang sanhi na relasyon sa pagitan ng mga variable mismo, dahil ang pagbabago sa parehong random na variable ay maaaring sanhi ng pagbabago (impluwensya) ng pangatlo.

Koepisyent ng ugnayan rxy ay simetriko na may paggalang sa mga itinuturing na random variable X at Y. Nangangahulugan ito na upang matukoy ang koepisyent ng ugnayan, ganap na walang malasakit kung alin sa mga dami ang independyente at alin ang nakasalalay.

Kahalagahan ng koepisyent ng ugnayan

Kahit na para sa mga independiyenteng dami, ang koepisyent ng ugnayan ay maaaring lumabas na hindi zero dahil sa random na pagkakalat ng mga resulta ng pagsukat o dahil sa isang maliit na sample ng mga random na variable. Samakatuwid, dapat suriin ang kahalagahan ng koepisyent ng ugnayan.

Ang kahalagahan ng linear correlation coefficient ay nasubok batay sa T-test ng mag-aaral :

Kung ang t > t cr(P, n-2), pagkatapos linear coefficient makabuluhan ang ugnayan, at samakatuwid, makabuluhan din ang ugnayang istatistika X at Y.

Para sa kaginhawaan ng mga kalkulasyon, ang mga talahanayan ng mga halaga ng mga limitasyon ng kumpiyansa ng mga coefficient ng ugnayan para sa ibang bilang ng mga antas ng kalayaan ay nilikha. f = n–2 (two-tailed test) at iba't ibang antas ng kahalagahan a= 0.1; 0.05; 0.01 at 0.001. Itinuturing na makabuluhan ang ugnayan kung ang kinakalkula na koepisyent ng ugnayan ay lumampas sa halaga ng limitasyon ng kumpiyansa ng koepisyent ng ugnayan para sa ibinigay na f at a.

Para malaki n at a= 0.01 ang halaga ng limitasyon ng kumpiyansa ng koepisyent ng ugnayan ay maaaring kalkulahin gamit ang tinatayang formula

Kahalagahan ng mga coefficient ng ugnayan sinusuri namin ayon sa pamantayan ng Mag-aaral:

saan - ang ibig sabihin ng square error ng correlation coefficient, na tinutukoy ng formula:

Kung ang kinakalkula na halaga (mas mataas kaysa sa tabular na halaga), maaari nating tapusin na ang halaga ng koepisyent ng ugnayan ay makabuluhan. t ay matatagpuan ayon sa talahanayan ng mga halaga ng pamantayan ng Mag-aaral. Isinasaalang-alang nito ang bilang ng mga antas ng kalayaan (V = n - 1) at ang antas ng kumpiyansa (karaniwang 0.05 o 0.01 sa mga kalkulasyon sa ekonomiya). Sa aming halimbawa, ang bilang ng mga antas ng kalayaan ay: P - 1 = 40 - 1 = 39. Sa antas ng kumpiyansa R = 0,05; t= 2.02. Dahil ang (aktwal (Talahanayan 7.8) sa lahat ng mga kaso ay mas mataas kaysa sa t-talahanayan, ang ugnayan sa pagitan ng epektibo at mga tagapagpahiwatig ng kadahilanan ay maaasahan, at ang halaga ng mga koepisyent ng ugnayan ay makabuluhan.

Ang susunod na yugto ng pagsusuri ng ugnayan ay ang pagkalkula ng equation ng relasyon (regression). Ang solusyon ay karaniwang isinasagawa nang sunud-sunod. Una, ang isang kadahilanan ay isinasaalang-alang, na may pinakamahalagang epekto sa tagapagpahiwatig ng pagganap, pagkatapos ay ang pangalawa, pangatlo, atbp. At sa bawat hakbang, ang equation ng komunikasyon ay kinakalkula, maramihang salik mga ugnayan at pagpapasiya, F-ratio (Fisher criterion), karaniwang error at iba pang mga indicator kung saan tinatantya ang pagiging maaasahan ng link equation. Ang kanilang halaga sa bawat hakbang ay inihambing sa nauna. Kung mas mataas ang halaga ng mga koepisyent ng maramihang ugnayan, determinasyon at pamantayan ni Fisher at mas mababa ang halaga ng karaniwang error, mas tumpak na inilalarawan ng equation ng relasyon ang mga dependency na nabuo sa pagitan ng mga pinag-aralan na indicator. Kung ang pagdaragdag ng mga sumusunod na salik ay hindi nagpapabuti sa tinantyang mga tagapagpahiwatig ng komunikasyon, dapat silang itapon, i.e. manatili sa equation kung saan ang mga indicator na ito ay pinaka-optimal.

Ang paghahambing ng mga resulta sa bawat hakbang (Talahanayan 7.9), maaari nating tapusin na ang limang-factor na modelo na nakuha sa ikalimang hakbang ay lubos na naglalarawan ng kaugnayan sa pagitan ng mga pinag-aralan na tagapagpahiwatig. Bilang resulta, ang equation ng koneksyon ay may anyo:

Ang mga coefficient ng equation ay nagpapakita ng quantitative na epekto ng bawat salik sa performance indicator, habang ang iba ay nananatiling hindi nagbabago. Sa kasong ito, maaari naming ibigay ang sumusunod na interpretasyon ng nagresultang equation: ang kakayahang kumita ay tumaas ng 3.65% na may pagtaas sa materyal na kahusayan ng 1 ruble; sa pamamagitan ng 0.09% - na may pagtaas sa produktibidad ng kapital ng 1 kopeck; sa pamamagitan ng 1.02% - na may pagtaas sa average na taunang output bawat empleyado ng 1 milyong rubles; sa pamamagitan ng 0.052% - na may pagtaas sa tiyak na timbang ng mga produkto pinakamataas na kategorya kalidad ng 1%. Sa isang pagtaas sa tagal ng turnover ng mga pondo sa pamamagitan ng 1 araw, ang kakayahang kumita ay bumababa ng isang average ng 0.122%.

Ang mga coefficient ng regression sa equation ng relasyon ay may iba't ibang mga yunit ng pagsukat, na ginagawang hindi maihahambing kung ang tanong ay lumitaw tungkol sa kamag-anak na lakas ng impluwensya ng mga kadahilanan sa epektibong tagapagpahiwatig. Upang dalhin ang mga ito sa isang maihahambing na anyo, ang lahat ng mga variable ng equation ng regression ay ipinahayag sa mga fraction ng standard deviation, sa madaling salita, kinakalkula nila standardized na regression coefficients. Tinatawag din silang mga betta coefficient sa pamamagitan ng simbolo na tinatanggap para sa kanilang pagtatalaga (p).

Ang mga beta coefficient at regression coefficient ay nauugnay sa sumusunod na relasyon:

Tingnan din:

Panimula. 2

1. Pagsusuri sa kahalagahan ng regression at correlation coefficients gamit ang Student's f-test. 3

2. Pagkalkula ng kahalagahan ng regression at correlation coefficients gamit ang Student's f-test. 6

Konklusyon. labinlima

Matapos mabuo ang equation ng regression, kinakailangang suriin ang kahalagahan nito: gamit ang mga espesyal na pamantayan, matukoy kung ang nagresultang pag-asa na ipinahayag ng equation ng regression ay random, i.e. maaari ba itong gamitin para sa mga layuning panghuhula at para sa factor analysis. Sa mga istatistika, ang mga pamamaraan ay binuo para sa mahigpit na pagsubok ng kahalagahan ng mga coefficient ng regression gamit ang pagsusuri ng pagkakaiba-iba at pagkalkula ng mga espesyal na pamantayan (halimbawa, F-criterion). Ang isang hindi mahigpit na pagsusuri ay maaaring isagawa sa pamamagitan ng pagkalkula ng average na kamag-anak na linear deviation (e), na tinatawag karaniwang error mga pagtatantya:

Ngayon ay magpatuloy tayo sa pagtatasa ng kahalagahan ng mga coefficient ng regression bj at pagbuo ng agwat ng kumpiyansa para sa mga parameter ng modelo ng regression na Py (J=l,2,..., p).

Block 5 - pagtatasa ng kahalagahan ng mga coefficient ng regression sa pamamagitan ng halaga ng t-test ng Mag-aaral. Ang mga kinakalkula na halaga ng ta ay inihambing sa wastong halaga

Block 5 - pagtatasa ng kahalagahan ng mga coefficient ng regression sa pamamagitan ng halaga ng ^-criterion. Ang mga kinakalkula na halaga ng t0n ay inihambing sa pinahihintulutang halaga 4,/, na tinutukoy mula sa mga talahanayan ng t - mga pamamahagi para sa isang naibigay na posibilidad ng error (a) at ang bilang ng mga antas ng kalayaan (/).

Bilang karagdagan sa pagsubok sa kahalagahan ng buong modelo, kinakailangang subukan ang kahalagahan ng mga koepisyent ng regression gamit ang /-test ng Estudyante. Ang pinakamababang halaga ng regression coefficient bg ay dapat na tumutugma sa kondisyon na bifob- ^t, kung saan ang bi ay ang halaga ng coefficient ng equation ng regression sa natural na sukat na may i-th factor sign; ab. - root mean square error ng bawat coefficient. hindi pagkakatugma sa kanilang mga sarili sa mga tuntunin ng kanilang kahalagahan ng mga coefficient D;

Dagdag pa pagsusuri sa istatistika pag-aalala sa pagsubok sa kahalagahan ng mga coefficient ng regression. Upang gawin ito, nakita namin ang halaga ng ^-criterion para sa mga coefficient ng regression. Bilang resulta ng kanilang paghahambing, natutukoy ang pinakamaliit na t-criterion. Ang salik na ang coefficient ay tumutugma sa pinakamaliit na ^-criterion ay hindi kasama sa karagdagang pagsusuri.

Upang masuri ang istatistikal na kahalagahan ng regression at correlation coefficients, ang t-test ng Mag-aaral at mga pagitan ng kumpiyansa bawat isa sa mga tagapagpahiwatig. Ang hypothesis Ngunit tungkol sa random na likas na katangian ng mga tagapagpahiwatig ay iniharap, i.e. tungkol sa kanilang hindi gaanong pagkakaiba mula sa zero. Ang pagtatasa ng kahalagahan ng regression at correlation coefficients gamit ang Student's f-test ay isinasagawa sa pamamagitan ng paghahambing ng kanilang mga halaga sa laki ng random na error:

Ang pagtatantya ng kahalagahan ng mga coefficient ng purong regression gamit ang /-Ang pamantayan ng mag-aaral ay nabawasan sa pagkalkula ng halaga

Ang kalidad ng paggawa ay isang katangian ng isang partikular na paggawa, na sumasalamin sa antas ng pagiging kumplikado, tensyon (intensity), mga kondisyon at kahalagahan para sa pag-unlad ng ekonomiya. K.t. sinusukat ng sistema ng taripa, na nagbibigay-daan sa pag-iiba ng mga sahod depende sa antas ng kwalipikasyon (kumplikado ng paggawa), mga kondisyon, kalubhaan ng paggawa at intensity nito, pati na rin ang kahalagahan mga indibidwal na industriya at mga industriya, rehiyon, teritoryo para sa pagpapaunlad ng ekonomiya ng bansa. K.t. nakakahanap ng ekspresyon sa sahod mga manggagawang umuusbong sa merkado ng paggawa sa ilalim ng impluwensya ng supply at demand ng paggawa (mga partikular na uri ng paggawa). K.t. - kumplikadong istraktura

Ang mga marka na nakuha para sa kamag-anak na kahalagahan ng indibidwal na pang-ekonomiya, panlipunan at pangkalikasan na kahihinatnan ng pagpapatupad ng proyekto ay higit na nagbibigay ng batayan para sa paghahambing ng mga alternatibong proyekto at ang kanilang mga opsyon gamit ang "complex scoring dimensionless criterion ng social at environmental-economic na kahusayan" ng proyektong Ek, kinakalkula (sa average na mga marka ng kahalagahan) ayon sa formula

Ang regulasyon sa loob ng industriya ay nagbibigay ng mga pagkakaiba sa sahod para sa mga manggagawa sa isang partikular na sangay ng industriya, depende sa kahalagahan ng mga indibidwal na uri ng produksyon sa industriyang ito, sa pagiging kumplikado at mga kondisyon ng trabaho, at gayundin sa mga anyo ng sahod na ginamit.

Ang nakuhang marka ng rating ng nasuri na enterprise na may kaugnayan sa benchmark na enterprise nang hindi isinasaalang-alang ang kahalagahan mga indibidwal na tagapagpahiwatig ay comparative. Kapag inihambing ang mga rating ng ilang mga negosyo, ang pinakamataas na rating ay kabilang sa negosyo na may pinakamababang halaga ng nakuha na comparative assessment.

Ang pag-unawa sa kalidad ng isang produkto bilang sukatan ng pagiging kapaki-pakinabang nito ay praktikal mahalagang tanong tungkol sa pagsukat nito. Ang solusyon nito ay nakakamit sa pamamagitan ng pag-aaral ng kahalagahan ng mga indibidwal na katangian sa pagtugon sa isang partikular na pangangailangan. Ang kahalagahan ng kahit na parehong ari-arian ay maaaring mag-iba depende sa mga kondisyon ng pagkonsumo ng produkto. Dahil dito, ang pagiging kapaki-pakinabang ng mga kalakal sa iba't ibang mga kalagayan ng paggamit nito ay iba.

Ang ikalawang yugto ng trabaho ay ang pag-aaral ng istatistikal na data at ang pagkakakilanlan ng kaugnayan at pakikipag-ugnayan ng mga tagapagpahiwatig, ang pagpapasiya ng kahalagahan ng mga indibidwal na kadahilanan at ang mga dahilan para sa pagbabago sa mga pangkalahatang tagapagpahiwatig.

Ang lahat ng isinasaalang-alang na mga tagapagpahiwatig ay binabawasan sa isa sa paraang ang resulta ay komprehensibong pagsusuri lahat ng nasuri na aspeto ng aktibidad ng negosyo, isinasaalang-alang ang mga kondisyon ng aktibidad nito, isinasaalang-alang ang antas ng kahalagahan ng mga indibidwal na tagapagpahiwatig para sa iba't ibang uri mamumuhunan:

Ang regression coefficients ay nagpapakita ng intensity ng impluwensya ng mga salik sa performance indicator. Kung ang isang paunang standardisasyon ng mga tagapagpahiwatig ng kadahilanan ay natupad, kung gayon ang b0 ay katumbas ng average na halaga ng epektibong tagapagpahiwatig sa pinagsama-samang. Ang mga coefficient b, b2 ..... bl ay nagpapakita kung gaano karaming mga yunit ang antas ng epektibong tagapagpahiwatig ay lumihis mula sa average na halaga nito, kung ang mga halaga ng tagapagpahiwatig ng kadahilanan ay lumihis mula sa average, katumbas ng zero, para sa isa karaniwang lihis. Kaya, ang mga coefficient ng regression ay nagpapakilala sa antas ng kahalagahan ng mga indibidwal na kadahilanan para sa pagtaas ng antas ng epektibong tagapagpahiwatig. Ang mga tiyak na halaga ng mga coefficient ng regression ay tinutukoy mula sa empirical data ayon sa pamamaraan hindi bababa sa mga parisukat(bilang resulta ng paglutas ng mga sistema ng mga normal na equation).

2. Pagkalkula ng kahalagahan ng regression at correlation coefficients gamit ang Student's f-test

Isaalang-alang natin ang linear na anyo ng mga multifactorial na relasyon hindi lamang bilang pinakasimpleng, kundi pati na rin bilang isang form na ibinigay ng mga pakete ng software ng application para sa mga PC. Kung ang koneksyon ng isang indibidwal na kadahilanan na may isang resultang katangian ay hindi linear, ang equation ay linearized sa pamamagitan ng pagpapalit o pagbabago ng halaga ng katangian ng kadahilanan.

Pangkalahatang anyo Ang multifactorial regression equation ay may anyo:

kung saan ang k ay ang bilang ng mga tampok na kadahilanan.

Upang gawing simple ang sistema ng hindi bababa sa mga parisukat na equation na kinakailangan upang kalkulahin ang mga parameter ng equation (8.32), karaniwang ipinakikilala ng isa ang mga paglihis ng mga indibidwal na halaga ng lahat ng mga tampok mula sa mga average na halaga ng mga tampok na ito.

Kumuha kami ng isang sistema ng k least squares equation:

Ang paglutas ng sistemang ito, nakukuha namin ang mga halaga ng mga kondisyon na purong regression coefficient b. Ang libreng termino ng equation ay kinakalkula ng formula

Ang terminong "conditional-pure regression coefficient" ay nangangahulugang ang bawat isa sa mga halaga bj ay sumusukat sa average na paglihis ng populasyon ng nagresultang katangian mula sa katamtamang laki kapag ang salik na ito xj ay lumihis mula sa average na halaga nito sa bawat yunit ng pagsukat nito at sa kondisyon na ang lahat ng iba pang salik na kasama sa equation ng regression ay naayos sa mga average na halaga, hindi nagbabago, hindi nag-iiba.

Kaya, sa kaibahan sa pairwise regression coefficient, ang conditional pure regression coefficient ay sumusukat sa impluwensya ng isang salik, na nag-abstract mula sa ugnayan sa pagitan ng pagkakaiba-iba ng salik na ito at ng pagkakaiba-iba ng iba pang mga salik. Kung posible na isama sa equation ng regression ang lahat ng mga salik na nakakaimpluwensya sa pagkakaiba-iba ng nagresultang katangian, kung gayon ang mga halaga bj. maaaring ituring na mga sukat ng purong impluwensya ng mga salik. Ngunit dahil talagang imposibleng isama ang lahat ng mga kadahilanan sa equation, ang mga coefficient bj. hindi malaya sa paghahalo ng impluwensya ng mga salik na hindi kasama sa equation.

Imposibleng isama ang lahat ng salik sa equation ng regression para sa isa sa tatlong dahilan o para sa lahat ng ito nang sabay-sabay, dahil:

1) ang ilang mga kadahilanan ay maaaring hindi kilala modernong agham, ang kaalaman sa anumang proseso ay palaging hindi kumpleto;

2) walang impormasyon sa mga kilalang teoretikal na salik o ito ay hindi mapagkakatiwalaan;

3) ang laki ng pinag-aralan na populasyon (sample) ay limitado, na nagpapahintulot na isama ang isang limitadong bilang ng mga kadahilanan sa equation ng regression.

Coefficients ng conditionally pure regression bj. ay pinangalanang mga numero, na ipinahayag sa iba't ibang mga yunit ng pagsukat, at samakatuwid ay hindi maihahambing sa bawat isa. Upang i-convert ang mga ito sa maihahambing na mga kamag-anak na tagapagpahiwatig, ang parehong pagbabago ay inilapat tulad ng para sa pagkuha ng koepisyent ng ugnayan ng pares. Ang resultang halaga ay tinatawag na standardized regression coefficient o?-coefficient.

Tinutukoy ng koepisyent sa salik na xj ang sukat ng impluwensya ng pagkakaiba-iba ng salik na xj sa pagkakaiba-iba ng mabisang tampok na y kapag ang ibang mga salik na kasama sa equation ng regression ay inalis mula sa magkakatulad na pagkakaiba-iba.

Kapaki-pakinabang na ipahayag ang mga coefficient ng conditionally pure regression sa anyo ng mga kamag-anak na maihahambing na mga tagapagpahiwatig ng komunikasyon, mga koepisyent ng pagkalastiko:

Ang coefficient of elasticity ng factor xj ay nagpapahiwatig na kung ang halaga ng factor na ito ay lumihis mula sa average na halaga nito ng 1% at kung ang iba pang mga kadahilanan na kasama sa equation ay aalisin mula sa concomitant deviation, ang magreresultang attribute ay lilihis mula sa average na halaga nito sa pamamagitan ng ej porsyento mula sa y. Mas madalas, ang mga elasticity coefficient ay binibigyang-kahulugan at inilalapat sa mga tuntunin ng dynamics: na may pagtaas sa factor x ng 1% ng average na halaga nito, ang resultang attribute ay tataas ng e. porsyento ng average na halaga nito.

Isaalang-alang ang pagkalkula at interpretasyon ng multivariate regression equation sa halimbawa ng parehong 16 na sakahan (Talahanayan 8.1). Ang mabisang tampok ay ang antas ng kabuuang kita at tatlong salik na nakakaimpluwensya dito ay ipinakita sa Talahanayan. 8.7.

Alalahanin muli na upang makakuha ng maaasahan at sapat na tumpak na mga tagapagpahiwatig ng ugnayan, isang mas malaking populasyon ang kailangan.

Talahanayan 8.7

Antas ng kabuuang kita at mga salik nito

Mga numero ng bukid	Kabuuang kita, rub./ra	Mga gastos sa paggawa, man-day/ha x1	Bahagi ng lupang taniman	ani ng gatas bawat baka,

Talahanayan 8.8 Mga tagapagpahiwatig ng equation ng regression

	Dependent variable: y
	koepisyent ng regression



Constant-240,112905
Std. pagkakamali ng est. = 79.243276

Ang solusyon ay isinasagawa gamit ang program na "Microstat" para sa PC. Narito ang mga talahanayan mula sa printout: tab. 8.7 ay nagbibigay ng mga average na halaga at karaniwang mga paglihis ng lahat ng mga tampok. Tab. 8.8 ay naglalaman ng mga coefficient ng regression at ang kanilang probabilistikong pagtatantya:

ang unang hanay na "var" - mga variable, i.e. mga kadahilanan; ang pangalawang column na "regression coefficient" - mga coefficient ng conditionally pure regression bj; ang ikatlong hanay na "std. error" - ibig sabihin ng mga error ng mga pagtatantya ng regression coefficients; ang ikaapat na hanay - ang mga halaga ng t-test ng Mag-aaral sa 12 degree ng kalayaan ng pagkakaiba-iba; ang ikalimang hanay na "prob" - ang posibilidad ng null hypothesis tungkol sa mga coefficient ng regression;

ang ikaanim na hanay na "partial r2" - bahagyang mga koepisyent ng pagpapasiya. Ang nilalaman at pamamaraan para sa pagkalkula ng mga tagapagpahiwatig sa mga hanay 3-6 ay tinalakay pa sa Kabanata 8. "Constant" - isang libreng termino ng regression equation a; "std. pagkakamali ng est." - root-mean-square error ng pagsusuri ng epektibong feature ayon sa regression equation. Nakuha ang equation maramihang pagbabalik:

y \u003d 2.26x1 - 4.31x2 + 0.166x3 - 240.

Nangangahulugan ito na ang halaga ng kabuuang kita bawat 1 ektarya ng lupang sakahan sa karaniwan ay tumaas ng 2.26 rubles. na may pagtaas sa mga gastos sa paggawa ng 1 h/ha; nabawasan ng average na 4.31 rubles. na may pagtaas sa bahagi ng maaararong lupa sa bukiran ng 1% at tumaas ng 0.166 rubles. na may pagtaas sa ani ng gatas bawat baka ng 1 kg. Ang negatibong halaga ng libreng termino ay medyo natural, at, tulad ng nabanggit na sa talata 8.2, ang epektibong tampok - ang kabuuang kita ay nagiging zero nang matagal bago maabot ang mga zero na halaga ng mga kadahilanan, na imposible sa produksyon.

Negatibong kahulugan Ang koepisyent sa х^ ay isang senyales ng malaking problema sa ekonomiya ng mga pinag-aralan na sakahan, kung saan ang produksyon ng pananim ay hindi kumikita, at ang mga alagang hayop lamang ang kumikita. Sa makatwirang pamamaraan sanggunian Agrikultura at normal na mga presyo (equilibrium o malapit sa kanila) para sa mga produkto ng lahat ng mga industriya, ang kita ay hindi dapat bumaba, ngunit tumaas kasabay ng pagtaas ng pinakamayabong na bahagi sa lupang sakahan - lupang taniman.

Batay sa data ng penultimate dalawang hanay ng Talahanayan. 8.7 at tab. 8.8 kalkulahin ang mga p-coefficient at elasticity coefficient ayon sa mga formula (8.34) at (8.35).

Parehong ang pagkakaiba-iba sa antas ng kita at ang posibleng pagbabago nito sa dinamika ay lubos na naiimpluwensyahan ng salik na x3 - ang produktibidad ng mga baka, at ang pinakamahina - x2 - ang bahagi ng lupang taniman. Ang mga halaga ng Р2/ ay gagamitin sa hinaharap (Talahanayan 8.9);

Talahanayan 8.9 Pahambing na impluwensya ng mga salik sa antas ng kita

Mga salik xj

Kaya, nakuha namin na ang ?-coefficient ng factor xj ay nauugnay sa coefficient of elasticity ng factor na ito, dahil ang coefficient ng variation ng factor ay sa coefficient ng variation ng epektibong feature. Dahil, tulad ng makikita mula sa huling linya ng Table. 8.7, ang mga koepisyent ng pagkakaiba-iba ng lahat ng mga kadahilanan ay mas mababa kaysa sa koepisyent ng pagkakaiba-iba ng nagresultang katangian; lahat ng ?-coefficient ay mas mababa kaysa sa elasticity coefficients.

Isaalang-alang ang kaugnayan sa pagitan ng nakapares at may kondisyon na purong regression coefficient gamit ang halimbawa ng -c factor. Ipinares linear equation Ang koneksyon sa pagitan ng y at x ay may anyo:

y = 3.886x1 - 243.2

Ang conditional pure regression coefficient sa x1 ay 58% lamang ng ipinares. Ang natitirang 42% ay dahil sa ang katunayan na ang x1 variation ay sinamahan ng x2 x3 factor variation, na, sa turn, ay nakakaapekto sa resultang katangian. Ang mga ugnayan ng lahat ng mga tampok at ang kanilang mga pairwise regression coefficient ay ipinakita sa graph ng relasyon (Larawan 8.2).

Kung susumahin natin ang mga pagtatantya ng direkta at hindi direktang impluwensya ng pagkakaiba-iba ng x1 sa y, ibig sabihin, ang produkto ng mga ipinares na coefficient ng regression para sa lahat ng "mga landas" (Larawan 8.2), makakakuha tayo ng: 2.26 + 12.55 0.166 + (-0.00128 ) (-4.31) + (-0.00128) 17.00 0.166 = 4.344.

Ang halagang ito ay higit pa koepisyent ng pares mga koneksyon x1 sa y. Kaya naman, hindi direktang impluwensya x1 mga pagkakaiba-iba sa pamamagitan ng mga palatandaan-mga kadahilanan na hindi kasama sa equation - ang kabaligtaran, na nagbibigay sa kabuuan:

1 Ayvazyan S.A., Mkhitaryan V.S. Inilapat na mga istatistika at batayan ng econometrics. Teksbuk para sa mataas na paaralan. - M.: UNITI, 2008, - 311p.

2 Johnston J. Econometric Methods. - M.: Statistics, 1980,. - 282s.

3 Dougherty K. Panimula sa econometrics. - M.: INFRA-M, 2004, - 354 p.

4 Dreyer N., Smith G., Inilapat pagsusuri ng regression. - M.: Pananalapi at mga istatistika, 2006, - 191s.

5 Magnus Ya.R., Kartyshev P.K., Peresetsky A.A. Econometrics. Paunang kurso.-M.: Delo, 2006, - 259p.

6 Workshop sa econometrics / Ed. I.I.Eliseeva.- M.: Pananalapi at mga istatistika, 2004, - 248p.

7 Econometrics / Ed. I.I.Eliseeva.- M.: Pananalapi at mga istatistika, 2004, - 541p.

8 Kremer N., Putko B. Econometrics.- M.: UNITY-DANA, 200, - 281p.

Pagtuturo

Kailangan ng tulong sa pag-aaral ng isang paksa?

Ang aming mga eksperto ay magpapayo o magbibigay ng mga serbisyo sa pagtuturo sa mga paksang interesado ka.
Magsumite ng isang application na nagpapahiwatig ng paksa ngayon upang malaman ang tungkol sa posibilidad ng pagkuha ng konsultasyon.

Ang ilang mga mananaliksik, na kinakalkula ang halaga ng koepisyent ng ugnayan, ay huminto doon. Ngunit mula sa punto ng view ng isang karampatang pamamaraan ng eksperimento, ang antas ng kahalagahan (iyon ay, ang antas ng pagiging maaasahan) ng koepisyent na ito ay dapat ding matukoy.

Ang antas ng kahalagahan ng koepisyent ng ugnayan ay kinakalkula gamit ang isang talahanayan ng mga kritikal na halaga. Nasa ibaba ang isang fragment ng talahanayang ito, na nagbibigay-daan sa amin upang matukoy ang antas ng kahalagahan ng koepisyent na nakuha namin.

Pinipili namin ang row na tumutugma sa laki ng sample. Sa aming kaso, n = 10. Pinipili namin sa hilera na ito ang halaga ng talahanayan na bahagyang mas mababa kaysa sa empirical (o eksaktong katumbas nito, na napakabihirang). Ito ang naka-bold na numero 0.632. Ito ay tumutukoy sa isang column na may halaga ng antas ng kumpiyansa na p = 0.05. Ibig sabihin, sa katunayan, ang empirical value ay intermediate sa pagitan ng mga column p = 0.05 at p = 0.01, kaya 0.05  p  0.01. Kaya, tinatanggihan namin ang null hypothesis at napagpasyahan na ang resulta na nakuha (R xy = 0.758) ay makabuluhan sa antas ng p< 0,05 (это уровень статистической значимости): R эмп >R cr (p< 0,05) H 0 ,  Н 1 ! ст. зн.

Sa pang-araw-araw na wika, maaari itong bigyang-kahulugan bilang mga sumusunod: maaari nating asahan na ang lakas ng koneksyon na ito ay magaganap sa sample na mas madalas kaysa sa limang kaso sa 100, kung ang koneksyon na ito ay resulta ng pagkakataon.

Pagsusuri ng regression

	X(paglaki)	Y(ang bigat)










	M X = 166,6	M y = 58,3
	 x = 6 , 54	 y = 8 , 34

Ang pagsusuri ng regression ay ginagamit upang pag-aralan ang relasyon sa pagitan ng dalawang dami na sinusukat sa isang sukat ng pagitan. Ang ganitong uri ng pagsusuri ay kinabibilangan ng pagbuo ng isang regression equation na nagbibigay-daan sa isa na quantitatively ilarawan ang dependence ng isang feature sa isa pa (Pearson's correlation coefficient ay nagpapahiwatig ng presensya o kawalan ng isang relasyon, ngunit hindi inilalarawan ang relasyon na ito). Alam ang random na halaga ng isa sa mga tampok at gamit ang equation na ito, ang mananaliksik ay maaaring, na may isang tiyak na antas ng posibilidad, mahulaan ang katumbas na halaga ng pangalawang tampok. Ang linear dependence ng mga feature ay inilalarawan ng isang equation ng sumusunod na uri:

y = a +b y * x ,

saan a- libreng termino ng equation, katumbas ng pagtaas ng graph sa isang punto x=0 tungkol sa x-axis, b ay ang slope ng linya ng regression na katumbas ng tangent ng slope ng graph sa x-axis (sa kondisyon na ang sukat ng mga halaga sa parehong mga axes ay pareho).

Ang pag-alam sa mga halaga ng pinag-aralan na mga tampok, posible na matukoy ang halaga ng libreng termino at ang koepisyent ng regression gamit ang mga sumusunod na formula:

a =M y – b y * M x

Sa kaso natin:
;

a = 58,3 – 0,97 * 166,6 = -103,3

Kaya, ang formula para sa pagtitiwala ng timbang sa taas ay ang mga sumusunod: y = 0.969 * x - 103.3

Ang kaukulang tsart ay ipinapakita sa ibaba.

Kung kinakailangan upang ilarawan ang pag-asa ng taas sa timbang ( X mula sa sa), pagkatapos ay ang mga halaga a at b maging iba at ang mga formula ay kailangang baguhin nang naaayon:

x= a +b x * sa

a =M x – b x * M y

Sa kasong ito, nagbabago rin ang anyo ng graph.

Ang regression coefficient ay malapit na nauugnay sa correlation coefficient. Ang huli ay ang geometric na mean ng feature regression coefficients:

Ang square ng correlation coefficient ay tinatawag na coefficient of determination. Tinutukoy ng halaga nito ang porsyento ng mutual na impluwensya ng mga variable. Sa kaso natin R 2 = 0,76 2 = 0,58 . Nangangahulugan ito na 58% ng kabuuang variance Y ay dahil sa impluwensya ng variable X, ang natitirang 42% ay dahil sa impluwensya ng mga salik na hindi isinasaalang-alang sa equation.