Simpleng pagsusuri ng regression. Regression equation

Ang pagsusuri ng regression ay isang paraan ng pagmomodelo ng sinusukat na data at pag-aaral ng mga katangian ng mga ito. Ang data ay binubuo ng mga pares ng mga halaga ng dependent variable (response variable) at ang independent variable (explanatory variable). Ang regression model ay isang function ng independent variable at mga parameter na may idinagdag na random variable.

Ang pagsusuri ng ugnayan at pagsusuri ng regression ay magkakaugnay na mga seksyon mga istatistika ng matematika, at nilayon para sa pag-aaral ng statistical dependence ng isang bilang ng mga dami gamit ang sample na data; ang ilan ay random. Sa pag-asa sa istatistika, ang mga dami ay hindi nauugnay sa pagganap, ngunit tinukoy bilang mga random na variable sa pamamagitan ng magkasanib na pamamahagi ng posibilidad.

Ang pag-aaral ng pag-asa ng mga random na variable ay humahantong sa mga modelo ng regression at pagsusuri ng regression batay sa sample na data. Ang teorya ng probabilidad at mga istatistika ng matematika ay kumakatawan lamang sa isang tool para sa pag-aaral ng pag-asa sa istatistika, ngunit hindi nilalayon na magtatag ng ugnayang sanhi. Ang mga ideya at hypotheses tungkol sa isang ugnayang sanhi ay dapat dalhin mula sa ilang iba pang teorya na nagbibigay-daan sa isang makabuluhang paliwanag sa kababalaghang pinag-aaralan.

Ang numerical na data ay kadalasang may tahasang (kilala) o implicit (nakatagong) ugnayan sa isa't isa.

Ang mga tagapagpahiwatig na nakuha sa pamamagitan ng direktang pamamaraan ng pagkalkula, ibig sabihin, kinakalkula gamit ang mga dating kilalang formula, ay malinaw na nauugnay. Halimbawa, ang mga porsyento ng pagkumpleto ng plano, mga antas, mga partikular na timbang, mga paglihis sa halaga, mga paglihis sa mga porsyento, mga rate ng paglago, mga rate ng paglago, mga indeks, atbp.

Ang mga koneksyon ng pangalawang uri (implicit) ay hindi alam nang maaga. Gayunpaman, ito ay kinakailangan upang maipaliwanag at mahulaan (pagtataya) kumplikadong phenomena upang pamahalaan ang mga ito. Samakatuwid, ang mga espesyalista, sa tulong ng mga obserbasyon, ay nagsusumikap na kilalanin ang mga nakatagong dependencies at ipahayag ang mga ito sa anyo ng mga formula, iyon ay, upang mathematically model phenomena o proseso. Ang isang ganoong pagkakataon ay ibinibigay ng pagsusuri ng ugnayan-regression.

Ang mga modelo ng matematika ay binuo at ginagamit para sa tatlong pangkalahatang layunin:

  • * para sa paliwanag;
  • * para sa hula;
  • * Para sa pagmamaneho.

Gamit ang mga pamamaraan ng pagsusuri ng ugnayan at regression, sinusukat ng mga analyst ang lapit ng mga koneksyon sa pagitan ng mga tagapagpahiwatig gamit ang koepisyent ng ugnayan. Sa kasong ito, natuklasan ang mga koneksyon na naiiba sa lakas (malakas, mahina, katamtaman, atbp.) at naiiba sa direksyon (direkta, baligtad). Kung ang mga koneksyon ay naging makabuluhan, pagkatapos ay ipinapayong hanapin ang kanilang mathematical expression sa anyo ng isang regression model at suriin ang istatistikal na kahalagahan ng modelo.

Ang pagsusuri ng regression ay tinatawag na pangunahing paraan ng modernong matematikal na istatistika para sa pagtukoy ng mga implicit at nakatagong mga koneksyon sa pagitan ng data ng pagmamasid.

Ang pahayag ng problema ng pagsusuri ng regression ay binabalangkas tulad ng sumusunod.

Mayroong isang hanay ng mga resulta ng pagmamasid. Sa set na ito, ang isang column ay tumutugma sa isang indicator kung saan kinakailangan na magtatag ng functional na relasyon sa mga parameter ng object at environment na kinakatawan ng natitirang mga column. Kinakailangan: magtatag ng isang quantitative na ugnayan sa pagitan ng indicator at ng mga salik. Sa kasong ito, ang problema ng pagsusuri ng regression ay nauunawaan bilang ang gawain ng pagtukoy ng naturang functional dependence y = f (x2, x3, ..., xт), na ang pinakamahusay na paraan inilalarawan ang magagamit na pang-eksperimentong data.

Mga pagpapalagay:

ang bilang ng mga obserbasyon ay sapat upang ipakita ang mga pattern ng istatistika tungkol sa mga salik at ang kanilang mga relasyon;

ang naprosesong data ay naglalaman ng ilang mga error (ingay) dahil sa mga error sa pagsukat at ang impluwensya ng hindi nabilang na random na mga kadahilanan;

ang matrix ng mga resulta ng pagmamasid ay ang tanging impormasyon tungkol sa bagay na pinag-aaralan na magagamit bago magsimula ang pag-aaral.

Ang function na f (x2, x3, ..., xт), na naglalarawan ng dependence ng indicator sa mga parameter, ay tinatawag na regression equation (function). Ang terminong "regression" (regression (Latin) - retreat, return to something) ay nauugnay sa mga detalye ng isa sa mga tiyak na problema na nalutas sa yugto ng pagbuo ng pamamaraan.

Maipapayo na hatiin ang solusyon sa problema ng pagsusuri ng regression sa maraming yugto:

paunang pagproseso ng data;

pagpili ng uri ng mga equation ng regression;

pagkalkula ng regression equation coefficients;

pagsuri sa kasapatan ng itinayong function sa mga resulta ng pagmamasid.

Kasama sa pre-processing ang pag-standardize ng data matrix, pagkalkula ng mga koepisyent ng ugnayan, pagsuri sa kanilang kahalagahan at pagbubukod ng mga hindi gaanong mahalagang parameter mula sa pagsasaalang-alang.

Pagpili ng uri ng equation ng regression Ang gawain ng pagtukoy ng functional na relasyon na pinakamahusay na naglalarawan sa data ay nagsasangkot ng pagtagumpayan ng isang bilang ng mga pangunahing paghihirap. Sa pangkalahatang kaso, para sa standardized na data, ang functional dependence ng indicator sa mga parameter ay maaaring katawanin bilang

y = f (x1, x2, …, xm) + e

kung saan ang f ay isang dating hindi kilalang function na tutukuyin;

e - error sa pagtatantya ng data.

Ang equation na ito ay karaniwang tinatawag na sample regression equation. Inilalarawan ng equation na ito ang kaugnayan sa pagitan ng variation ng indicator at ng mga variation ng mga salik. At ang sukat ng ugnayan ay sumusukat sa proporsyon ng variation sa isang indicator na nauugnay sa variation sa mga salik. Sa madaling salita, ang ugnayan sa pagitan ng isang tagapagpahiwatig at mga kadahilanan ay hindi maaaring bigyang-kahulugan bilang isang koneksyon sa pagitan ng kanilang mga antas, at ang pagsusuri ng regression ay hindi nagpapaliwanag ng papel ng mga kadahilanan sa paglikha ng isang tagapagpahiwatig.

Ang isa pang tampok ay may kinalaman sa pagtatasa ng antas ng impluwensya ng bawat salik sa tagapagpahiwatig. Ang equation ng regression ay hindi nagbibigay ng pagtatasa ng hiwalay na impluwensya ng bawat salik sa tagapagpahiwatig; ang naturang pagtatasa ay posible lamang sa kaso kung ang lahat ng iba pang mga kadahilanan ay hindi nauugnay sa pinag-aaralan. Kung ang salik na pinag-aaralan ay nauugnay sa iba pang nakakaimpluwensya sa tagapagpahiwatig, kung gayon ang isang halo-halong katangian ng impluwensya ng salik ay makukuha. Ang katangiang ito ay naglalaman ng parehong direktang impluwensya ng salik at di-tuwirang impluwensyang naidulot sa pamamagitan ng koneksyon sa iba pang mga salik at ang kanilang impluwensya sa tagapagpahiwatig.

Hindi inirerekomenda na isama ang mga salik na mahina ang kaugnayan sa tagapagpahiwatig, ngunit malapit na nauugnay sa iba pang mga kadahilanan, sa equation ng regression. Ang mga salik na gumaganang nauugnay sa isa't isa ay hindi kasama sa equation (para sa kanila ang koepisyent ng ugnayan ay 1). Ang pagsasama ng naturang mga kadahilanan ay humahantong sa pagkabulok ng sistema ng mga equation para sa pagtantya ng mga coefficient ng regression at sa kawalan ng katiyakan ng solusyon.

Dapat piliin ang function na f upang ang error e ay sa ilang kahulugan ay minimal. Para sa mga layunin ng pagpili functional na koneksyon maaga silang naglagay ng hypothesis tungkol sa kung saang klase maaaring kabilang ang function f, at pagkatapos ay piliin ang "pinakamahusay" na function sa klase na ito. Ang napiling klase ng mga function ay dapat magkaroon ng ilang "kinis", i.e. Ang mga "maliit" na pagbabago sa mga halaga ng argumento ay dapat magdulot ng "maliit" na mga pagbabago sa mga halaga ng pag-andar.

Ang isang espesyal na kaso na malawakang ginagamit sa pagsasanay ay ang first degree polynomial o equation linear regression

Upang piliin ang uri ng functional dependence, maaaring irekomenda ang sumusunod na diskarte:

Ang mga puntos na may mga halaga ng tagapagpahiwatig ay graphic na ipinapakita sa espasyo ng parameter. Sa isang malaking bilang ng mga parameter, posible na bumuo ng mga puntos para sa bawat isa sa kanila, pagkuha ng dalawang-dimensional na pamamahagi ng mga halaga;

batay sa lokasyon ng mga punto at batay sa isang pagsusuri ng kakanyahan ng ugnayan sa pagitan ng tagapagpahiwatig at mga parameter ng bagay, ang isang konklusyon ay ginawa tungkol sa tinatayang uri ng regression o mga posibleng pagpipilian nito;

Pagkatapos kalkulahin ang mga parameter, ang kalidad ng approximation ay tinasa, i.e. suriin ang antas ng pagkakatulad sa pagitan ng kalkulado at aktwal na mga halaga;

kung ang kinakalkula at aktwal na mga halaga ay malapit sa buong lugar ng gawain, kung gayon ang problema sa pagsusuri ng regression ay maaaring ituring na lutasin. Kung hindi, maaari mong subukang pumili ng ibang uri ng polynomial o isa pang analytical function, gaya ng periodic.

Pagkalkula ng Regression Equation Coefficients

Imposibleng malinaw na malutas ang isang sistema ng mga equation batay sa magagamit na data, dahil ang bilang ng mga hindi alam ay palaging mas dami mga equation. Upang malampasan ang problemang ito, kailangan ang mga karagdagang pagpapalagay. Common sense nagmumungkahi: ipinapayong piliin ang mga coefficient ng polynomial sa paraang masiguro ang isang minimum na error sa pagtatantya ng data. Maaaring gamitin ang iba't ibang mga hakbang upang suriin ang mga error sa pagtatantya. Ang root mean square error ay malawakang ginagamit bilang isang sukat. Batay dito, ito ay binuo espesyal na pamamaraan pagtatantya ng mga coefficient ng regression equation - pamamaraan hindi bababa sa mga parisukat(MNC). Binibigyang-daan ka ng pamamaraang ito na makakuha ng pinakamataas na mga pagtatantya ng posibilidad ng hindi kilalang coefficient ng equation ng regression para sa normal na pamamahagi opsyon, ngunit maaari itong ilapat sa anumang iba pang pamamahagi ng mga salik.

Ang MNC ay batay sa mga sumusunod na probisyon:

ang mga halaga ng mga pagkakamali at mga kadahilanan ay independyente, at samakatuwid ay hindi nauugnay, i.e. ipinapalagay na ang mga mekanismo para sa pagbuo ng interference ay hindi nauugnay sa mekanismo para sa pagbuo ng mga halaga ng kadahilanan;

ang matematikal na inaasahan ng error e ay dapat na katumbas ng zero (ang pare-pareho ang bahagi ay kasama sa koepisyent a0), sa madaling salita, ang error ay isang nakasentro na dami;

ang sample na pagtatantya ng pagkakaiba-iba ng error ay dapat na minimal.

Kung ang linear na modelo ay hindi tumpak o ang mga parameter ay hindi tumpak na sinusukat, kung gayon sa kasong ito ang hindi bababa sa mga parisukat na pamamaraan ay nagbibigay-daan sa amin upang mahanap ang mga naturang halaga ng mga coefficient kung saan ang linear na modelo ay pinakamahusay na naglalarawan sa tunay na bagay sa kahulugan ng napiling standard deviation pamantayan.

Ang kalidad ng nagresultang equation ng regression ay tinasa ng antas ng pagiging malapit sa pagitan ng mga resulta ng mga obserbasyon ng indicator at ang mga halaga na hinulaan ng equation ng regression sa binigay na puntos espasyo ng parameter. Kung ang mga resulta ay malapit na, kung gayon ang problema sa pagsusuri ng regression ay maaaring ituring na lutasin. Kung hindi, dapat mong baguhin ang equation ng regression at ulitin ang mga kalkulasyon upang matantya ang mga parameter.

Kung mayroong ilang mga tagapagpahiwatig, ang problema ng pagsusuri ng regression ay malulutas nang nakapag-iisa para sa bawat isa sa kanila.

Ang pagsusuri sa kakanyahan ng equation ng regression, ang mga sumusunod na punto ay dapat tandaan. Ang isinasaalang-alang na diskarte ay hindi nagbibigay ng hiwalay (independiyenteng) pagtatasa ng mga coefficient - ang pagbabago sa halaga ng isang koepisyent ay nangangailangan ng pagbabago sa mga halaga ng iba. Ang nakuha na mga koepisyent ay hindi dapat ituring bilang kontribusyon ng kaukulang parameter sa halaga ng indicator. Ang regression equation ay isa lamang magandang analytical na paglalarawan ng available na data, at hindi isang batas na naglalarawan ng kaugnayan sa pagitan ng mga parameter at isang indicator. Ang equation na ito ay ginagamit upang kalkulahin ang mga halaga ng indicator sa isang ibinigay na hanay ng mga pagbabago sa parameter. Ito ay may limitadong kaangkupan para sa mga kalkulasyon sa labas ng saklaw na ito, i.e. maaari itong gamitin para sa paglutas ng mga problema sa interpolation at, sa isang limitadong lawak, para sa extrapolation.

Ang pangunahing dahilan para sa hindi kawastuhan ng forecast ay hindi ang kawalan ng katiyakan ng extrapolation ng linya ng regression, ngunit sa halip ang makabuluhang pagkakaiba-iba ng indicator dahil sa mga kadahilanan na hindi isinasaalang-alang sa modelo. Ang limitasyon ng kakayahan sa pagtataya ay ang kondisyon ng katatagan ng mga parameter na hindi isinasaalang-alang sa modelo at ang likas na katangian ng impluwensya ng mga kadahilanan ng modelo na isinasaalang-alang. Kung biglang nagbago panlabas na kapaligiran, pagkatapos ay mawawalan ng kahulugan ang pinagsama-samang equation ng regression.

Ang pagtataya na nakuha sa pamamagitan ng pagpapalit ng inaasahang halaga ng parameter sa regression equation ay isang punto ng isa. Ang posibilidad na maisakatuparan ang naturang hula ay bale-wala. Maipapayo na matukoy agwat ng kumpiyansa pagtataya. Para sa mga indibidwal na halaga ng tagapagpahiwatig, ang agwat ay dapat isaalang-alang ang mga error sa posisyon ng linya ng regression at mga paglihis ng mga indibidwal na halaga mula sa linyang ito.

Ang pangunahing layunin ng pagsusuri ng regression ay binubuo sa pagtukoy ng analitikal na anyo ng komunikasyon kung saan ang pagbabago sa epektibong katangian ay dahil sa impluwensya ng isa o higit pang mga katangian ng salik, at ang hanay ng lahat ng iba pang mga salik na nakakaimpluwensya rin sa epektibong katangian ay kinukuha bilang pare-pareho at karaniwang mga halaga.
Mga Problema sa Pagsusuri ng Pagbabalik:
a) Pagtatatag ng anyo ng pagtitiwala. Tungkol sa kalikasan at anyo ng ugnayan sa pagitan ng mga penomena, ang isang pagkakaiba ay ginawa sa pagitan ng positibong linear at nonlinear at negatibong linear at nonlinear na regression.
b) Pagtukoy sa function ng regression sa anyo ng isang mathematical equation ng isang uri o iba pa at pagtatatag ng impluwensya ng mga paliwanag na variable sa dependent variable.
c) Pagtatantya ng hindi kilalang mga halaga ng dependent variable. Gamit ang regression function, maaari mong kopyahin ang mga halaga ng dependent variable sa loob ng agwat itakda ang mga halaga mga variable na nagpapaliwanag (i.e. lutasin ang problema sa interpolation) o tantiyahin ang takbo ng proseso sa labas ng isang partikular na agwat (i.e. lutasin ang problema sa extrapolation). Ang resulta ay isang pagtatantya ng halaga ng dependent variable.

Ang paired regression ay isang equation para sa relasyon sa pagitan ng dalawang variable na y at x: , kung saan ang y ay ang dependent variable (resultative attribute); Ang x ay isang independiyenteng paliwanag na variable (feature-factor).

May mga linear at nonlinear na regression.
Linear regression: y = a + bx + ε
Ang mga nonlinear na regression ay nahahati sa dalawang klase: mga regression na nonlinear na may kinalaman sa mga paliwanag na variable na kasama sa pagsusuri, ngunit linear na may kinalaman sa mga tinantyang parameter, at mga regression na nonlinear na may kinalaman sa mga tinantyang parameter.
Mga regression na nonlinear sa mga variable na nagpapaliwanag:

Mga regression na nonlinear na may kinalaman sa mga tinantyang parameter: Ang pagbuo ng isang regression equation ay bumababa sa pagtatantya ng mga parameter nito. Upang matantya ang mga parameter ng mga regression linear sa mga parameter, ang least squares method (OLS) ay ginagamit. Ang paraan ng hindi bababa sa mga parisukat ay ginagawang posible upang makakuha ng naturang mga pagtatantya ng parameter kung saan ang kabuuan ng mga parisukat na paglihis ng mga aktwal na halaga ng resultang katangian y mula sa mga teoretikal ay minimal, i.e.
.
Para sa linear at nonlinear equation, binawasan sa linear, ang sumusunod na sistema ay nalutas na may kinalaman sa a at b:

Maaari mong gamitin ang mga handa na formula na sumusunod mula sa system na ito:

Nasusuri ang lapit ng koneksyon sa pagitan ng mga phenomena na pinag-aaralan linear coefficient pairwise correlation para sa linear regression:

at correlation index - para sa nonlinear regression:

Ang kalidad ng itinayong modelo ay susuriin ng koepisyent (index) ng pagpapasiya, pati na rin ang average na error ng approximation.
Average na error sa pagtatantya - average na paglihis ng mga kinakalkula na halaga mula sa mga aktwal:
.
Ang pinahihintulutang limitasyon ng mga halaga ay hindi hihigit sa 8-10%.
Ang average na koepisyent ng elasticity ay nagpapakita sa kung anong porsyento sa average ang kabuuang resulta ay magbabago mula dito katamtamang laki kapag ang factor x ay nagbabago ng 1% mula sa average na halaga nito:
.

Ang layunin ng pagsusuri ng pagkakaiba-iba ay upang suriin ang pagkakaiba-iba ng umaasang baryabol:
,
saan ang kabuuang kabuuan ng mga squared deviations;
- ang kabuuan ng mga squared deviations dahil sa regression ("ipinaliwanag" o "factorial");
- natitirang kabuuan ng mga squared deviations.
Ang bahagi ng pagkakaiba na ipinaliwanag ng regression sa kabuuang pagkakaiba ng resultang katangian y ay nailalarawan sa pamamagitan ng koepisyent (index) ng determinasyon R2:

Ang coefficient of determination ay ang parisukat ng coefficient o correlation index.

Ang F-test - pagtatasa ng kalidad ng regression equation - ay binubuo ng pagsubok sa hypothesis No tungkol sa statistical insignificance ng regression equation at ang indicator ng lapit ng relasyon. Upang gawin ito, ang isang paghahambing ay ginawa sa pagitan ng aktwal na F fact at ang kritikal (tabular) F na mga halaga ng talahanayan ng Fisher F-criterion. Ang F fact ay tinutukoy mula sa ratio ng mga halaga ng kadahilanan at natitirang mga pagkakaiba-iba na kinakalkula sa bawat antas ng kalayaan:
,
kung saan ang n ay ang bilang ng mga yunit ng populasyon; m ay ang bilang ng mga parameter para sa mga variable x.
Ang F table ay ang pinakamataas na posibleng halaga ng criterion sa ilalim ng impluwensya ng mga random na salik sa ibinigay na antas ng kalayaan at antas ng kahalagahan a. Ang antas ng kahalagahan a ay ang posibilidad na tanggihan ang tamang hypothesis, dahil ito ay totoo. Karaniwan ang a ay kinukuha na katumbas ng 0.05 o 0.01.
Kung F talahanayan< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >F katotohanan, pagkatapos ay ang hypothesis H o ay hindi tinanggihan at ang istatistika insignificance at hindi mapagkakatiwalaan ng regression equation ay kinikilala.
Para sa rate istatistikal na kahalagahan regression at correlation coefficients, ang t-test ng mag-aaral at mga pagitan ng kumpiyansa para sa bawat indicator ay kinakalkula. Ang isang hypothesis ay iniharap tungkol sa random na katangian ng mga tagapagpahiwatig, i.e. tungkol sa kanilang hindi gaanong pagkakaiba mula sa zero. Ang pagtatasa ng kahalagahan ng regression at correlation coefficients gamit ang Student's t-test ay isinasagawa sa pamamagitan ng paghahambing ng kanilang mga halaga sa magnitude ng random error:
; ; .
Ang mga random na error ng linear regression na mga parameter at ang correlation coefficient ay tinutukoy ng mga formula:



Paghahambing ng aktwal at kritikal (tabular) na mga halaga ng t-statistics - t table at t fact - tinatanggap o tinatanggihan namin ang hypothesis H o.
Ang relasyon sa pagitan ng Fisher F-test at ng Student t-statistic ay ipinahayag ng pagkakapantay-pantay

Kung t talahanayan< t факт то H o отклоняется, т.е. a, b и не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t ay isang katotohanan na ang hypothesis H o ay hindi tinatanggihan at ang random na katangian ng pagbuo ng a, b o ay kinikilala.
Upang kalkulahin ang agwat ng kumpiyansa, tinutukoy namin ang maximum na error D para sa bawat tagapagpahiwatig:
, .
Ang mga formula para sa pagkalkula ng mga agwat ng kumpiyansa ay ang mga sumusunod:
; ;
; ;
Kung ang zero ay nasa loob ng agwat ng kumpiyansa, i.e. Kung negatibo ang mas mababang limitasyon at positibo ang pinakamataas na limitasyon, ang tinantyang parameter ay ituturing na zero, dahil hindi ito maaaring sabay na kumuha ng parehong positibo at negatibong mga halaga.
Natutukoy ang halaga ng pagtataya sa pamamagitan ng pagpapalit ng katumbas na (pagtataya) na halaga sa equation ng regression. Kinakalkula ang average karaniwang error pagtataya:
,
saan
at isang agwat ng kumpiyansa para sa hula ay binuo:
; ;
saan .

Halimbawang solusyon

Gawain Blg. 1. Para sa pitong teritoryo ng rehiyon ng Ural noong 199X, ang mga halaga ng dalawang katangian ay kilala.
Talahanayan 1.
Kailangan: 1. Upang makilala ang dependence ng y sa x, kalkulahin ang mga parameter ng mga sumusunod na function:
a) linear;
b) kapangyarihan (kailangan mo munang isagawa ang pamamaraan ng linearization ng mga variable sa pamamagitan ng pagkuha ng logarithm ng parehong bahagi);
c) nagpapakita;
d) isang equilateral hyperbola (kailangan mo ring malaman kung paano i-pre-linearize ang modelong ito).
2. Suriin ang bawat modelo gamit ang average na error ng approximation at Fisher's F test.

Solusyon (Option No. 1)

Upang kalkulahin ang mga parameter a at b ng linear regression (maaaring gawin ang pagkalkula gamit ang isang calculator).
lutasin ang isang sistema ng mga normal na equation para sa A At b:
Batay sa paunang data, kinakalkula namin :
y x yx x 2 y 2 A i
l 68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Kabuuan 405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
Ikasal. ibig sabihin (Kabuuan/n) 57,89 54,90 3166,05 3048,34 3383,68 X X 8,1
s 5,74 5,86 X X X X X X
s 2 32,92 34,34 X X X X X X


Regression equation: y = 76,88 - 0,35X. Sa pagtaas ng average araw-araw sahod para sa 1 kuskusin. ang bahagi ng mga gastos para sa pagbili ng mga produktong pagkain ay bumababa ng average na 0.35 na porsyentong puntos.
Kalkulahin natin ang linear pair correlation coefficient:

Ang koneksyon ay katamtaman, kabaligtaran.
Tukuyin natin ang koepisyent ng determinasyon:

Ang 12.7% variation sa resulta ay ipinaliwanag ng variation sa x factor. Ang pagpapalit ng mga aktwal na halaga sa equation ng regression X, tukuyin natin ang teoretikal (kinakalkula) na mga halaga . Hanapin natin ang halaga ng average na error sa pagtatantya:

Sa karaniwan, ang mga kinakalkula na halaga ay lumihis mula sa aktwal na mga halaga ng 8.1%.
Kalkulahin natin ang F-criterion:

mula noong 1< F < ¥ , dapat isaalang-alang F -1 .
Ang resultang halaga ay nagpapahiwatig ng pangangailangang tanggapin ang hypothesis Pero oh ang random na kalikasan ng natukoy na pag-asa at ang hindi gaanong kahalagahan ng istatistika ng mga parameter ng equation at ang tagapagpahiwatig ng pagiging malapit ng koneksyon.
1b. Ang pagtatayo ng isang modelo ng kapangyarihan ay nauuna sa pamamaraan ng linearization ng mga variable. Sa halimbawa, ang linearization ay ginagawa sa pamamagitan ng pagkuha ng logarithms ng magkabilang panig ng equation:


saanY=lg(y), X=lg(x), C=lg(a).

Para sa mga kalkulasyon ginagamit namin ang data sa talahanayan. 1.3.

Talahanayan 1.3

Y X YX Y2 X 2 A i
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Kabuuan 12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Average na halaga 1,7605 1,7370 3,0572 3,1011 3,0194 X X 28,27 8,0
σ 0,0425 0,0484 X X X X X X X
σ 2 0,0018 0,0023 X X X X X X X

Kalkulahin natin ang C at b:


Nakukuha namin linear equation:.
Nang maisagawa ang potentiation nito, nakukuha namin:

Ang pagpapalit ng mga aktwal na halaga sa equation na ito X, nakakakuha kami ng mga teoretikal na halaga ng resulta. Gamit ang mga ito, kakalkulahin namin ang mga tagapagpahiwatig: higpit ng koneksyon - index ng ugnayan at average na error sa pagtatantya

Ang mga katangian ng modelo ng power-law ay nagpapahiwatig na inilalarawan nito ang relasyon na medyo mas mahusay kaysa sa linear function.

1c. Pagbuo ng equation ng isang exponential curve

sinundan ng isang pamamaraan para sa linearizing variable sa pamamagitan ng pagkuha ng logarithms ng magkabilang panig ng equation:

Para sa mga kalkulasyon ginagamit namin ang data ng talahanayan.

Y x Yx Y2 x 2 A i
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Kabuuan 12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
Ikasal. zn. 1,7605 54,9 96,5711 3,1011 3048,34 X X 28,68 8,0
σ 0,0425 5,86 X X X X X X X
σ 2 0,0018 34,339 X X X X X X X

Mga halaga ng mga parameter ng regression A at SA ay umabot sa:


Ang resultang linear equation ay: . Gawin nating potentiate ang resultang equation at isulat ito sa karaniwang anyo:

Susuriin namin ang pagiging malapit ng koneksyon sa pamamagitan ng index ng ugnayan:

Sa kanyang mga gawa noong 1908. Inilarawan niya ito gamit ang halimbawa ng trabaho ng isang ahente na nagbebenta ng real estate. Sa kanyang mga tala, sinusubaybayan ng espesyalista sa pagbebenta ng bahay ang isang malawak na hanay ng data ng input para sa bawat partikular na gusali. Batay sa mga resulta ng auction, natukoy kung aling salik ang mayroon pinakamalaking impluwensya sa presyo ng transaksyon.

Pagsusuri malaking dami ang mga transaksyon ay nagbunga ng mga kawili-wiling resulta. Ang pangwakas na presyo ay naiimpluwensyahan ng maraming mga kadahilanan, kung minsan ay humahantong sa kabalintunaan na mga konklusyon at kahit na halatang "outlier" kapag ang isang bahay na may mataas na panimulang potensyal ay naibenta sa isang pinababang presyo.

Ang pangalawang halimbawa ng aplikasyon ng naturang pagsusuri ay ang gawain kung saan ipinagkatiwala sa pagtukoy ng suweldo ng empleyado. Ang pagiging kumplikado ng gawain ay nakasalalay sa katotohanan na hindi ito nangangailangan ng pamamahagi ng isang nakapirming halaga sa lahat, ngunit ang mahigpit na pagsusulatan nito sa partikular na gawaing isinagawa. Ang paglitaw ng maraming mga problema na may halos katulad na mga solusyon ay nangangailangan ng isang mas detalyadong pag-aaral ng mga ito sa antas ng matematika.

Ang isang makabuluhang lugar ay inilaan sa seksyong "pagsusuri ng regression", na pinagsama ang mga praktikal na pamamaraan na ginamit upang pag-aralan ang mga dependency na nasa ilalim ng konsepto ng regression. Ang mga ugnayang ito ay sinusunod sa pagitan ng mga datos na nakuha noong istatistikal na pananaliksik.

Sa maraming problemang dapat lutasin, nagtatakda siya ng tatlong pangunahing layunin: pagtukoy sa equation ng regression pangkalahatang pananaw; pagbuo ng mga pagtatantya ng mga parameter na hindi alam na bahagi ng equation ng regression; pagsubok ng statistical regression hypotheses. Sa kurso ng pag-aaral ng relasyon na lumitaw sa pagitan ng isang pares ng mga dami na nakuha bilang resulta ng mga eksperimentong obserbasyon at bumubuo ng isang serye (set) ng uri (x1, y1), ..., (xn, yn), umaasa sila sa ang mga probisyon ng teorya ng regression at ipinapalagay na para sa isang dami ng Y ay may tiyak na pamamahagi ng posibilidad, habang ang isa pang X ay nananatiling nakapirmi.

Ang resulta ng Y ay nakasalalay sa halaga ng variable X; ang dependence na ito ay maaaring matukoy ng iba't ibang mga pattern, habang ang katumpakan ng mga resulta na nakuha ay naiimpluwensyahan ng likas na katangian ng mga obserbasyon at ang layunin ng pagsusuri. Ang pang-eksperimentong modelo ay batay sa ilang mga pagpapalagay na pinasimple ngunit kapani-paniwala. Ang pangunahing kondisyon ay ang parameter X ay isang kinokontrol na dami. Ang mga halaga nito ay itinakda bago magsimula ang eksperimento.

Kung ang isang pares ng hindi nakokontrol na mga variable na XY ay ginagamit sa panahon ng isang eksperimento, ang pagsusuri ng regression ay isinasagawa sa parehong paraan, ngunit ang mga pamamaraan ay ginagamit upang bigyang-kahulugan ang mga resulta, kung saan ang relasyon ng mga random na variable sa ilalim ng pag-aaral ay pinag-aralan. Mga pamamaraan ng matematikal na istatistika ay hindi abstract na paksa. Nakahanap sila ng aplikasyon sa buhay sa karamihan iba't ibang larangan aktibidad ng tao.

SA siyentipikong panitikan Upang tukuyin ang pamamaraan sa itaas, ang terminong linear regression analysis ay malawakang ginagamit. Para sa variable na X, ang terminong regressor o predictor ay ginagamit, at ang dependent Y variable ay tinatawag ding criterion variable. Ang terminolohiyang ito ay sumasalamin lamang sa matematikal na pag-asa ng mga variable, ngunit hindi ang sanhi-at-bunga na relasyon.

Ang pagsusuri ng regression ay ang pinakakaraniwang paraan na ginagamit sa pagproseso ng mga resulta ng iba't ibang uri ng mga obserbasyon. Ang mga pisikal at biological na dependencies ay pinag-aaralan sa pamamagitan ng paraan ang pamamaraang ito, ito ay ipinatupad kapwa sa ekonomiya at teknolohiya. Marami pang ibang larangan ang gumagamit ng mga modelo ng pagsusuri ng regression. Pagsusuri ng pagkakaiba-iba, istatistikal na pagsusuri multidimensional na gawaing malapit sa pamamaraang ito ng pag-aaral.

A) Graphical na pagsusuri ng simpleng linear regression.

Simpleng linear regression equation y=a+bx. Kung sa pagitan mga random na variable Mayroong ugnayan sa pagitan ng y at X, pagkatapos ay ang halaga y = ý + ,

kung saan ang ý ay ang teoretikal na halaga ng y na nakuha mula sa equation na ý = f(x),

 – pagkakamali ng paglihis ng teoretikal na equation ý mula sa aktwal (pang-eksperimentong) datos.

Ang equation para sa dependence ng average na halaga ý sa x, iyon ay, ý = f(x), ay tinatawag na regression equation. Ang pagsusuri ng regression ay binubuo ng apat na yugto:

1) pagtatakda ng problema at pagtatatag ng mga dahilan para sa koneksyon.

2) limitasyon ng object ng pananaliksik, koleksyon ng istatistikal na impormasyon.

3) pagpili ng coupling equation batay sa pagsusuri at katangian ng data na nakolekta.

4) pagkalkula ng mga numerical na halaga, mga katangian ng mga koneksyon sa ugnayan.

Kung ang dalawang variable ay magkaugnay sa paraang ang pagbabago sa isang variable ay tumutugma sa isang sistematikong pagbabago sa isa pang variable, ang regression analysis ay ginagamit upang tantiyahin at piliin ang equation para sa relasyon sa pagitan ng mga ito kung ang mga variable na ito ay kilala. Hindi tulad ng pagsusuri ng regression, ang pagsusuri ng ugnayan ay ginagamit upang pag-aralan ang lapit ng relasyon sa pagitan ng X at Y.

Isaalang-alang natin ang paghahanap ng isang tuwid na linya sa pagsusuri ng regression:

Theoretical regression equation.

Ang terminong "simpleng regression" ay nagpapahiwatig na ang halaga ng isang variable ay tinatantya batay sa kaalaman tungkol sa isa pang variable. Hindi tulad ng simpleng multivariate regression, ito ay ginagamit upang tantyahin ang isang variable batay sa kaalaman ng dalawa, tatlo o higit pang mga variable. Tingnan natin ang graphical analysis ng simpleng linear regression.

Ipagpalagay na may mga resulta ng mga pagsusuri sa pagsusuri sa pre-employment at labor productivity.

Mga resulta ng pagpili (100 puntos), x

Produktibo (20 puntos), y

Sa pamamagitan ng pag-plot ng mga puntos sa isang graph, nakakakuha tayo ng scatter diagram (field). Ginagamit namin ito upang pag-aralan ang mga resulta ng mga pagsubok sa pagpili at pagiging produktibo sa paggawa.

Gamit ang scatterplot, suriin natin ang linya ng regression. Sa pagsusuri ng regression, hindi bababa sa dalawang variable ang palaging tinutukoy. Ang isang sistematikong pagbabago sa isang variable ay nauugnay sa isang pagbabago sa isa pa. pangunahing layunin pagsusuri ng regression ay binubuo ng pagtatantya ng halaga ng isang variable kung ang halaga ng isa pang variable ay kilala. Para sa isang kumpletong gawain, ang pagtatasa ng produktibidad ng paggawa ay mahalaga.

Independent variable sa pagsusuri ng regression, isang dami na ginagamit bilang batayan para sa pagsusuri ng isa pang variable. Sa kasong ito, ito ang mga resulta ng mga pagsubok sa pagpili (kasama ang X axis).

Dependent variable ay tinatawag na tinantyang halaga (sa kahabaan ng Y axis). Sa pagsusuri ng regression, maaari lamang magkaroon ng isang dependent variable at higit sa isang independent variable.

Para sa simpleng pagsusuri ng regression, ang dependence ay maaaring katawanin sa isang two-coordinate system (x at y), na ang X axis ang independent variable at ang Y axis ang dependent variable. Pinulot namin ang mga intersection point upang ang isang pares ng mga halaga ay kinakatawan sa graph. Tinatawag ang schedule scatterplot. Ang pagtatayo nito ay ang pangalawang yugto ng pagsusuri ng regression, dahil ang una ay ang pagpili ng mga nasuri na halaga at koleksyon ng sample na data. Kaya, ang regression analysis ay ginagamit para sa statistical analysis. Ang ugnayan sa pagitan ng sample na data sa isang tsart ay linear.

Upang matantya ang magnitude ng isang variable y batay sa isang variable na x, kinakailangan upang matukoy ang posisyon ng linya na pinakamahusay na kumakatawan sa relasyon sa pagitan ng x at y batay sa lokasyon ng mga puntos sa scatterplot. Sa aming halimbawa, ito ay pagtatasa ng pagganap. Iginuhit ang linya sa pamamagitan ng mga scattering point - linya ng regression. Ang isang paraan upang makabuo ng linya ng regression batay sa visual na karanasan ay ang freehand method. Ang aming regression line ay maaaring gamitin upang matukoy ang labor productivity. Kapag hinahanap ang equation ng regression line

Kadalasang ginagamit ang least squares test. Ang pinaka-angkop na linya ay ang isa kung saan ang kabuuan ng mga squared deviations ay minimal

Ang mathematical equation ng isang growth line ay kumakatawan sa batas ng paglago sa isang arithmetic progression:

sa = AbX.

Y = A + bX– ang ibinigay na equation na may isang parameter ay ang pinakasimpleng uri ng coupling equation. Ito ay katanggap-tanggap para sa mga average na halaga. Upang mas tumpak na ipahayag ang relasyon sa pagitan ng X At sa, isang karagdagang koepisyent ng proporsyonalidad ay ipinakilala b, na nagpapahiwatig ng slope ng linya ng regression.

B) Pagbuo ng isang teoretikal na linya ng regression.

Ang proseso ng paghahanap nito ay binubuo sa pagpili at pagbibigay-katwiran sa uri ng curve at pagkalkula ng mga parameter A, b, Sa atbp. Ang proseso ng pagtatayo ay tinatawag na leveling, at ang supply ng mga kurba ay inaalok ng banig. pagsusuri, iba-iba. Kadalasan, sa mga problemang pang-ekonomiya, isang pamilya ng mga kurba ang ginagamit, mga equation na ipinahayag ng mga polynomial ng positive integer powers.

1)
- equation ng isang tuwid na linya,

2)
- hyperbola equation,

3)
- equation ng isang parabola,

kung saan ang ý ay ang mga ordinate ng theoretical regression line.

Ang pagpili ng uri ng equation, kailangan mong hanapin ang mga parameter kung saan nakasalalay ang equation na ito. Halimbawa, ang likas na katangian ng lokasyon ng mga puntos sa scattering field ay nagpakita na ang theoretical regression line ay tuwid.

Binibigyang-daan ka ng isang scatterplot na kumatawan sa produktibidad ng paggawa gamit ang pagsusuri ng regression. Sa ekonomiya, ang pagsusuri ng regression ay ginagamit upang mahulaan ang maraming katangian na nakakaapekto sa panghuling produkto (isinasaalang-alang ang pagpepresyo).

B) Ang criterion ng pinakamaliit na frame para sa paghahanap ng tuwid na linya.

Ang isang criterion na maaari naming ilapat para sa isang angkop na linya ng regression sa isang scatterplot ay batay sa pagpili ng linya kung saan ang kabuuan ng mga squared na error ay minimal.

Ang kalapitan ng mga scattering point sa tuwid na linya ay sinusukat ng mga ordinate ng mga segment. Ang mga paglihis ng mga puntong ito ay maaaring maging positibo at negatibo, ngunit ang kabuuan ng mga parisukat ng mga paglihis ng teoretikal na linya mula sa pang-eksperimentong linya ay palaging positibo at dapat ay minimal. Ang katotohanan na ang lahat ng mga scattering point ay hindi nag-tutugma sa posisyon ng linya ng regression ay nagpapahiwatig ng pagkakaroon ng isang pagkakaiba sa pagitan ng pang-eksperimentong at teoretikal na data. Kaya, masasabi nating walang ibang linya ng regression, maliban sa natagpuan, ang makakapagbigay ng mas maliit na halaga ng mga paglihis sa pagitan ng pang-eksperimentong at pang-eksperimentong data. Samakatuwid, nahanap ang teoretikal na equation ý at ang linya ng pagbabalik, natutugunan namin ang hindi bababa sa kinakailangan ng mga parisukat.

Ginagawa ito gamit ang coupling equation
gamit ang mga formula upang mahanap ang mga parameter A At b. Pagkuha ng teoretikal na halaga
at denoting ang kaliwang bahagi ng equation sa pamamagitan ng f, nakukuha namin ang function
mula sa hindi kilalang mga parameter A At b. Mga halaga A At b ay masiyahan ang pinakamababang function f at matatagpuan mula sa mga partial differential equation
At
. Ito kinakailangang kondisyon, gayunpaman, para sa isang positibong quadratic function na ito ay isa ring sapat na kondisyon para sa paghahanap A At b.

Kunin natin ang mga formula ng parameter mula sa mga partial derivative equation A At b:



nakakakuha kami ng isang sistema ng mga equation:

saan
– arithmetic mean errors.

Ang pagpapalit ng mga numerical na halaga, nakita namin ang mga parameter A At b.

May konsepto
. Ito ang approximation factor.

Kung e < 33%, то модель приемлема для дальнейшего анализа;

Kung e> 33%, pagkatapos ay kumuha kami ng hyperbola, parabola, atbp. Nagbibigay ito ng karapatan para sa pagsusuri sa iba't ibang sitwasyon.

Konklusyon: ayon sa criterion ng approximation coefficient, ang pinaka-angkop na linya ay ang isa kung saan

, at walang ibang linya ng regression para sa aming problema ang nagbibigay ng pinakamababang paglihis.

D) Square error ng pagtatantya, sinusuri ang kanilang typicality.

Kaugnay ng isang populasyon kung saan ang bilang ng mga parameter ng pananaliksik ay mas mababa sa 30 ( n < 30), для проверки типичности параметров уравнения регрессии используется t-T-test ng mag-aaral. Kinakalkula nito ang aktwal na halaga t-pamantayan:

Mula rito

saan – natitirang root-mean-square error. Natanggap t a At t b kumpara sa kritikal t k mula sa talahanayan ng Mag-aaral na isinasaalang-alang ang tinatanggap na antas ng kahalagahan ( = 0.01 = 99% o  = 0.05 = 95%). P = f = k 1 = m– bilang ng mga parameter ng equation na pinag-aaralan (degree of freedom). Halimbawa, kung y = a + bx; m = 2, k 2 = f 2 = p 2 = n – (m+ 1), kung saan n- bilang ng mga pinag-aralan na katangian.

t a < t k < t b .

Konklusyon: gamit ang mga parameter ng regression equation na nasubok para sa typicality, isang mathematical model of communication ang binuo
. Sa kasong ito, ang mga parameter ng mathematical function na ginamit sa pagsusuri (linear, hyperbola, parabola) ay tumatanggap ng kaukulang quantitative value. Ang semantikong nilalaman ng mga modelong nakuha sa paraang ito ay nailalarawan nila ang average na halaga ng nagresultang katangian
mula sa katangian ng salik X.

D) Curvilinear regression.

Kadalasan, ang isang curvilinear na relasyon ay nangyayari kapag ang isang pagbabago ng relasyon ay itinatag sa pagitan ng mga variable. Ang intensity ng pagtaas (pagbaba) ay depende sa antas ng X. Mayroong iba't ibang uri ng curvilinear dependence. Halimbawa, isaalang-alang ang kaugnayan sa pagitan ng ani ng pananim at pag-ulan. Sa isang pagtaas sa pag-ulan sa ilalim ng pantay na natural na mga kondisyon, mayroong isang masinsinang pagtaas sa ani, ngunit hanggang sa isang tiyak na limitasyon. Pagkatapos ng kritikal na punto, lumalabas na sobra-sobra ang pag-ulan, at sakuna bumababa ang mga ani. Ang halimbawa ay nagpapakita na sa una ang relasyon ay positibo at pagkatapos ay negatibo. Ang kritikal na punto ay ang pinakamainam na antas ng attribute X, na tumutugma sa maximum o minimum na halaga ng attribute Y.

Sa ekonomiya, ang ganitong relasyon ay sinusunod sa pagitan ng presyo at pagkonsumo, produktibidad at karanasan.

Parabolic dependence.

Kung ang data ay nagpapakita na ang pagtaas sa isang factor na katangian ay humahantong sa isang pagtaas sa resultang katangian, pagkatapos ay isang pangalawang-order na equation (parabola) ay kinuha bilang isang regression equation.

. Ang mga coefficient a,b,c ay matatagpuan mula sa mga partial differential equation:

Kumuha kami ng isang sistema ng mga equation:

Mga uri ng curvilinear equation:

,

,

May karapatan kaming ipagpalagay na may curvilinear na relasyon sa pagitan ng produktibidad ng paggawa at mga marka ng pagsusulit sa pagpili. Nangangahulugan ito na habang tumataas ang sistema ng pagmamarka, magsisimulang bumaba ang pagganap sa ilang antas, kaya maaaring maging curvilinear ang tuwid na modelo.

Ang ikatlong modelo ay magiging hyperbola, at sa lahat ng equation ang variable na x ay papalitan ng expression .

Ang mga konsepto ng ugnayan at regression ay direktang nauugnay. Mayroong maraming mga karaniwang computational techniques sa pagsusuri ng ugnayan at regression. Ginagamit ang mga ito upang matukoy ang mga ugnayang sanhi-at-epekto sa pagitan ng mga phenomena at mga proseso. Gayunpaman, kung pagsusuri ng ugnayan nagbibigay-daan sa amin na tantyahin ang lakas at direksyon ng stochastic na koneksyon, pagkatapos pagsusuri ng regression- isa ring anyo ng pagtitiwala.

Ang pagbabalik ay maaaring:

a) depende sa bilang ng mga phenomena (mga variable):

Simple (regression sa pagitan ng dalawang variable);

Maramihang (regression sa pagitan ng dependent variable (y) at ilang paliwanag na variable (x1, x2...xn);

b) depende sa anyo:

Linear (ipinapakita ng isang linear na function, at may mga linear na relasyon sa pagitan ng mga variable na pinag-aaralan);

Nonlinear (ipinapakita ng isang nonlinear function; ang relasyon sa pagitan ng mga variable na pinag-aaralan ay nonlinear);

c) sa pamamagitan ng likas na katangian ng ugnayan sa pagitan ng mga variable na kasama sa pagsasaalang-alang:

Positibo (ang pagtaas sa halaga ng nagpapaliwanag na variable ay humahantong sa pagtaas ng halaga ng umaasa na variable at vice versa);

Negatibo (habang tumataas ang halaga ng nagpapaliwanag na variable, bumababa ang halaga ng ipinaliwanag na variable);

d) ayon sa uri:

Direkta (sa kasong ito ang dahilan ay direktang epekto para sa imbestigasyon, i.e. dependent at explanatory variable ay direktang nauugnay sa isa't isa);

Di-tuwiran (ang nagpapaliwanag na variable ay may hindi direktang epekto sa pamamagitan ng isang pangatlo o isang bilang ng iba pang mga variable sa umaasa na variable);

Maling (nonsense regression) - maaaring lumitaw sa isang mababaw at pormal na diskarte sa mga proseso at phenomena na pinag-aaralan. Ang isang halimbawa ng isang walang katuturan ay isang regression na nagtatatag ng koneksyon sa pagitan ng pagbawas sa dami ng inuming alkohol sa ating bansa at pagbaba sa pagbebenta ng washing powder.

Kapag nagsasagawa ng pagsusuri ng regression, ang mga sumusunod na pangunahing gawain ay malulutas:

1. Pagpapasiya ng anyo ng pagtitiwala.

2. Kahulugan ng regression function. Upang gawin ito, ginagamit ang isang mathematical equation ng isang uri o iba pa, na nagpapahintulot, una, upang maitatag ang pangkalahatang takbo ng pagbabago sa dependent variable, at, pangalawa, upang kalkulahin ang impluwensya ng explanatory variable (o ilang mga variable) sa ang dependent variable.

3. Pagtatantya ng mga hindi kilalang halaga ng dependent variable. Ang resultang matematikal na relasyon (regression equation) ay nagbibigay-daan sa iyo upang matukoy ang halaga ng dependent variable sa loob ng pagitan ng tinukoy na mga halaga ng mga paliwanag na variable at higit pa dito. Sa huling kaso, ang pagsusuri ng regression ay gumaganap bilang isang kapaki-pakinabang na tool sa paghula ng mga pagbabago sa mga proseso at phenomena ng sosyo-ekonomiko (sa kondisyon na pinananatili ang mga kasalukuyang uso at relasyon). Karaniwan, ang haba ng yugto ng panahon kung saan isinasagawa ang pagtataya ay pinipili na hindi hihigit sa kalahati ng agwat ng oras kung saan isinagawa ang mga obserbasyon ng mga paunang tagapagpahiwatig. Posibleng magsagawa ng parehong passive forecast, paglutas ng extrapolation na problema, at isang aktibo, pangangatwiran ayon sa kilalang "if..., then" scheme at pagpapalit ng iba't ibang mga halaga sa isa o higit pang mga paliwanag na variable ng regression .



Para sa pagbuo ng regression isang espesyal na pamamaraan na tinatawag paraan ng least squares. Ang pamamaraang ito ay may mga pakinabang sa iba pang mga paraan ng pagpapakinis: ito ay medyo simple kahulugan ng matematika kinakailangang mga parameter at mabuti teoretikal na batayan mula sa isang probabilistikong punto ng view.

Kapag pumipili ng isang modelo ng regression, isa sa mga mahahalagang kinakailangan para dito ay upang matiyak ang pinakamalaking posibleng pagiging simple, na nagpapahintulot sa iyo na makakuha ng isang solusyon na may sapat na katumpakan. Samakatuwid, upang magtatag ng mga istatistikal na relasyon, una, bilang isang panuntunan, isinasaalang-alang namin ang isang modelo mula sa klase ng mga linear na function (bilang ang pinakasimpleng sa lahat ng posibleng mga klase ng mga function):

kung saan ang bi, b2...bj ay mga coefficient na tumutukoy sa impluwensya ng mga independent variable xij sa halaga yi; ai - libreng miyembro; ei - random deviation, na sumasalamin sa impluwensya ng hindi nabilang na mga kadahilanan sa dependent variable; n - bilang ng mga independiyenteng variable; Ang N ay ang bilang ng mga obserbasyon, at ang kundisyon (N . n+1) ay dapat matugunan.

Linear na modelo maaaring ilarawan ang isang napakalawak na klase ng iba't ibang problema. Gayunpaman, sa pagsasagawa, partikular sa mga sistemang sosyo-ekonomiko, kung minsan ay mahirap gumamit ng mga linear na modelo dahil sa malalaking error sa pagtatantya. Samakatuwid, ang mga nonlinear na function ay madalas na ginagamit maramihang pagbabalik, na nagpapahintulot sa linearization. Kabilang dito, halimbawa, ang production function ( function ng kapangyarihan Cobb-Douglas), na natagpuan ang aplikasyon sa iba't ibang mga pag-aaral sa socio-economic. Mukhang:

kung saan ang b 0 ay ang normalization factor, b 1 ...b j ay hindi kilalang coefficients, e i ay isang random deviation.

Gamit natural logarithms, maaari nating baguhin ang equation na ito sa linear form:

Ang resultang modelo ay nagpapahintulot sa paggamit ng mga karaniwang pamamaraan ng linear regression na inilarawan sa itaas. Sa pamamagitan ng pagbuo ng mga modelo ng dalawang uri (additive at multiplicative), maaari mong piliin ang pinakamahusay at magsagawa ng karagdagang pananaliksik na may mas maliit na mga error sa pagtatantya.

Mayroong isang mahusay na binuo na sistema para sa pagpili ng approximating function - paraan ng group accounting ng mga argumento(MGUA).

Ang kawastuhan ng napiling modelo ay maaaring hatulan ng mga resulta ng pag-aaral ng mga nalalabi, na kung saan ay ang mga pagkakaiba sa pagitan ng mga sinusunod na halaga y i at ang kaukulang mga halaga y i hinulaang gamit ang regression equation. Sa kasong ito upang suriin ang kasapatan ng modelo kalkulado average na error mga pagtatantya:

Ang modelo ay itinuturing na sapat kung ang e ay nasa loob ng hindi hihigit sa 15%.

Lalo naming binibigyang-diin na may kaugnayan sa mga sistemang sosyo-ekonomiko, ang mga pangunahing kondisyon para sa kasapatan ng modelo ng klasikal na regression ay hindi palaging natutugunan.

Nang hindi isinasaalang-alang ang lahat ng mga dahilan para sa kakulangan na lumitaw, pangalanan lamang natin multicollinearity- ang pinakamahirap na problema epektibong aplikasyon mga pamamaraan ng pagsusuri ng regression kapag nag-aaral ng mga dependency sa istatistika. Sa ilalim multicollinearity nauunawaan na mayroong isang linear na relasyon sa pagitan ng mga paliwanag na variable.

Itong kababalaghan:

a) binabaluktot ang kahulugan ng mga coefficient ng regression kapag binibigyang kahulugan ang mga ito nang makahulugan;

b) binabawasan ang katumpakan ng pagtatasa (ang pagpapakalat ng mga pagtatasa ay tumataas);

c) pinapataas ang sensitivity ng mga coefficient na pagtatantya sa sample na data (ang pagtaas ng sample size ay maaaring makaapekto nang malaki sa mga pagtatantya).

Mayroong iba't ibang mga pamamaraan para sa pagbabawas ng multicollinearity. Karamihan abot-kayang paraan- pag-aalis ng isa sa dalawang variable kung ang koepisyent ng ugnayan sa pagitan ng mga ito ay lumampas sa isang halaga na katumbas ng ganap na halaga sa 0.8. Alin sa mga variable na dapat panatilihin ang napagpasyahan batay sa mahahalagang pagsasaalang-alang. Pagkatapos ang mga coefficient ng regression ay kinakalkula muli.

Ang paggamit ng stepwise regression algorithm ay nagbibigay-daan sa iyong sunud-sunod na isama ang isang independent variable sa modelo at pag-aralan ang kahalagahan ng regression coefficients at multicollinearity ng mga variable. Sa wakas, ang mga variable na iyon lamang ang nananatili sa relasyon sa ilalim ng pag-aaral na nagbibigay ng kinakailangang kabuluhan ng mga coefficient ng regression at minimal na impluwensya ng multicollinearity.