Ang regression coefficient y sa x ay nagpapakita. Mga Batayan ng Linear Regression

Ang regression coefficient ay ang ganap na halaga kung saan ang halaga ng isang katangian ay nagbabago sa karaniwan kapag ang isa pang katangian na nauugnay dito ay nagbabago ng itinatag na yunit ng pagsukat. Kahulugan ng regression. Tinutukoy ng relasyon sa pagitan ng y at x ang tanda ng regression coefficient b (kung > 0 - direktang relasyon, kung hindi - kabaligtaran). Modelo linear regression ay ang pinakamadalas na ginagamit at pinaka-pinag-aaralan sa econometrics.

1.4. Error sa pagtatantya. Suriin natin ang kalidad ng equation ng regression gamit ang error ganap na pagtatantya. Ang mga predictive na halaga ng mga kadahilanan ay pinapalitan sa modelo at ang mga point predictive na pagtatantya ng indicator sa ilalim ng pag-aaral ay nakuha. Kaya, ang mga coefficient ng regression ay nagpapakilala sa antas ng kahalagahan ng mga indibidwal na kadahilanan para sa pagtaas ng antas ng epektibong tagapagpahiwatig.

Coefficient ng regression

Isaalang-alang ngayon ang problema 1 ng mga gawain sa pagsusuri ng regression na ibinigay sa p. 300-301. Ang isa sa mga resulta ng matematika ng teorya ng linear regression ay nagsasabi na ang pagtatantya N, ay ang walang pinapanigan na pagtatantya na may pinakamababang pagkakaiba sa klase ng lahat ng linear na walang pinapanigan na mga pagtatantya. Halimbawa, maaari mong kalkulahin ang bilang ng mga sipon sa karaniwan sa ilang mga halaga ng average na buwanang temperatura ng hangin sa panahon ng taglagas-taglamig.

Regression line at regression equation

Ang regression sigma ay ginagamit sa pagbuo ng isang regression scale, na sumasalamin sa paglihis ng mga halaga ng epektibong katangian mula sa average na halaga na naka-plot sa linya ng regression. 1, x2, x3 at ang kanilang mga katumbas na average na halaga y1, y2 y3, pati na rin ang pinakamaliit (y - σry/x) at pinakamalaking (y + σry/x) na mga halaga (y) upang makabuo ng regression scale. Konklusyon. Kaya, ang sukat ng regression sa loob ng kinakalkula na mga halaga ng timbang ng katawan ay nagpapahintulot sa iyo na matukoy ito para sa anumang iba pang halaga ng paglago o upang suriin indibidwal na pag-unlad bata.

Sa matrix form, ang regression equation (ER) ay nakasulat bilang: Y=BX+U(\displaystyle Y=BX+U), kung saan ang U(\displaystyle U) ay ang error matrix. Ang istatistikal na paggamit ng salitang "regression" ay nagmula sa isang phenomenon na kilala bilang regression to the mean, na iniuugnay kay Sir Francis Galton (1889).

Ang pairwise linear regression ay maaaring palawigin upang maisama ang higit sa isang independent variable; sa kasong ito ito ay kilala bilang multiple regression. Parehong para sa mga outlier at para sa "maimpluwensyang" mga obserbasyon (mga puntos), ang mga modelo ay ginagamit, kapwa mayroon at wala ang mga ito, bigyang-pansin ang pagbabago sa pagtatantya (regression coefficients).

Dahil sa linear na relasyon, at inaasahan naming magbabago habang nagbabago ito, at tinatawag namin itong variation, na dahil sa o ipinaliwanag ng regression. Kung gayon, kung gayon ang karamihan sa pagkakaiba-iba ay ipapaliwanag ng regression, at ang mga puntos ay malapit sa linya ng regression, i.e. ang linya ay angkop sa data. Ang pagkakaiba ay ang porsyento ng pagkakaiba na hindi maipaliwanag ng regression.

Ang pamamaraang ito ay ginagamit upang mailarawan ang anyo ng komunikasyon sa pagitan ng pinag-aralan na mga tagapagpahiwatig ng ekonomiya. Batay sa larangan ng ugnayan, ang isa ay maaaring mag-hypothesize (para sa pangkalahatang populasyon) na ang ugnayan sa pagitan ng lahat ng posibleng mga halaga ng X at Y ay linear.

Mga dahilan para sa pagkakaroon ng isang random na error: 1. Hindi pagsasama ng mga makabuluhang paliwanag na variable sa modelo ng regression; 2. Pagsasama-sama ng mga variable. Sistema ng mga normal na equation. Sa aming halimbawa, ang koneksyon ay direkta. Upang mahulaan ang dependent variable ng resultang attribute, kailangang malaman ang predictive values ​​ng lahat ng mga salik na kasama sa modelo.

Paghahambing ng mga coefficient ng ugnayan at regression

Sa isang posibilidad na 95%, maaari itong masiguro na ang mga halaga ng Y para sa walang limitasyon malalaking numero ang mga obserbasyon ay hindi lalampas sa mga nahanap na pagitan. Kung ang kinakalkula na halaga na may lang=EN-US>n-m-1) na antas ng kalayaan ay mas malaki kaysa sa naka-tabulate na halaga sa isang partikular na antas ng kahalagahan, kung gayon ang modelo ay itinuturing na makabuluhan. Tinitiyak nito na walang ugnayan sa pagitan ng anumang mga paglihis at, sa partikular, sa pagitan ng mga katabing paglihis.

Regression coefficients at ang kanilang interpretasyon

Sa karamihan ng mga kaso, ang positibong autocorrelation ay sanhi ng isang direksyon na patuloy na impluwensya ng ilang mga kadahilanan na hindi isinasaalang-alang sa modelo. Ang negatibong autocorrelation ay talagang nangangahulugan na ang isang positibong paglihis ay sinusundan ng isang negatibo at vice versa.

Ano ang regression?

2. Inertia. marami mga tagapagpahiwatig ng ekonomiya(inflation, unemployment, GNP, atbp.) ay may isang tiyak na cyclicality na nauugnay sa undulation ng aktibidad ng negosyo. Sa maraming pang-industriya at iba pang mga lugar, ang mga tagapagpahiwatig ng ekonomiya ay tumutugon sa mga pagbabago sa mga kondisyon ng ekonomiya na may pagkaantala (time lag).

Kung ang isang paunang standardisasyon ng mga tagapagpahiwatig ng kadahilanan ay natupad, kung gayon ang b0 ay katumbas ng average na halaga ng epektibong tagapagpahiwatig sa pinagsama-samang. Ang mga tiyak na halaga ng mga coefficient ng regression ay tinutukoy mula sa empirical data ayon sa pamamaraan hindi bababa sa mga parisukat(bilang resulta ng paglutas ng mga sistema ng mga normal na equation).

Ang linear regression equation ay may anyo na y = bx + a + ε Narito ang ε ay isang random na error (paglihis, perturbation). Dahil ang error ay mas malaki sa 15%, ang equation na ito ay hindi kanais-nais na gamitin bilang isang regression. Sa pamamagitan ng pagpapalit ng naaangkop na mga halaga ng x sa equation ng regression, posibleng matukoy ang nakahanay (hula) na mga halaga ng epektibong tagapagpahiwatig na y(x) para sa bawat pagmamasid.

Mga coefficient ng regression ipakita ang intensity ng impluwensya ng mga kadahilanan sa tagapagpahiwatig ng pagganap. Kung ang isang paunang standardisasyon ng mga tagapagpahiwatig ng kadahilanan ay natupad, kung gayon ang b 0 ay katumbas ng average na halaga ng epektibong tagapagpahiwatig sa pinagsama-samang. Ang mga coefficients b 1 , b 2 , ..., b n ay nagpapakita kung gaano karaming mga yunit ang antas ng epektibong tagapagpahiwatig ay lumihis mula sa average na halaga nito kung ang mga halaga ng tagapagpahiwatig ng kadahilanan ay lumihis mula sa average, katumbas ng zero, para sa isa karaniwang lihis. Kaya, ang mga coefficient ng regression ay nagpapakilala sa antas ng kahalagahan ng mga indibidwal na kadahilanan para sa pagtaas ng antas ng epektibong tagapagpahiwatig. Ang mga tiyak na halaga ng mga coefficient ng regression ay natutukoy mula sa empirical na data ayon sa pamamaraan ng hindi bababa sa mga parisukat (bilang resulta ng paglutas ng mga sistema ng mga normal na equation).

linya ng regression- ang linya na pinakatumpak na sumasalamin sa distribusyon ng mga pang-eksperimentong punto sa scatterplot at ang slope na nagpapakita ng ugnayan sa pagitan ng dalawang variable ng pagitan.

Ang linya ng regression ay kadalasang hinahanap bilang isang linear function (linear regression), ang pinakamahusay na paraan tinatantya ang nais na kurba. Ginagawa ito gamit ang pinakamaliit na paraan ng mga parisukat, kapag ang kabuuan ng mga squared deviations ng aktwal na naobserbahan mula sa kanilang mga pagtatantya ay pinaliit (ibig sabihin, ang mga pagtatantya ay gumagamit ng isang tuwid na linya na nagsasabing kumakatawan sa nais na pag-asa sa regression):

(M - laki ng sample). Ang diskarte na ito ay batay sa kilalang katotohanan na ang kabuuan na lumilitaw sa expression sa itaas ay tumatagal ng pinakamababang halaga nang eksakto para sa kaso kung kailan .
57. Pangunahing gawain ng teorya ng ugnayan.

Ang teorya ng ugnayan ay isang apparatus na sinusuri ang pagiging malapit ng mga relasyon sa pagitan ng mga phenomena na hindi lamang sa isang sanhi na relasyon. Sa tulong ng teorya ng ugnayan, sinusuri ang stochastic, ngunit hindi sanhi ng mga relasyon. Ang may-akda, kasama si M. L. Lukatskaya, ay gumawa ng isang pagtatangka upang makakuha ng mga pagtatantya para sa mga ugnayang sanhi. Gayunpaman, ang tanong ng sanhi-at-epekto na mga relasyon ng mga phenomena, kung paano matukoy ang sanhi at epekto, ay nananatiling bukas, at tila sa pormal na antas ito ay sa panimula ay hindi malulutas.

Ang teorya ng ugnayan at ang aplikasyon nito sa pagsusuri ng produksyon.

Teorya ng ugnayan, na isa sa mga seksyon mga istatistika ng matematika, ay nagbibigay-daan sa iyong gumawa ng mga makatwirang pagpapalagay tungkol sa mga posibleng limitasyon kung saan ang parameter na pinag-aaralan ay magkakaroon ng isang tiyak na antas ng pagiging maaasahan kung ang ibang mga parameter na istatistikal na nauugnay dito ay makakatanggap ng ilang partikular na halaga.

Sa teorya ng ugnayan, kaugalian na mag-isa dalawang pangunahing gawain.

Unang gawain teorya ng ugnayan - upang maitatag ang anyo ng ugnayan, i.e. uri ng regression function (linear, quadratic, atbp.).

Pangalawang gawain teorya ng ugnayan - upang suriin ang higpit (lakas) ng ugnayan.

Ang higpit ng ugnayan (dependence) Y sa X ay tinatantya ng dami ng pagpapakalat ng mga halaga ng Y sa paligid ng conditional average. Ang isang malaking pagpapakalat ay nagpapahiwatig ng isang mahinang pag-asa ng Y sa X, ang isang maliit na pagpapakalat ay nagpapahiwatig ng pagkakaroon ng isang malakas na pag-asa.
58. Talaan ng ugnayan at nito mga katangiang numero.

Sa pagsasagawa, bilang isang resulta ng mga independiyenteng obserbasyon sa mga halaga ng X at Y, bilang isang patakaran, ang isang tao ay hindi nakikitungo sa buong hanay ng lahat ng posibleng mga pares ng mga halaga ng mga halagang ito, ngunit lamang sa isang limitadong sample mula sa pangkalahatang populasyon, at ang laki n ng sample na populasyon ay tinukoy bilang ang bilang ng mga pares sa sample.

Hayaang kunin ng halaga ng X sa sample ang mga halaga x 1 , x 2 ,....x m , kung saan ang bilang ng mga halaga ng halagang ito na naiiba sa bawat isa, at sa pangkalahatang kaso, bawat isa sa kanila sa sample ay maaaring ulitin. Hayaang kunin ng halaga ng Y sa sample ang mga halaga y 1 , y 2 ,....y k , kung saan ang k ay ang bilang ng mga halaga ng halagang ito na naiiba sa isa't isa, at sa pangkalahatang kaso, bawat isa sa kanila sa sample ay maaari ding ulitin. Sa kasong ito, ang data ay ipinasok sa talahanayan na isinasaalang-alang ang mga frequency ng paglitaw. Ang nasabing talahanayan na may nakapangkat na data ay tinatawag na talahanayan ng ugnayan.

Ang unang yugto ng pagpoproseso ng istatistika ng mga resulta ay ang pagsasama-sama ng isang talahanayan ng ugnayan.

Y\X x 1 x2 ... x m n y
y 1 n 12 n 21 n m1 n y1
y2 n 22 n m2 n y2
...
y k n 1k n 2k nmk n yk
n x nx1 nx2 nxm n

Ang unang linya ng pangunahing bahagi ng talahanayan ay naglilista sa pataas na pagkakasunud-sunod ng lahat ng mga halaga ng X value na makikita sa sample. Ang unang column ay naglilista din sa pataas na pagkakasunud-sunod ng lahat ng mga halaga ng Y value na makikita sa sample. Sa intersection ng kaukulang mga row at column, ang mga frequency n ij (i=1.2 ,...,m; j=1,2,...,k) ay katumbas ng bilang ng mga paglitaw ng pares (x i ;y i ) sa sample. Halimbawa, ang dalas n 12 ay ang bilang ng mga paglitaw sa sample ng pares (x 1 ;y 1).

Gayundin ang n xi n ij , 1≤i≤m, ay ang kabuuan ng mga elemento ng i-th column, n yj n ij , 1≤j≤k, ay ang kabuuan ng mga elemento ng j-th row at n xi = n yj =n

Ang mga analogue ng mga formula na nakuha mula sa data ng talahanayan ng ugnayan ay may anyo:


59. Empirical at theoretical regression lines.

Theoretical regression line maaaring kalkulahin sa kasong ito mula sa mga resulta ng mga indibidwal na obserbasyon. Upang malutas ang sistema ng mga normal na equation, kailangan namin ng parehong data: x, y, xy, at xr. Mayroon kaming data sa dami ng produksyon ng semento at dami ng fixed production asset noong 1958. Ang gawain ay imbestigahan ang kaugnayan sa pagitan ng volume ng produksyon ng semento (sa pisikal na termino) at ng volume ng fixed asset. [ 1 ]

Ang mas kaunti ang teoretikal na linya ng regression (kinakalkula ayon sa equation) ay lumilihis mula sa aktwal (empirical), mas kaunti ibig sabihin ng pagkakamali mga pagtatantya.

Ang proseso ng paghahanap ng theoretical regression line ay ang alignment ng empirical regression line batay sa least squares method.

Ang proseso ng paghahanap ng theoretical regression line ay tinatawag na alignment ng empirical regression line at binubuo sa pagpili at pagbibigay-katwiran ng uri; curve at pagkalkula ng mga parameter ng equation nito.

Ang empirical regression ay batay sa data ng analytical o combinational na pagpapangkat at kumakatawan sa pagtitiwala ng mga average na halaga ng grupo ng katangian ng resulta sa average na halaga ng grupo ng factor factor. Grapikal na presentasyon empirical regression - isang putol na linya na binubuo ng mga puntos, ang abscissas kung saan ay ang mga average na halaga ng grupo ng attribute-factor, at ang ordinates ay ang average na halaga ng grupo ng attribute-resulta. Ang bilang ng mga puntos ay katumbas ng bilang ng mga pangkat sa pagpapangkat.

Ang empirical regression line ay sumasalamin sa pangunahing takbo ng relasyon na isinasaalang-alang. Kung ang empirical regression line sa anyo nito ay lumalapit sa isang tuwid na linya, maaari nating ipalagay ang pagkakaroon ng isang straight-line na ugnayan sa pagitan ng mga palatandaan. At kung ang linya ng komunikasyon ay lumalapit sa curve, maaaring ito ay dahil sa pagkakaroon ng isang curvilinear correlation.
60. Selective correlation at regression coefficients.

Kung ang relasyon sa pagitan ng mga palatandaan sa graph ay nagpapahiwatig linear na ugnayan, kalkulahin koepisyent ng ugnayan r, na nagbibigay-daan sa iyo upang masuri ang pagiging malapit ng relasyon ng mga variable, pati na rin upang malaman kung anong proporsyon ng mga pagbabago sa isang katangian ay dahil sa impluwensya ng pangunahing katangian, na dahil sa impluwensya ng iba pang mga kadahilanan. Ang koepisyent ay nag-iiba mula -1 hanggang +1. Kung ang r=0, pagkatapos ay walang kaugnayan sa pagitan ng mga tampok. Pagkakapantay-pantay r=0 ay nagsasalita lamang tungkol sa kawalan ng isang linear na pag-asa sa ugnayan, ngunit hindi sa pangkalahatan tungkol sa kawalan ng isang ugnayan, at higit pa sa isang istatistikal na pag-asa. Kung ang r= ±1, nangangahulugan ito ng pagkakaroon ng kumpletong (functional) na koneksyon. Sa kasong ito, ang lahat ng naobserbahang mga halaga ay matatagpuan sa linya ng regression, na isang tuwid na linya.
Ang praktikal na kahalagahan ng koepisyent ng ugnayan ay natutukoy sa pamamagitan ng squared value nito, na tinatawag na coefficient of determination.
Tinatayang regression (tinatayang inilalarawan) ng isang linear na function y = kX + b. Para sa regression ng Y sa X, ang regression equation ay: `y x = ryx X + b; (isa). Ang slope ryx ng direktang regression ng Y sa X ay tinatawag na regression coefficient ng Y sa X.

Kung ang equation (1) ay matatagpuan mula sa sample na data, kung gayon ito ay tinatawag sample regression equation. Alinsunod dito, ang ryx ay ang sample na regression coefficient ng Y sa X, at ang b ay ang sample na intercept ng equation. Ang regression coefficient ay sumusukat sa variation sa Y bawat unit ng variation sa X. Ang mga parameter ng regression equation (coefficients ryx at b) ay matatagpuan gamit ang least squares method.
61. Pagtatasa ng kahalagahan ng koepisyent ng ugnayan at ang lapit ng ugnayan sa pangkalahatang populasyon

Kahalagahan ng mga coefficient ng ugnayan sinusuri namin ayon sa pamantayan ng Mag-aaral:

saan - ang ibig sabihin ng square error ng correlation coefficient, na tinutukoy ng formula:

Kung ang kinakalkula na halaga (mas mataas kaysa sa tabular na halaga), maaari nating tapusin na ang halaga ng koepisyent ng ugnayan ay makabuluhan. t ay matatagpuan ayon sa talahanayan ng mga halaga ng pamantayan ng Mag-aaral. Isinasaalang-alang nito ang bilang ng mga antas ng kalayaan (V = n - 1) at antas antas ng kumpiyansa(karaniwan ay 0.05 o 0.01 sa mga kalkulasyon sa ekonomiya). Sa aming halimbawa, ang bilang ng mga antas ng kalayaan ay: P - 1 = 40 - 1 = 39. Sa antas ng kumpiyansa R = 0,05; t= 2.02. Dahil (ang aktwal sa lahat ng mga kaso ay mas mataas kaysa sa t-talahanayan, ang ugnayan sa pagitan ng epektibo at mga tagapagpahiwatig ng kadahilanan ay maaasahan, at ang halaga ng mga coefficient ng ugnayan ay makabuluhan.

Pagtataya ng koepisyent ng ugnayan, na kinakalkula mula sa isang limitadong sample, ay halos palaging naiiba mula sa zero. Ngunit hindi ito sumusunod mula dito na ang koepisyent ng ugnayan populasyon iba rin sa zero. Kinakailangang suriin ang kahalagahan ng sample na halaga ng koepisyent o, alinsunod sa pagbabalangkas ng mga problema para sa pagsubok ng mga istatistikal na hypotheses, upang subukan ang hypothesis na ang coefficient ng ugnayan ay katumbas ng zero. Kung ang hypothesis H 0 tungkol sa pagkakapantay-pantay ng koepisyent ng ugnayan sa zero ay tatanggihan, kung gayon ang sample coefficient ay makabuluhan, at ang kaukulang mga halaga ay nauugnay sa isang linear na relasyon. Kung ang hypothesis H 0 ay tinatanggap, kung gayon ang pagtatantya ng koepisyent ay hindi makabuluhan, at ang mga halaga ay hindi magkakaugnay sa bawat isa (kung, para sa mga pisikal na kadahilanan, ang mga kadahilanan ay maaaring nauugnay, kung gayon mas mahusay na sabihin na ang relasyon na ito ay hindi naitatag ayon sa magagamit na ED). Ang pagsubok sa hypothesis tungkol sa kahalagahan ng pagtatantya ng koepisyent ng ugnayan ay nangangailangan ng kaalaman sa pamamahagi ng random variable na ito. Pamamahagi ng  ik pinag-aralan lamang para sa espesyal na kaso kung kailan mga random na variable Uj at U k ipinamahagi ayon sa normal na batas.

Bilang criterion para sa pagsubok sa null hypothesis H 0 maglapat ng random variable . Kung ang modulus ng koepisyent ng ugnayan ay medyo malayo sa pagkakaisa, kung gayon ang halaga t kung ang null hypothesis ay totoo, ito ay ipinamamahagi ayon sa batas ng Mag-aaral na may n– 2 antas ng kalayaan. Nagkumpitensyang hypothesis H 1 ay tumutugma sa pahayag na ang halaga ng  ik hindi katumbas ng zero (mas malaki o mas mababa sa zero). Samakatuwid, ang kritikal na rehiyon ay dalawang panig.
62. Pagkalkula ng sample correlation coefficient at ang pagbuo ng isang sample equation ng isang straight regression line.

Sample na koepisyent ng ugnayan ay matatagpuan ayon sa formula

nasaan ang sample standard deviations ng at .

Ang sample correlation coefficient ay nagpapakita ng higpit ng linear na relasyon sa pagitan ng at : mas malapit sa pagkakaisa, mas malakas ang linear na relasyon sa pagitan ng at .

Ang simpleng linear regression ay nakakahanap ng linear na relasyon sa pagitan ng isang input at isang output variable. Upang gawin ito, ang isang regression equation ay tinutukoy - ito ay isang modelo na sumasalamin sa pag-asa ng mga halaga ng Y, ang umaasa na halaga ng Y sa mga halaga ng x, ang independiyenteng variable x at ang pangkalahatang populasyon, ay inilarawan sa pamamagitan ng equation:

saan A0- libreng termino ng equation ng regression;

A1- koepisyent ng equation ng regression

Pagkatapos ang isang kaukulang tuwid na linya ay itinayo, na tinatawag na linya ng regression. Ang mga coefficient na A0 at A1, na tinatawag ding mga parameter ng modelo, ay pinili sa paraang magiging minimal ang kabuuan ng mga squared deviations ng mga puntos na tumutugma sa totoong data observation mula sa regression line. Ang mga coefficient ay pinili gamit ang least squares method. Sa madaling salita, ang simpleng linear regression ay naglalarawan sa linear na modelo na pinakamahusay na tinatantya ang relasyon sa pagitan ng isang input at isang output variable.

Sa isang linear na uri ng relasyon sa pagitan ng dalawang katangian na pinag-aaralan, bilang karagdagan sa pagkalkula ng mga ugnayan, ginagamit ang pagkalkula ng koepisyent ng regression.

Sa kaso ng isang rectilinear correlation na relasyon, ang bawat isa sa mga pagbabago sa isang katangian ay tumutugma sa isang mahusay na tinukoy na pagbabago sa isa pang katangian. Gayunpaman, ang koepisyent ng ugnayan ay nagpapakita lamang ng kaugnayang ito sa mga kaugnay na termino - sa mga praksyon ng isang yunit. Sa parehong pagsusuri ng regression ang halaga ng bono na ito ay nakuha sa pinangalanang mga yunit. Ang halaga kung saan ang unang sign ay nagbabago sa average kapag ang pangalawa ay nagbabago ng isang yunit ng pagsukat ay tinatawag na regression coefficient.

Hindi tulad ng pagsusuri ng ugnayan, ang pagsusuri ng regression ay nagbibigay ng higit pang impormasyon, dahil sa pamamagitan ng pagkalkula ng dalawang coefficient ng regression Rx/y at Ru/x posible na matukoy ang parehong pag-asa ng unang pag-sign sa pangalawa, at ang pangalawa sa una. Ang pagpapahayag ng isang relasyon ng regression gamit ang isang equation ay nagbibigay-daan sa iyo upang itakda ang halaga ng isa pang katangian sa pamamagitan ng isang tiyak na halaga ng isang katangian.

Ang regression coefficient R ay ang produkto ng correlation coefficient at ang ratio ng standard deviations na kinakalkula para sa bawat feature. Ito ay kinakalkula ayon sa formula

kung saan, R - koepisyent ng regression; SH - karaniwan karaniwang lihis ang unang tanda, na nagbabago kaugnay ng pagbabago sa pangalawa; SU - standard deviation ng pangalawang sign na may kaugnayan sa pagbabago kung saan nagbabago ang unang sign; r ay ang koepisyent ng ugnayan sa pagitan ng mga tampok na ito; x - function; y -pangatwiran.

Tinutukoy ng formula na ito ang halaga ng x kapag binabago ang y bawat yunit ng pagsukat. Kung kailangan mo ng baligtad na pagkalkula, mahahanap mo ang halaga ng y kapag nagbabago ang x bawat yunit ng pagsukat gamit ang formula:


Sa kasong ito, ang aktibong papel sa pagbabago ng isang katangian na may kaugnayan sa isa pang pagbabago, kung ihahambing sa nakaraang formula, ang argumento ay nagiging isang function at vice versa. Ang mga halaga ng SX at SY ay kinuha sa isang pinangalanang expression.

Mayroong malinaw na ugnayan sa pagitan ng mga halaga ng r at R, na ipinahayag sa katotohanan na ang produkto ng regression ng x sa pamamagitan ng y at ang regression ng y sa pamamagitan ng x ay katumbas ng parisukat ng koepisyent ng ugnayan, i.e.

Rx/y * Ry/x = r2

Ipinapahiwatig nito na ang koepisyent ng ugnayan ay ang geometric na kahulugan ng parehong mga halaga ng mga coefficient ng regression ng sample na ito. Maaaring gamitin ang formula na ito upang suriin ang kawastuhan ng mga kalkulasyon.

Kapag nagpoproseso ng digital na materyal sa mga machine ng pagbibilang, ang mga detalyadong formula para sa coefficient ng regression ay maaaring gamitin:

R o


Para sa coefficient ng regression, maaaring kalkulahin ang error sa representasyon nito. Ang error ng regression coefficient ay katumbas ng error ng correlation coefficient na pinarami ng ratio ng quadratic ratios:

Ang kriterya ng pagiging maaasahan para sa koepisyent ng regression ay kinakalkula gamit ang karaniwang formula:

bilang isang resulta, ito ay katumbas ng criterion ng pagiging maaasahan ng koepisyent ng ugnayan:

Ang pagiging maaasahan ng halaga ng tR ay itinakda ayon sa talahanayan ng Mag-aaral na may  = n - 2, kung saan ang n ay ang bilang ng mga pares ng mga obserbasyon.

Curvilinear regression.

REGRESSION, CURVILINEAR. Anumang non-linear regression kung saan ang regression equation para sa mga pagbabago sa isang variable (y) bilang function ng t ay nagbabago sa isa pa (x) ay isang quadratic, cubic, o higher order equation. Bagama't palaging posible sa matematika na makakuha ng equation ng regression na akma sa bawat "squiggle" ng curve, karamihan sa mga perturbation na ito ay nagreresulta mula sa mga error sa sampling o pagsukat, at ang gayong "perpektong" fit ay walang magagawa. Hindi laging madaling matukoy kung ang isang curvilinear regression ay umaangkop sa isang dataset, bagama't may mga istatistikal na pagsubok upang matukoy kung ang bawat mas mataas na kapangyarihan ng isang equation ay makabuluhang nagpapataas ng fit rate ng dataset na iyon.

Ginagawa ang curve fitting sa parehong paraan gamit ang least squares method bilang straight line alignment. Dapat matugunan ng linya ng regression ang pinakamababang kabuuan ng mga squared na distansya sa bawat punto ng field ng ugnayan. Sa kasong ito, sa equation (1), ang y ay kumakatawan sa kinakalkula na halaga ng function, na tinutukoy gamit ang equation ng napiling curvilinear na koneksyon mula sa aktwal na mga halaga ng x j. Halimbawa, kung ang isang pangalawang-order na parabola ay pinili upang tantiyahin ang koneksyon, pagkatapos ay y = a + b x + cx2, (14) .at ang pagkakaiba sa pagitan ng isang puntong nakahiga sa kurba at isang ibinigay na punto ng field ng ugnayan na may katumbas na Ang argumento ay maaaring isulat nang katulad sa equation (3) sa anyong yj = yj (a + bx + cx2) (15) Sa kasong ito, ang kabuuan ng mga squared na distansya mula sa bawat punto ng field ng ugnayan sa bagong linya ng regression sa kaso ng isang pangalawang-order na parabola ay magkakaroon ng anyo: S 2 = yj 2 = 2 (16) Batay sa pinakamababang kondisyon ng kabuuan na ito, ang mga partial derivatives ng S 2 na may kinalaman sa a, b at c ay tinutumbasan sa zero. Ang pagkakaroon ng mga kinakailangang pagbabagong-anyo, nakakakuha kami ng isang sistema ng tatlong mga equation na may tatlong hindi alam para sa pagtukoy ng a, b at c. , y = m a + b x + c x 2 yx = a x + b x 2 + c x 2. yx2 = a x 2 + b x 3 + c x4 . (17). Ang paglutas ng sistema ng mga equation para sa a, b at c, nakita namin ang mga numerical na halaga ng mga coefficient ng regression. Ang mga halaga ng y, x, x2, yx, yx2, x3, x4 ay matatagpuan nang direkta mula sa data ng mga sukat ng produksyon. Ang pagtatantya ng higpit ng koneksyon sa isang curvilinear dependence ay ang theoretical correlation ratio xy, na siyang square root ng ratio ng dalawang dispersion: ang mean square p2 ng mga deviations ng mga kinakalkula na halaga y "j ng function. ayon sa nahanap na regression equation mula sa arithmetic mean value Y ng value y hanggang sa mean square ng deviations y2 ng aktwal na values ​​ng function y j mula sa arithmetic mean nito: xу = ( р2 / y2 ) 1/2 = ( (y "j - Y)2 / (y j - Y)2 ) 1/2 (18) Ang parisukat ng ratio ng ugnayan xу2 ay nagpapakita ng proporsyon ng kabuuang pagkakaiba-iba ng dependent variable y , dahil sa pagkakaiba-iba ng x argumento. Ang tagapagpahiwatig na ito ay tinatawag na koepisyent ng pagpapasiya. Sa kaibahan sa koepisyent ng ugnayan, ang halaga ng ratio ng ugnayan ay maaari lamang kumuha ng mga positibong halaga mula 0 hanggang 1. Sa kawalan ng koneksyon, ang ratio ng ugnayan ay zero, kung mayroong functional na koneksyon ito ay katumbas ng isa, at sa pagkakaroon ng isang regression na relasyon ng iba't ibang pagkakalapit, ang ratio ng ugnayan ay tumatagal ng mga halaga sa pagitan ng zero at isa. Ang pagpili ng uri ng curve ay mayroon pinakamahalaga sa pagsusuri ng regression, dahil ang katumpakan ng approximation at istatistikal na pagtatantya ng higpit ng relasyon ay nakadepende sa uri ng relasyon na napili. Ang pinakasimpleng paraan para sa pagpili ng uri ng curve ay ang pagbuo ng mga patlang ng ugnayan at piliin ang naaangkop na mga uri mga equation ng regression ayon sa lokasyon ng mga punto sa mga field na ito. Ang mga pamamaraan ng pagsusuri ng regression ay nagbibigay-daan sa paghahanap ng mga numerical na halaga ng mga coefficient ng regression para sa kumplikadong uri pagkakaugnay ng mga parameter na inilarawan, halimbawa, ng mga high-degree na polynomial. Kadalasan ang uri ng kurba ay maaaring matukoy batay sa pisikal na katangian ng proseso o kababalaghan na isinasaalang-alang. Makatuwirang gumamit ng mga polynomial na may mataas na antas upang ilarawan ang mabilis na pagbabago ng mga proseso kung sakaling makabuluhan ang mga limitasyon ng pagbabagu-bago sa mga parameter ng mga prosesong ito. Kaugnay ng pag-aaral ng prosesong metalurhiko, sapat na ang paggamit ng mga lower-order curves, halimbawa, isang second-order na parabola. Ang curve na ito ay maaaring magkaroon ng isang extremum, na, tulad ng ipinakita ng kasanayan, ay sapat na upang ilarawan ang iba't ibang mga katangian ng proseso ng metalurhiko. Ang mga resulta ng pagkalkula ng mga parameter ng isang relasyon sa ugnayan ng pares ay magiging maaasahan at kumakatawan praktikal na halaga sa kaganapan na ang impormasyong ginamit ay nakuha para sa mga kondisyon ng malawak na hanay ng mga pagbabago sa argumento na may pare-pareho ng lahat ng iba pang mga parameter ng proseso. Samakatuwid, ang mga pamamaraan para sa pag-aaral ng pairwise correlation na relasyon ng mga parameter ay maaaring gamitin upang malutas mga praktikal na gawain lamang kapag may kumpiyansa sa kawalan ng iba pang seryosong impluwensya sa function, maliban sa nasuri na argumento. Sa ilalim ng mga kondisyon ng produksyon, imposibleng isagawa ang proseso sa ganitong paraan sa loob ng mahabang panahon. Gayunpaman, kung mayroon kang impormasyon tungkol sa mga pangunahing parameter ng proseso na nakakaapekto sa mga resulta nito, pagkatapos ay mathematically, maaari mong ibukod ang impluwensya ng mga parameter na ito at i-highlight sa " purong anyo” ang kaugnayan ng tungkulin ng interes sa atin at ang argumento. Ang ganitong koneksyon ay tinatawag na pribado, o indibidwal. Para matukoy ito, ginagamit ang paraan ng multiple regression.

relasyong ugnayan.

Ang correlation ratio at ang correlation index ay mga numerical na katangian, malapit kaugnay na konsepto random variable, o sa halip ay may sistema ng mga random variable. Samakatuwid, upang maipakilala at matukoy ang kanilang kahulugan at papel, kinakailangan na ipaliwanag ang konsepto ng isang sistema ng mga random na variable at ilang mga katangian na likas sa kanila.

Ang dalawa o higit pang mga random na variable na naglalarawan ng ilang phenomenon ay tinatawag na isang sistema o isang complex ng mga random na variable.

Ang isang sistema ng ilang mga random na variable X, Y, Z, …, W ay karaniwang tinutukoy ng (X, Y, Z, …, W).

Halimbawa, ang isang punto sa isang eroplano ay inilarawan hindi sa pamamagitan ng isang coordinate, ngunit sa pamamagitan ng dalawa, at sa espasyo - kahit na sa pamamagitan ng tatlo.

Ang mga katangian ng isang sistema ng ilang mga random na variable ay hindi limitado sa mga katangian ng mga indibidwal na random na mga variable na kasama sa system, ngunit kasama rin ang mga mutual na koneksyon (dependencies) sa pagitan ng mga random na variable. Samakatuwid, kapag nag-aaral ng isang sistema ng mga random na variable, dapat bigyang pansin ng isa ang kalikasan at antas ng pag-asa. Ang pag-asa na ito ay maaaring mas marami o hindi gaanong binibigkas, higit pa o mas malapit. At sa ibang mga kaso, ang mga random na variable ay nagiging praktikal na independyente.

Ang isang random variable Y ay tinatawag na independiyente sa random variable X kung ang batas ng distribution ng random variable Y ay hindi nakasalalay sa halaga ng variable X.

Dapat pansinin na ang pag-asa at kalayaan ng mga random na variable ay palaging isang kababalaghan sa isa't isa: kung ang Y ay hindi nakasalalay sa X, kung gayon ang halaga ng X ay hindi nakasalalay sa Y. Dahil dito, maaari nating ibigay ang sumusunod na kahulugan ng kalayaan ng mga random na variable.

Ang mga random na variable na X at Y ay tinatawag na independyente kung ang batas ng pamamahagi ng bawat isa sa kanila ay hindi nakasalalay sa kung anong halaga ang kinuha ng isa. Kung hindi, ang mga dami ng X at Y ay tinatawag na umaasa.

Ang batas ng pamamahagi ng isang random na variable ay anumang kaugnayan na nagtatatag ng isang koneksyon sa pagitan ng mga posibleng halaga ng isang random na variable at ang kanilang mga kaukulang probabilities.

Ang konsepto ng "dependence" ng mga random na variable, na ginagamit sa probability theory, ay medyo naiiba sa karaniwang konsepto ng "dependence" ng mga variable, na ginagamit sa matematika. Kaya, ang isang mathematician sa pamamagitan ng "dependence" ay nangangahulugan lamang ng isang uri ng dependence - isang kumpleto, matibay, tinatawag na functional dependence. Ang dalawang dami ng X at Y ay tinatawag na functionally dependent kung, alam ang halaga ng isa sa mga ito, posible na tumpak na matukoy ang halaga ng isa pa.

Sa teorya ng posibilidad, mayroong isang bahagyang naiibang uri ng pag-asa - probabilistikong pag-asa. Kung ang halaga ng Y ay nauugnay sa halaga ng X sa pamamagitan ng isang probabilistikong pag-asa, kung gayon, alam ang halaga ng X, imposibleng tumpak na ipahiwatig ang halaga ng Y, ngunit maaari mong tukuyin ang batas ng pamamahagi nito, depende sa kung anong halaga ang halaga ng X ay kinuha.

Ang probabilistikong pag-asa ay maaaring higit pa o mas malapit; habang ang higpit ng probabilistic dependence ay tumataas, ito ay lumalapit sa functional na isa at higit pa. Kaya, ang functional dependence ay maaaring ituring bilang isang matinding, nililimitahan ang kaso ng pinakamalapit na probabilistikong pag-asa. Ang isa pang matinding kaso ay ang kumpletong kalayaan ng mga random na variable. Sa pagitan ng dalawang matinding kaso na ito ay namamalagi ang lahat ng gradasyon ng probabilistikong pag-asa - mula sa pinakamalakas hanggang sa pinakamahina.

Ang probabilistikong pagdepende sa pagitan ng mga random na variable ay madalas na nakatagpo sa pagsasanay. Kung ang mga random na variable na X at Y ay nasa probabilistikong pagdepende, hindi ito nangangahulugan na sa pagbabago sa halaga ng X, ang halaga ng Y ay nagbabago sa isang tiyak na paraan; nangangahulugan lamang ito na habang nagbabago ang X, may posibilidad ding magbago ang Y (tumaas o bumababa habang tumataas ang X). Ang kalakaran na ito ay sinusunod lamang sa sa mga pangkalahatang tuntunin, at sa bawat indibidwal na kaso ang mga paglihis mula rito ay posible.

Mga Batayan ng pagsusuri ng data.

Ang isang karaniwang problema na lumitaw sa pagsasanay ay pagpapasiya ng mga dependency o relasyon sa pagitan ng mga variable. AT totoong buhay ang mga variable ay nauugnay sa bawat isa. Halimbawa, sa marketing, ang halaga ng pera na namuhunan sa advertising ay nakakaapekto sa mga benta; sa medikal na pananaliksik, ang dosis ng gamot ay nakakaimpluwensya sa epekto; sa paggawa ng tela, ang kalidad ng pagtitina ng tela ay nakasalalay sa temperatura, halumigmig, at iba pang mga parameter; sa metalurhiya, ang kalidad ng bakal ay nakasalalay sa mga espesyal na additives, atbp. Ang paghahanap ng mga dependency sa data at paggamit ng mga ito para sa iyong sariling mga layunin ay ang gawain ng pagsusuri ng data.

Ipagpalagay na sinusunod mo ang mga halaga ng isang pares ng mga variable na X at Y at nais mong hanapin ang kaugnayan sa pagitan nila. Halimbawa:

X - ang bilang ng mga bisita sa online na tindahan, Y - dami ng mga benta;

X - plasma panel diagonal, Y - presyo;

X - presyo ng pagbili ng bahagi, Y - presyo ng pagbebenta;

X - ang halaga ng aluminyo sa London Stock Exchange, Y - dami ng mga benta;

X - ang bilang ng mga breakthrough sa mga pipeline ng langis, Y - ang halaga ng mga pagkalugi;

X - ang "edad" ng sasakyang panghimpapawid, Y - ang halaga ng pagkumpuni nito;

X - lugar ng pagbebenta, Y - turnover ng tindahan;

Ang X ay kita, Y ay pagkonsumo, atbp.

Ang variable na X ay karaniwang tinatawag na independent variable, ang variable Y ay tinatawag na dependent variable. Minsan ang variable X ay tinatawag na predictor, ang variable Y ay tinatawag na tugon.



Nais naming matukoy nang eksakto ang pag-asa sa X, o upang mahulaan kung ano ang magiging mga halaga ng Y para sa mga ibinigay na halaga ng X. Sa kasong ito, sinusunod namin ang mga halaga ng X at ang kanilang kaukulang mga halaga ng Y. Ang gawain ay upang bumuo ng isang modelo na nagbibigay-daan sa amin upang matukoy ang Y mula sa mga halaga ng X na naiiba mula sa mga naobserbahan. Sa mga istatistika, ang mga naturang problema ay nalulutas sa loob ng balangkas ng pagsusuri ng regression.

Mayroong iba't ibang mga modelo ng regression, tinutukoy ng pagpili ng function f(x 1 ,x 2 ,…,x m):

1) Simple Linear Regression

2) Maramihang pagbabalik

3) Polynomial Regression

Odds ay tinatawag na mga parameter ng regression.

Ang pangunahing tampok ng pagsusuri ng regression ay maaari itong magamit upang makakuha ng tiyak na impormasyon tungkol sa anyo at kalikasan ng relasyon sa pagitan ng mga variable na pinag-aaralan.

Ang pagkakasunud-sunod ng mga yugto ng pagsusuri ng regression

1. Pagbubuo ng problema. Sa yugtong ito, nabuo ang mga paunang hypotheses tungkol sa pagtitiwala sa mga pinag-aralan na phenomena.

2. Kahulugan ng umaasa at malayang (nagpapaliwanag) na mga variable.

3. Koleksyon ng istatistikal na datos. Dapat kolektahin ang data para sa bawat isa sa mga variable na kasama sa modelo ng regression.

4. Pagbubuo ng hypothesis tungkol sa anyo ng koneksyon (simple o maramihan, linear o non-linear).

5. Pagpapasiya ng regression function (binubuo sa pagkalkula ng mga numerical value ng mga parameter ng regression equation)

6. Pagtatasa ng katumpakan ng pagsusuri ng regression.

7. Interpretasyon ng mga nakuhang resulta. Ang mga resulta ng pagsusuri ng regression ay inihambing sa mga paunang hypotheses. Nasusuri ang kawastuhan at katumpakan ng mga nakuhang resulta.

8. Hula ng hindi kilalang mga halaga ng dependent variable.

Sa tulong ng pagsusuri ng regression, posible na malutas ang problema ng pagtataya at pag-uuri. Ang mga predictive na halaga ay kinakalkula sa pamamagitan ng pagpapalit ng mga halaga ng mga paliwanag na variable sa regression equation. Ang problema sa pag-uuri ay nalulutas sa ganitong paraan: hinahati ng linya ng regression ang buong hanay ng mga bagay sa dalawang klase, at ang bahagi ng set kung saan ang halaga ng function ay mas malaki kaysa sa zero ay kabilang sa isang klase, at ang bahagi kung saan ito ay mas mababa. kaysa sa zero ay kabilang sa ibang klase.

Mga pangunahing gawain ng pagsusuri ng regression: pagtatatag ng anyo ng pag-asa, pagtukoy ng pag-andar ng regression, pagtatantya ng hindi kilalang mga halaga ng umaasa na variable.

Linear Regression

Linear Regression bumababa sa paghahanap ng isang equation ng form

O kaya . (1.1)

x ay tinatawag na independent variable o predictor.

Y ay ang dependent o response variable. Ito ang halaga na inaasahan natin y(sa karaniwan) kung alam natin ang halaga x, ibig sabihin. ay ang hinulaang halaga y»

· a- libreng miyembro (tawid) ng linya ng pagsusuri; ang halagang ito Y, kailan x=0(Larawan 1).

· b ay ang slope o gradient ng tinantyang linya; ito ay ang halaga kung saan Y tataas sa karaniwan kung tataas tayo x para sa isang unit.

· a at b ay tinatawag na regression coefficients ng tinantyang linya, bagama't ang terminong ito ay kadalasang ginagamit lamang para sa b.

· e- unobservable random variables na may mean na 0, o tinatawag din silang observational errors, ipinapalagay na ang mga error ay hindi nakakaugnay sa isa't isa.

Fig.1. Linear regression line na nagpapakita ng intersection ng a at ang slope b (ang halaga ng pagtaas sa Y kapag ang x ay tumaas ng isang yunit)

Ang equation ng form ay nagpapahintulot itakda ang mga halaga salik a X may mga teoretikal na halaga ng epektibong tampok, na pinapalitan ang aktwal na mga halaga ng kadahilanan dito X. Sa graph, ang mga teoretikal na halaga ay kumakatawan sa linya ng regression.

Sa karamihan ng mga kaso (kung hindi palaging) mayroong isang tiyak na scatter ng mga obserbasyon tungkol sa linya ng regression.

Theoretical regression line ang linyang iyon ay tinatawag, sa paligid kung saan ang mga punto ng patlang ng ugnayan ay pinagsama-sama at kung saan ay nagpapahiwatig ng pangunahing direksyon, ang pangunahing takbo ng koneksyon.

Ang isang mahalagang hakbang sa pagsusuri ng regression ay upang matukoy ang uri ng function, na nagpapakilala sa ugnayan sa pagitan ng mga feature. Ang pangunahing batayan para sa pagpili ng uri ng equation ay dapat na isang makabuluhang pagsusuri sa likas na katangian ng pag-asa sa ilalim ng pag-aaral, ang mekanismo nito.

Upang mahanap ang mga parameter a at b gumagamit kami ng mga equation ng regression pamamaraan ng least squares (LSM). Kapag gumagamit ng hindi bababa sa mga parisukat upang mahanap ang function na pinakaangkop sa empirical na data, pinaniniwalaan na ang kabuuan ng mga squared deviations (nalalabi) ng mga empirical point mula sa theoretical regression line ay dapat ang pinakamababang halaga.

Sinusuri ang akma sa pamamagitan ng pagsasaalang-alang sa mga nalalabi (ang patayong distansya ng bawat punto mula sa linya, hal. nalalabi = napapansin y- hinulaang y, Bigas. 2).

Ang linya ng pinakamahusay na akma ay pinili upang ang kabuuan ng mga parisukat ng mga nalalabi ay minimal.

kanin. 2. Linear regression line na may mga natitirang inilalarawan (vertical tuldok na mga linya) para sa bawat punto.

Pagkatapos ng mga simpleng pagbabagong-anyo, nakakakuha kami ng isang sistema ng mga normal na equation ng pinakamababang paraan ng mga parisukat para sa pagtukoy ng halaga ng mga parameter. a at b linear correlation equation batay sa empirical data:

. (1.2)

Paglutas ng sistemang ito ng mga equation na may kinalaman sa b, nakukuha namin ang sumusunod na formula para sa pagtukoy ng parameter na ito:

(1.3)

Nasaan at ang mga average na halaga ng y, x.

Halaga ng parameter a nakukuha natin sa pamamagitan ng paghahati sa parehong bahagi ng unang equation sa sistemang ito sa pamamagitan ng n:

Parameter b sa equation ay tinatawag na regression coefficient. Kung mayroong direktang ugnayan, ang regression coefficient ay may positibong halaga, at sa kaso ng isang kabaligtaran na relasyon, ang regression coefficient ay negatibo.

Kung positibo ang sign ng regression coefficient, magiging positibo ang relasyon sa pagitan ng dependent variable at ng independent variable.

Kung negatibo ang sign ng regression coefficient, negatibo ang relasyon sa pagitan ng dependent variable at independent variable (inverse).

Ipinapakita ng coefficient ng regression kung gaano kalaki ang pagbabago sa average ng halaga ng epektibong feature y kapag binabago ang factor sign X bawat yunit, ang geometric regression coefficient ay ang slope ng tuwid na linya na naglalarawan ng equation ng ugnayan na nauugnay sa axis X(para sa equation).

Dahil sa linear na relasyon ng at , inaasahan naming magbabago iyon bilang , at tatawagin itong variation, na dahil sa o ipinaliwanag ng regression. Ang natitirang variation ay dapat kasing liit hangga't maaari.

Kung gayon, kung gayon ang karamihan sa pagkakaiba-iba ay ipapaliwanag ng regression, at ang mga puntos ay malapit sa linya ng regression, i.e. ang linya ay angkop sa data.

Ang isang quantitative na katangian ng antas ng linear dependence sa pagitan ng mga random na variable X at Y ay ang koepisyent ng ugnayan. r( Isang tagapagpahiwatig ng pagiging malapit ng relasyon sa pagitan ng dalawang tampok ) .

Koepisyent ng ugnayan:

kung saan ang x ay ang halaga ng katangian ng kadahilanan;

y ay ang halaga ng epektibong tampok;

n ay ang bilang ng mga pares ng data.


Fig.3 - Mga opsyon para sa lokasyon ng "cloud" ng mga puntos

Kung ang koepisyent ng ugnayan r=1, pagkatapos ay sa pagitan X at Y mayroong isang functional linear dependence, lahat ng mga puntos (x i ,y i) hihiga sa isang tuwid na linya.

Kung ang koepisyent ng ugnayan r=0 (r~0), tapos sinasabi nila yan X at Y walang kaugnayan, i.e. walang linear na relasyon sa pagitan nila.

Ang mga ugnayan sa pagitan ng mga katangian (sa sukat ng Chaddock) ay maaaring maging malakas, katamtaman, o mahina. . Ang higpit ng koneksyon ay tinutukoy ng halaga ng koepisyent ng ugnayan, na maaaring tumagal ng mga halaga mula -1 hanggang +1 kasama. Ang pamantayan para sa pagtatasa ng higpit ng relasyon ay ipinapakita sa Fig. isa.

kanin. 4. Ang dami ng pamantayan para sa pagtatasa ng lapit ng relasyon

Ang anumang ugnayan sa pagitan ng mga variable ay may dalawang mahalagang katangian: magnitude at pagiging maaasahan. Kung mas malakas ang relasyon sa pagitan ng dalawang variable, mas malaki ang magnitude ng relasyon at mas madaling mahulaan ang halaga ng isang variable mula sa halaga ng isa pang variable. Ang dependency magnitude ay mas madaling sukatin kaysa sa pagiging maaasahan.

Ang pagiging maaasahan ng isang relasyon ay kasinghalaga ng magnitude nito. Ang katangiang ito ay nauugnay sa pagiging kinatawan ng pinag-aralan na sample. Ang pagiging maaasahan ng isang relasyon ay naglalarawan kung gaano kalamang na ang relasyon ay mahahanap muli sa ibang data.

Habang tumataas ang magnitude ng dependence ng mga variable, kadalasang tumataas ang pagiging maaasahan nito.

Ang proporsyon ng kabuuang pagkakaiba na ipinaliwanag ng regression ay tinatawag koepisyent ng pagpapasiya, karaniwang ipinapahayag bilang isang porsyento at denoted R2(sa ipinares na linear regression, ito ang value r2, ang parisukat ng koepisyent ng ugnayan), ay nagbibigay-daan sa iyo upang masuri ang kalidad ng equation ng regression.

Ang koepisyent ng determinasyon ay sumusukat sa proporsyon ng pagkalat na may kaugnayan sa ibig sabihin ng halaga, na "ipinaliwanag" ng nabuong regression. Ang koepisyent ng determinasyon ay mula 0 hanggang 1. Kung mas malapit ang koepisyent ng determinasyon sa 1, mas mahusay na "ipinapaliwanag" ng regression ang pagtitiwala sa data, ang halagang malapit sa zero ay nangangahulugan ng mahinang kalidad ng itinayong modelo. Ang koepisyent ng pagpapasiya ay maaaring mas malapit hangga't maaari sa 1 kung ang lahat ng mga predictor ay iba.

Ang pagkakaiba ay ang porsyento ng pagkakaiba na hindi maipaliwanag ng regression.

Maramihang pagbabalik

Ginagamit ang multiple regression sa mga sitwasyon kung saan imposibleng iisa ang isang nangingibabaw na salik mula sa iba't ibang salik na nakakaapekto sa resultang katangian at kinakailangang isaalang-alang ang impluwensya ng ilang salik. Halimbawa, ang dami ng output ay tinutukoy ng halaga ng fixed at working capital, ang bilang ng mga tauhan, ang antas ng pamamahala, atbp., ang antas ng demand ay nakasalalay hindi lamang sa presyo, kundi pati na rin sa mga pondong magagamit sa populasyon.

Ang pangunahing layunin ng maramihang pagbabalik ay ang bumuo ng isang modelo na may ilang mga kadahilanan at sabay na matukoy ang impluwensya ng bawat kadahilanan nang hiwalay, pati na rin ang kanilang pinagsamang epekto sa tagapagpahiwatig na pinag-aaralan.

Ang multiple regression ay isang connection equation na may ilang independent variables:

REGRESSION COEFFICIENT

- Ingles koepisyent, regression; Aleman Regressionskoeffizient. Isa sa mga katangian ng relasyon sa pagitan ng dependent y at independent variable x. K. r. ipinapakita sa pamamagitan ng kung gaano karaming mga yunit ang halaga na tinanggap ng y ay tumataas kung ang variable na x ay nagbabago ng isang yunit ng pagbabago nito. Sa geometriko, K. r. ay salik ng slope slope ng isang tuwid na linya.

Antinazi. Encyclopedia of Sociology, 2009

Tingnan kung ano ang "REGRESSION COEFFICIENT" sa ibang mga diksyunaryo:

    koepisyent ng regression- - [L.G. Sumenko. English Russian Dictionary of Information Technologies. M .: GP TsNIIS, 2003.] Mga paksa sa teknolohiya ng impormasyon sa pangkalahatan EN regression coefficient ... Handbook ng Teknikal na Tagasalin

    Coefficient ng regression- 35. Regression coefficient Parameter ng regression analysis model Pinagmulan: GOST 24026 80: Mga pagsubok sa pananaliksik. Pagpaplano ng eksperimento. Mga Tuntunin at Kahulugan…

    koepisyent ng regression- Ang koepisyent ng malayang variable sa equation ng regression ... Diksyunaryo ng Sociological Statistics

    REGRESSION COEFFICIENT- Ingles. koepisyent, regression; Aleman Regressionskoeffizient. Isa sa mga katangian ng relasyon sa pagitan ng dependent y at independent variable x. K. r. ipinapakita sa pamamagitan ng kung gaano karaming mga yunit ang halaga na tinatanggap ng y ay tumataas kung ang variable na x ay nagbabago sa ... ... Diksyunaryo sa sosyolohiya

    sample na regression coefficient- 2.44. sample na regression coefficient Coefficient para sa isang variable sa equation ng isang regression curve o surface Source: GOST R 50779.10 2000: Paraang istatistikal. Probability at base ng mga istatistika. Mga Tuntunin at Kahulugan… Dictionary-reference na aklat ng mga tuntunin ng normatibo at teknikal na dokumentasyon

    Partial regression coefficient- isang istatistikal na sukat na nagpapahiwatig ng antas ng impluwensya ng independiyenteng variable sa umaasa sa isang sitwasyon kung saan ang magkaparehong impluwensya ng lahat ng iba pang mga variable sa modelo ay nasa ilalim ng kontrol ng mananaliksik ... Sociological Dictionary Socium

    MGA REGRESSIONS, TIMBANG- Isang kasingkahulugan para sa konsepto ng regression coefficient ... Explanatory Dictionary of Psychology

    HERITABILITY COEFFICIENT- Isang indicator ng relatibong bahagi ng genetic variability sa pangkalahatang phenotypic variation ng isang katangian. Ang pinakakaraniwang pamamaraan para sa pagtatasa ng heritability ng mga katangiang kapaki-pakinabang sa ekonomiya ay: kung saan ang h2 ay ang heritability coefficient; r intraclass…… Mga termino at kahulugang ginagamit sa pagpaparami, genetika at pagpaparami ng mga hayop sa bukid

    - (R squared) ay ang proporsyon ng variance ng dependent variable na ipinaliwanag ng dependence model na pinag-uusapan, iyon ay, ang explanatory variables. Mas tiyak, isa itong binawasan ang proporsyon ng hindi maipaliwanag na pagkakaiba (ang pagkakaiba ng random na error ng modelo, o kondisyonal ... ... Wikipedia

    Ang koepisyent ng independent variable sa equation ng regression. Kaya, halimbawa, sa isang linear regression equation na nag-uugnay sa mga random na variable Y at X, R. k. b0 at b1 ay pantay-pantay: kung saan ang r ay ang koepisyent ng ugnayan ng X at Y, . Pagkalkula ng mga pagtatantya R. k. Mathematical Encyclopedia

Mga libro

  • Panimula sa econometrics (CDpc), Yanovsky Leonid Petrovich, Bukhovets Alexey Georgievich. Ang mga pundasyon ng econometrics at istatistikal na pagsusuri one-dimensional na serye ng oras. malaking atensyon binabayaran sa classical na pares at multiple regression, classical at generalised na pamamaraan...
  • Bilis ng pagbabasa. Effective Simulator (CDpc) , . Ang programa ay inilaan para sa mga gumagamit na nais sa madaling panahon master ang pamamaraan ng mabilis na pagbasa. Ang kurso ay binuo sa prinsipyo ng "teorya - kasanayan". Teoretikal na materyal at praktikal ...