Regression sa Excel: equation, mga halimbawa. Linear regression

Ngayon, lahat na kahit na bahagyang interesado sa data mining ay malamang na narinig ang tungkol sa simpleng linear regression. Naisulat na ito tungkol sa Habré, at binanggit din ito ni Andrew Ng nang detalyado sa kanyang sikat na kurso sa pag-aaral ng makina. Ang linear regression ay isa sa mga pangunahing at pinaka mga simpleng pamamaraan machine learning, gayunpaman, ang mga pamamaraan para sa pagtatasa ng kalidad ng itinayong modelo ay napakabihirang binanggit. Sa artikulong ito, susubukan kong bahagyang iwasto ang nakakainis na pagtanggal na ito gamit ang halimbawa ng pag-parse ng mga resulta ng summary.lm() function sa wikang R. Kasabay nito, susubukan kong magbigay ng mga kinakailangang formula, kaya lahat ng mga kalkulasyon ay madaling ma-program sa anumang ibang wika. Ang artikulong ito ay inilaan para sa mga nakarinig na ang linear regression ay maaaring itayo, ngunit hindi nakatagpo ng mga istatistikal na pamamaraan para sa pagtatasa ng kalidad nito.

Modelo ng linear regression

Kaya, hayaang magkaroon ng ilang independyente mga random na variable X1, X2, ..., Xn (mga manghuhula) at ang halagang Y depende sa kanila (pinapalagay na ang lahat ng kinakailangang pagbabago ng mga predictor ay nagawa na). Bukod dito, ipinapalagay namin na ang relasyon ay linear at ang mga error ay karaniwang ipinamamahagi, iyon ay

Kung saan ako ay isang n x n unit square matrix.

Kaya, mayroon kaming data na binubuo ng k obserbasyon ng mga dami ng Y at Xi at gusto naming tantyahin ang mga coefficient. Ang karaniwang paraan para sa paghahanap ng mga pagtatantya ng koepisyent ay ang paraan ng least squares. At ang analytical na solusyon na maaaring makuha sa pamamagitan ng paglalapat ng pamamaraang ito ay ganito:

saan b na may takip - pagtatantya ng vector ng mga coefficient, y ay isang vector ng mga halaga ng dependent variable, at ang X ay isang matrix na may sukat na k x n+1 (n ang bilang ng mga predictors, ang k ay ang bilang ng mga obserbasyon), kung saan ang unang column ay binubuo ng mga isa, ang pangalawa - ang mga halaga ng unang tagahula, ang pangatlo - ang pangalawa, at iba pa, at ang mga hilera na naaayon sa umiiral na mga obserbasyon.

Ang summary.lm() function at pagsusuri ng mga resultang resulta

Ngayon tingnan natin ang isang halimbawa ng pagbuo ng isang modelo linear regression sa wikang R:
> library(malayo) > lm1<-lm(Species~Area+Elevation+Nearest+Scruz+Adjacent, data=gala) >summary(lm1) Call: lm(formula = Species ~ Area + Elevation + Nearest + Scruz + Adjacent, data = gala) Residuals: Min 1Q Median 3Q Max -111.679 -34.898 -7.862 33.460 182.584 Coefficients: Estimate St. Error t value Pr(>|t|) (Intercept) 7.068221 19.154198 0.369 0.715351 Area -0.023938 0.022422 -1.068 0.296318 Elevation 0.31946 0.31946 0.31946 *** earest 0.009144 1.054136 0.009 0.993151 Scruz -0.240524 0.215402 -1.117 0.275208 Katabi - 0.074805 0.017700 -4.226 0.000297 *** --- Signif. mga code: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Natirang karaniwang error: 60.98 sa 24 na degree ng kalayaan Maramihang R-squared: 0.7658, Inayos na R-squared: 0.7171 F- istatistika: 15.7 sa 5 at 24 DF, p-value: 6.838e-07
Ang table gala ay naglalaman ng ilang data tungkol sa 30 Galapagos Islands. Isasaalang-alang namin ang isang modelo kung saan ang Species ay ang dami iba't ibang uri Ang paglago ng halaman sa isang isla ay nakadepende nang linear sa ilang iba pang mga variable.

Tingnan natin ang output ng summary.lm() function.
Unang dumating ang isang linya na nagpapaalala kung paano ginawa ang modelo.
Pagkatapos ay darating ang impormasyon tungkol sa pamamahagi ng mga nalalabi: minimum, unang quartile, median, ikatlong quartile, maximum. Sa puntong ito, magiging kapaki-pakinabang hindi lamang ang pagtingin sa ilang dami ng mga nalalabi, kundi pati na rin upang subukan ang mga ito para sa normalidad, halimbawa sa pagsubok ng Shapiro-Wilk.
Susunod - ang pinaka-kawili-wili - impormasyon tungkol sa mga coefficient. Ang isang maliit na teorya ay kinakailangan dito.
Una naming isulat ang sumusunod na resulta:

na ang naka-cap na sigma squared ay isang walang pinapanigan na pagtatantya para sa tunay na sigma squared. Dito b ay ang tunay na vector ng mga coefficient, at ang epsilon na may takip ay ang vector ng mga nalalabi, kung kukunin natin ang mga pagtatantya na nakuha ng pamamaraan bilang mga coefficient hindi bababa sa mga parisukat. Iyon ay, sa ilalim ng pagpapalagay na ang mga error ay karaniwang ipinamamahagi, ang vector ng mga coefficient ay ipamahagi din nang normal sa paligid ng tunay na halaga, at ang pagkakaiba nito ay maaaring tantyahin na walang kinikilingan. Nangangahulugan ito na maaari mong subukan ang hypothesis para sa pagkakapantay-pantay ng mga coefficient sa zero, at samakatuwid ay suriin ang kahalagahan ng mga predictors, iyon ay, kung ang halaga ng Xi ay talagang nakakaapekto sa kalidad ng itinayong modelo.
Upang subukan ang hypothesis na ito, kailangan namin ang mga sumusunod na istatistika, na mayroong distribusyon ng Mag-aaral kung ang tunay na halaga ng coefficient bi ay 0:

saan
ay ang karaniwang error ng coefficient estimate, at ang t(k-n-1) ay ang Student distribution na may k-n-1 degrees ng kalayaan.

Ngayon ay handa ka nang magpatuloy sa pag-parse ng output ng summary.lm().
Kaya, ang mga sumusunod ay mga pagtatantya ng mga coefficient na nakuha ng pinakamababang paraan ng mga parisukat, ang kanilang karaniwang mga error, mga t-statistic na halaga at mga p-halaga para dito. Karaniwang inihahambing ang p-value sa ilang medyo maliit na paunang napiling threshold, gaya ng 0.05 o 0.01. At kung ang halaga ng p-statistic ay lumalabas na mas mababa sa threshold, kung gayon ang hypothesis ay tinanggihan, ngunit kung ito ay higit pa, sa kasamaang-palad, walang kongkreto ang masasabi. Ipaalala ko sa iyo na sa kasong ito, dahil ang distribusyon ng Mag-aaral ay simetriko tungkol sa 0, ang p-value ay magiging katumbas ng 1-F(|t|)+F(-|t|), kung saan ang F ay ang function ng pamamahagi ng Estudyante na may k-n-1 digri ng kalayaan . Gayundin, ang R ay kapaki-pakinabang na tumutukoy sa mga makabuluhang coefficient kung saan ang p-value ay sapat na maliit na may mga asterisk. Iyon ay, ang mga coefficient na iyon na may napakababang posibilidad ay katumbas ng 0. Sa linya ng Signif. Ang mga code ay naglalaman ng pag-decode ng mga asterisk: kung mayroong tatlo sa kanila, kung gayon ang p-value ay mula 0 hanggang 0.001, kung mayroong dalawa, kung gayon ito ay mula 0.001 hanggang 0.01, at iba pa. Kung walang mga icon, kung gayon ang p-value ay mas malaki sa 0.1.

Sa aming halimbawa, masasabi nating may malaking kumpiyansa na ang mga predictor na Elevation at Adjacent ay talagang malamang na nakakaimpluwensya sa halaga ng Species, ngunit walang tiyak na masasabi tungkol sa iba pang mga predictor. Karaniwan, sa mga ganitong kaso, ang mga predictor ay isa-isang inaalis at tingnan kung paano nagbabago ang iba pang mga indicator ng modelo, halimbawa BIC o Adjusted R-squared, na tatalakayin pa.

Ang natitirang karaniwang halaga ng error ay tumutugma lamang sa pagtatantya ng sigma na may takip, at ang mga antas ng kalayaan ay kinakalkula bilang k-n-1.

At ngayon ang pinakamahalagang istatistika na dapat mong tingnan muna: R-squared at Adjusted R-squared:

kung saan ang Yi ay ang tunay na halaga ng Y sa bawat pagmamasid, ang Yi na may takip ay ang mga halagang hinulaan ng modelo, ang Y na may bar ay ang average sa lahat ng tunay na halaga ng Yi.

Magsimula tayo sa R-squared statistic, o bilang kung minsan ay tinatawag na, ang coefficient of determination. Ipinapakita nito kung gaano kalaki ang kaibahan ng conditional variance ng modelo mula sa variance ng mga aktwal na value ng Y. Kung ang coefficient na ito ay malapit sa 1, kung gayon ang conditional variance ng modelo ay medyo maliit at napakalamang na inilalarawan ng modelo ang data nang maayos. . Kung ang R-squared coefficient ay mas maliit, halimbawa, mas mababa sa 0.5, kung gayon, na may mataas na antas ng kumpiyansa, ang modelo ay hindi sumasalamin sa tunay na estado ng mga gawain.

Gayunpaman, ang R-squared statistic ay may isang seryosong disbentaha: habang tumataas ang bilang ng mga predictor, maaari lamang tumaas ang istatistikang ito. Samakatuwid, maaaring mukhang ang modelo na may malaking halaga Ang mga predictor ay mas mahusay kaysa sa isang modelo na may mas kaunti, kahit na ang lahat ng mga bagong predictor ay walang epekto sa dependent variable. Dito mo maaalala ang prinsipyo ng Occam's razor. Kasunod nito, kung maaari, ito ay nagkakahalaga ng pag-alis ng mga hindi kinakailangang predictors sa modelo, dahil ito ay nagiging mas simple at mas nauunawaan. Para sa mga layuning ito, naimbento ang na-adjust na R-squared statistic. Kinakatawan nito ang karaniwang R-squared, ngunit may parusa para sa malaking bilang ng mga hula. Ang pangunahing ideya: kung ang mga bagong independyenteng variable ay gumawa ng malaking kontribusyon sa kalidad ng modelo, ang halaga ng istatistikang ito ay tataas; kung hindi, kung gayon, sa kabaligtaran, ito ay bumababa.

Halimbawa, isaalang-alang ang parehong modelo tulad ng dati, ngunit ngayon sa halip na limang predictor, mag-iwan tayo ng dalawa:
>lm2<-lm(Species~Elevation+Adjacent, data=gala) >summary(lm2) Tawag: lm(formula = Species ~ Elevation + Adjacent, data = gala) Mga nalalabi: Min 1Q Median 3Q Max -103.41 -34.33 -11.43 22.57 203.65 Coefficients: Estimate Std. Error t halaga PR (> | t |) (intercept) 1.43287 15.02469 0.095 0.924727 Elevation 0.27657 0.03176 8.707 2.53E -09 *** katabing -0.06889 0.01549 -4.447 0.000134 *** - -Mag -sign kung. mga code: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Natitirang karaniwang error: 60.86 sa 27 degrees ng kalayaan Maramihang R-squared: 0.7376, Inayos na R-squared: 0.7181 F- istatistika: 37.94 sa 2 at 27 DF, p-value: 1.434e-08
Tulad ng makikita mo, ang halaga ng R-squared statistic ay bumaba, ngunit ang halaga ng adjusted R-squared ay tumaas pa ng bahagya.

Ngayon suriin natin ang hypothesis na ang lahat ng mga coefficient ng mga predictor ay katumbas ng zero. Iyon ay, isang hypothesis tungkol sa kung ang halaga ng Y sa pangkalahatan ay nakasalalay sa mga halaga ng Xi nang linearly. Upang gawin ito, maaari mong gamitin ang mga sumusunod na istatistika, na, kung ang hypothesis na ang lahat ng mga coefficient ay katumbas ng zero ay totoo, ay

Ministri ng Edukasyon at Agham ng Russian Federation

Autonomous ng Federal State institusyong pang-edukasyon mas mataas na propesyonal na edukasyon

Far Eastern Federal University

Paaralan ng Economics at Pamamahala

Department of Business Informatics at Economic and Mathematics Methods

TRABAHO SA LABORATORY

sa disiplina na "Simulation Modeling"

Specialty 080801.65 “Applied informatics (sa economics)”

PAGSUSURI NG REGRESSION

Rudakova

Ulyana Anatolyevna

Vladivostok

ULAT

Takdang-aralin: isaalang-alang ang isang pamamaraan ng pagsusuri ng regression batay sa data (presyo ng pagbebenta at lugar ng tirahan) sa 23 ari-arian ng real estate.

Ang "Regression" operating mode ay ginagamit upang kalkulahin ang mga parameter ng linear regression equation at suriin ang kasapatan nito para sa prosesong pinag-aaralan.

Upang malutas ang problema ng pagsusuri ng regression sa MS Excel, pumili mula sa menu Serbisyopangkat Pagsusuri sa datosat tool sa pagsusuri" Regression".

Sa lalabas na dialog box, itakda ang mga sumusunod na parameter:

1. Input interval Y- ito ang hanay ng data para sa nagresultang katangian. Dapat itong binubuo ng isang column.

2. Input interval Xay isang hanay ng mga cell na naglalaman ng mga halaga ng mga kadahilanan (mga independiyenteng variable). Ang bilang ng mga saklaw ng input (mga column) ay dapat na hindi hihigit sa 16.

.Checkbox Mga tag, ay nakatakda kung ang unang linya ng hanay ay naglalaman ng pamagat.

5. Patuloy na zero.Dapat itakda ang checkbox na ito kung ang linya ng regression ay dapat dumaan sa pinanggalingan (at 0=0).

6. Output interval/ Bagong worksheet/ Bagong workbook -tukuyin ang address ng kaliwang itaas na cell ng hanay ng output.

.Mga checkbox sa Grupo Mga natiraay nakatakda kung kinakailangang isama ang mga kaukulang column o graph sa hanay ng output.

.Ang checkbox ng Normal na Probability Graph ay dapat i-activate kung gusto mong magpakita ng scatter plot ng dependence ng naobserbahang Y values ​​sa mga awtomatikong nabuong percentile interval.

Pagkatapos i-click ang OK button sa hanay ng output, nakakakuha kami ng ulat.

Gamit ang isang hanay ng mga tool sa pagsusuri ng data, gagawa kami pagsusuri ng regression pinagmumulan ng datos.

Ang Regression analysis tool ay ginagamit upang magkasya ang mga parameter ng isang regression equation gamit ang least squares method. Ang regression ay ginagamit upang pag-aralan ang epekto sa iisang dependent variable ng mga halaga ng isa o higit pang independent variable.

TABLE REGRESSION STATISTICS

Magnitude maramihan Ray ang ugat ng coefficient of determination (R-squared). Tinatawag din itong correlation index o multiple correlation coefficient. Nagpapahayag ng antas ng pag-asa ng mga independiyenteng variable (X1, X2) at ng dependent variable (Y) at katumbas ng parisukat na ugat mula sa koepisyent ng pagpapasiya, ang dami na ito ay kumukuha ng mga halaga sa hanay mula sa zero hanggang isa. Sa aming kaso, ito ay katumbas ng 0.7, na nagpapahiwatig ng isang makabuluhang relasyon sa pagitan ng mga variable.

Magnitude R-squared (coefficient of determination), na tinatawag ding sukatan ng katiyakan, ay nagpapakilala sa kalidad ng nagreresultang linya ng regression. Ang kalidad na ito ay ipinahayag sa pamamagitan ng antas ng pagsusulatan sa pagitan ng pinagmumulan ng data at ng modelo ng regression (kinakalkulang data). Ang sukatan ng katiyakan ay palaging nasa pagitan.

Sa aming kaso, ang halaga ng R-square ay 0.48, i.e. halos 50%, na nagpapahiwatig ng hindi magandang akma ng linya ng regression sa orihinal na data. Dahil nakitang halaga R-squared = 48%<75%, то, следовательно, также можно сделать вывод о невозможности прогнозирования с помощью найденной регрессионной зависимости. Таким образом, модель объясняет всего 48% вариации цены, что говорит о недостаточности выбранных факторов, либо о недостаточном объеме выборки.

Normalized R-squareday ang parehong koepisyent ng pagpapasiya, ngunit nababagay para sa laki ng sample.

Normal na R-squared=1-(1-R-squared)*((n-1)/(n-k)),

regression analysis linear equation

kung saan ang n ay ang bilang ng mga obserbasyon; k - bilang ng mga parameter. Mas mainam na gumamit ng normalized na R-squared kapag nagdaragdag ng mga bagong regressors (mga kadahilanan), dahil habang tumataas ang mga ito, tataas din ang halaga ng R-squared, ngunit hindi ito magsasaad ng pagpapabuti sa modelo. Dahil sa aming kaso ang resultang halaga ay 0.43 (na naiiba sa R-squared ng 0.05 lamang), maaari nating pag-usapan ang mataas na kumpiyansa sa R-squared coefficient.

Karaniwang errornagpapakita ng kalidad ng approximation (approximation) ng mga resulta ng pagmamasid. Sa aming kaso, ang error ay 5.1. Kalkulahin natin bilang porsyento: 5.1/(57.4-40.1)=0.294 ≈ 29% (Itinuturing na mas mahusay ang modelo kapag ang karaniwang error ay<30%)

Mga obserbasyon- ang bilang ng mga sinusunod na halaga ay ipinahiwatig (23).

TABLE ANALYSIS NG VARIANCE

Upang makuha ang equation ng regression, tinutukoy ang isang istatistika - isang katangian ng katumpakan ng equation ng regression, na ang ratio ng bahaging iyon ng pagkakaiba-iba ng dependent variable na ipinaliwanag ng equation ng regression sa hindi maipaliwanag (natirang) bahagi ng ang pagkakaiba.

Sa column df- ang bilang ng mga antas ng kalayaan k ay ibinibigay.

Para sa natitira, ito ay isang halaga na katumbas ng n-(m+1), i.e. ang bilang ng mga unang puntos (23) na binawasan ang bilang ng mga koepisyent (2) at binawasan ang libreng termino (1).

Sa column ng SS- ang kabuuan ng mga squared deviations mula sa average na halaga ng nagresultang katangian. Nagpapakita ito ng:

Regression sum ng squared deviations mula sa mean value ng nagresultang katangian ng theoretical values ​​na kinakalkula gamit ang regression equation.

Ang natitirang kabuuan ng mga paglihis ng mga orihinal na halaga mula sa mga teoretikal na halaga.

Ang kabuuang kabuuan ng mga squared deviations ng mga paunang halaga mula sa nagresultang katangian.

Kung mas malaki ang regression sum ng squared deviations (o mas maliit ang natitirang kabuuan), mas maganda ang regression equation na tinatantya ang cloud ng mga orihinal na puntos. Sa aming kaso, ang natitirang halaga ay tungkol sa 50%. Dahil dito, ang equation ng regression ay napakahina na tinatantya ang ulap ng mga paunang puntos.

Sa column ng MS- walang pinapanigan na mga pagkakaiba-iba ng sample, regression at nalalabi.

Sa column F Ang halaga ng mga istatistika ng pamantayan ay kinakalkula upang subukan ang kahalagahan ng equation ng regression.

Upang magsagawa ng istatistikal na pagsubok ng kahalagahan ng equation ng regression, ang isang null hypothesis ay nabuo tungkol sa kawalan ng isang relasyon sa pagitan ng mga variable (lahat ng mga coefficient para sa mga variable ay katumbas ng zero) at ang antas ng kahalagahan ay pinili.

Ang antas ng kabuluhan ay ang katanggap-tanggap na posibilidad ng paggawa ng isang uri I error - pagtanggi sa tamang null hypothesis bilang resulta ng pagsubok. Sa kasong ito, ang paggawa ng type I error ay nangangahulugan ng pagkilala sa isang sample na may kaugnayan sa pagitan ng mga variable sa populasyon kung sa katunayan ay wala. Karaniwan ang antas ng kahalagahan ay kinukuha na 5%. Ang paghahambing ng nakuhang halaga = 9.4 sa halaga ng talahanayan = 3.5 (ang bilang ng mga antas ng kalayaan ay 2 at 20, ayon sa pagkakabanggit), masasabi nating makabuluhan ang equation ng regression (F>Fcr).

Sa kolum ng kahalagahan F ang posibilidad ng nakuhang halaga ng mga istatistika ng pamantayan ay kinakalkula. Dahil sa aming kaso ang halagang ito = 0.00123, na mas mababa sa 0.05, maaari naming sabihin na ang regression equation (dependence) ay makabuluhan na may posibilidad na 95%.

Ang dalawang haligi na inilarawan sa itaas ay nagpapakita ng pagiging maaasahan ng modelo sa kabuuan.

Ang sumusunod na talahanayan ay naglalaman ng mga coefficient para sa mga regressor at ang kanilang mga pagtatantya.

Ang Y-intercept na linya ay hindi nauugnay sa anumang regressor; ito ay isang libreng koepisyent.

Sa column posibilidad Ang mga halaga ng regression equation coefficients ay naitala. Kaya, ang equation ay nakuha:

Y=25.6+0.009X1+0.346X2

Ang equation ng regression ay dapat dumaan sa gitna ng ulap ng mga unang punto: 13.02≤M(b)≤38.26

Susunod, ihambing ang mga halaga ng haligi sa mga pares Mga Coefficient at Standard Error. Makikita na sa aming kaso, ang lahat ng ganap na halaga ng mga coefficient ay lumampas sa karaniwang mga error. Maaaring ipahiwatig nito ang kahalagahan ng mga regressor, gayunpaman, ito ay isang magaspang na pagsusuri. Ang column ng t-statistics ay naglalaman ng mas tumpak na pagtatantya ng kahalagahan ng mga coefficient.

Sa column na t-statistic naglalaman ng mga halaga ng t-test na kinakalkula gamit ang formula:

t=(Coefficient)/(Karaniwang error)


n-(k+1)=23-(2+1)=20

Gamit ang talahanayan ng Estudyante nakita namin ang halaga ttable = 2.086. Paghahambing

t na may ttable nakita namin na ang regressor coefficient X2 ay hindi gaanong mahalaga.

Kolum p-halaga kumakatawan sa posibilidad na ang kritikal na halaga ng istatistika ng pagsubok (estista ng t ng mag-aaral) ay lalampas sa halaga na kinakalkula mula sa sample. Sa kasong ito, inihambing namin p-halaga na may napiling antas ng kahalagahan (0.05). Makikita na ang regressor coefficient X2=0.08>0.05 lamang ang maituturing na hindi gaanong mahalaga.

Ang mas mababang 95% at itaas na 95% na column ay nagbibigay ng mga limitasyon sa pagitan ng kumpiyansa na may 95% kumpiyansa. Ang bawat koepisyent ay may sariling mga limitasyon: Coefficientttable*Pamantayang error

Ang mga agwat ng kumpiyansa ay ginawa lamang para sa mga halagang makabuluhan ayon sa istatistika.

TABLE WITHDRAWAL NG NAtitira

Natitira ay ang paglihis ng isang punto (obserbasyon) mula sa linya ng regression (hulaang halaga).

Normality Assumption mga tira Ipinapalagay na ang pamamahagi ng pagkakaiba sa pagitan ng hinulaang at naobserbahang mga halaga ay normal. Upang biswal na matukoy ang katangian ng pamamahagi, paganahin ang function tsart ng balanse.

Ang mga natitirang plot ay nagpapakita ng mga pagkakaiba sa pagitan ng mga orihinal na halaga ng Y at ng mga kinakalkula mula sa regression function para sa bawat halaga ng variable na bahagi X1 at X2. Ito ay ginagamit upang matukoy kung ang fitted line na ginagamit ay katanggap-tanggap.

Maaaring gamitin ang fit plot upang magbigay ng visual na representasyon ng linya ng regression.

Ang mga karaniwang nalalabi ay na-normalize na mga nalalabi upang matantya ang kanilang karaniwang paglihis.

SA istatistika ng regression ay ipinahiwatig maramihang koepisyent mga ugnayan (Plural R) at determinasyon (R-squared) sa pagitan ng Y at ang hanay ng mga katangian ng kadahilanan (na kasabay ng dati nang nakuha na mga halaga sa pagsusuri ng ugnayan)

Gitnang bahagi ng mesa (Pagsusuri ng Pagkakaiba) kinakailangan upang subukan ang kahalagahan ng equation ng regression.

Ibaba ng talahanayan - eksakto

panghuling pagtatantya bi ng pangkalahatang mga koepisyent ng regression bi, pagsubok sa kanilang kahalagahan at pagtatantya ng pagitan.

Pagtatantya ng vector ng mga coefficient b (column Logro):

Pagkatapos ang pagtatantya ng equation ng regression ay may anyo:

Kinakailangang suriin ang kahalagahan ng equation ng regression at ang mga resultang coefficient ng regression.

Suriin natin ang kahalagahan ng regression equation sa b=0.05 level, i.e. hypothesis H0: в1=в2=в3=…=вk=0. Upang gawin ito, ang naobserbahang halaga ng F-statistic ay kinakalkula:

Ipinapakita ito ng Excel sa mga resulta pagsusuri ng pagkakaiba-iba:

QR=527.4296; Qost=1109.8673 =>

Sa column F ipinahiwatig ang halaga Fmapapansin.

Mula sa F-distribution table o gamit ang built-in na statistical function FMATUKLASAN para sa antas ng kahalagahan b=0.05 at ang bilang ng mga antas ng kalayaan ng numerator n1=k=4 at denominator n2=n-k-1=45 nakita natin ang kritikal na halaga ng F-statistics na katumbas ng

Fcr = 2.578739184

Dahil ang naobserbahang halaga ng F-statistic ay lumampas sa kritikal na halaga nito na 8.1957 > 2.7587, ang hypothesis tungkol sa pagkakapantay-pantay ng vector ng mga coefficient ay tinanggihan na may error na posibilidad na 0.05. Dahil dito, ang hindi bababa sa isang elemento ng vector b=(b1,b2,b3,b4)T ay makabuluhang naiiba mula sa zero.

Suriin natin ang kahalagahan ng mga indibidwal na coefficient ng regression equation, i.e. hypothesis .

Ang pagsubok sa kahalagahan ng mga coefficient ng regression ay isinasagawa batay sa t-statistics para sa antas ng kahalagahan.

Ang mga naobserbahang halaga ng t-statistics ay ipinahiwatig sa talahanayan ng mga resulta sa column t-mga istatistika.

Coefficients (bi)

t-statistics (tob)

Y-intersection

Variable X5

Variable X7

Variable X10

Variable X15

Dapat silang ihambing sa kritikal na halagang tcr na natagpuan para sa antas ng kahalagahan b=0.05 at ang bilang ng mga antas ng kalayaan n=n – k - 1.

Upang gawin ito, ginagamit namin ang built-in na istatistika Pag-andar ng Excel STUDISPOBR, sa pamamagitan ng pagpasok sa iminungkahing menu ng probabilidad b = 0.05 at ang bilang ng mga antas ng kalayaan n = n–k-1 = 50-4-1 = 45. (Maaari mong mahanap ang mga halaga ng tcr mula sa mga talahanayan ng mga istatistika ng matematika.

Nakukuha namin ang tcr = 2.014103359.

Para sa naobserbahang halaga ng t-statistics ay mas mababa sa kritikal sa absolute value na 2.0141>|-0.0872|, 2.0141>|0.2630|, 2.0141>|0.7300|, 2.0141>|-1.6629 |.

Dahil dito, ang hypothesis na ang mga coefficient na ito ay katumbas ng zero ay hindi tinatanggihan na may error probability na 0.05, i.e. ang mga kaukulang coefficient ay hindi gaanong mahalaga.

Para sa naobserbahang t-statistic na halaga ay mas malaki kritikal na halaga modulo |3.7658|>2.0141, samakatuwid, ang hypothesis H0 ay tinanggihan, i.e. - makabuluhan

Ang kahalagahan ng mga coefficient ng regression ay sinusuri din ng mga sumusunod na hanay ng resultang talahanayan:

Kolum p-ibig sabihin nagpapakita ng kahalagahan ng mga parameter ng modelo sa antas ng hangganan na 5%, i.e. kung p≤0.05, kung gayon ang kaukulang coefficient ay itinuturing na makabuluhan, kung p>0.05, kung gayon ay hindi gaanong mahalaga.

At ang mga huling hanay - mas mababa 95% At itaas na 95% At ibaba 98% At nangungunang 98% - ito ay mga pagtatantya ng agwat ng mga coefficient ng regression na may tinukoy na mga antas ng pagiging maaasahan para sa r = 0.95 (palaging ibinibigay) at r = 0.98 (ibinigay kapag ang kaukulang karagdagang pagiging maaasahan ay itinakda).

Kung ang lower at upper bounds ay may parehong sign (zero ay hindi kasama sa agwat ng kumpiyansa), kung gayon ang kaukulang regression coefficient ay itinuturing na makabuluhan, kung hindi - hindi gaanong mahalaga

Tulad ng makikita mula sa talahanayan, para sa coefficient b3 p-value p=0.0005<0,05 и доверительные интервалы не включают ноль, т.е. по всем проверочным критериям этот коэффициент является значимым.

Ayon sa algorithm ng stepwise regression analysis na may pagbubukod ng mga hindi gaanong regressors, sa susunod na yugto ay kinakailangan upang ibukod mula sa pagsasaalang-alang ang isang variable na may hindi gaanong halaga ng regression coefficient.

Sa kaso kapag natukoy ang ilang mga hindi gaanong coefficient sa panahon ng pagtatasa ng regression, ang unang hindi kasama sa equation ng regression ay ang regressor kung saan ang t-statistic () ay minimal sa absolute value. Ayon sa prinsipyong ito, sa susunod na yugto kinakailangan na ibukod ang variable na X5, na may hindi gaanong regression coefficient b2

II YUGTO NG REGRESSION ANALYSIS.

Kasama sa modelo ang mga factor na katangian X7, X10, X15, at hindi kasama ang X5.

KONKLUSYON NG MGA RESULTA

Mga istatistika ng regression

Maramihang R

R-square

Normalized R-squared

Karaniwang error

Mga obserbasyon

Pagsusuri ng pagkakaiba-iba

(bilang ng antas ng kalayaan n)

(kabuuan ng mga squared deviations Q)

(mean square MS=SS/n)

(Fobs = MSR/MSost)

Kahalagahan F

Regression

Logro

Karaniwang error

t-sta-tistics

P-Halaga

Nangungunang 95% (bimax)

Mas mababa sa 98% (bimin)

Y-intersection

Variable X7

Variable X10

Variable X15

Subukan muna nating maghanap ng sagot sa bawat tanong na natukoy natin sa isang sitwasyon kung saan ang ating causal model ay naglalaman lamang ng dalawang independent variable.

Maramihang ugnayan R at koepisyent ng pagpapasiya R2

Upang matantya ang pinagsama-samang relasyon ng lahat ng mga independiyenteng variable sa umaasa na variable, gamitin maramihang koepisyent ng ugnayan R. Pagkakaiba sa pagitan ng multiple correlation coefficient R mula sa bivariate correlation coefficient G ay maaari lamang itong maging positibo. Para sa dalawang independyenteng mga variable maaari itong tantiyahin tulad ng sumusunod:

Ang multiple correlation coefficient ay maaari ding matukoy sa pamamagitan ng pagtantya ng partial regression coefficient na bumubuo sa equation (9.1). Para sa dalawang variable, ang equation na ito ay malinaw na kukuha ng sumusunod na anyo:

(9.2)

Kung ang ating mga independyenteng variable ay binago sa mga yunit ng karaniwang normal na distribusyon, o Z-distribution, ang equation (9.2) ay malinaw na nagiging:

(9.3)

Sa equation (9.3), ang coefficient β ay tumutukoy sa standardized na halaga ng regression coefficient SA.

Ang mga standardized regression coefficient mismo ay maaaring kalkulahin gamit ang mga sumusunod na formula:

Ngayon ang formula para sa pagkalkula ng maramihang koepisyent ng ugnayan ay magiging ganito:

Ang isa pang paraan upang matantya ang koepisyent ng ugnayan R ay ang pagkalkula ng bivariate correlation coefficient r sa pagitan ng mga halaga ng dependent variable Y at ang kaukulang mga halaga na kinakalkula batay sa linear regression equation (9.2). Sa madaling salita, ang halaga R maaaring masuri tulad ng sumusunod:

Kasama ng koepisyent na ito, maaari nating tantiyahin, tulad ng sa kaso ng simpleng regression, ang halaga R 2, na karaniwan ding tinutukoy bilang koepisyent ng determinasyon. Tulad ng sa sitwasyon ng pagtatasa ng relasyon sa pagitan ng dalawang variable, ang koepisyent ng pagpapasiya R 2 ay nagpapakita kung anong porsyento ng pagkakaiba ng dependent variable Y , ibig sabihin. , lumalabas na nauugnay sa pagpapakalat ng lahat ng mga independiyenteng baryabol – . Sa madaling salita, ang determination coefficient ay maaaring masuri tulad ng sumusunod:

Maaari din nating tantyahin ang porsyento ng natitirang pagkakaiba sa dependent variable na hindi nauugnay sa alinman sa mga independent variable 1 – R 2. Ang square root ng value na ito, i.e. ang dami , tulad ng sa kaso ng bivariate correlation, ay tinatawag koepisyent ng alienasyon.

Bahagi ng ugnayan

Koepisyent ng pagpapasiya R Ipinapakita ng Figure 2 kung anong porsyento ng variance sa dependent variable ang maaaring maiugnay sa variance sa lahat ng independent variable na kasama sa causal model. Kung mas malaki ang koepisyent na ito, mas makabuluhan ang modelong sanhi na ating iniharap. Kung ang koepisyent na ito ay lumalabas na hindi masyadong malaki, kung gayon ang kontribusyon ng mga variable na pinag-aaralan natin sa kabuuang pagkakaiba ng dependent variable ay lumalabas na hindi gaanong mahalaga. Sa pagsasagawa, gayunpaman, madalas na kinakailangan na tantyahin hindi lamang ang kabuuang kontribusyon ng lahat ng mga variable, kundi pati na rin ang indibidwal na kontribusyon ng bawat isa sa mga independiyenteng variable na aming isinasaalang-alang. Ang nasabing kontribusyon ay maaaring tukuyin bilang bahagi ng ugnayan.

Tulad ng alam natin, sa kaso ng bivariate correlation, ang porsyento ng variance sa dependent variable na nauugnay sa variance sa independent variable ay maaaring tukuyin bilang r 2. Gayunpaman, ang bahagi ng pagkakaiba-iba na ito sa kaso ng pag-aaral ng mga epekto ng ilang independyenteng mga variable ay sabay-sabay dahil sa pagkakaiba-iba ng independiyenteng baryabol, na ginagamit namin bilang isang kontrol. Ang mga ugnayang ito ay malinaw na ipinapakita sa Fig. 9.1.

kanin. 9.1. Ang ratio ng mga pagkakaiba-iba ng umaasa (Y ) at dalawang independyente (X 1AtX 2) mga baryabol sa pagsusuri ng ugnayan na may dalawang malayang baryabol

Gaya ng ipinapakita sa Fig. 9.1, lahat ng pagkakaiba Y , na nauugnay sa aming dalawang independent variable, ay binubuo ng tatlong bahagi, na may label a, b At Sa. Mga bahagi A At b mga pagkakaiba-iba Y magkahiwalay na nabibilang sa mga pagkakaiba-iba ng dalawang independyenteng mga variable - X 1 at X 2. Kasabay nito, ang dispersion ng bahagi c ay sabay na nag-uugnay sa parehong dispersion ng dependent variable Y at ang dispersion ng aming dalawang variable. X. Samakatuwid, upang masuri ang kaugnayan ng variable X 1 na may variable Y, na hindi dahil sa impluwensya ng variable X 2 bawat variable Y , kinakailangan mula sa dami R" 2 ibawas ang squared correlation value Y Sa X 2:

(9.6)

Sa katulad na paraan, maaari nating tantyahin ang bahagi ng ugnayan ng Y sa X 2, na hindi dahil sa ugnayan nito sa X 1.

(9.7)

Magnitude sr sa mga equation (9.6) at (9.7) ang hinahanap natin bahagi ng ugnayan.

Ang ugnayan ng isang bahagi ay maaari ding tukuyin sa mga tuntunin ng karaniwang bivariate na ugnayan:

Sa ibang paraan, ang part correlation ay tinatawag na semi-partial correlation. Nangangahulugan ang pangalang ito na kapag kinakalkula ang isang ugnayan, ang epekto ng pangalawang independiyenteng variable ay tinanggal na may paggalang sa mga halaga ng unang independiyenteng variable, ngunit hindi inaalis sa paggalang sa umaasa na variable. Epekto X 1 ay uri ng nababagay gamit ang mga halaga X 2, kaya ang koepisyent ng ugnayan ay hindi kinakalkula sa pagitan Y At X 1 at sa pagitan Y at , at ang mga halaga ay kinakalkula batay sa mga halaga X 2 gaya ng tinalakay sa kabanata sa simpleng linear regression (tingnan ang subsection 7.4.2). Kaya, lumalabas na wasto ang sumusunod na kaugnayan:

Upang masuri ang ugnayan ng isang independiyenteng baryabol na may umaasang baryabol sa kawalan ng impluwensya ng iba pang independyenteng baryabol sa parehong independyenteng baryabol mismo at ang umaasang baryabol, ang konsepto ng bahagyang ugnayan ay ginagamit sa pagsusuri ng regression.

Mga bahagyang ugnayan

pribado, o bahagyang, ugnayan ay tinutukoy sa mga istatistika ng matematika sa pamamagitan ng proporsyon ng pagkakaiba-iba ng umaasang baryabol na nauugnay sa pagkakaiba ng isang naibigay na independiyenteng baryabol, na may kaugnayan sa buong pagkakaiba-iba ng umaasang baryabol na ito, hindi binibilang ang bahagi nito na nauugnay sa pagkakaiba ng iba mga independyenteng baryabol. Pormal, para sa kaso ng dalawang independyenteng mga variable, ito ay maaaring ipahayag bilang mga sumusunod:

Pinahahalagahan ng bahagyang ugnayan ang kanilang sarili pr ay matatagpuan batay sa mga bivariate na halaga ng ugnayan:

Ang bahagyang ugnayan ay maaaring tukuyin bilang ordinaryong bivariate na ugnayan sa pagitan ng mga naayos na halaga ng parehong umaasa at malayang variable. Ang pagwawasto mismo ay isinasagawa alinsunod sa mga halaga ng independiyenteng variable, na kumikilos bilang isang control variable. Sa madaling salita, ang bahagyang ugnayan sa pagitan ng dependent variable Y at malayang baryabol X ako ay maaaring tukuyin bilang ang karaniwang ugnayan sa pagitan ng mga halaga at mga halaga ng , na may mga halaga ng at hinulaang batay sa mga halaga ng pangalawang independiyenteng variable X 2.

Ang kakanyahan ng mga pamamaraan sa pagtataya ng sanhi ay upang magtatag ng koneksyon sa matematika sa pagitan ng mga resulta at mga variable na kadahilanan.

Ang isang kinakailangang kondisyon para sa paggamit ng mga paraan ng pagtataya ng sanhi ay ang pagkakaroon ng isang malaking halaga ng data. Kung ang mga ugnayan sa pagitan ng mga variable ay maaaring ilarawan nang tama sa matematika, kung gayon ang katumpakan ng causal forecast ay magiging mataas.
Ang mga paraan ng pagtataya ng sanhi ay kinabibilangan ng:


  • multivariate na mga modelo ng regression,

  • pagmomolde ng simulation.
Ang pinakakaraniwang paraan ng pagtataya ng sanhi ay ang mga multivariate na modelo ng regression .

1.4.1 Mga modelo ng multivariate na regression

Ang multivariate regression model ay isang equation na may ilang independent variable.

Upang makabuo ng isang multivariate na modelo ng regression, maaaring gamitin ang iba't ibang mga pag-andar; ang pinakalat ay mga linear at power dependences:

Sa linear na modelo ang mga parameter(b 1, b 2, ... b n) ay binibigyang-kahulugan bilang impluwensya ng bawat isa sa mga independyenteng variable sa hinulaang halaga kung ang lahat ng iba pang independyenteng mga variable ay katumbas ng zero.

SA modelo ng kapangyarihan ang mga parameter ay elasticity coefficients. Ipinapakita ng mga ito sa kung anong porsyento ang resulta (y) ay magbabago sa average na may pagbabago sa katumbas na kadahilanan ng 1%, habang ang pagkilos ng iba pang mga kadahilanan ay nananatiling hindi nagbabago. Upang kalkulahin ang mga parameter ng maramihang mga equation ng regression, ginagamit din ito hindi bababa sa parisukat na pamamaraan.

Kapag bumubuo ng mga modelo ng regression, ang kalidad ng data ay gumaganap ng isang mapagpasyang papel. Ang pagkolekta ng data ay lumilikha ng pundasyon para sa mga pagtataya, kaya mayroong ilang mga kinakailangan at panuntunan na dapat sundin kapag nangongolekta ng data.


  1. Una, data ay dapat na mapapansin, ibig sabihin. nakuha bilang resulta ng pagsukat, hindi pagkalkula.

  1. Pangalawa, mula sa array ng data ito ay kinakailangan ibukod ang duplicate at lubos na magkakaibang data. Ang mas maraming hindi duplicate na data at mas homogenous ang populasyon, mas mahusay ang equation. Sa pamamagitan ng malakas na magkakaibang mga halaga, ang ibig naming sabihin ay mga obserbasyon na hindi akma sa pangkalahatang serye. Halimbawa, ang data ng suweldo ng mga manggagawa ay nasa apat at limang digit na numero (7,000, 10,000, 15,000), ngunit isang anim na digit na numero ang natagpuan (250,000). Malinaw na ito ay isang pagkakamali.

  1. Ang ikatlong tuntunin (kailangan) ay medyo malaking halaga ng data. Ang mga istatistika ay may magkakaibang opinyon tungkol sa kung gaano karaming data ang kinakailangan upang makabuo ng isang mahusay na equation. Ayon sa ilan, kailangan ang data 4-6 beses pa bilang ng mga kadahilanan. Sinasabi ng iba iyan kahit 10 beses pa bilang ng mga kadahilanan, pagkatapos ay ang batas ng malalaking numero, na gumagana nang buong puwersa, ay nagsisiguro ng epektibong pagsugpo sa mga random na paglihis mula sa likas na katangian ng relasyon.

Pagbuo ng isang multivariate regression model saMSExcel
Sa mga spreadsheet ng Excel posible na bumuo lamang linear multivariate na modelo ng regression.
, (1.19)
Upang gawin ito, kailangan mong piliin ang item "Pagsusuri sa datos", at pagkatapos ay sa window na lilitaw - tool "pagbabalik"


Figure 1.45 – Dialog box ng tool na “Regression”.
Sa window na lilitaw, kailangan mong punan ang ilang mga patlang, kabilang ang:


  • Interval ng pag-input Y – isang hanay ng data, mula sa isang hanay, na naglalaman ng mga halaga ng nagresultang variable na Y.

  • Input interval X ay isang hanay ng data na naglalaman ng mga halaga ng mga variable na kadahilanan.

Kung ang unang row o unang column ng input interval ay naglalaman ng mga header, kailangan mong lagyan ng tsek ang kahon "mga tag" .

Inilapat ang default antas ng pagiging maaasahan 95%. Kung gusto mong magtakda ng ibang antas, lagyan ng check ang kahon at ilagay ang nais na antas ng pagiging maaasahan sa field sa tabi nito.

Checkbox "Constant-zero" kailangan lang suriin kung gusto mong makakuha ng regression equation na walang intercept term A, upang ang linya ng regression ay dumaan sa pinanggalingan.
Ang output ng mga resulta ng pagkalkula ay maaaring isaayos sa 3 paraan:


  • V hanay ng mga cell sa worksheet na ito (para dito sa field "Saklaw ng Output" tukuyin ang itaas na kaliwang cell ng hanay kung saan ipapakita ang mga resulta ng pagkalkula);

  • sa bagong worksheet (sa patlang sa tabi nito maaari mong ipasok ang nais na pangalan ng sheet na ito);

  • V bagong workbook .

Pagtatakda ng mga checkbox "Labi" At "Mga karaniwang balanse" iniutos ang kanilang pagsasama sa hanay ng output.
Upang i-plot ang mga nalalabi para sa bawat independent variable, piliin ang checkbox "Tsart ng mga balanse."Mga natira kung hindi man ay tinatawag na mga error sa pagtataya. Ang mga ito ay tinukoy bilang pagkakaiba sa pagitan ng aktwal at hinulaang mga halaga ng Y.
Interpretasyon ng mga natitirang plot
Dapat ay walang pattern sa mga natitirang graph. Kung masusubaybayan ang isang pattern, nangangahulugan ito na ang modelo ay hindi kasama ang ilang hindi alam sa amin, ngunit natural na kumikilos na kadahilanan kung saan walang data.

Kapag nilagyan ng check ang kahon "Iskedyul ng pagpili" isang serye ng mga graph ang ipapakita na nagpapakita kung gaano kahusay ang theoretical regression line na umaangkop sa mga naobserbahan, i.e. aktwal na datos.

Interpretasyon ng mga graph ng pagpili
Sa Excel, ang mga pulang tuldok sa mga fit graph ay nagpapahiwatig ng mga teoretikal na halaga Y, mga asul na tuldok - orihinal na data. Kung ang mga pulang tuldok ay nagsasapawan nang maayos sa mga asul na tuldok, kung gayon ito ay biswal na nagpapahiwatig ng isang matagumpay na equation ng regression.
Ang isang kinakailangang yugto ng pagtataya batay sa mga multivariate na modelo ng regression ay upang masuri ang istatistikal na kahalagahan ng equation ng regression, i.e. kaangkupan ng itinayong equation ng regression para magamit para sa mga layunin ng pagtataya. Upang malutas ang problemang ito, ang isang bilang ng mga coefficient ay kinakalkula sa MS Excel. Namely:


  1. Multiple correlation coefficient

Nailalarawan ang lapit at direksyon ng koneksyon sa pagitan ng nagreresulta at ilang mga variable na kadahilanan. Sa pamamagitan ng dalawang-factor na pag-asa, ang multiple correlation coefficient ay kinakalkula gamit ang formula:
, (1.20)


  1. Maramihang koepisyent ng pagpapasiya ( R 2 ).

Ang R 2 ay ang proporsyon ng pagkakaiba-iba sa teoretikal na halaga na nauugnay sa aktwal na mga halaga ng y, na ipinaliwanag ng mga kadahilanan na kasama sa modelo. Ang natitirang mga teoretikal na halaga ay nakasalalay sa iba pang mga kadahilanan na hindi kasama sa modelo. Ang R 2 ay maaaring tumagal ng mga halaga mula 0 hanggang 1. Kung , kung gayon ang kalidad ng modelo ay mataas. Ang tagapagpahiwatig na ito ay lalong kapaki-pakinabang para sa paghahambing ng ilang mga modelo at pagpili ng pinakamahusay.


  1. Normalized na koepisyent ng pagpapasiya R 2

Ang tagapagpahiwatig ng R2 ay may kawalan na ang malalaking halaga ng koepisyent ng pagpapasiya ay maaaring makamit dahil sa isang maliit na bilang ng mga obserbasyon. Na-normalize nagbibigay ng impormasyon tungkol sa kung anong halaga ang maaari mong makuha sa isa pang set ng data na mas malaki kaysa sa kasong ito.

Ang normalized ay kinakalkula gamit ang formula:

, (1.21)

nasaan ang normalized na multiple coefficient ng determinasyon,

Maramihang koepisyent ng pagpapasiya,

Ang dami ng pinagsama-samang,

Bilang ng mga variable na salik.


  1. Standard error ng regression ay nagpapahiwatig ng tinatayang magnitude ng error sa paghula. Ginagamit bilang pangunahing dami upang sukatin ang kalidad ng modelong sinusuri. Kinakalkula gamit ang formula:
, (1.22)

saan ang kabuuan ng mga parisukat ng mga natitira,

Bilang ng mga antas ng kalayaan ng mga nalalabi.
Iyon ay, ang karaniwang error ng regression ay nagpapakita ng squared error sa bawat antas ng kalayaan.


KONKLUSYON NG MGA RESULTA

Mga istatistika ng regression

Maramihang R

0.973101

R-square

0.946926

Normalized R-squared

0.940682

Karaniwang error

0.59867

Mga obserbasyon

20

Pagsusuri ng pagkakaiba-iba

df

SS

MS

F

Kahalagahan F

Regression

2

108.7071

54.35355

151.6535

1.45E-11

Natitira

17

6.092905

0.358406

Kabuuan

19

114.8

Logro

Karaniwang error

t-statistic

P-Halaga

Ibaba 95%

Nangungunang 95%

Ibaba 95.0%

Nangungunang 95.0%

Y-intersection

1.835307

0.471065

3.89608

0.001162

0.841445

2.829169

0.841445

2.829169

x1

0.945948

0.212576

4.449917

0.000351

0.49745

1.394446

0.49745

1.394446

x2

0.085618

0.060483

1.415561

0.174964

-0.04199

0.213227

-0.04199

0.213227

Ang paraan ng pagsusuri ng pagkakaiba-iba ay binubuo ng pag-decomposing ng kabuuang kabuuan ng mga squared deviations ng isang variable sa mula sa average na halaga sa dalawang bahagi:


  1. ipinaliwanag sa pamamagitan ng pagbabalik (o kadahilanan),

  2. nalalabi.
, (1.2 3)
Ang kaangkupan ng isang regression model para sa hula ay depende sa kung anong proporsyon ng kabuuang variation sa katangian y mga account para sa pagkakaiba-iba na ipinaliwanag sa pamamagitan ng regression. Malinaw, kung ang kabuuan ng mga squared deviations na ipinaliwanag ng regression ay mas malaki kaysa sa nalalabi, kung gayon ang isang konklusyon ay iginuhit tungkol sa istatistikal na kahalagahan ng regression equation. Katumbas ito ng katotohanan na ang coefficient of determination ay lumalapit sa pagkakaisa.
Mga pagtatalaga sa talahanayang "Pagsusuri ng Pagkakaiba":
Ang pangalawang hanay ng talahanayan ay tinatawag at nangangahulugan ng bilang ng mga antas ng kalayaan. Para sa kabuuang pagkakaiba, ang bilang ng mga antas ng kalayaan ay katumbas ng: , para sa pagkakaiba-iba ng kadahilanan (o pagkakaiba-iba na ipinaliwanag sa pamamagitan ng regression), para sa natitirang pagkakaiba.

kung saan ang n ay ang bilang ng mga obserbasyon,

m - bilang ng mga variable na kadahilanan ng modelo.
Ang ikatlong hanay ng talahanayan ay tinatawag na . Kinakatawan nito ang kabuuan ng mga squared deviations. Ang kabuuang kabuuan ng mga squared deviations ay tinutukoy ng formula:

, (1.24)
Factor sum ng mga parisukat:

, (1.26)
Ang ikaapat na hanay ay tinatawag na average na halaga ng mga squared deviations. Natutukoy ng formula:

Gamit ang Fisher's F test, tinutukoy ang statistical significance ng coefficient of determination ng regression equation. Upang gawin ito, isang null hypothesis ang inilalagay sa harap, na nagsasaad na sa pagitan ng resulta at factor na variable walang koneksyon. Ito ay posible lamang kung ang lahat ng mga parameter ng multiple linear regression equation at ang correlation coefficient ay katumbas ng zero.

Upang subukan ang hypothesis na ito, kinakailangan upang kalkulahin ang aktwal na halaga ng Fisher's F test at ihambing ito sa talahanayan ng isa. Ang aktwal na halaga ng F-criterion ay kinakalkula gamit ang formula:

, (1.28)

Pinili mula sa mga espesyal na talahanayan ng istatistika ng:


  • isang ibinigay na antas ng kahalagahan () at

  • bilang ng mga antas ng kalayaan.

Sa MS Excel, maaaring matukoy ang tabular value ng F-criterion gamit ang function na: =DFIST(probability, degrees of freedom1, degrees of freedom2)

Halimbawa: =FDISC(0.05;df1;df2)
Lebel ng kahalagahan Ang 1 ay pinili upang maging pareho kung saan kinakalkula ang mga parameter ng modelo ng regression. Ang default ay 95%.

Kung , kung gayon ang inilagay na hypothesis ay tinanggihan at ang istatistikal na kahalagahan ng equation ng regression ay kinikilala. Sa kaso ng mga partikular na mahahalagang pagtataya, inirerekumenda na dagdagan ang halaga ng tabular ng F-criterion ng 4 na beses, iyon ay, ang kondisyon ay nasuri:
=151.65; = 3.59
Ang kinakalkula na halaga ay makabuluhang lumampas sa halaga ng talahanayan. Nangangahulugan ito na ang koepisyent ng pagpapasiya ay makabuluhang naiiba mula sa zero, kaya ang hypothesis tungkol sa kawalan ng pag-asa sa regression ay dapat tanggihan.
Ngayon ay tantyahin natin ang kahalagahan ng mga coefficient ng regression batay sa t-T-test ng mag-aaral. Pinapayagan ka nitong matukoy kung alin sa mga variable na salik (x) ang may pinakamalaking epekto sa resultang variable (y).

Ang mga karaniwang error ay karaniwang tinutukoy ng . Tinutukoy ng subscript ang parameter ng equation ng regression kung saan kinakalkula ang error na ito

Kinakalkula gamit ang formula:

, (1.29)

nasaan ang standard deviation para sa resultang variable,

RMS para sa katangian,

Koepisyent ng determinasyon para sa maramihang equation

regressions,

Ang koepisyent ng pagpapasiya para sa pagtitiwala ng salik na may

lahat ng iba pang mga kadahilanan sa equation.

Bilang ng mga antas ng kalayaan para sa natitirang kabuuan ng mga parisukat

mga paglihis.
Sa MS Excel, awtomatikong kinakalkula ang mga karaniwang error (matatagpuan sa ika-3 column ng ika-3 talahanayan).
Tunay na halagat-T-test ng mag-aaral sa MS Excel ito ay matatagpuan sa ika-4 na hanay ng ika-3 talahanayan at tinatawag na t-istatistika.
(ika-4 na column) = (2nd column) / (3rd column)

t-statistic = Coefficients/Pamantayang error
Halaga ng talahanayant-T-test ng mag-aaral depende sa tinatanggap na antas ng kahalagahan (karaniwang 0.05; 0.01) at ang bilang ng mga antas ng kalayaan.

kung saan ang n ay ang bilang ng mga yunit sa populasyon,

m ay ang bilang ng mga kadahilanan sa equation.
Sa MS Excel, ang halaga ng talahanayan ng t-test ng Mag-aaral ay maaaring matukoy gamit ang function:

STUDRIST(probability; bilang ng antas ng kalayaan)
Halimbawa: =STUDISCOVER(0.05,7)
Kung , pagkatapos ay napagpasyahan na ang koepisyent ng equation ng regression ay makabuluhang istatistika (maaasahan) at maaaring isama sa modelo at magamit para sa pagtataya.

1.4.2 Paraan ng simulation ng Monte Carlo

Ang pamamaraan ng simulation ay pinangalanan sa lungsod ng Monte Carlo, na matatagpuan sa Principality of Monaco, isa sa pinakamaliit na bansa sa mundo, na matatagpuan sa baybayin ng Mediterranean, malapit sa hangganan ng France at Italy.

Ang Monte Carlo simulation method ay nagsasangkot ng pagbuo ng mga random na halaga alinsunod sa tinukoy na mga hadlang. Kapag nagsimulang magsagawa ng simulation modeling, una sa lahat, kinakailangan na bumuo ng isang economic-mathematical model (EMM) ng hinulaang tagapagpahiwatig, na sumasalamin sa ugnayan sa pagitan ng mga variable na kadahilanan, pati na rin ang antas at likas na katangian ng kanilang impluwensya sa resulta. . Dahil sa mga kondisyon ng modernong kondisyon ng merkado ang paksa ng mga relasyon sa ekonomiya ay sabay na naiimpluwensyahan ng maraming mga kadahilanan ng iba't ibang kalikasan at direksyon at ang antas ng kanilang impluwensya ay hindi deterministiko, tila kinakailangan na hatiin ang mga variable ng EMM sa dalawang grupo: stochastic at deterministic;

Susunod, dapat mong tukuyin ang mga uri ng mga distribusyon ng probabilidad para sa bawat stochastic variable at ang kaukulang mga parameter ng input, at gayahin ang mga halaga ng stochastic variable gamit ang random number generator MS Excel o iba pang software.

Ang tool na "random number generation" ay magagamit sa mga user ng MS Excel 2007 pagkatapos i-activate ang add-in Pakete ng pagsusuri. Ang pamamaraan para sa pag-activate ng add-on ay inilarawan sa itaas (tingnan ang pahina 10, Fig. 1.5-1.8). Upang magsagawa ng simulation sa menu DATA kailangan mong pumili ng isang item "Pagsusuri sa datos", sa lalabas na dialog box, pumili ng tool mula sa listahan "Random na Pagbuo ng Numero" at i-click ang OK.

Figure 1.46 - Interface ng menu ng pagsusuri ng data
Sa lalabas na dialog box, dapat mong piliin ang uri ng probability distribution para sa bawat stochastic variable at itakda ang naaangkop na mga parameter ng input.

Figure 1.47 - Random number generator dialog box
Ang yugtong ito ay isa sa pinakamahirap, kaya kapag isinasagawa ito ay kinakailangang gamitin ang kaalaman at karanasan ng mga eksperto. Pagpili ng uri ng pamamahagi ng posibilidad ay maaari ding isagawa batay sa magagamit na istatistikal na impormasyon. Sa pagsasagawa, ang pinakakaraniwang ginagamit na mga uri ng pamamahagi ng posibilidad ay normal, tatsulok at pare-pareho.

Normal na pamamahagi (o batas ng Moivre-Gauss-Laplace) Ipinapalagay na ang mga variant ng hinulaang parameter ay may posibilidad sa average na halaga. Ang mga halaga ng isang variable na makabuluhang naiiba mula sa average, iyon ay, na matatagpuan sa "mga buntot" ng pamamahagi, ay may mababang posibilidad.

Triangular na pamamahagi ay isang derivative ng normal na distribution at ipinapalagay ang isang linearly na pagtaas ng distribution habang lumalapit ito sa average na halaga.

Unipormeng pamamahagi ay ginagamit sa kaso kapag ang lahat ng mga halaga ng variable indicator ay may parehong posibilidad ng pagpapatupad.

Kapag ang variable ay mahalaga at imposibilidad ng pagpili ng batas sa pamamahagi ito ay maaaring tingnan mula sa punto ng view discrete distribution. Ang mga uri ng probability distribution na nakalista sa itaas ay nangangailangan ng pagpapasiya ng mga parameter ng input na ipinakita sa talahanayan 1.11
Talahanayan 1.11 - Mga parameter ng input ng mga pangunahing uri ng distribusyon ng posibilidad


Uri ng probabilistiko

pamamahagi


Mga parameter ng input

1 Normal na pamamahagi

  • average na halaga;

  • karaniwang lihis;

2 Tatsulok na pamamahagi

  • average na halaga;


3 Unipormeng pamamahagi

  • mga limitasyon ng posibleng hanay ng mga halaga;

4 Discrete distribution

  • tiyak na mga halaga ng variable;

  • naaayon sa mga halaga ng posibilidad na ito.

Bilang resulta ng isang serye ng mga eksperimento, ang isang pamamahagi ng mga halaga ng mga stochastic variable ay makukuha, batay sa kung saan ang halaga ng hinulaang tagapagpahiwatig ay dapat kalkulahin.

Ang susunod na kinakailangang hakbang ay ang pagsasagawa ng isang pang-ekonomiya at istatistikal na pagsusuri ng mga resulta ng pagmomolde ng simulation, kung saan inirerekomenda na kalkulahin ang mga sumusunod na istatistikal na katangian:


  • average na halaga;

  • karaniwang lihis;

  • pagpapakalat;

  • minimum at maximum na halaga;

  • hanay ng ugoy;

  • koepisyent ng kawalaan ng simetrya;

  • sobra.
Ang mga tagapagpahiwatig sa itaas ay maaaring gamitin upang subukan ang hypothesis ng isang normal na distribusyon. Kung ang hypothesis ay nakumpirma, ang "three sigma" na panuntunan ay maaaring gamitin upang gumawa ng isang pagtataya ng pagitan. Ang tatlong sigma tuntunin ay nagsasaad na kung ang isang random variable X ay napapailalim sa normal na batas sa pamamahagi na may mga parameter at , pagkatapos ay halos tiyak na ang mga halaga nito ay nakapaloob sa pagitan, iyon ay, . Upang madagdagan ang kalinawan at gawing simple ang interpretasyon, ipinapayong bumuo ng histogram.


Figure 1.48 - Histogram ng mga hinulaang halaga ng indicator

Ang pagpapatupad ng mga yugtong ito ay magiging posible upang makakuha ng probabilistikong pagtatasa ng mga halaga ng hinulaang tagapagpahiwatig (pagtataya ng pagitan).