Anong expression ang tumutukoy sa absolute approximation error. Pagsusuri ng hypothesis tungkol sa mga koepisyent ng linear regression equation

Ang aktwal na mga halaga ng dami ng interes sa amin ay naiiba sa mga kinakalkula ng equation ng regression. Ang mas maliit na pagkakaiba na ito, mas malapit ang mga kinakalkula na halaga ay magkasya sa empirical na data, ang mas magandang kalidad mga modelo. Ang laki ng mga paglihis ng aktwal at kinakalkula na mga halaga ng variable para sa bawat pagmamasid ay ang approximation error. Dahil ang paglihis ay maaaring parehong positibo at negatibo, kaugalian na tukuyin ang mga error sa pagtatantya para sa bawat pagmamasid bilang isang porsyento na modulo.

Ang mga deviation () ay itinuturing na isang ganap na error sa pagtatantya, pagkatapos - isang kamag-anak na error sa pagtatantya.

Ang average na error sa approximation ay tinukoy bilang arithmetic mean: . Minsan ginagamit nila ang kahulugan karaniwang error mga pagtatantya na may anyo.

Pagtatapos ng trabaho -

Ang paksang ito ay kabilang sa:

Econometrics

Sa site ng site basahin ang: mga specialty sa ekonomiya ..

Kung kailangan mo ng karagdagang materyal sa paksang ito, o hindi mo nakita ang iyong hinahanap, inirerekumenda namin ang paggamit ng paghahanap sa aming database ng mga gawa:

Ano ang gagawin natin sa natanggap na materyal:

Kung ang materyal na ito ay naging kapaki-pakinabang para sa iyo, maaari mo itong i-save sa iyong pahina sa mga social network:

Lahat ng mga paksa sa seksyong ito:

Komposisyon ng paunang impormasyon
Ang pangunahing batayan ng paunang impormasyon para sa mga pag-aaral ng ekonometric ay ang istatistikal na datos o data accounting. Ang mga relasyon na pinag-aralan ng econometrics ay stochastic sa kalikasan, i.e.

Lagrange interpolation polynomial
Hayaang magkaroon ng dependence y = f(x) sa pagitan ng x at y, kung saan alam natin ang mga indibidwal na puntos (xi,yi), i = 0,1,2,…,

Kaso 1
Sa pamamagitan ng isang punto (x0, y0) maaari kang gumuhit ng lapis ng mga linyang y = y0+b(x-x0) (2.1) (pati na rin ang patayong linya

Kaso 2
Sa pamamagitan ng dalawang magkaibang mga punto (x0,y0), (x1,y1) mayroong isa at isa lamang na tuwid na linya. Kung x0 ¹

Kaso 3
Second degree polynomial ( quadratic function), na ang graph ay dumadaan sa tatlong puntos (x0,y0), (x1,y1), (x2

Kaso n.
Ngayon ay malinaw na ang Lagrange interpolation polynomial ng nth degree, ang graph kung saan dumadaan sa n+1 puntos (xi,yi), i=0,1,2,…,n, ay maaaring isulat bilang

Ipinares na linear regression. Pinakamababang parisukat na pamamaraan
Hayaang magkaroon ng n pares ng mga numero (xi, yi), i=1,2,…,n, kung saan ipinapalagay na tumutugma ang mga ito sa isang linear na relasyon sa pagitan ng x at y:

Maramihang Linear Regression
Ang pair regression ay maaaring magbigay ng magandang resulta sa pagmomodelo kung ang impluwensya ng iba pang mga salik na nakakaapekto sa object ng pag-aaral ay maaaring mapabayaan. Ngunit, kadalasan mayroong ilan

Mga Nonlinear na Modelo
Pinag-aralan namin ang aplikasyon ng pamamaraan hindi bababa sa mga parisukat upang matukoy ang mga parameter na kasama sa functional dependencies nang linearly. Samakatuwid, para sa kanila sa mga talata 3 at 4 nakakuha kami ng isang sistema

Mga Sistema ng Sabay-sabay na Econometric Equation
Ang layunin ng pag-aaral sa istatistika sa mga agham na sosyo-ekonomiko ay mga kumplikadong sistema. Pagsusukat sa higpit ng mga ugnayan sa pagitan ng mga variable, pagbuo ng mga hiwalay na equation ng regression

Mga bahagi ng serye ng oras
Ang time series x(t) ay ang set ng x values ​​na tumutugma sa sequence ng time points t, i.e. ay ang function na t®x(t), na karaniwang isinasaalang-alang

Pagtukoy sa mga bahagi ng isang serye ng oras
Ang isa sa mga pinaka-karaniwang paraan upang imodelo ang trend ng isang serye ng oras ay ang pagbuo ng isang analytical function na nagpapakilala sa dependence ng sunud-sunod na mga halaga.

Sa kasong ito, ang mga coefficients ak, bk ay magiging pantay
Kung ang function na x (t) ay pantay, i.e. ang pagkakapantay-pantay ng x (-t) = x (t) ay humahawak, pagkatapos ay sa

Serye ng oras bilang isang random na proseso
Hayaang ang halaga ng economic indicator x(t) sa anumang oras t ay isang random variable X(t). Ipagpalagay natin na

Mga Modelong ARIMA
Sa econometrics, ang time series analysis gamit ang spectral density estimation (spectral analysis) ay karaniwang gumaganap ng isang auxiliary role, na tumutulong sa pagtatatag ng mga yugto ng karakter.

Accounting para sa mga seasonal na bahagi
Iminungkahi nina J. Box at G. Jenkins ang paglalahat ng modelong ARIMA, na nagbibigay-daan na isaalang-alang ang mga pana-panahong (pana-panahong) bahagi ng serye ng oras. Ang pamamaraang ito ay ipinatupad sa system

Pagsusuri ng mga error sa paunang impormasyon
Ang mga halaga ng mga tagapagpahiwatig ng ekonomiya ay karaniwang hindi tumpak na nalalaman, na may ilang pagkakamali. Isaalang-alang ang mga pangunahing panuntunan para sa pagproseso ng data na naglalaman ng mga error, o mga error sa pagsukat. nana

Mga pagitan ng kumpiyansa
Ipakilala natin ang isang random na variable. (13.1) Madaling suriin na xОN(0,1), dahil sa h

Pagkalkula ng mga error
Ang data ng empirikal ay madalas na sumasailalim sa pagproseso ng matematika - ang mga pagpapatakbo ng aritmetika ng karagdagan, pagbabawas, pagpaparami at paghahati ay ginagawa sa kanila, sa ilang mga kaso

Koepisyent ng determinasyon
Ang koepisyent ng determinasyon ay nagpapakilala sa kalidad ng modelo ng regression. Mga halaga ng iba't ibang dami, natanggap

Ang prinsipyo ng maximum na posibilidad. Building Regression Models na may Heteroscedastic Errors
Upang makahanap ng hindi kilalang mga dami mula sa mga resulta ng mga sukat na naglalaman ng mga random na error, ang least squares method (LSM) ay ginagamit. Ang mga dami na tutukuyin ay karaniwang nauugnay sa pamamagitan ng mga equation na nabuo

Mga statistic na hypotheses
Sa mga nakaraang talata, ang pamamaraan para sa pagmomodelo ng ugnayan sa pagitan ng mga tagapagpahiwatig ng ekonomiya at mga proseso ay isinasaalang-alang. Ang koneksyon na ito ay namodelo gamit ang nakuhang mga equation ng regression.

F - mga istatistika
Ang kahalagahan ng modelo ng regression ay tinutukoy gamit ang Fisher's F-test. Para dito, kinakalkula ang ratio

T - mga istatistika
Upang masuri ang kahalagahan ng mga indibidwal na parameter ng regression model y=a+bx+e, ang kanilang halaga ay inihambing sa kanilang karaniwang error. Kinakalkula nito ang tinatawag na

Mga tagapagpahiwatig ng ugnayan at pagpapasiya

Linear Pair Regression

Batay sa sumusuportang data, na kinakalkula sa Talahanayan. 2, kinakalkula namin ang tagapagpahiwatig ng pagiging malapit ng komunikasyon.

Ang indicator na ito ay isang sample linear coefficient ugnayan na kinakalkula gamit ang isang formula.

Ayon sa mga resulta ng pagkalkula ng koepisyent ng ugnayan, maaari itong tapusin na ang ugnayan sa pagitan ng kadahilanan at ang nagresultang katangian ay direkta at malakas (ayon sa sukat ng Chaddock).

Ang parisukat ng koepisyent ng ugnayan ay tinatawag na koepisyent ng pagpapasiya, na nagpapakita ng proporsyon ng pagkakaiba-iba ng nagresultang katangian, na ipinaliwanag ng pagkakaiba-iba ng katangian ng kadahilanan.

Karaniwan, ang pagbibigay ng interpretasyon ng koepisyent ng pagpapasiya, ito ay ipinahayag bilang isang porsyento.

R 2 \u003d 0.847 2 \u003d 0.7181

mga. sa 71.81% ng mga kaso, ang pagbabago sa factor trait ay humahantong sa pagbabago sa resultang trait. Ang katumpakan ng pagpili ng equation ng regression ay medyo mataas. Ang natitirang 28.19% ng pagbabago sa Y ay ipinaliwanag ng mga salik na hindi isinasaalang-alang sa modelo.

Power Pair Regression

Ang lapit ng relasyon sa pagitan ng resulta at factor sign para sa power pair regression ay tinutukoy gamit ang correlation coefficient:

Ang pagpapalit sa kilalang data, nakukuha namin:

Tagapagpahiwatig ng pagpapasiya.

mga. sa 69% ng mga kaso, ang pagbabago sa factor trait ay humahantong sa pagbabago sa resultang trait. Ang katumpakan ng pagpili ng equation ng regression ay karaniwan. Ang natitirang 31% ng pagbabago sa Y ay ipinaliwanag ng mga salik na hindi isinasaalang-alang sa modelo.

Average na error sa pagtatantya

Linear Pair Regression

Suriin natin ang kalidad ng regression equation gamit ang absolute approximation error. Ang average na error sa approximation ay ang average na paglihis ng mga kinakalkula na halaga mula sa aktwal na mga halaga:

Power Pair Regression

Ang average na error sa approximation ay ang average na paglihis ng mga kinakalkula na halaga mula sa aktwal na mga halaga:

Ang error sa pagtatantya sa loob ng 5%-7% ay nagpapahiwatig ng magandang pagpili ng equation ng regression sa orihinal na data.

Dahil ang error ay mas malaki sa 7%, ang equation na ito ay hindi kanais-nais na gamitin bilang isang regression.

Pagtatantya gamit ang Fisher F-criterion ng statistical reliability ng mga resulta ng regression modelling

Linear Pair Regression

Ang coefficient of determination R 2 ay ginagamit upang suriin ang kahalagahan ng equation linear regression pangkalahatan.

Ang kahalagahan ng modelo ng regression ay sinusuri gamit ang Fisher's F-test, ang kinakalkula na halaga ay matatagpuan bilang ratio ng pagkakaiba-iba ng paunang serye ng mga obserbasyon ng indicator sa ilalim ng pag-aaral at ang walang pinapanigan na pagtatantya ng pagkakaiba ng natitirang sequence para sa modelong ito.

Kung ang kinakalkula na halaga na may k 1 =(m) at k 2 =(n-m-1) na antas ng kalayaan ay mas malaki kaysa sa halaga ng tabular sa isang partikular na antas ng kahalagahan, kung gayon ang modelo ay itinuturing na makabuluhan.

Grade istatistikal na kahalagahan Ang ipinares na linear regression ay isinasagawa ayon sa sumusunod na algorithm:

kung saan ang m=1 para sa pairwise regression.

Dahil ang aktwal na halaga ng F >

Power Pair Regression

Katulad ng linear pair regression, tatantyahin natin ang power pair regression

kung saan ang m ay ang bilang ng mga kadahilanan sa modelo.

1. Isang null hypothesis ang iniharap na ang equation sa kabuuan ay hindi gaanong mahalaga sa istatistika: H 0: R 2 =0 sa antas ng kahalagahan b.

2. Tukuyin ang aktwal na halaga ng F-criterion:

kung saan ang m=1 para sa pairwise regression.

3. Ang halaga ng tabular ay tinutukoy mula sa mga talahanayan ng pamamahagi ng Fisher para sa isang partikular na antas ng kahalagahan, na isinasaalang-alang na ang bilang ng mga antas ng kalayaan para sa kabuuang kabuuan ng mga parisukat (mas malaking pagkakaiba) ay 1 at ang bilang ng mga antas ng kalayaan para sa natitirang kabuuan ng mga parisukat (mas mababang pagkakaiba) sa linear regression ay n-2 .

Ang F table ay ang pinakamataas na posibleng halaga ng criterion sa ilalim ng impluwensya ng mga random na salik para sa ibinigay na antas ng kalayaan at antas ng kahalagahan b. Antas ng kahalagahan b - ang posibilidad na tanggihan ang tamang hypothesis, sa kondisyon na ito ay totoo. Karaniwan ang b ay kinukuha na katumbas ng 0.05 o 0.01.

4. Kung ang aktwal na halaga ng F-criterion ay mas mababa sa halaga ng talahanayan, pagkatapos ay sinasabi nila na walang dahilan upang tanggihan ang null hypothesis.

Kung hindi, ang null hypothesis ay tinanggihan at may probabilidad (1-b) ang alternatibong hypothesis tungkol sa istatistikal na kahalagahan ng equation sa kabuuan ay tinatanggap.

Tabular na halaga ng criterion na may mga antas ng kalayaan:

k 1 \u003d 1 at k 2 \u003d 8, F table \u003d 5.32

Dahil ang aktwal na halaga ng F > F table, ang koepisyent ng determinasyon ay makabuluhan ayon sa istatistika (ang nahanap na pagtatantya ng equation ng regression ay maaasahan sa istatistika).

Batay sa mga resulta ng pagsusuri, napagpasyahan namin na ang mga coefficients ng determinasyon para sa parehong linear pair regression at power pair regression ay makabuluhan sa istatistika.

Dahil ang linear pairwise regression ay may mas mataas (exponentially) determination coefficient, naniniwala kami na ito ang sapat na naglalarawan ng relasyon sa pagitan ng factor at ng resultang feature.


Ang mga empirical regression coefficients b 0 , b 1 ay tutukuyin gamit ang tool na "Regression" ng add-on na "Data Analysis" ng MS Excel spreadsheet processor.

Ang algorithm para sa pagtukoy ng mga coefficient ay ang mga sumusunod.

1. Ipasok ang paunang data sa spreadsheet na MS Excel.

2. Tawagan ang data Analysis add-on (Figure 2).

3. Piliin ang tool sa pagsusuri Regression (Figure 3).

4. Punan ang kaukulang mga posisyon ng Regression window (Figure 4).

5. Pindutin ang OK button ng Regression window at kunin ang protocol para sa paglutas ng problema (Figure 5)


Figure 3 - Pagpili ng Regression tool




Figure 4 - Window Regression

Figure 5 - Protocol para sa paglutas ng problema

Ipinapakita ng Figure 5 na ang empirical regression coefficients ay ayon sa pagkakabanggit ay katumbas ng

b 0 = 223,

b 1 = 0.0088.

Pagkatapos ang equation ng paired linear regression, na nag-uugnay sa halaga ng buwanang pensiyon y sa halaga ng subsistence minimum, ay may form

.(3.2)

Dagdag pa, alinsunod sa gawain, kinakailangang suriin ang higpit ng istatistikal na relasyon sa pagitan ng subsistence minimum x at buwanang pensiyon y. Ang pagtatantya na ito ay maaaring gawin gamit ang koepisyent ng ugnayan. Ang halaga ng koepisyent na ito sa Figure 5 ay itinalaga bilang maramihang R at katumbas ng 0.038, ayon sa pagkakabanggit. Dahil theoretically ang halaga ibinigay na koepisyent ay nasa hanay mula -1 hanggang +1, pagkatapos ay maaari nating tapusin na ang istatistikal na relasyon sa pagitan ng subsistence minimum x at buwanang pensiyon y ay hindi makabuluhan.

Ang parameter na "R - square", na ipinapakita sa Figure 5, ay ang square ng correlation coefficient at tinatawag na coefficient of determination. Ang halaga ng koepisyent na ito ay nagpapakilala sa proporsyon ng pagkakaiba-iba ng dependent variable y, na ipinaliwanag sa pamamagitan ng regression (ang paliwanag na variable x). Alinsunod dito, ang halaga ng 1- ay nagpapakilala sa proporsyon ng pagkakaiba-iba ng variable na y, na sanhi ng impluwensya ng lahat ng iba pang mga variable na nagpapaliwanag na hindi isinasaalang-alang sa modelong ekonomiko. Ipinapakita ng Figure 5 na ang proporsyon ng lahat ng mga variable na nagpapaliwanag na hindi isinasaalang-alang sa resultang econometric model ay humigit-kumulang 1-0.00145 = 0.998 o 99.8%.



Sa susunod na yugto, alinsunod sa gawain, kinakailangan upang matukoy ang antas ng koneksyon sa pagitan ng paliwanag na variable x at ng dependent variable y, gamit ang elasticity coefficient. Ang elasticity coefficient para sa isang ipinares na linear regression na modelo ay tinukoy bilang:

Samakatuwid, kapag ang subsistence minimum ay nagbago ng 1%, ang buwanang pensiyon ay nagbabago ng 0.000758%.

. (3.4)

Upang gawin ito, dinadagdagan namin ang orihinal na talahanayan 1 na may dalawang hanay kung saan tinutukoy namin ang mga halaga na kinakalkula gamit ang pagtitiwala (3.2) at ang halaga ng pagkakaiba.

Talahanayan 3.2. Pagkalkula ng average na error sa pagtatantya.

Kung gayon ang average na error sa pagtatantya ay katumbas ng

.

Alam mula sa pagsasanay na ang halaga ng average na error sa pagtatantya ay hindi dapat lumampas sa (12 ... 15)%

Sa huling hakbang suriin natin ang istatistikal na pagiging maaasahan ng pagmomodelo gamit ang F - Fisher's criterion. Upang gawin ito, susuriin namin ang null hypothesis H 0 tungkol sa statistical insignificance ng nakuha na regression equation ayon sa kondisyon:

kung, sa isang naibigay na antas ng kabuluhan a = 0.05, ang teoretikal (kinakalkula) na halaga ng F-criterion ay mas malaki kaysa sa kritikal na halaga nito F crit (talahanayan), kung gayon ang null hypothesis ay tinanggihan, at ang resultang regression equation ay kukunin na makabuluhan.

Mula sa figure 5 sumusunod na ang Fcalc = 0.0058. Ang kritikal na halaga ng F-criterion ay tinutukoy gamit ang statistical function na FDISP (Larawan 6). Ang input parameters ng function ay ang significance level (probability) at ang bilang ng degrees of freedom 1 at 2. Para sa paired regression model, ang bilang ng degrees of freedom ay ayon sa pagkakabanggit ay katumbas ng 1 (isang explanatory variable) at n-2 = 6-2=4.



Figure 6 - Window ng statistical function na FDISP

Ipinapakita ng Figure 6 iyon kritikal na halaga Ang F-test ay katumbas ng 7.71.

Dahil ang F calc< F крит, то нулевая гипотеза не отвергается и полученное регрессионное уравнение статистически незначимо.

13. Pagbuo ng multiple regression model gamit ang EXCEL.

Alinsunod sa opsyon sa pagtatalaga, gamit ang istatistikal na materyal, ito ay kinakailangan.

1. Bumuo ng isang linear multiple regression equation ipaliwanag pang-ekonomiyang kahulugan mga parameter nito.

2. Upang magbigay ng isang paghahambing na pagtatasa ng pagiging malapit ng kaugnayan ng mga salik na may isang produktibong katangian gamit ang average (pangkalahatang) elasticity coefficients.

3. Tayahin ang statistical significance ng regression coefficients gamit ang Student's t-test at ang null hypothesis tungkol sa kahalagahan ng equation gamit ang F-test.

4. Suriin ang kalidad ng equation sa pamamagitan ng pagtukoy sa average na error sa approximation.

Ang paunang data para sa pagbuo ng isang paired regression model ay ibinibigay sa Talahanayan 3.3.

Talahanayan 3.3. Paunang data.

Netong kita, milyong USD Pagbabalik ng puhunan, ml. US dollars, x 1 Ginamit na kapital, ml. US dollars, x 2
6,6 6,9 83,6
2,7 93,6 25,4
1,6 10,0 6,4
2,4 31,5 12,5
3,3 36,7 14,3
1,8 13,8 6,5
2,4 64,8 22,7
1,6 30,4 15,8
1,4 12,1 9,3
0,9 31,3 18,9

Ang teknolohiya para sa pagbuo ng regression equation ay katulad ng algorithm na inilarawan sa talata 3.1. Ang protocol para sa pagbuo ng regression equation ay ipinapakita sa Figure 7.

RESULTA
Mga istatistika ng regression
Maramihang R 0,901759207
R-square 0,813169667
Normalized R-square 0,759789572
karaniwang error 0,789962026
Mga obserbasyon
Pagsusuri ng pagkakaiba-iba
df MS F
Regression 9,50635999 15,23357468
natitira 0,624040003
Kabuuan
Odds t-statistic
Y-intersection 1,113140304 2,270238114
Variable X 1 -0,000592199 -0,061275574
Variable X 2 0,063902851 5,496523193

Figure 7. Output ng mga resulta.

Average na error sa pagtatantya- average na paglihis ng mga kinakalkula na halaga mula sa mga aktwal:

Kung saan ang y x ay ang kinakalkula na halaga ayon sa equation.

Ang halaga ng average na error sa pagtatantya hanggang 15% ay nagpapahiwatig ng isang mahusay na napiling modelo ng equation.

Para sa pitong teritoryo ng rehiyon ng Ural para sa 199X, ang mga halaga ng dalawang palatandaan ay kilala.

Kailangan:
1. Upang makilala ang dependence ng y sa x, kalkulahin ang mga parameter ng mga sumusunod na function:
a) linear;
b) kapangyarihan;
c) nagpapakita;
d) equilateral hyperbola (kailangan mo ring malaman kung paano i-pre-linearize ang modelong ito).
2. Suriin ang bawat modelo sa pamamagitan ng average na error sa pagtatantya Isang cf at Fisher's F-test.

Ginagawa namin ang desisyon sa tulong online na calculator Linear regression equation.
a) linear regression equation;
Gamit ang graphical na pamamaraan.
Ang pamamaraang ito ay ginagamit upang mailarawan ang anyo ng komunikasyon sa pagitan ng pinag-aralan mga tagapagpahiwatig ng ekonomiya. Upang gawin ito, ang isang graph ay binuo sa isang hugis-parihaba na sistema ng coordinate, ang mga indibidwal na halaga ng resultang katangian Y ay naka-plot kasama ang ordinate axis, at ang mga indibidwal na halaga ng factor na katangian X ay naka-plot kasama ang abscissa axis.
Ang hanay ng mga punto ng mabisa at kadahilanan na mga palatandaan ay tinatawag larangan ng ugnayan.


Batay sa larangan ng ugnayan, maaaring maglagay ng hypothesis (para sa populasyon) na ang ugnayan sa pagitan ng lahat ng posibleng halaga ng X at Y ay linear.
Ang linear regression equation ay y = bx + a + ε
Narito ang ε ay isang random na error (paglihis, perturbation).
Mga dahilan para sa pagkakaroon ng isang random na error:
1. Hindi kasama ang mga makabuluhang variable na nagpapaliwanag sa modelo ng regression;
2. Pagsasama-sama ng mga variable. Halimbawa, ang kabuuang function ng pagkonsumo ay isang pagtatangka sa isang pangkalahatang pagpapahayag ng kabuuan ng mga indibidwal na desisyon sa paggastos ng mga indibidwal. Ito ay pagtatantya lamang ng mga indibidwal na relasyon na may iba't ibang mga parameter.
3. Maling paglalarawan ng istraktura ng modelo;
4. Maling functional na detalye;
5. Mga error sa pagsukat.
Dahil ang mga deviations ε i para sa bawat partikular na obserbasyon i ay random at ang kanilang mga halaga sa sample ay hindi alam, kung gayon:
1) ayon sa mga obserbasyon x i at y i, mga pagtatantya lamang ng mga parameter na α at β ang maaaring makuha
2) Ang mga pagtatantya ng mga parameter α at β ng regression model ay, ayon sa pagkakabanggit, ang mga halaga a at b, na random sa kalikasan, dahil tumutugma sa isang random na sample;
Pagkatapos ang tinantyang equation ng regression (na binuo mula sa sample na data) ay magmumukhang y = bx + a + ε, kung saan ang e i ay ang mga naobserbahang halaga (mga pagtatantya) ng mga error ε i , at at b, ayon sa pagkakabanggit, ang mga pagtatantya ng mga parameter α at β ng regression model na makikita.
Upang tantyahin ang mga parameter α at β - gumamit ng LSM (pinakababang mga parisukat).




Nakukuha namin ang b = -0.35, a = 76.88
Regression equation:
y = -0.35 x + 76.88

x y x2 y2 x y y(x) (y i -y cp) 2 (y-y(x)) 2 |y - y x |:y
45,1 68,8 2034,01 4733,44 3102,88 61,28 119,12 56,61 0,1094
59 61,2 3481 3745,44 3610,8 56,47 10,98 22,4 0,0773
57,2 59,9 3271,84 3588,01 3426,28 57,09 4,06 7,9 0,0469
61,8 56,7 3819,24 3214,89 3504,06 55,5 1,41 1,44 0,0212
58,8 55 3457,44 3025 3234 56,54 8,33 2,36 0,0279
47,2 54,3 2227,84 2948,49 2562,96 60,55 12,86 39,05 0,1151
55,2 49,3 3047,04 2430,49 2721,36 57,78 73,71 71,94 0,172
384,3 405,2 21338,41 23685,76 22162,34 405,2 230,47 201,71 0,5699

Tandaan: Ang mga halaga ng y(x) ay matatagpuan mula sa nagresultang equation ng regression:
y(45.1) = -0.35*45.1 + 76.88 = 61.28
y(59) = -0.35*59 + 76.88 = 56.47
... ... ...

Error sa pagtatantya
Suriin natin ang kalidad ng regression equation gamit ang absolute approximation error. Average na error sa pagtatantya- average na paglihis ng mga kinakalkula na halaga mula sa mga aktwal:

Dahil ang error ay mas mababa sa 15%, ang equation na ito ay maaaring gamitin bilang isang regression.

F-mga istatistika. Ang pamantayan ni Fisher.










3. Ang halaga ng tabular ay tinutukoy mula sa mga talahanayan ng pamamahagi ng Fisher para sa isang partikular na antas ng kahalagahan, na isinasaalang-alang na ang bilang ng mga antas ng kalayaan para sa kabuuang kabuuan ng mga parisukat (mas malaking pagkakaiba) ay 1 at ang bilang ng mga antas ng kalayaan para sa natitirang kabuuan ng mga parisukat (mas mababang pagkakaiba) sa linear regression ay n-2 .
4. Kung ang aktwal na halaga ng F-criterion ay mas mababa sa halaga ng talahanayan, pagkatapos ay sinasabi nila na walang dahilan upang tanggihan ang null hypothesis.
Kung hindi, ang null hypothesis ay tinatanggihan at ang alternatibong hypothesis tungkol sa istatistikal na kahalagahan ng equation sa kabuuan ay tinatanggap na may posibilidad (1-α).

< Fkp, то коэффициент детерминации статистически не значим (Найденная оценка уравнения регрессии статистически не надежна).

b) pagbabalik ng kapangyarihan;
Ang solusyon ay isinasagawa gamit ang nonlinear regression service. Piliin ang Power y = ax b
c) exponential regression;
d) modelo ng isang equilateral hyperbola.
Sistema ng mga normal na equation.

Para sa aming data, ang sistema ng mga equation ay may anyo
7a + 0.1291b = 405.2
0.1291a + 0.0024b = 7.51
Ipahayag ang a mula sa unang equation at palitan ito sa pangalawang equation
Nakukuha namin ang b = 1054.67, a = 38.44
Regression equation:
y = 1054.67 / x + 38.44
Error sa pagtatantya.
Suriin natin ang kalidad ng regression equation gamit ang absolute approximation error.

Dahil ang error ay mas mababa sa 15%, ang equation na ito ay maaaring gamitin bilang isang regression.

Ang pamantayan ni Fisher.
Ang kahalagahan ng modelo ng regression ay sinusuri gamit ang Fisher's F-test, ang kinakalkula na halaga ay matatagpuan bilang ratio ng pagkakaiba-iba ng paunang serye ng mga obserbasyon ng indicator sa ilalim ng pag-aaral at ang walang pinapanigan na pagtatantya ng pagkakaiba ng natitirang sequence para sa modelong ito.
Kung ang kinakalkula na halaga na may k1=(m) at k2=(n-m-1) na antas ng kalayaan ay mas malaki kaysa sa halaga ng tabular sa isang partikular na antas ng kahalagahan, kung gayon ang modelo ay itinuturing na makabuluhan.

kung saan ang m ay ang bilang ng mga kadahilanan sa modelo.
Ang pagtatasa ng istatistikal na kahalagahan ng ipinares na linear regression ay isinasagawa ayon sa sumusunod na algorithm:
1. Isang null hypothesis ang iniharap na ang equation sa kabuuan ay hindi gaanong mahalaga sa istatistika: H 0: R 2 =0 sa antas ng kahalagahan α.
2. Susunod, tukuyin ang aktwal na halaga ng F-criterion:

kung saan ang m=1 para sa pairwise regression.
Table value ng criterion na may degree of freedom k1=1 at k2=5, Fkp = 6.61
Dahil ang aktwal na halaga ng F< Fkp, то коэффициент детерминации статистически не значим (Найденная оценка уравнения регрессии статистически не надежна).

5. Gamit ang F-criterion, napag-alaman na ang nakuhang pair regression equation sa kabuuan ay hindi gaanong mahalaga sa istatistika, at hindi sapat na naglalarawan sa pinag-aralan na phenomenon ng relasyon sa pagitan ng buwanang pensiyon y at ang subsistence minimum x.

6. Isang econometric na modelo ng multiple linear regression ang nabuo, na nag-uugnay sa halaga ng netong kita ng isang conditional firm y sa capital turnover x1 at capital employed x2

7. Sa pamamagitan ng pagkalkula ng elasticity coefficients, ipinapakita na sa isang pagbabago sa capital turnover ng 1%, ang halaga ng netong kita ng kumpanya ay nagbabago ng 0.0008%, at sa isang pagbabago sa ginamit na kapital ng 1%, ang halaga ng kumpanya mga pagbabago sa netong kita ng 0.56%.

8. Gamit ang t-test, nasuri ang statistical significance ng regression coefficients.Napag-alaman na ang explanatory variable x 1 ay hindi gaanong mahalaga sa istatistika at maaaring hindi kasama sa regression equation, habang ang explanatory variable x 2 ay statistically significant.

9. Gamit ang F-criterion, napag-alaman na ang nakuhang pair regression equation sa kabuuan ay istatistikal na makabuluhan, at sapat na naglalarawan sa pinag-aralan na phenomenon ng ugnayan sa pagitan ng halaga ng netong kita ng isang conditional firm y na may capital turnover x 1 at ginamit na capital x 2.

10. Ang average na error ng approximation ng statistical data sa pamamagitan ng linear equation ng multiple regression ay kinakalkula, na umabot sa 29.8%. Ito ay ipinapakita dahil sa kung aling obserbasyon sa statistical database ang halaga ng error na ito ay lumampas sa pinahihintulutang halaga.

14. Pagbuo ng isang paired regression model nang hindi gumagamit ng EXCEL.

Gamit ang istatistikal na materyal na ibinigay sa Talahanayan 3.5, kinakailangan na:

2. Suriin ang higpit ng koneksyon gamit ang mga tagapagpahiwatig ng ugnayan at pagpapasiya.

3. Gamit ang coefficient of elasticity, tukuyin ang antas ng koneksyon sa pagitan ng factor attribute at ng resultang isa.

4. Tukuyin ang average na error sa pagtatantya.

5. Suriin ang statistical reliability ng simulation gamit ang Fisher F-test.

Talahanayan 3.5. Paunang data.

Ang bahagi ng kita ng cash na naglalayong dagdagan ang mga pagtitipid sa mga deposito, pautang, sertipiko at para sa pagbili ng dayuhang pera, sa kabuuang halaga ng average na per capita cash na kita, %

Average na buwanang naipon na sahod, c.u.

Kaluga

Kostroma

Orlovskaya

Ryazan

Smolensk

Upang matukoy ang hindi kilalang mga parameter b 0 , b 1 ng ipinares na linear regression equation, ginagamit namin ang karaniwang sistema ng mga normal na equation, na may anyo

(3.7)

Upang malutas ang sistemang ito, kailangan munang matukoy ang mga halaga ng Sx 2 at Sxy. Ang mga halagang ito ay tinutukoy mula sa talahanayan ng paunang data, na dinadagdagan ito ng naaangkop na mga haligi (talahanayan 3.6).

Talahanayan 3.6. Sa pagkalkula ng mga coefficient ng regression.

Pagkatapos ay kinuha ng system (3.7) ang form

Ang pagpapahayag ng b 0 mula sa unang equation at pagpapalit ng resultang expression sa pangalawang equation, nakukuha natin:

Ang pagsasagawa ng term-by-term multiplication at pagpapalawak ng mga bracket, makakakuha tayo ng:

Sa wakas, ang equation ng paired linear regression, na nag-uugnay sa bahagi ng monetary income ng populasyon na naglalayong pataasin ang mga ipon y sa average na buwanang naipon na sahod x, ay may anyo:

Kaya, habang ang ipinares na linear regression equation ay itinayo, tinutukoy namin ang linear correlation coefficient mula sa dependence:

nasaan ang mga halaga ng mga karaniwang paglihis ng kaukulang mga parameter.

Upang kalkulahin ang linear correlation coefficient mula sa pagtitiwala (3.9), magsasagawa kami ng mga intermediate na kalkulasyon.

Ang pagpapalit ng mga halaga ng nahanap na mga parameter sa expression (3.9), nakuha namin

.

Ang nakuhang halaga ng linear correlation coefficient ay nagpapahiwatig ng pagkakaroon ng mahinang kabaligtaran na istatistikal na relasyon sa pagitan ng bahagi ng monetary income ng populasyon na naglalayong pataasin ang savings y at ang average na buwanang naipon na sahod x.

Ang koepisyent ng determinasyon ay , na nangangahulugang 9.6% lamang ang ipinaliwanag ng regression ng paliwanag na variable ng y. Alinsunod dito, ang halaga ng 1 na katumbas ng 90.4% ay nagpapakilala sa bahagi ng pagkakaiba-iba ng variable na dulot ng impluwensya ng lahat ng iba pang mga variable na nagpapaliwanag na hindi isinasaalang-alang sa econometric model.

Ang koepisyent ng pagkalastiko ay katumbas ng

Dahil dito, sa pagbabago sa halaga ng average na buwanang naipon na sahod ng 1%, ang bahagi ng kita ng populasyon na naglalayong pataasin ang mga ipon ay bumababa rin ng 1%, at sa pagtaas ng sahod, mayroong pagbaba sa bahagi ng cash income ng populasyon na naglalayong pataasin ang ipon. Ang konklusyon na ito ay salungat sa sentido komun at maaari lamang ipaliwanag sa pamamagitan ng hindi tama ng nabuong modelo ng matematika.

Kalkulahin natin ang average na error sa pagtatantya.

Talahanayan 3.7. Sa pagkalkula ng average na error sa approximation.

Ang nakuhang halaga ay lumampas sa (12…15)%, na nagpapahiwatig ng kahalagahan ng average na paglihis ng kinakalkula na data mula sa aktwal na data, kung saan binuo ang econometric na modelo.

Ang pagiging maaasahan ng istatistikal na pagmomolde ay ginagawa batay sa F-criterion ni Fisher. Ang teoretikal na halaga ng Fisher criterion Fcalc ay tinutukoy mula sa ratio ng mga halaga ng factorial at natitirang mga pagkakaiba-iba na kinakalkula para sa isang antas ng kalayaan ayon sa formula

kung saan ang n ay ang bilang ng mga obserbasyon;

m ay ang bilang ng mga variable na nagpapaliwanag (para sa itinuturing na halimbawa m m =1).

Ang kritikal na halaga ng Fcrit ay tinutukoy mula sa mga istatistikal na talahanayan at para sa antas ng kahalagahan a = 0.05 ay katumbas ng 10.13. Dahil ang F calc

15. Pagbuo ng multiple regression model nang hindi gumagamit ng EXCEL.

Gamit ang istatistikal na materyal na ibinigay sa Talahanayan 3.8, kailangan mong:

1. Bumuo ng isang linear na multiple regression equation, ipaliwanag ang pang-ekonomiyang kahulugan ng mga parameter nito.

2. Upang magbigay ng isang paghahambing na pagtatasa ng pagiging malapit ng kaugnayan ng mga salik na may isang produktibong katangian gamit ang average (pangkalahatang) elasticity coefficients.

3. Tayahin ang statistical significance ng regression coefficients gamit ang t-test at ang null hypothesis ng equation ay hindi gaanong mahalaga gamit ang F-test.

4. Suriin ang kalidad ng equation sa pamamagitan ng pagtukoy sa average na error sa approximation.

Talahanayan 3.8. Paunang data.

Netong kita, milyong USD

Turnover ng kapital na USD mln

Nagamit na puhunan, mln. USD

Upang matukoy ang hindi kilalang mga parameter b 0 , b 1 , b 2 ng multiple linear regression equation, ginagamit namin ang karaniwang sistema ng mga normal na equation, na may anyo

(3.11)

Upang malutas ang sistemang ito, kailangan munang matukoy ang mga halaga ng Sx 1 2 , Sx 2 2 , Sx 1 y, Sx 2 y, Sx 1 x 2 . Ang mga halagang ito ay tinutukoy mula sa talahanayan ng paunang data, na dinadagdagan ito ng naaangkop na mga haligi (talahanayan 3.9).

Talahanayan 3.9. Sa pagkalkula ng mga coefficient ng regression.

Pagkatapos ay kinuha ng system (3.11) ang form

Upang malutas ang sistemang ito, ginagamit namin ang paraan ng Gauss, na binubuo sa sunud-sunod na pag-aalis ng mga hindi alam: hinahati namin ang unang equation ng system sa 10, pagkatapos ay i-multiply namin ang nagresultang equation sa 370.6 at ibawas ito mula sa pangalawang equation ng system, pagkatapos ay i-multiply natin ang resultang equation sa 158.20 at ibawas ito sa ikatlong equation ng system. Ang pag-uulit ng ipinahiwatig na algorithm para sa binagong pangalawa at pangatlong equation ng system, makuha namin ang:

Þ Þ

Þ .

Pagkatapos ng pagbabago, mayroon kaming:

Pagkatapos ay sa wakas ang pag-asa ng netong kita sa paglilipat ng kapital at kapital na ginagamit sa anyo linear equation ang multiple regression ay ganito ang hitsura:

Mula sa resultang econometric equation, makikita na sa pagtaas ng kapital na pinagtatrabahuhan, tumataas ang netong kita, at kabaliktaran, sa pagtaas ng turnover ng kapital, bumababa ang netong kita. Sa karagdagan, ang mas malaki ang regression coefficient, mas malaki ang impluwensya ng explanatory variable sa dependent variable. Sa halimbawang ito, ang halaga ng regression coefficient ay mas malaki kaysa sa halaga ng coefficient, samakatuwid, ang kapital na ginamit ay may mas malaking epekto sa netong kita kaysa sa capital turnover. Upang mabilang ang konklusyong ito, tinutukoy namin ang mga bahagyang coefficient ng elasticity.

Ang pagsusuri sa mga nakuhang resulta ay nagpapakita rin na ang ginamit na kapital ay may mas malaking epekto sa netong kita. Kaya, sa partikular, sa pagtaas ng kapital na ginagamit ng 1%, ang netong kita ay tumaas ng 1.17%. Kasabay nito, sa pagtaas ng capital turnover ng 1%, ang netong kita ay bumaba ng 0.5%.

Teoretikal na halaga ng Fisher criterion F calc

Ang halaga ng kritikal na halaga F crit ay tinutukoy ng mga istatistikal na talahanayan at para sa antas ng kahalagahan a = 0.05 ay katumbas ng 4.74. Dahil ang F calc > F crit, ang null hypothesis ay tinanggihan, at ang resultang regression equation ay ipinapalagay na makabuluhan sa istatistika.

Ang pagtatasa ng istatistikal na kahalagahan ng mga coefficient ng regression ayon sa t-criterion ay nabawasan sa paghahambing ng numerical na halaga ng mga coefficient na ito sa magnitude ng kanilang mga random na error at ayon sa dependence:

Ang gumaganang formula para sa pagkalkula ng teoretikal na halaga ng t-statistic ay:

, (3.13)

kung saan ang mga pares na coefficient ng ugnayan at ang maramihang koepisyent ng ugnayan ay kinakalkula mula sa mga dependencies:

Pagkatapos ang teoretikal (kinakalkula) na mga halaga ng t-statistics ay ayon sa pagkakabanggit ay katumbas ng:

Dahil ang kritikal na halaga ng t-statistics, na tinutukoy ayon sa mga istatistikal na talahanayan para sa antas ng kahalagahan a=0.05, katumbas ng TCrit=2.36 ay mas malaki sa absolute value kaysa = - 1.798, kung gayon ang null hypothesis ay hindi tinatanggihan at ang paliwanag na variable x 1 ay hindi gaanong mahalaga sa istatistika at maaari itong ibukod sa equation ng regression. Sa kabaligtaran, para sa pangalawang regression coefficient > t crit (3.3 >2.36), at ang paliwanag na variable x 2 ay istatistikal na makabuluhan.

Kalkulahin natin ang average na error sa pagtatantya.

Talahanayan 3.10. Sa pagkalkula ng average na error sa pagtatantya.

Kung gayon ang average na error sa pagtatantya ay katumbas ng

Ang nakuhang halaga ay hindi lalampas sa pinapayagang limitasyon na katumbas ng (12…15)%.

16. Kasaysayan ng pag-unlad ng teorya ng mga sukat

Sa una, ang TI ay binuo bilang isang teorya ng psychophysical measurements. Sa mga publikasyon pagkatapos ng digmaan, ang American psychologist na si S.S. Nakatuon si Stephens sa mga sukat ng pagsukat. Sa ikalawang kalahati ng XX siglo. Ang saklaw ng TI ay mabilis na lumalawak. Ang isa sa mga volume ng "Encyclopedia of Psychological Sciences" na inilathala sa USA noong 1950s ay tinawag na "Psychological Measurements". Ang mga compiler ng publikasyong ito ay pinalawak ang saklaw ng TI mula sa psychophysics hanggang sa sikolohiya sa pangkalahatan. Sa artikulo ng koleksyong ito na "Mga Batayan ng teorya ng mga sukat", ang pagtatanghal ay nagpunta sa isang abstract-mathematical na antas, nang walang sanggunian sa anumang partikular na larangan ng aplikasyon. Sa loob nito, ang diin ay inilagay sa "homomorphism ng mga empirical system na may mga relasyon sa mga numero" (hindi na kailangang pumunta sa mga terminong ito sa matematika dito), at ang pagiging kumplikado ng matematika ng pagtatanghal ay tumaas kumpara sa mga gawa ng S.S. Stevens.

Sa isa sa mga unang domestic na artikulo sa TI (late 60s), nalaman na ang mga puntos na itinalaga ng mga eksperto kapag sinusuri ang mga bagay ng kadalubhasaan, bilang panuntunan, ay sinusukat sa isang ordinal na sukat. Ang mga gawa na lumitaw noong unang bahagi ng 1970s ay humantong sa isang makabuluhang pagpapalawak ng lugar ng paggamit ng TI. Inilapat ito sa pedagogical qualimetry (pagsusukat sa kalidad ng kaalaman ng mga mag-aaral), sa mga pag-aaral ng system, sa iba't ibang mga gawain ng teorya ng mga pagtatasa ng eksperto, para sa pagsasama-sama ng mga tagapagpahiwatig ng kalidad ng produkto, sa mga pag-aaral sa sosyolohikal, atbp.

Kasama ng pagtatatag ng uri ng sukat para sa pagsukat ng tukoy na data, ang paghahanap para sa mga algorithm ng pagsusuri ng data ay iniharap bilang dalawang pangunahing problema ng TI, ang resulta nito ay hindi nagbabago sa anumang pinapayagang pagbabago ng sukat (ibig sabihin, ay invariant na may paggalang sa pagbabagong ito). Ang mga ordinal na sukat sa heograpiya ay ang Beaufort scale winds ("kalma", "mahinang hangin", "katamtamang hangin", atbp.), isang sukat ng lakas ng lindol. Malinaw, hindi ito mapagtatalunan na ang isang lindol na 2 magnitude (ang lampara ay umindayog sa ilalim ng kisame) ay eksaktong 5 beses na mas mahina kaysa sa isang lindol na 10 magnitude (ganap na pagkasira ng lahat ng bagay sa ibabaw ng lupa).

Sa gamot, ang mga ordinal na kaliskis ay ang antas ng antas ng hypertension (ayon kay Myasnikov), ang sukat ng mga antas ng pagkabigo sa puso (ayon sa Strazhesko-Vasilenko-Lang), ang sukat ng kalubhaan ng kakulangan sa coronary (ayon kay Fogelson), atbp. Ang lahat ng mga kaliskis na ito ay binuo ayon sa pamamaraan: ang sakit ay hindi nakita; ang unang yugto ng sakit; pangalawang yugto; ang ikatlong yugto ... Minsan ang mga yugto 1a, 16, atbp. ay nakikilala. Ang bawat yugto ay may katangiang medikal na kakaiba lamang dito. Kapag naglalarawan ng mga pangkat ng kapansanan, ang mga numero ay ginagamit sa kabaligtaran na pagkakasunud-sunod: ang pinakamalubha - ang unang pangkat ng kapansanan, pagkatapos - ang pangalawa, ang pinakamagaan - ang pangatlo.

Ang mga numero ng bahay ay sinusukat din sa isang ordinal na sukat - ipinapakita nila ang pagkakasunud-sunod kung saan ang mga bahay ay nasa kahabaan ng kalye. Ang mga numero ng volume sa mga nakolektang gawa ng isang manunulat o mga numero ng kaso sa archive ng isang enterprise ay karaniwang nauugnay sa magkakasunod na pagkakasunud-sunod kung saan ginawa ang mga ito.

Kapag tinatasa ang kalidad ng mga produkto at serbisyo, ang mga ordinal na kaliskis ay sikat sa tinatawag na qualimetry (literal na pagsasalin - pagsukat ng kalidad). Ibig sabihin, ang isang yunit ng output ay tinasa bilang mabuti o masama. Sa isang mas masusing pagsusuri, ginagamit ang isang sukat na may tatlong gradasyon: may mga makabuluhang depekto - mayroon lamang mga maliliit na depekto - walang mga depekto. Minsan apat na gradasyon ang ginagamit: may mga kritikal na depekto (na ginagawang imposibleng gamitin) - may mga makabuluhang depekto - maliliit na depekto lamang ang naroroon - walang mga depekto. Ang grado ng produkto ay may katulad na kahulugan - ang pinakamataas na grado, ang unang baitang, ang pangalawang baitang, ...

Kapag tinatasa ang mga epekto sa kapaligiran, ang una, pinaka-pangkalahatang pagtatasa ay karaniwang ordinal, halimbawa: ang natural na kapaligiran ay matatag - ang natural na kapaligiran ay inaapi (nakakasira). Ang saklaw ng kapaligiran-medikal ay magkatulad: walang malinaw na epekto sa kalusugan ng mga tao - isang negatibong epekto sa kalusugan ang nabanggit.

Ginagamit din ang ordinal scale sa ibang mga lugar. Sa econometrics, ang mga ito ay pangunahing iba't ibang paraan ng mga pagtatasa ng eksperto.

Ang lahat ng mga sukat ng pagsukat ay nahahati sa dalawang pangkat - mga kaliskis ng mga palatandaan ng husay at mga kaliskis ng mga palatandaan ng dami. Ang ordinal na sukat at ang sukat ng mga pangalan ay ang mga pangunahing sukat ng mga katangian ng husay, samakatuwid, sa maraming partikular na lugar, ang mga resulta ng pagsusuri ng husay ay maaaring ituring bilang mga sukat sa mga sukat na ito. Ang mga scale ng quantitative sign ay mga kaliskis ng mga pagitan, ratios, pagkakaiba, absolute. Ang sukat ng mga pagitan ay sumusukat sa halaga ng potensyal na enerhiya o ang coordinate ng isang punto sa isang tuwid na linya. Sa mga kasong ito, hindi maaaring markahan sa sukat ang natural na reference point o ang natural na yunit ng pagsukat. Ang mananaliksik mismo ay dapat magtakda ng reference point at piliin ang yunit ng pagsukat sa kanyang sarili. Ang mga wastong pagbabago sa sukat ng agwat ay mga linear na pagtaas ng pagbabago, i.e. mga linear na function. Ang mga sukat ng temperatura ng Celsius at Fahrenheit ay tiyak na nauugnay sa kaugnayang ito: ° С = 5/9 (° F - 32), kung saan ang ° С ay ang temperatura (sa mga digri) sa sukat ng Celsius, at ang ° F ay ang temperatura sa Fahrenheit sukat.

Sa mga quantitative scale, ang pinakakaraniwan sa agham at pagsasanay ay ang ratio scale. Mayroon silang natural na reference point - zero, i.e. walang dami, ngunit walang natural na yunit ng sukat. Karamihan sa mga pisikal na yunit ay sinusukat sa isang sukat ng ratio: mass ng katawan, haba, singil, pati na rin ang mga presyo sa ekonomiya. Ang mga pinahihintulutang pagbabago sa sukat ng mga relasyon ay magkatulad (binabago lamang ang sukat). Sa madaling salita, ang mga linear na incremental na conversion nang walang intercept, tulad ng pag-convert ng mga presyo mula sa isang currency patungo sa isa pa sa isang nakapirming rate. Ipagpalagay na inihahambing natin ang kahusayan sa ekonomiya ng dalawang proyekto sa pamumuhunan gamit ang mga presyo sa rubles. Hayaang mas mahusay ang unang proyekto kaysa sa pangalawa. Ngayon ay lumipat tayo sa pera ng China, ang yuan, gamit ang isang nakapirming halaga ng palitan. Malinaw, ang unang proyekto ay dapat na muling maging mas kumikita kaysa sa pangalawa. Gayunpaman, ang mga algorithm ng pagkalkula ay hindi awtomatikong tinitiyak ang katuparan ng kundisyong ito, at kinakailangan upang suriin na ito ay natupad. Ang mga resulta ng naturang pagsubok para sa mga average na halaga ay inilarawan sa ibaba.

Sa sukat ng mga pagkakaiba mayroong isang natural na yunit ng pagsukat, ngunit walang natural na reference point. Ang oras ay sinusukat sa isang sukat ng mga pagkakaiba, kung ang taon (o araw - mula tanghali hanggang tanghali) ay kinuha bilang isang natural na yunit ng pagsukat, at sa isang sukat ng mga pagitan sa pangkalahatang kaso. Sa kasalukuyang antas ng kaalaman, hindi maaaring tukuyin ang isang natural na reference point. Kinakalkula ng iba't ibang mga may-akda ang petsa ng paglikha ng mundo sa iba't ibang paraan, pati na rin ang sandali ng Kapanganakan ni Kristo.

Para sa ganap na sukat lamang, ang mga resulta ng pagsukat ay mga numero sa karaniwang kahulugan ng salita, gaya ng bilang ng mga tao sa isang silid. Para sa isang ganap na sukat, tanging ang pagbabago ng pagkakakilanlan ang pinapayagan.

Sa proseso ng pag-unlad ng kaukulang larangan ng kaalaman, maaaring magbago ang uri ng sukat. Kaya, sa una ang temperatura ay sinusukat sa isang ordinal na sukat (mas malamig - mas mainit). Pagkatapos - sa sukat ng pagitan (Celsius, Fahrenheit, Reaumur). Sa wakas, pagkatapos ng pagtuklas ng absolute zero, ang temperatura ay maaaring ituring na sinusukat sa isang ratio scale (ang Kelvin scale). Dapat pansinin na kung minsan ay may mga hindi pagkakasundo sa mga espesyalista kung aling mga timbangan ang dapat gamitin upang isaalang-alang ang ilang mga tunay na dami bilang sinusukat. Sa madaling salita, kasama sa proseso ng pagsukat ang kahulugan ng uri ng sukat (kasama ang katwiran para sa pagpili ng isang partikular na uri ng sukat). Bilang karagdagan sa anim na pangunahing uri ng mga kaliskis na nakalista, ang iba pang mga kaliskis ay minsan ginagamit.

17. Mga invariant na algorithm at mean value.

Bumuo tayo ng pangunahing kinakailangan para sa mga algorithm ng pagsusuri ng data sa TI: ang mga konklusyong iginuhit batay sa data na sinusukat sa isang sukat ng isang partikular na uri ay hindi dapat magbago sa isang katanggap-tanggap na pagbabago ng sukat ng pagsukat ng mga data na ito. Sa madaling salita, ang mga konklusyon ay dapat na invariant patungkol sa pinapayagang pagbabago ng sukat.

Kaya, ang isa sa mga pangunahing layunin ng teorya ng mga sukat ay ang paglaban sa subjectivity ng mananaliksik kapag nagtatalaga ng mga numerical na halaga sa mga tunay na bagay. Kaya, ang mga distansya ay maaaring masukat sa mga arhin, metro, micron, milya, parsec at iba pang mga yunit ng pagsukat. Mass (timbang) - sa pounds, kilo, pounds, atbp. Ang mga presyo para sa mga kalakal at serbisyo ay maaaring ipahiwatig sa yuan, rubles, tenge, hryvnia, lats, kroons, marks, US dollars at iba pang mga pera (napapailalim sa tinukoy na mga rate ng conversion). Bigyang-diin natin ang isang napakahalaga, kahit na medyo halata, pangyayari: ang pagpili ng mga yunit ng pagsukat ay nakasalalay sa mananaliksik, i.e. subjective. Ang mga statistic inferences ay maaaring maging sapat sa realidad lamang kapag hindi sila nakadepende sa kung aling unit ng pagsukat ang pipiliin ng mananaliksik, kapag ang mga ito ay invariant sa ilalim ng isang katanggap-tanggap na pagbabago ng sukat. Sa maraming mga algorithm para sa pagsusuri ng data ng ekonometric, iilan lamang ang nakakatugon sa kundisyong ito. Ipakita natin ito sa isang halimbawa ng paghahambing ng mga average na halaga.

Hayaang ang X 1 , X 2 ,.., X n ay isang sample ng laki n. Kadalasang ginagamit ang arithmetic mean. Ang paggamit ng arithmetic mean ay napakakaraniwan na ang pangalawang salita sa termino ay madalas na tinanggal at tinutukoy bilang ang average na suweldo, average na kita, at iba pang mga average para sa partikular na pang-ekonomiyang data, ibig sabihin ay "average" ang arithmetic mean. Ang ganitong tradisyon ay maaaring humantong sa mga maling konklusyon. Ipakita natin ito sa pamamagitan ng halimbawa ng pagkalkula ng average na sahod (average na kita) ng mga empleyado ng isang conditional enterprise. Sa 100 manggagawa, 5 lang ang may sahod na lumampas dito, at ang sahod ng natitirang 95 ay mas mababa sa arithmetic average. Ang dahilan ay halata - ang suweldo ng isang tao - ang pangkalahatang direktor - ay lumampas sa suweldo ng 95 manggagawa - mababa ang kasanayan at mataas ang kasanayan na mga manggagawa, inhinyero at empleyado. Ang sitwasyon ay kahawig ng inilarawan sa kilalang kuwento tungkol sa ospital, kung saan 10 mga pasyente, 9 sa kanila ay may temperatura na 40 ° C, at ang isa ay naubos na ang kanyang sarili, ay nasa morgue na may temperatura na 0 ° C. Samantala Katamtamang temperatura sa ospital ay 36 ° C - hindi ito bumuti!

Kaya, ang arithmetic mean ay magagamit lamang para sa medyo homogenous na populasyon (nang walang malalaking outlier sa isang direksyon o iba pa). At ano ang mga average na gagamitin upang ilarawan ang sahod? Natural lang na gamitin ang median - ang arithmetic mean ng ika-50 at ika-51 na empleyado, kung ang kanilang sahod nakaayos sa hindi bumababa na ayos. Una ay ang suweldo ng 40 manggagawang mababa ang kasanayan, at pagkatapos - mula ika-41 hanggang ika-70 manggagawa - ang sahod ng mga manggagawang may mataas na kasanayan. Dahil dito, ang median ay eksaktong bumagsak sa kanila at katumbas ng 200. Para sa 50 manggagawa, ang suweldo ay hindi lalampas sa 200, at para sa 50 - hindi bababa sa 200, kaya ang median ay nagpapakita ng "gitna", sa paligid kung saan ang karamihan ng mga pinag-aralan na halaga ay nakagrupo. Ang isa pang average ay ang mode, ang pinakamadalas na nagaganap na halaga. Sa kasong isinasaalang-alang, ito ang sahod ng mga manggagawang mababa ang kasanayan, i.e. 100. Kaya, upang ilarawan ang suweldo, mayroon kaming tatlong average na halaga - mode (100 units), median (200 units) at arithmetic mean (400 units).

Para sa mga distribusyon ng kita at sahod na naobserbahan sa totoong buhay, ang parehong pattern ay totoo: ang mode ay mas mababa kaysa sa median, at ang median ay mas mababa kaysa sa arithmetic mean.

Bakit ginagamit ang average sa ekonomiya? Karaniwan, upang palitan ang isang hanay ng mga numero ng isang numero, upang ihambing ang mga hanay gamit ang mga average. Hayaan, halimbawa, ang Y 1 , Y 2 ,..., Y n ay isang hanay ng mga pagtatasa ng mga eksperto na "ibinigay" sa isang bagay ng kadalubhasaan (halimbawa, isa sa mga opsyon para sa estratehikong pag-unlad ng kumpanya), Z 1, Z 2 ,..., Z n - ang pangalawa (isa pang variant ng naturang pag-unlad). Paano maihahambing ang mga pinagsama-samang ito? Malinaw, ang pinakamadaling paraan ay sa pamamagitan ng mga average.

Paano makalkula ang mga average? kilala iba't ibang uri average na mga halaga: arithmetic mean, median, mode, geometric mean, harmonic mean, mean square. Tandaan mo yan pangkalahatang konsepto Ang average na halaga ay ipinakilala ng French mathematician ng unang kalahati ng ika-19 na siglo. Academician O. Koshi. Ito ay ang mga sumusunod: ang average na halaga ay anumang function Ф(X 1, X 2,..., X n) para sa lahat ng posibleng halaga ng mga argumento, ang halaga ng function na ito ay hindi bababa sa minimum na ang mga numerong X 1, X 2,... , X n , at hindi hihigit sa maximum ng mga numerong ito. Ang lahat ng nasa itaas na uri ng mga average ay Cauchy average.

Sa isang katanggap-tanggap na pagbabago ng sukat, ang halaga katamtamang laki halatang nagbabago. Ngunit ang mga konklusyon tungkol sa kung aling populasyon ang average ay mas malaki, at kung saan ito ay mas kaunti, ay hindi dapat magbago (alinsunod sa kinakailangan ng invariance ng mga konklusyon, na pinagtibay bilang pangunahing kinakailangan sa TI). Bumuo tayo ng kaukulang problema sa matematika ng paghahanap ng anyo ng mga average na halaga, ang resulta ng paghahambing na kung saan ay matatag na may paggalang sa mga tinatanggap na pagbabago ng sukat.

Hayaang F(X 1 X 2 ,..., X n) ang Cauchy mean. Hayaang ang average para sa unang populasyon ay mas mababa kaysa sa average para sa pangalawang populasyon: pagkatapos, ayon sa TI, para sa katatagan ng resulta ng paghahambing ng mga paraan, kinakailangan na para sa anumang tinatanggap na pagbabagong g mula sa pangkat ng mga tinatanggap na pagbabago. sa kaukulang sukat, totoo na ang average ng mga nabagong halaga mula sa unang populasyon ay mas mababa din kaysa sa average ng mga nabagong halaga para sa pangalawang hanay. Bukod dito, dapat na totoo ang nakabalangkas na kundisyon para sa alinmang dalawang koleksyon Y 1 , Y 2 ,...,Y n at Z 1, Z 2 ,..., Z n at, recall, anumang tinatanggap na pagbabago. Ang mga average na halaga na nakakatugon sa nabuong kondisyon ay tatawaging tinatanggap (sa kaukulang sukat). Ayon sa TI, ang ganitong mga average lamang ang maaaring gamitin sa pagsusuri ng mga opinyon ng eksperto at iba pang data na sinusukat sa sukat na isinasaalang-alang.

Sa pamamagitan ng teorya ng matematika, na binuo noong 1970s, namamahala upang ilarawan ang anyo ng mga tinatanggap na paraan sa pangunahing mga antas. Malinaw na para sa data na sinusukat sa sukat ng mga pangalan, ang mode lamang ang angkop bilang isang average.

18. Average na mga halaga sa isang ordinal na sukat

Isaalang-alang natin ang pagproseso ng mga opinyon ng eksperto na sinusukat sa isang ordinal na sukat. Ang sumusunod na pahayag ay totoo.

Teorama1 . Sa lahat ng ibig sabihin ng Cauchy, ang mga termino lang serye ng pagkakaiba-iba(mga istatistika ng order).

Ang Theorem 1 ay wasto sa ilalim ng kondisyon na ang mean Ф(Х 1 Х 2 ,..., Х n) ay tuloy-tuloy (sa kabuuan ng mga variable) at isang simetriko na function. Ang huli ay nangangahulugan na kapag ang mga argumento ay muling inayos, ang halaga ng function na Ф(X 1 X 2 ,..., X n) ay hindi nagbabago. Ang kundisyong ito ay medyo natural, dahil nakikita namin ang average na halaga para sa kabuuan (set), at hindi para sa pagkakasunud-sunod. Ang set ay hindi nagbabago depende sa pagkakasunud-sunod kung saan namin inilista ang mga elemento nito.

Ayon sa Theorem 1, para sa data na sinusukat sa isang ordinal na sukat, maaaring gamitin ng isa, sa partikular, ang median bilang isang average (para sa isang kakaibang laki ng sample). Sa pantay na volume, dapat gamitin ang isa sa dalawang sentral na miyembro ng variational series - kung minsan ay tinatawag ang mga ito, ang kaliwang median o kanang median. Magagamit din ang mode - palagi itong miyembro ng variation series. Ngunit hindi mo kailanman makalkula ang arithmetic mean, geometric mean, atbp.

Ang sumusunod na teorama ay totoo.

Teorama 2. Hayaang ang Y 1 , Y 2 ,...,Y m ay independent identically distributed random variables na may distribution function F(x), at Z 1, Z 2 ,..., Z n ay independent identically distributed random variables with the function distribusyon H(x), bukod pa rito, ang mga sample Y 1 , Y 2 ,...,Y m at Z 1 , Z 2 ,..., Z n ay independyente sa isa't isa at MY X > MZ X . Upang ang probabilidad ng isang kaganapan ay maging 1 bilang min(m, n) para sa anumang mahigpit na pagtaas ng tuluy-tuloy na paggana g na nagbibigay-kasiyahan sa kondisyon |g i |>X, kinakailangan at sapat na ang hindi pagkakapantay-pantay F(x)< Н(х), причем существовало число х 0 , для которого F(x 0)

Tandaan. Ang kundisyon sa itaas na limitasyon ay puro intramathematical. Sa katunayan, ang function na g ay isang arbitraryong balidong pagbabago sa ordinal na sukat.

Ayon sa Theorem 2, ang arithmetic mean ay maaari ding gamitin sa isang ordinal scale kung ang mga sample mula sa dalawang distribusyon na nagbibigay-kasiyahan sa hindi pagkakapantay-pantay na ibinigay sa theorem ay inihambing. Sa madaling salita, ang isa sa mga function ng pamamahagi ay dapat palaging nasa itaas ng isa. Ang mga function ng pamamahagi ay hindi maaaring magsalubong, pinapayagan lamang silang hawakan ang isa't isa. Ang kundisyong ito ay nasiyahan, halimbawa, kung ang mga function ng pamamahagi ay naiiba lamang sa shift:

F(x) = H(x + ∆)

para sa ilang ∆.

Ang huling kondisyon ay nasiyahan kung ang dalawang halaga ng isang tiyak na dami ay sinusukat gamit ang parehong instrumento sa pagsukat, kung saan ang pamamahagi ng mga error ay hindi nagbabago kapag lumilipat mula sa pagsukat ng isang halaga ng dami na isinasaalang-alang sa pagsukat ng isa pa.

Mga average ng Kolmogorov

Ang generalization ng ilan sa mga average na nakalista sa itaas ay ang Kolmogorov average. Para sa mga numerong X 1, X 2,..., X n, ang ibig sabihin ng Kolmogorov ay kinakalkula ng formula

G((F(X l) + F(X 2)+...F(X n))/n),

kung saan ang F ay isang mahigpit na monotonikong function (ibig sabihin, mahigpit na tumataas o mahigpit na bumababa),

Ang G ay ang inverse function ng F.

Kabilang sa mga average ng Kolmogorov mayroong maraming mga kilalang character. Kaya, kung F(x) = x, kung gayon ang Kolmogorov mean ay ang arithmetic mean, kung F(x) = lnx, kung gayon ang geometric mean, kung F(x) = 1/x, kung gayon ang harmonic mean, kung F( x) \u003d x 2, pagkatapos ay ang ibig sabihin ng parisukat, atbp. Ang ibig sabihin ng Kolmogorov ay isang espesyal na kaso ng ibig sabihin ng Cauchy. Sa kabilang banda, ang mga sikat na average gaya ng median at mode ay hindi maaaring katawanin bilang Kolmogorov average. Ang mga sumusunod na pahayag ay napatunayan sa monograp.

Teorama3 . Kung ang ilang intra-mathematical regularity condition ay totoo sa interval scale, sa lahat ng Kolmogorov averages, ang arithmetic average lang ang tinatanggap. Kaya, ang geometric mean o root mean square ng mga temperatura (sa Celsius) o mga distansya ay walang kahulugan. Ang arithmetic mean ay dapat gamitin bilang mean. Maaari mo ring gamitin ang median o mode.

Teorama 4. Kung totoo ang ilang kundisyon ng intra-mathematical regularity sa sukat ng ratio, sa lahat ng mga average ng Kolmogorov, ang mga power-law na average lang na may F(x) = x c at geometric average ang tinatanggap.

Magkomento. Ang geometric mean ay ang limitasyon ng power means para sa c > 0.

Mayroon bang mga average ng Kolmogorov na hindi dapat gamitin sa sukat ng ratio? Syempre meron. Halimbawa F(x) = e x.

Katulad ng mga average na halaga, ang iba pang mga istatistikal na katangian ay maaaring pag-aralan - mga tagapagpahiwatig ng pagkalat, koneksyon, distansya, atbp. Madaling ipakita, halimbawa, na ang koepisyent ng ugnayan ay hindi nagbabago sa ilalim ng anumang tinatanggap na pagbabago sa mangkok ng mga pagitan, tulad ng ratio ng mga pagkakaiba, ang pagkakaiba ay hindi nagbabago sa sukat ng mga pagkakaiba, ang koepisyent ng pagkakaiba-iba - sa sukat ng mga ratio, atbp.

Ang mga resulta sa itaas sa mga average ay malawakang ginagamit, hindi lamang sa ekonomiya, pamamahala, teorya ng mga pagtatasa ng eksperto o sosyolohiya, kundi pati na rin sa engineering, halimbawa, upang pag-aralan ang mga paraan ng pagsasama-sama ng mga sensor sa APCS ng mga blast furnace. Malaki ang kahalagahan ng TI sa mga problema ng standardisasyon at pamamahala ng kalidad, lalo na sa qualimetry, kung saan nakuha ang mga interesanteng teoretikal na resulta. Kaya, halimbawa, ang anumang pagbabago sa mga weighting coefficient ng mga indibidwal na tagapagpahiwatig ng kalidad ng produkto ay humahantong sa isang pagbabago sa pag-order ng mga produkto ayon sa weighted average (ang teorama na ito ay pinatunayan ni Prof. V.V. Podinovsky). Samakatuwid, ang maikling impormasyon sa itaas tungkol sa TI at ang mga pamamaraan nito ay pinagsasama sa isang tiyak na kahulugan ng ekonomiya, sosyolohiya at mga agham ng inhinyero at isang sapat na kagamitan para sa paglutas ng mga pinaka-kumplikadong problema na dati ay hindi pumapayag sa epektibong pagsusuri, bukod dito, sa gayon. nagbubukas ng paraan sa pagbuo ng mga makatotohanang modelo at paglutas ng problema sa pagtataya.

22. Ipinares na Linear Regression

Bumaling tayo ngayon sa isang mas detalyadong pag-aaral ng pinakasimpleng kaso ng pairwise linear regression. Ang linear regression ay inilalarawan ng pinakasimpleng functional dependence sa anyo ng isang straight line equation at nailalarawan sa pamamagitan ng isang transparent na interpretasyon ng mga parameter ng modelo (equation coefficients). Ang kanang bahagi ng equation ay nagbibigay-daan sa iyo upang makuha ang teoretikal (kinakalkula) na mga halaga ng nagresultang (ipinaliwanag) na variable mula sa ibinigay na mga halaga ng regressor (nagpapaliwanag na variable). Ang mga halagang ito ay tinatawag ding predictive (sa parehong kahulugan), i.e. nakuha mula sa mga teoretikal na pormula. Gayunpaman, kapag naglalagay ng isang hypothesis tungkol sa likas na katangian ng dependence, ang mga coefficient ng equation ay nananatiling hindi alam. Sa pangkalahatan, ang pagkuha ng tinatayang mga halaga ng mga coefficient na ito ay posible sa pamamagitan ng iba't ibang mga pamamaraan.

Ngunit ang pinakamahalaga at laganap sa kanila ay ang pamamaraan ng hindi bababa sa mga parisukat (LSM). Ito ay batay (tulad ng ipinaliwanag na) sa kinakailangan upang mabawasan ang kabuuan ng mga parisukat na paglihis ng mga aktwal na halaga ng nagresultang tampok mula sa mga kinakalkula (teoretikal). Sa halip na mga teoretikal na halaga (upang makuha ang mga ito), ang kanang bahagi ng equation ng regression ay pinapalitan sa kabuuan ng mga squared deviations, at pagkatapos ay matatagpuan ang mga partial derivatives ng function na ito (ang kabuuan ng mga squared deviations ng aktwal na mga halaga. ng epektibong tampok mula sa mga teoretikal). Ang mga bahagyang derivatives na ito ay kinuha hindi tungkol sa mga variable na x at y, ngunit tungkol sa mga parameter a at b. Ang mga partial derivatives ay tinutumbas sa zero at pagkatapos ng simple ngunit masalimuot na pagbabago, isang sistema ng mga normal na equation ang nakuha upang matukoy ang mga parameter. Coefficient na may variable x, i.e. b ay tinatawag na regression coefficient, ipinapakita nito ang average na pagbabago sa resulta na may pagbabago sa factor ng isang unit. Maaaring walang interpretasyong pang-ekonomiya ang parameter a, lalo na kung negatibo ang senyales ng coefficient na ito.

Ang pairwise linear regression ay ginagamit upang pag-aralan ang function ng pagkonsumo. Ang regression coefficient sa function ng pagkonsumo ay ginagamit upang kalkulahin ang multiplier. Halos palaging, ang equation ng regression ay pupunan ng isang tagapagpahiwatig ng higpit ng koneksyon. Para sa pinakasimpleng kaso ng linear regression, ang indicator na ito ng higpit ng relasyon ay ang linear correlation coefficient. Ngunit dahil ang linear correlation coefficient ay nagpapakilala sa pagiging malapit ng relasyon ng mga feature sa isang linear form, ang proximity ng absolute value ng linear correlation coefficient sa zero ay hindi pa nagsisilbing indicator ng kawalan ng relasyon sa pagitan ng mga feature.

Ito ay may ibang pagpipilian ng detalye ng modelo at, dahil dito, ang uri ng pag-asa na ang aktwal na relasyon ay maaaring medyo malapit sa pagkakaisa. Ngunit ang kalidad ng pagpili ng isang linear function ay tinutukoy gamit ang square ng linear correlation coefficient - ang koepisyent ng determinasyon. Inilalarawan nito ang proporsyon ng pagkakaiba ng resultang katangian y, na ipinaliwanag sa pamamagitan ng pagbabalik sa kabuuang pagkakaiba ng resultang katangian. Ang halaga na umaakma sa koepisyent ng determinasyon sa 1 ay nagpapakilala sa proporsyon ng pagkakaiba-iba na dulot ng impluwensya ng iba pang mga kadahilanan na hindi isinasaalang-alang sa modelo (natirang pagkakaiba).

Ang pares regression ay kinakatawan ng isang relasyon sa pagitan ng dalawang variable na y at x ng sumusunod na anyo:

kung saan ang y ay ang dependent variable (outcome feature), at x ang independent variable (explanatory variable, o feature factor). Mayroong linear regression at non-linear regression. Ang linear regression ay inilalarawan ng isang equation ng form:

y = a + bx + .

Ang nonlinear regression, sa turn, ay maaaring maging non-linear na may paggalang sa mga paliwanag na variable na kasama sa pagsusuri, ngunit linear na may paggalang sa mga tinantyang parameter. O baka ang regression ay non-linear sa mga tuntunin ng tinantyang mga parameter. Bilang mga halimbawa ng isang regression na hindi linear sa mga variable na nagpapaliwanag, ngunit linear sa mga tinantyang parameter, maaaring ipahiwatig ng isa ang mga polynomial na dependency ng iba't ibang degree (polynomials) at isang equilateral hyperbola.

Ang non-linear regression ng mga tinantyang parameter ay isang power-law na may kaugnayan sa parameter (ang parameter ay nasa exponent) dependence, exponential dependence, kung saan ang parameter ay nasa base ng degree, at exponential dependence, kapag ang buong linear dependence ay ganap na nasa exponent. Tandaan na sa lahat ng tatlong kaso na ito, ang random na bahagi (random na natitira)  ay kasama sa kanang bahagi mga equation sa anyo ng isang kadahilanan, at hindi sa anyo ng isang termino, i.e. multiplicatively! Ang average na paglihis ng mga kinakalkula na halaga ng nagresultang tampok mula sa aktwal na mga ay nailalarawan sa pamamagitan ng isang average na error sa pagtatantya. Ito ay ipinahayag bilang isang porsyento at hindi dapat lumampas sa 7-8%. Ang average na error sa pagtatantya ay ipinahayag lamang bilang isang porsyento ng average ng mga kamag-anak na halaga ng mga pagkakaiba sa pagitan ng aktwal at kinakalkula na mga halaga.

Ang pinakamahalaga ay ang average na koepisyent ng pagkalastiko, na nagsisilbing isang mahalagang katangian ng maraming mga pang-ekonomiyang phenomena at proseso. Ito ay kinakalkula bilang produkto ng halaga ng derivative ng functional dependence na ito sa pamamagitan ng ratio ng average na halaga x sa average na halaga y. Ang elasticity coefficient ay nagpapakita kung gaano karaming porsyento, sa karaniwan, ang resulta y ay magbabago mula sa average na halaga nito kapag ang factor x ay nagbago ng 1% mula sa kanyang (factor x) average na halaga.

Gamit ang paired regression at may multiple regression (kapag maraming salik) at may natitirang variance, ang mga gawain ng pagsusuri ng variance ay malapit na nauugnay. Sinusuri ng pagsusuri ng pagkakaiba-iba ang pagkakaiba ng umaasang baryabol. Sa kasong ito, ang kabuuang kabuuan ng mga squared deviations ay nahahati sa dalawang bahagi. Ang unang termino ay ang kabuuan ng mga squared deviations dahil sa regression, o ipinaliwanag (factorial). Ang pangalawang termino ay ang natitirang kabuuan ng mga squared deviations na hindi ipinaliwanag ng factorial regression.

Ang bahagi ng pagkakaiba na ipinaliwanag ng regression sa kabuuang pagkakaiba ng nagresultang tampok na y ay nailalarawan sa pamamagitan ng koepisyent (index) ng pagpapasiya, na hindi hihigit sa ratio ng kabuuan ng mga squared deviations dahil sa regression sa kabuuang kabuuan ng squared deviations (ang unang termino sa buong kabuuan).

Kapag ang mga parameter ng modelo (coefficients ng hindi alam) ay tinutukoy gamit ang hindi bababa sa mga parisukat na paraan, kung gayon, sa esensya, ang ilang mga random na variable ay matatagpuan (sa proseso ng pagkuha ng mga pagtatantya). Ang partikular na kahalagahan ay ang pagtatantya ng coefficient ng regression, na isang espesyal na anyo ng isang random na variable. Ang mga katangian ng random variable na ito ay nakasalalay sa mga katangian ng natitirang termino sa equation (sa modelo). Isaalang-alang natin ang paliwanag na variable x bilang isang hindi random na exogenous variable para sa isang ipinares na linear regression na modelo. Nangangahulugan lamang ito na ang mga halaga ng variable na x sa lahat ng mga obserbasyon ay maaaring ituring na paunang natukoy at walang kinalaman sa pag-asa sa ilalim ng pag-aaral. Kaya, ang aktwal na halaga ng ipinaliwanag na variable ay binubuo ng dalawang bahagi: isang di-random na bahagi at isang random na bahagi (natirang termino).

Sa kabilang banda, ang regression coefficient na tinutukoy ng method of least squares (OLS) ay katumbas ng quotient ng paghahati ng covariance ng x at y variables sa variance ng x variable. Samakatuwid, naglalaman din ito ng isang random na bahagi. Pagkatapos ng lahat, ang covariance ay nakasalalay sa mga halaga ng variable na y, kung saan ang mga halaga ng variable na y ay nakasalalay sa mga halaga ng random na natitirang termino . Dagdag pa, madaling ipakita na ang covariance ng mga variable na x at y ay katumbas ng produkto ng tinantyang regression coefficient beta () at ang variance ng variable na x, na idinagdag sa covariance ng mga variable na x at . Kaya, ang pagtatantya ng koepisyent ng pagbabalik ng beta ay katumbas ng hindi kilalang koepisyent ng pagbabalik na ito mismo, na idinagdag sa quotient ng paghahati ng covariance ng mga variable na x at  sa pagkakaiba ng variable na x. Yung. ang pagtatantya ng coefficient ng regression b na nakuha mula sa anumang sample ay ipinakita bilang kabuuan ng dalawang termino: isang pare-parehong halaga na katumbas ng tunay na halaga ng koepisyent  (beta), at mula sa isang random na bahagi na nakasalalay sa covariance ng mga variable x at .

23. Mga kundisyon sa matematika ng Gauss-Markov at ang kanilang aplikasyon.

Para sa isang pagsusuri ng regression batay sa mga ordinaryong hindi bababa sa mga parisukat upang magbigay ng pinakamahusay na mga resulta, ang random na termino ay dapat matugunan ang apat na kundisyon ng Gauss-Markov.

Ang mathematical na inaasahan ng random na term ay zero, i.e. ito ay walang kinikilingan. Kung ang equation ng regression ay may kasamang pare-parehong termino, natural na isaalang-alang ang naturang pangangailangan na natupad, dahil ito ay isang pare-parehong termino at dapat isaalang-alang ang anumang sistematikong kalakaran sa mga halaga ng variable y, na, sa kabaligtaran, hindi dapat maglaman ng mga paliwanag na variable ng regression equation.

Ang pagkakaiba ng random na termino ay pare-pareho para sa lahat ng mga obserbasyon.

Halaga ng covariance mga random na variable, ang pagbuo ng sample ay dapat na katumbas ng zero, i.e. walang sistematikong ugnayan sa pagitan ng mga halaga ng random na termino sa alinmang dalawang partikular na obserbasyon. Ang mga random na miyembro ay dapat na independyente sa isa't isa.

Ang batas sa pamamahagi ng random na termino ay dapat na independyente sa mga paliwanag na variable.

Bukod dito, sa maraming mga aplikasyon, ang mga paliwanag na variable ay hindi stochastic; walang random na bahagi. Ang halaga ng anumang independiyenteng variable sa bawat pagmamasid ay dapat ituring na exogenous, ganap na tinutukoy ng mga panlabas na dahilan na hindi isinasaalang-alang sa equation ng regression.

Kasama ang ipinahiwatig na mga kondisyon ng Gauss-Markov, ipinapalagay din na ang random na termino ay may normal na distribusyon. Ito ay may bisa sa ilalim ng napakalawak na mga kondisyon at batay sa tinatawag na central limit theorem (CLT). Ang kakanyahan ng teorama na ito ay kung ang isang random na variable ay ang pangkalahatang resulta ng pakikipag-ugnayan ng isang malaking bilang ng iba pang mga random na variable, wala sa mga ito ay may isang nangingibabaw na impluwensya sa pag-uugali ng pangkalahatang resulta na ito, kung gayon ang isang resultang random na variable ay magiging inilalarawan ng humigit-kumulang normal na distribusyon. Ang kalapit na ito sa normal na pamamahagi ginagawang posible na gamitin ang normal na distribusyon at, sa isang tiyak na kahulugan, ang generalization nito, ang distribusyon ng Estudyante, na kapansin-pansing naiiba sa normal na distribusyon pangunahin sa tinatawag na "tails", i.e. para sa maliliit na halaga ng laki ng sample. Mahalaga rin na kung ang random na termino ay karaniwang ipinamamahagi, ang mga coefficient ng regression ay ibabahagi din ayon sa normal na batas.

Ang itinatag na regression curve (regression equation) ay nagbibigay-daan sa paglutas ng problema ng tinatawag na point forecast. Sa ganitong mga kalkulasyon, ang ilang halaga ng x ay kinuha sa labas ng pinag-aralan na agwat ng pagmamasid at inihahalili sa kanang bahagi ng equation ng regression (extrapolation procedure). kasi ang mga pagtatantya para sa mga coefficient ng regression ay kilala na, pagkatapos ay posibleng kalkulahin ang halaga ng ipinaliwanag na variable y na tumutugma sa kinuhang halaga ng x. Naturally, alinsunod sa kahulugan ng hula (pagtataya), ang mga kalkulasyon ay isinasagawa pasulong (sa lugar ng mga hinaharap na halaga).

Gayunpaman, dahil ang mga coefficient ay natukoy na may isang tiyak na pagkakamali, ito ay hindi interesado pagtatantya ng punto(point forecast) para sa mabisang katangian, at ang kaalaman sa mga limitasyon na may tiyak na posibilidad na ang mga halaga ng epektibong katangian ay magsisinungaling, na tumutugma sa kinuhang halaga ng kadahilanan x.

Upang gawin ito, ang halaga ng karaniwang error (standard deviation) ay kinakalkula. Ito ay maaaring makuha sa diwa ng kasasabi pa lamang gaya ng mga sumusunod. Ang pagpapahayag ng libreng termino a mula sa mga pagtatantya sa mga tuntunin ng mga average na halaga ay pinapalitan sa linear regression equation. Pagkatapos ay lumalabas na ang karaniwang error ay nakasalalay sa error ng average ng resultang factor y at additively sa error ng regression coefficient b. Ang parisukat lamang ng karaniwang error na ito ay katumbas ng kabuuan ang square ng error ng mean value y at ang product ng square ng error ng regression coefficient at ang square ng deviation ng value ng factor x at ang mean nito. Dagdag pa, ang unang termino, ayon sa mga batas ng istatistika, ay katumbas ng quotient ng paghahati sa pagkakaiba-iba ng pangkalahatang populasyon sa laki (volume) ng sample.

Sa halip na hindi alam na pagkakaiba, ang sample na pagkakaiba ay ginagamit bilang isang pagtatantya. Alinsunod dito, ang error ng regression coefficient ay tinukoy bilang ang quotient ng paghahati ng sample variance sa variance ng x factor. Maaari mong makuha ang halaga ng karaniwang error (standard deviation) at iba pang mga pagsasaalang-alang, na mas independiyente sa linear regression model. Para dito, ginagamit ang konsepto ng average na error at marginal error at ang relasyon sa pagitan ng mga ito.

Ngunit kahit na pagkatapos makuha ang karaniwang error, ang tanong ay nananatili tungkol sa mga hangganan kung saan ang hinulaang halaga ay magsisinungaling. Sa madaling salita, tungkol sa pagitan ng error sa pagsukat, sa natural na pagpapalagay sa maraming mga kaso na ang gitna ng agwat na ito ay ibinibigay ng kinakalkula (average) na halaga ng epektibong kadahilanan y. Narito ang gitnang teorama ng limitasyon ay dumating upang iligtas, na nagpapahiwatig lamang kung anong posibilidad ang hindi kilalang halaga ay nasa loob ng agwat ng kumpiyansa na ito.

Sa esensya, ang karaniwang formula ng error, hindi alintana kung paano at sa anong anyo ito nakuha, ay nagpapakilala sa error sa posisyon ng linya ng regression. Ang halaga ng karaniwang error ay umabot sa isang minimum kapag ang halaga ng factor x ay tumutugma sa average na halaga ng factor.

24. Statistical testing ng mga hypotheses at pagsusuri ng kahalagahan ng linear regression ng Fisher criterion.

Matapos matagpuan ang linear regression equation, ang kahalagahan ng parehong equation sa kabuuan at ang mga indibidwal na parameter nito ay tinasa. Ang pagtatasa ng kahalagahan ng regression equation sa kabuuan ay maaaring isagawa gamit ang iba't ibang pamantayan. Ang paggamit ng Fisher's F-criterion ay karaniwan at epektibo. Sa kasong ito, ang null hypothesis H o ay iniharap na ang regression coefficient sero, ibig sabihin. b=0, at samakatuwid ang salik na x ay walang epekto sa resultang y. Ang direktang pagkalkula ng F-criterion ay nauuna sa pagsusuri ng pagkakaiba. Ang gitnang lugar dito ay inookupahan ng agnas ng kabuuang kabuuan ng mga squared deviations ng variable y mula sa mean value ng y sa dalawang bahagi - "ipinaliwanag" at "hindi maipaliwanag":

Ang kabuuang kabuuan ng mga squared deviations ng mga indibidwal na halaga ng epektibong tampok na y mula sa average na halaga y ay sanhi ng impluwensya ng maraming mga kadahilanan.

Kondisyon naming hinahati ang buong hanay ng mga sanhi sa dalawang grupo: ang pinag-aralan na salik x at iba pang mga salik. Kung ang kadahilanan ay hindi nakakaapekto sa resulta, ang linya ng regression sa graph ay parallel sa x-axis at y=y. Pagkatapos ang buong dispersion ng nagreresultang katangian ay dahil sa impluwensya ng iba pang mga salik at ang kabuuang kabuuan ng mga squared deviations ay mag-tutugma sa nalalabi. Kung ang ibang mga salik ay hindi makakaapekto sa resulta, ang y ay gumaganang nauugnay sa x at ang natitirang kabuuan ng mga parisukat ay zero. Sa kasong ito, ang kabuuan ng mga squared deviations na ipinaliwanag ng regression ay pareho sa kabuuang kabuuan ng mga parisukat. Dahil hindi lahat ng mga punto ng patlang ng ugnayan ay nasa linya ng regression, ang kanilang scatter ay palaging nagaganap dahil sa impluwensya ng salik na x, i.e. pagbabalik ng y sa x, at sanhi ng pagkilos ng iba pang mga sanhi (hindi maipaliwanag na pagkakaiba-iba). Ang kaangkupan ng linya ng regression para sa hula ay depende sa kung gaano karami sa kabuuang pagkakaiba-iba ng katangian y ang isinasaalang-alang ng ipinaliwanag na pagkakaiba-iba.

Malinaw, kung ang kabuuan ng mga squared deviations dahil sa regression ay mas malaki kaysa sa natitirang kabuuan ng mga parisukat, kung gayon ang regression equation ay istatistikal na makabuluhan at ang x factor ay may malaking epekto sa resulta. Katumbas ito ng katotohanan na ang coefficient of determination ay lalapit sa pagkakaisa. Ang anumang kabuuan ng mga squared deviations ay nauugnay sa bilang ng mga degree ng kalayaan, i.e. ang bilang ng kalayaan ng independiyenteng pagkakaiba-iba ng isang tampok. Ang bilang ng mga antas ng kalayaan ay nauugnay sa bilang ng mga yunit ng populasyon o sa bilang ng mga constant na tinutukoy mula dito. Kaugnay ng problemang pinag-aaralan, ang bilang ng mga antas ng kalayaan ay dapat magpakita kung gaano karaming mga independiyenteng paglihis mula sa n posibleng [(y 1 - y), (y 2 - y), ... (y n - y)] ang kinakailangan upang bumuo ng isang naibigay na kabuuan ng mga parisukat. Kaya, para sa kabuuang kabuuan ng mga parisukat ∑(y-y cf) 2, (n-1) ang mga independiyenteng paglihis ay kinakailangan, dahil sa isang populasyon ng n yunit, pagkatapos kalkulahin ang average na antas, lamang (n-1) ang bilang ng mga deviations ay malayang nag-iiba. Kapag kinakalkula ang ipinaliwanag o factorial na kabuuan ng mga parisukat ∑(y-y cf) 2, ang teoretikal (kinakalkula) na mga halaga ng epektibong tampok na y* na matatagpuan sa linya ng regression ay ginagamit: y(x)=a+bx.

Bumalik tayo ngayon sa pagpapalawak ng kabuuang kabuuan ng mga squared deviations ng epektibong salik mula sa average ng halagang ito. Ang kabuuan na ito ay naglalaman ng dalawang bahagi na tinukoy na sa itaas: ang kabuuan ng mga squared deviations, na ipinaliwanag ng regression, at isa pang kabuuan, na tinatawag na natitirang kabuuan ng squared deviations. Ang agnas na ito ay nauugnay sa pagsusuri ng pagkakaiba-iba, na direktang sumasagot sa pangunahing tanong: kung paano suriin ang kahalagahan ng equation ng regression sa kabuuan at ang mga indibidwal na parameter nito? Ito rin ay higit na tinutukoy ang kahulugan ng tanong na ito. Upang masuri ang kahalagahan ng regression equation sa kabuuan, ginagamit ang Fisher test (F-test). Ayon sa diskarte na iminungkahi ni Fisher, isang null hypothesis ang iniharap: ang regression coefficient ay katumbas ng zero, i.e. halaga b=0. Nangangahulugan ito na ang kadahilanan X ay walang epekto sa resulta ng Y.

Alalahanin na halos palaging ang mga puntos na nakuha bilang resulta ng isang istatistikal na pag-aaral ay hindi eksaktong nasa linya ng regression. Ang mga ito ay nakakalat, na inalis nang higit pa o mas malayo sa linya ng regression. Ang pagkakalat na ito ay dahil sa impluwensya ng iba pang mga kadahilanan, maliban sa nagpapaliwanag na kadahilanan X, na hindi isinasaalang-alang sa equation ng regression. Kapag kinakalkula ang ipinaliwanag, o factorial na kabuuan ng mga squared deviations, ang mga teoretikal na halaga ng nagresultang katangian na matatagpuan sa linya ng regression ay ginagamit.

Para sa isang naibigay na hanay ng mga halaga ng mga variable Y at X, ang kinakalkula na halaga ng average na halaga ng Y sa linear regression ay isang function ng isang parameter lamang - ang regression coefficient. Alinsunod dito, ang factorial sum ng squared deviations ay may bilang ng mga degree ng kalayaan na katumbas ng 1. At ang bilang ng mga degree ng kalayaan ng natitirang kabuuan ng squared deviations sa linear regression ay n-2.

Samakatuwid, hinahati ang bawat kabuuan ng mga squared deviations sa orihinal na decomposition sa bilang ng mga degree ng kalayaan nito, nakukuha namin ang average na squared deviations (dispersion bawat isang degree ng kalayaan). Dagdag pa, ang paghahati ng factorial variance sa isang degree ng kalayaan sa natitirang variance sa isang degree ng kalayaan, makakakuha tayo ng criterion para sa pagsubok sa null hypothesis, ang tinatawag na F-relation, o ang criterion ng parehong pangalan. Ibig sabihin, kung ang null hypothesis ay totoo, ang factorial at residual variances ay lalabas na pantay lang sa isa't isa.

Upang tanggihan ang null hypothesis, i.e. pagtanggap sa kabaligtaran na hypothesis, na nagpapahayag ng katotohanan ng kahalagahan (presensya) ng pag-asa sa ilalim ng pag-aaral, at hindi lamang isang random na pagkakataon ng mga kadahilanan na gayahin ang isang pag-asa na hindi aktwal na umiiral, kinakailangan na gumamit ng mga talahanayan ng mga kritikal na halaga ng ang ipinahiwatig na ratio. Tinutukoy ng mga talahanayan ang kritikal (threshold) na halaga ng criterion ng Fisher. Tinatawag din itong teoretikal. Pagkatapos, sa pamamagitan ng paghahambing nito sa katumbas na empirical (aktwal) na halaga ng criterion na kinakalkula mula sa obserbasyonal na data, sinusuri kung ang aktwal na halaga ng ratio ay lumampas sa kritikal na halaga mula sa mga talahanayan.

Sa mas detalyado, ito ay ginagawa bilang mga sumusunod. Ang isang naibigay na antas ng posibilidad ng pagkakaroon ng isang null hypothesis ay pinili at ang kritikal na halaga ng F-criterion ay matatagpuan mula sa mga talahanayan, kung saan ang isang random na pagkakaiba-iba ng mga pagkakaiba sa pamamagitan ng 1 antas ng kalayaan ay maaari pa ring mangyari, i.e. ang pinakamataas na halaga. Pagkatapos ang kinakalkula na halaga ng ratio F- ay kinikilala bilang maaasahan (ibig sabihin, pagpapahayag ng pagkakaiba sa pagitan ng aktwal at natitirang mga pagkakaiba-iba), kung ang ratio na ito ay mas malaki kaysa sa tabular. Pagkatapos ay tinanggihan ang null hypothesis (hindi totoo na walang mga palatandaan ng isang koneksyon) at, sa kabaligtaran, dumating tayo sa konklusyon na mayroong isang koneksyon at makabuluhan (ito ay hindi random, makabuluhan).

Kung ang halaga ng ratio ay mas mababa kaysa sa tabular na halaga, kung gayon ang posibilidad ng null hypothesis ay mas mataas kaysa sa tinukoy na antas (na pinili sa simula) at ang null hypothesis ay hindi maaaring tanggihan nang walang kapansin-pansing panganib na makakuha ng maling konklusyon tungkol sa pagkakaroon ng koneksyon. Alinsunod dito, ang equation ng regression ay itinuturing na hindi gaanong mahalaga.

Ang mismong halaga ng F-criterion ay nauugnay sa coefficient of determination. Bilang karagdagan sa pagtatasa ng kahalagahan ng regression equation sa kabuuan, ang kahalagahan ng mga indibidwal na parameter ng regression equation ay sinusuri din. Kasabay nito, ang karaniwang error ng regression coefficient ay tinutukoy gamit ang empirical actual standard deviation at ang empirical variance sa bawat isang antas ng kalayaan. Pagkatapos nito, ang distribusyon ng Mag-aaral ay ginagamit upang subukan ang kahalagahan ng koepisyent ng regression para sa pagkalkula ng mga pagitan ng kumpiyansa nito.

Ang pagtatasa ng kahalagahan ng regression at correlation coefficients gamit ang Student's t-test ay isinasagawa sa pamamagitan ng paghahambing ng mga halaga ng mga halagang ito at ang karaniwang error. Ang halaga ng error ng mga parameter ng linear regression at ang koepisyent ng ugnayan ay tinutukoy ng mga sumusunod na formula:

kung saan ang S ay ang root mean square residual sample deviation,

r xy ay ang koepisyent ng ugnayan.

Alinsunod dito, ang halaga ng karaniwang error na hinulaang ng linya ng regression ay ibinibigay ng formula:

Ang kaukulang mga ratio ng mga halaga ng mga halaga ng regression at correlation coefficients sa kanilang karaniwang error ay bumubuo ng tinatawag na t-statistics, at isang paghahambing ng kaukulang tabular (kritikal) na halaga nito at ang aktwal na halaga nito ay gumagawa posibleng tanggapin o tanggihan ang null hypothesis. Ngunit higit pa, upang kalkulahin ang agwat ng kumpiyansa, ang marginal error para sa bawat indicator ay makikita bilang produkto ng tabular value ng statistics t at ang average na random error ng kaukulang indicator. Sa katunayan, sa isang bahagyang naiibang paraan, isinulat namin ito sa itaas lamang. Pagkatapos ay ang mga hangganan ng mga agwat ng kumpiyansa ay nakuha: ang mas mababang hangganan ay ibawas mula sa kaukulang mga coefficient (sa katunayan, ang mga average) ng kaukulang marginal error, at ang itaas na hangganan ay idinagdag (idinagdag).

Sa linear regression ∑(y x -y avg) 2 =b 2 ∑(x-x avg) 2 . Madaling i-verify ito sa pamamagitan ng pagtukoy sa formula para sa linear correlation coefficient: r 2 xy \u003d b 2 * σ 2 x / σ 2 y

kung saan ang σ 2 y ay ang kabuuang pagkakaiba ng katangiang y;

σ 2 x - ang pagkakaiba ng katangiang y dahil sa salik na x. Alinsunod dito, ang kabuuan ng mga squared deviations dahil sa linear regression ay magiging:

∑(y x -y cf) 2 =b 2 ∑(x-x cf) 2 .

Dahil, para sa isang naibigay na halaga ng mga obserbasyon sa x at y, ang factorial sum ng mga parisukat sa linear regression ay nakasalalay lamang sa isang pare-pareho ng coefficient ng regression b, kung gayon ang kabuuan ng mga parisukat na ito ay may isang antas ng kalayaan. Isaalang-alang ang bahagi ng nilalaman ng kinakalkula na halaga ng attribute na y, i.e. sa x. Ang halaga ng y x ay tinutukoy ng linear regression equation: y x ​​​​\u003d a + bx.

Ang parameter a ay maaaring tukuyin bilang a=y-bx. Ang pagpapalit ng expression para sa parameter a sa linear na modelo, makukuha natin: y x ​​​​=y-bx+bx cp =y-b(x-x cf).

Sa isang ibinigay na hanay ng mga variable na y at x, ang kinakalkula na halaga y x sa linear regression ay isang function ng isang parameter lamang - ang regression coefficient. Alinsunod dito, ang factorial sum ng squared deviations ay may bilang ng mga degree ng kalayaan na katumbas ng 1.

Mayroong pagkakapantay-pantay sa pagitan ng bilang ng mga antas ng kalayaan ng kabuuang, factorial at natitirang kabuuan ng mga parisukat. Ang bilang ng mga antas ng kalayaan ng natitirang kabuuan ng mga parisukat sa linear regression ay (n-2). Ang bilang ng mga antas ng kalayaan para sa kabuuang kabuuan ng mga parisukat ay tinutukoy ng bilang ng mga yunit, at dahil ginagamit namin ang average na kinakalkula mula sa sample na data, nawalan kami ng isang antas ng kalayaan, i.e. (n-1). Kaya, mayroon tayong dalawang pagkakapantay-pantay: para sa mga kabuuan at para sa bilang ng mga antas ng kalayaan. At ito, sa turn, ay nagbabalik sa atin sa maihahambing na mga pagpapakalat sa bawat isang antas ng kalayaan, na ang ratio ay nagbibigay ng pamantayan ng Fisher.

25. Pagtataya ng kahalagahan ng mga indibidwal na parameter ng equation ng regression at mga coefficient ayon sa pamantayan ng Mag-aaral.

27. Linear at non-linear regression at mga pamamaraan ng kanilang pag-aaral.

Ang linear regression at ang mga pamamaraan ng pag-aaral at pagsusuri nito ay hindi magiging napakahalaga kung, bilang karagdagan sa napakahalagang ito, ngunit ang pinakasimpleng kaso, hindi namin ginamit ang mga ito upang makakuha ng tool para sa pagsusuri ng mas kumplikadong nonlinear na mga dependency. Ang mga nonlinear na regression ay maaaring nahahati sa dalawang mahalagang magkaibang klase. Ang una at mas simple ay ang klase ng mga non-linear na dependencies, kung saan mayroong non-linearity na may paggalang sa mga paliwanag na variable, ngunit nananatiling linear sa mga tuntunin ng mga parameter na kasama sa mga ito at tinatantya. Kabilang dito ang mga polynomial na may iba't ibang antas at isang equilateral hyperbola.

Ang ganitong non-linear na regression para sa mga variable na kasama sa paliwanag sa pamamagitan ng isang simpleng pagbabagong-anyo (pagpapalit) ng mga variable ay madaling maibaba sa karaniwang linear na regression para sa mga bagong variable. Samakatuwid, ang pagtatantya ng mga parameter sa kasong ito ay isinasagawa lamang ng hindi bababa sa mga parisukat, dahil ang mga dependence ay linear sa mga parameter. Kaya, ang isang mahalagang papel sa ekonomiya ay ginagampanan ng isang non-linear dependence na inilarawan ng isang equilateral hyperbole:

Ang mga parameter nito ay mahusay na tinantya ng MNC, at ang pag-asa na ito mismo ay nagpapakilala sa kaugnayan ng mga gastos sa yunit ng mga hilaw na materyales, gasolina, mga materyales na may dami ng output, ang oras ng sirkulasyon ng mga kalakal, at lahat ng mga salik na ito sa halaga ng turnover . Halimbawa, ang kurba ng Phillips ay nagpapakilala sa hindi linear na relasyon sa pagitan ng antas ng kawalan ng trabaho at ang porsyento ng paglago ng sahod.

Ang sitwasyon ay ganap na naiiba sa isang regression na hindi linear sa mga tuntunin ng tinantyang mga parameter, halimbawa, na kinakatawan ng isang function ng kapangyarihan, kung saan ang antas mismo (tagapagpahiwatig nito) ay isang parameter, o depende sa parameter. Pwede rin exponential function, kung saan ang base ng degree ay isang parameter at isang exponential function, kung saan, muli, ang exponent ay naglalaman ng isang parameter o kumbinasyon ng mga parameter. Ang klase na ito, sa turn, ay nahahati sa dalawang subclass: kabilang sa isa ang panlabas na hindi linear, ngunit mahalagang panloob na linear. Sa kasong ito, maaari mong dalhin ang modelo sa isang linear na anyo gamit ang mga pagbabagong-anyo. Gayunpaman, kung ang modelo ay intrinsically non-linear, hindi ito maaaring bawasan sa isang linear function.

Kaya, ang mga modelo lamang na intrinsically non-linear ang itinuturing na tunay na non-linear sa pagsusuri ng regression. Ang lahat ng iba pa, na binawasan sa linear sa pamamagitan ng mga pagbabagong-anyo, ay hindi itinuturing na ganoon, at ang mga ito ay madalas na itinuturing sa mga pag-aaral sa ekonomiya. Kasabay nito, hindi ito nangangahulugan na ang mga hindi linear na dependencies ay hindi maaaring pag-aralan sa econometrics. Kung ang modelo ay panloob na hindi linear sa mga parameter, kung gayon ang mga umuulit na pamamaraan ay ginagamit upang tantyahin ang mga parameter, ang tagumpay nito ay nakasalalay sa uri ng equation ng mga singularidad ng umuulit na pamamaraan na ginamit.

Bumalik tayo sa mga dependency na binawasan sa mga linear. Kung ang mga ito ay hindi linear pareho sa mga tuntunin ng mga parameter at mga variable, halimbawa, ng form y \u003d isang pinarami ng kapangyarihan ng X, ang tagapagpahiwatig kung saan ay ang parameter -  (beta):

Malinaw, ang gayong ratio ay madaling ma-convert sa isang linear equation sa pamamagitan ng isang simpleng logarithm.

Matapos ipasok ang mga bagong variable na nagsasaad ng logarithms, isang linear equation ang nakuha. Pagkatapos ang pamamaraan ng pagtatantya ng regression ay binubuo sa pagkalkula ng mga bagong variable para sa bawat obserbasyon sa pamamagitan ng pagkuha ng logarithms ng mga orihinal na halaga. Pagkatapos ay tinatantya ang regression dependence ng mga bagong variable. Upang pumasa sa orihinal na mga variable, dapat isa kumuha ng antilogarithm, iyon ay, sa katunayan, bumalik sa mga kapangyarihan sa kanilang sarili sa halip na ang kanilang mga exponents (pagkatapos ng lahat, ang logarithm ay ang exponent). Ang kaso ng exponential o exponential function ay maaaring isaalang-alang nang katulad.

Para sa isang mahalagang non-linear regression, ang karaniwang pamamaraan ng pagtatantya ng regression ay hindi maaaring gamitin, dahil ang kaukulang dependence ay hindi maaaring ma-convert sa isang linear. Ang pangkalahatang pamamaraan ng mga aksyon sa kasong ito ay ang mga sumusunod:

1. Tinatanggap ang ilang posibleng paunang halaga ng parameter;

2. Kalkulahin ang hinulaang mga halaga ng Y mula sa aktwal na mga halaga ng X gamit ang mga halaga ng parameter na ito;

3. Kalkulahin ang mga nalalabi para sa lahat ng mga obserbasyon sa sample at pagkatapos ay ang kabuuan ng mga parisukat ng mga nalalabi;

4. Ginagawa ang maliliit na pagbabago sa isa o higit pang mga pagtatantya ng parameter;

5. Kinakalkula ang mga bagong hinulaang halaga ng Y, mga residual at kabuuan ng mga squared residual;

6. Kung ang kabuuan ng mga parisukat na nalalabi ay mas mababa kaysa dati, ang mga bagong pagtatantya ng parameter ay mas mahusay kaysa sa mga luma at dapat gamitin bilang isang bagong panimulang punto;

7. Ang mga hakbang 4, 5 at 6 ay inuulit muli hanggang sa hindi posible na gumawa ng mga naturang pagbabago sa mga pagtatantya ng parameter na hahantong sa pagbabago sa kabuuan ng mga nalalabi ng mga parisukat;

8. Napagpasyahan na ang halaga ng kabuuan ng mga parisukat ng mga nalalabi ay pinaliit at ang mga huling pagtatantya ng mga parameter ay mga pagtatantya sa pamamagitan ng pinakamaliit na pamamaraan ng mga parisukat.

Kabilang sa mga non-linear na function na maaaring bawasan sa linear na anyo, malawakang ginagamit ang exponential function sa econometrics. Ang parameter b sa loob nito ay may malinaw na interpretasyon, bilang koepisyent ng pagkalastiko. Sa mga modelong hindi linear sa mga tuntunin ng mga tinantyang parameter, ngunit binawasan sa isang linear na anyo, inilalapat ang LSM sa mga binagong equation. Ang praktikal na aplikasyon ng logarithm at, nang naaayon, ang exponent ay posible kapag ang resultang tampok ay walang mga negatibong halaga. Sa pag-aaral ng mga ugnayan sa pagitan ng mga function na gumagamit ng logarithm ng resultang katangian, ang mga pagdepende sa batas ng kapangyarihan ay nananaig sa econometrics (supply and demand curves, production functions, development curves to characterize the relationship between the labor intensity of products, the scale of production, ang pag-asa ng GNI sa antas ng trabaho, Engel curves).

28. Baliktad na modelo at paggamit nito

Minsan ginagamit ang tinatawag na inverse model, na panloob na hindi linear, ngunit sa loob nito, hindi katulad ng equilateral hyperbole, hindi ang paliwanag na variable ang binago, ngunit ang nagresultang tampok na Y. Samakatuwid, ang inverse na modelo ay lumalabas sa maging panloob na hindi linear at ang kinakailangan ng LLS ay hindi natutupad para sa aktwal na mga halaga ng resultang tampok na Y, at para sa kanilang mga katumbas na halaga. Ang pag-aaral ng ugnayan para sa non-linear regression ay nararapat na espesyal na pansin. Sa pangkalahatang kaso, ang isang parabola ng pangalawang antas, pati na rin ang mga polynomial ng isang mas mataas na pagkakasunud-sunod, kapag linearized, ay tumatagal ng anyo ng isang multiple regression equation. Kung ang regression equation, na hindi linear na may paggalang sa variable na ipinaliwanag, sa panahon ng linearization ay tumatagal ng anyo ng isang linear pair regression equation, pagkatapos ay isang linear correlation coefficient ay maaaring gamitin upang masuri ang higpit ng relasyon.

Kung ang pagbabago ng equation ng regression sa isang linear na anyo ay nauugnay sa isang dependent variable (nagreresultang tampok), kung gayon ang linear correlation coefficient para sa binagong mga halaga ng tampok ay nagbibigay lamang ng isang tinatayang pagtatantya ng relasyon at hindi tumutugma sa numero sa ugnayan. index. Dapat tandaan na kapag kinakalkula ang index ng ugnayan, ang mga kabuuan ng mga squared deviations ng epektibong tampok na Y ang ginagamit, at hindi ang kanilang mga logarithms. Ang pagtatasa ng kahalagahan ng index ng ugnayan ay isinasagawa sa parehong paraan tulad ng pagtatasa ng pagiging maaasahan (kahalagahan) ng koepisyent ng ugnayan. Ang correlation index mismo, pati na rin ang determination index, ay ginagamit upang subukan ang kahalagahan ng pangkalahatang non-linear regression equation ng Fisher's F-test.

Tandaan na ang kakayahang bumuo ng mga non-linear na modelo, kapwa sa pamamagitan ng pagbabawas ng mga ito sa isang linear na anyo, at sa pamamagitan ng paggamit ng non-linear na regression, sa isang banda, ay nagpapataas ng universality ng regression analysis. Sa kabilang banda, ito ay makabuluhang nagpapakumplikado sa mga gawain ng mananaliksik. Kung higpitan natin ang ating sarili sa pairwise regression analysis, maaari nating i-plot ang Y at X na mga obserbasyon bilang scatterplot. Kadalasan ay tinatantya ng ilang iba't ibang non-linear na function ang mga obserbasyon kung nakahiga sila sa ilang kurba. Ngunit sa kaso ng maramihang pagsusuri ng regression, hindi mabuo ang naturang graph.

Kung isinasaalang-alang ang mga alternatibong modelo na may parehong kahulugan ng dependent variable, ang pamamaraan ng pagpili ay medyo simple. Maaari mong suriin ang regression batay sa lahat ng posibleng function na maaari mong isipin at piliin ang function na pinakamahusay na nagpapaliwanag sa mga pagbabago sa dependent variable. Malinaw na kapag ang isang linear na function ay nagpapaliwanag ng tungkol sa 64% ng pagkakaiba sa y, at isang hyperbolic na 99.9%, ang huli ay malinaw na dapat piliin. Ngunit kapag ang iba't ibang mga modelo ay gumagamit ng iba't ibang mga functional form, ang problema sa pagpili ng isang modelo ay nagiging mas kumplikado.

29. Paggamit ng Box-Cox test.

Sa pangkalahatan, kapag isinasaalang-alang ang mga alternatibong modelo na may parehong kahulugan ng dependent variable, ang pagpili ay simple. Pinaka makatwirang suriin ang regression batay sa lahat ng posibleng function, huminto sa function na pinakamahusay na nagpapaliwanag ng mga pagbabago sa dependent variable. Kung ang coefficient of determination ay sumusukat sa isang kaso ang proporsyon ng variance na ipinaliwanag ng regression, at sa kabilang kaso ang proporsyon ng variance ng logarithm ng dependent variable na ito na ipinaliwanag ng regression, kung gayon ang pagpili ay ginawa nang walang kahirapan. Ang isa pang bagay ay kapag ang mga halagang ito para sa dalawang modelo ay napakalapit at ang problema sa pagpili ay nagiging mas kumplikado.

Pagkatapos ay dapat ilapat ang karaniwang pamamaraan sa anyo ng Box-Cox test. Kung kailangan mo lang ihambing ang mga modelo gamit ang resultang salik at ang logarithm nito bilang isang variant ng dependent variable, pagkatapos ay isang variant ng Zarembka test ang ginagamit. Nagmumungkahi ito ng Y-scale na pagbabagong nagbibigay-daan sa direktang paghahambing ng root mean square error (RMS) sa mga linear at logarithmic na modelo. Kasama sa kaukulang pamamaraan ang mga sumusunod na hakbang:

    Ang geometric na ibig sabihin ng mga halaga ng Y sa sample ay kinakalkula, kasabay ng exponent ng arithmetic mean ng logarithm ng Y;

    Ang mga obserbasyon Y ay muling kinakalkula sa paraang nahahati sila sa halagang nakuha sa unang hakbang;

    Ang regression ay tinatantya para sa isang linear na modelo gamit ang mga naka-scale na halaga ng Y sa halip na ang orihinal na mga halaga ng Y, at para sa isang logarithmic na modelo na gumagamit ng logarithm ng mga naka-scale na halaga ng Y. Ngayon ang mga halaga ng SD para sa dalawang regression ay maihahambing at samakatuwid ay isang modelo na may ang isang mas maliit na kabuuan ng mga squared deviations ay nagbibigay ng isang mas mahusay na akma sa tunay na pagtitiwala ng mga naobserbahang halaga;

    Upang suriin na ang isa sa mga modelo ay hindi nagbibigay ng isang makabuluhang mas mahusay na akma, maaari mong gamitin ang produkto ng kalahati ng bilang ng mga obserbasyon at ang logarithm ng ratio ng mga halaga ng RMS sa mga naka-scale na regression, at pagkatapos ay kunin ang ganap na halaga ng ang halagang ito.

30. Mga konsepto ng intercorrelation at multicollinearity ng mga salik.

34. Mga Batayan ng MNC at ang bisa ng aplikasyon nito.

Bumaling tayo ngayon sa mga pangunahing kaalaman ng LSM, ang bisa ng aplikasyon nito (kabilang ang mga problema ng multiple regression) at ang pinakamahalagang katangian ng mga pagtatantya na nakuha gamit ang LSM. Magsimula tayo sa katotohanan na, kasama ang analytical dependence sa kanang bahagi equation ng regression isang mahalagang papel din ang ginagampanan ng random na termino. Ang random na bahaging ito ay isang hindi mapapansing dami. Ang mga istatistikal na pagsusulit ng mga parameter ng regression at mga sukat ng ugnayan ay kanilang sarili ay batay sa hindi nabe-verify na mga pagpapalagay tungkol sa pamamahagi ng random na bahaging ito ng maramihang regression. Ang mga pagpapalagay na ito ay preliminary lamang. Pagkatapos lamang mabuo ang equation ng regression ay susuriin kung ang mga pagtatantya ay may mga random na nalalabi (empirical analogues ng random na bahagi) ng mga katangian na ipinapalagay na priori. Sa esensya, kapag ang mga parameter ng modelo ay tinantya, ang mga pagkakaiba sa pagitan ng teoretikal at aktwal na mga halaga ng nagresultang tampok ay kinakalkula upang masuri ang random na bahagi mismo. Mahalagang tandaan na isa lamang itong piling pagsasakatuparan ng hindi kilalang natitira sa ibinigay na equation.

Ang mga coefficient ng regression na nakuha mula sa sistema ng mga normal na equation ay mga sample na pagtatantya ng lakas ng koneksyon. Malinaw na ang mga ito ay praktikal na kahalagahan lamang kapag sila ay walang kinikilingan. Alalahanin na sa kasong ito ang mean ng mga nalalabi ay katumbas ng zero, o, kung ano ang pareho, ang ibig sabihin ng pagtatantya ay katumbas ng tinantyang parameter mismo. Kung gayon ang mga nalalabi ay hindi maipon kapag malalaking numero sample na mga pagtatantya, at ang nahanap na parameter ng regression mismo ay maaaring ituring bilang isang average ng isang malaking bilang walang pinapanigan na mga pagtatantya.

Bilang karagdagan, ang mga pagtatantya ay dapat magkaroon ng pinakamaliit na pagkakaiba, i.e. maging epektibo, at pagkatapos ay magiging posible na lumipat mula sa halos hindi angkop na mga pagtatantya ng punto patungo sa pagtatantya ng pagitan. Sa wakas, ang mga agwat ng kumpiyansa ay naaangkop sa isang mataas na antas ng kahusayan kapag ang posibilidad na makakuha ng isang pagtatantya sa isang naibigay na distansya mula sa tunay (hindi alam) na halaga ng isang parameter ay malapit sa isa. Ang ganitong mga pagtatantya ay tinatawag na pare-pareho at ang katangian ng pagkakapare-pareho ay nailalarawan sa pamamagitan ng pagtaas sa kanilang katumpakan na may pagtaas sa laki ng sample.

Gayunpaman, ang kondisyon ng pagkakapare-pareho ay hindi awtomatikong natutugunan at mahalagang nakasalalay sa katuparan ng sumusunod na dalawang mahahalagang kinakailangan. Una, ang mga residual mismo ay dapat na stochastic na may pinaka-binibigkas na randomness, i.e. lahat ng tahasang functional dependencies ay dapat isama sa analytical component ng multiple regression, at bilang karagdagan, ang mga value ng residual ay dapat na ibinahagi nang hiwalay sa isa't isa para sa iba't ibang sample (walang autocorrelation ng mga residual). Ang pangalawa, hindi gaanong mahalagang kinakailangan ay ang pagkakaiba-iba ng bawat paglihis (nalalabi) ay pareho para sa lahat ng mga halaga ng mga variable X (homoscedasticity). Yung. Ang homoscedasticity ay ipinahayag sa pamamagitan ng pare-pareho ng pagkakaiba-iba para sa lahat ng mga obserbasyon:

Sa kabaligtaran, ang heteroscedasticity ay binubuo sa paglabag sa naturang patuloy na pagkakaiba-iba para sa iba't ibang mga obserbasyon. Sa kasong ito, ang a priori (bago ang mga obserbasyon) na posibilidad na makakuha ng malakas na deviated na mga halaga na may iba't ibang teoretikal na pamamahagi ng random na termino para sa iba't ibang mga obserbasyon sa sample ay magiging medyo mataas.

Ang autocorrelation ng mga nalalabi, o ang pagkakaroon ng isang ugnayan sa pagitan ng mga nalalabi ng kasalukuyan at nakaraang (kasunod) na mga obserbasyon, ay nakikita ng halaga ng karaniwang linear correlation coefficient. Kung ito ay makabuluhang naiiba mula sa zero, kung gayon ang mga nalalabi ay autocorrelated at, samakatuwid, ang probability density function (pamamahagi ng mga nalalabi) ay nakasalalay sa punto ng pagmamasid at sa pamamahagi ng mga natitirang halaga sa iba pang mga punto ng pagmamasid. Ito ay maginhawa upang matukoy ang autocorrelation ng mga nalalabi mula sa magagamit na istatistikal na impormasyon sa pagkakaroon ng isang pag-order ng mga obserbasyon sa pamamagitan ng X factor.

35. Homoscedasticity at heteroscedasticity, autocorrelation ng mga residual, generalized least squares method (GMLS).

Ang pagkakapareho ng mga dispersion ng mga nalalabi para sa lahat ng mga halaga ng mga variable na X, o homoscedasticity, ay talagang kinakailangan din upang makakuha ng pare-parehong mga pagtatantya ng mga parameter ng regression mula sa LSM. Ang hindi pagtupad sa kondisyon ng homoscedasticity ay humahantong sa tinatawag na heteroscedasticity. Maaari itong humantong sa bias sa mga pagtatantya ng mga coefficient ng regression. Ang heteroskedasticity ay pangunahing makakaapekto sa pagbaba sa kahusayan ng mga pagtatantya ng mga coefficient ng regression. Sa kasong ito, nagiging mahirap lalo na ang paggamit ng formula para sa karaniwang error ng coefficient ng regression, ang paggamit nito ay ipinapalagay ang isang solong pagkakaiba-iba ng mga nalalabi para sa anumang mga halaga ng kadahilanan. Tulad ng para sa walang kinikilingan ng mga pagtatantya ng mga coefficient ng regression, ito ay pangunahing nakasalalay sa kalayaan ng mga nalalabi at ang mga halaga ng mga salik mismo.

Ang isang medyo visual, bagama't hindi mahigpit at nangangailangan ng kasanayan na paraan upang subukan ang homoscedasticity ay isang graphical na pag-aaral ng kalikasan ng pag-asa ng mga nalalabi sa average na kinakalkula (teoretikal) na nagreresultang tampok, o ang kaukulang mga patlang ng ugnayan. Ang mga analytical na pamamaraan para sa pag-aaral at pagsusuri ng heteroscedasticity ay mas mahigpit. Sa isang makabuluhang presensya ng heteroscedasticity, ipinapayong gamitin ang generalized least squares (GLS) sa halip na ang least squares.

Bilang karagdagan sa mga kinakailangan para sa maramihang regression na nagmumula sa aplikasyon ng hindi bababa sa mga parisukat, kinakailangan ding sumunod sa mga kondisyon para sa mga variable na kasama sa modelo. Ang mga ito, una sa lahat, ay kinabibilangan ng mga kinakailangan tungkol sa bilang ng mga salik ng modelo para sa isang naibigay na dami ng mga obserbasyon (1 hanggang 7). Kung hindi, ang mga parameter ng regression ay hindi gaanong mahalaga sa istatistika. Mula sa punto ng view ng pagiging epektibo ng aplikasyon ng mga nauugnay numerical na pamamaraan kapag ipinapatupad ang LSM, kinakailangan na ang bilang ng mga obserbasyon ay lumampas sa bilang ng mga tinantyang parameter (sa sistema ng mga equation, ang bilang ng mga equation ay higit sa bilang ng mga variable na hinahanap).

Ang pinakamahalagang tagumpay ng econometrics ay ang makabuluhang pag-unlad ng mga pamamaraan para sa pagtatantya ng hindi kilalang mga parameter sa kanilang sarili at ang pagpapabuti ng mga pamantayan para sa pagtukoy ng static na kahalagahan ng mga epektong isinasaalang-alang. Sa pagsasaalang-alang na ito, ang imposibilidad o kawalan ng kakayahang gumamit ng tradisyonal na LSM dahil sa heteroscedasticity na ipinakita sa isang antas o iba pa ay humantong sa pagbuo ng isang pangkalahatang LSM (GSM). Sa katunayan, sa parehong oras, ang modelo ay naitama, ang detalye nito ay binago, at ang paunang data ay binago upang matiyak ang pagiging walang kinikilingan, kahusayan, at pagkakapare-pareho ng mga pagtatantya ng mga coefficient ng regression.

Ipinapalagay na ang ibig sabihin ng mga nalalabi ay katumbas ng zero, ngunit ang kanilang pagkakaiba-iba ay hindi na pare-pareho, ngunit proporsyonal sa mga halaga ng K i, kung saan ang mga halagang ito ay mga koepisyent ng proporsyonalidad na naiiba para sa iba't ibang mga halaga. ng x factor. Kaya, ang mga coefficient na ito (mga halaga ng Ki) ang nagpapakilala sa heterogeneity ng dispersion. Naturally, ipinapalagay na ang halaga ng pagpapakalat mismo, na isang karaniwang kadahilanan para sa mga koepisyent ng proporsyonalidad na ito, ay hindi alam.

Ang orihinal na modelo, pagkatapos ipasok ang mga coefficient na ito sa multiple regression equation, ay patuloy na heteroscedastic (mas tiyak, ito ang mga nalalabi ng modelo). Hayaang ang mga nalalabi (nalalabi) na ito ay hindi autocorrelated. Ipakilala natin ang mga bagong variable na nakuha sa pamamagitan ng paghahati sa mga inisyal na variable ng modelo, na naayos bilang resulta ng i-th observation, sa pamamagitan ng square root ng proportionality coefficients K i . Pagkatapos ay makakakuha tayo ng bagong equation sa mga nabagong variable, kung saan ang mga natitira ay magiging homoscedastic na. Ang mga bagong variable mismo ay may timbang na lumang (orihinal) na mga variable.

Samakatuwid, ang pagtatantya ng mga parameter ng bagong equation na nakuha sa paraang ito na may mga homoscedastic residual ay mababawasan sa isang timbang na LSM (sa pangkalahatan, ito ang GLS). Kapag ginamit sa halip na ang mga variable ng regression mismo, ang kanilang mga paglihis mula sa mga average ng expression para sa mga coefficient ng regression ay nakakakuha ng isang simple at standardized (uniporme) na anyo, bahagyang naiiba para sa LSM at LMLS sa pamamagitan ng correction factor 1/K sa numerator at denominator ng ang fraction na nagbibigay ng regression coefficient.

Dapat tandaan na ang mga parameter ng binago (naitama) na modelo ay mahalagang nakasalalay sa kung anong konsepto ang kinuha bilang batayan para sa mga koepisyent ng proporsyonalidad К i . Madalas na ipinapalagay na ang mga nalalabi ay proporsyonal lamang sa mga halaga ng kadahilanan. Ang modelo ay tumatagal ng pinakasimpleng anyo kapag ang hypothesis na ang mga error ay proporsyonal sa mga halaga ng huling kadahilanan sa pagkakasunud-sunod ay tinanggap. Pagkatapos ay pinapayagan ng OLS na dagdagan ang bigat ng mga obserbasyon na may mas maliliit na halaga ng mga nabagong variable sa pagtukoy ng mga parameter ng regression kumpara sa gawain ng karaniwang OLS na may orihinal na mga variable. Ngunit ang mga bagong variable na ito ay nakakatanggap na ng ibang pang-ekonomiyang nilalaman.

Ang hypothesis na ang mga nalalabi ay proporsyonal sa halaga ng salik ay maaaring may tunay na katwiran. Hayaang maproseso ang ilang hindi sapat na homogenous na set ng data, halimbawa, kasama ang malaki at maliliit na negosyo nang sabay. Kung gayon ang malalaking volumetric na halaga ng kadahilanan ay maaaring tumutugma sa parehong malaking pagkakaiba-iba ng nagresultang tampok at isang malaking pagkakaiba-iba ng mga natitirang halaga. Dagdag pa, ang paggamit ng GLS at ang kaukulang paglipat sa mga kamag-anak na halaga ay hindi lamang binabawasan ang pagkakaiba-iba ng kadahilanan, ngunit binabawasan din ang pagkakaiba-iba ng error. Kaya, ang pinakasimpleng kaso ng pagsasaalang-alang at pagwawasto ng heteroscedasticity sa mga modelo ng regression ay natanto sa pamamagitan ng paggamit ng GLS.

Ang diskarte sa itaas sa pagpapatupad ng OLS sa anyo ng isang may timbang na OLS ay medyo praktikal - ito ay ipinatupad lamang at may malinaw na interpretasyong pang-ekonomiya. Siyempre, hindi ito ang pinakapangkalahatang diskarte, at sa konteksto ng mga istatistika ng matematika, na nagsisilbing teoretikal na batayan ng econometrics, inaalok kami ng mas mahigpit na pamamaraan na nagpapatupad ng GLS sa pinakadulo. pangkalahatang pananaw. Kailangan nitong malaman ang covariance matrix ng error vector (column of residuals). At ito ay kadalasang hindi patas sa mga praktikal na sitwasyon, at imposibleng mahanap ang matrix na ito bilang ganoon. Samakatuwid, sa pangkalahatan, kinakailangang suriin ang nais na matrix upang magamit ang naturang pagtatantya sa halip na ang matrix mismo sa mga kaukulang formula. Kaya, ang inilarawan na pagpapatupad ng GLS ay kumakatawan sa isa sa mga pagtatantiyang ito. Minsan ito ay tinatawag na accessible generalized least squares.

Dapat ding isaalang-alang na ang koepisyent ng pagpapasiya ay hindi maaaring magsilbi bilang isang kasiya-siyang sukatan ng kalidad ng akma kapag gumagamit ng GLS. Pagbabalik sa paggamit ng GLS, tandaan din namin na ang paraan ng paggamit ng mga karaniwang paglihis ( karaniwang mga pagkakamali) sa anyong Puti (ang tinatawag na pare-parehong karaniwang mga error sa pagkakaroon ng heteroscedasticity). Ang pamamaraang ito ay naaangkop sa ilalim ng kondisyon na ang error vector covariance matrix ay dayagonal. Kung mayroong autocorrelation ng mga nalalabi (mga error), kapag mayroong mga non-zero na elemento (coefficients) sa covariance matrix at sa labas ng pangunahing dayagonal, kung gayon ang isang mas pangkalahatang karaniwang paraan ng error sa Nevie-West form ay dapat gamitin. Sa kasong ito, mayroong isang makabuluhang limitasyon: ang mga nonzero na elemento, bilang karagdagan sa pangunahing dayagonal, ay nasa mga kalapit na diagonal lamang na pinaghihiwalay mula sa pangunahing dayagonal ng hindi hihigit sa isang tiyak na halaga.

Mula sa kung ano ang sinabi, ito ay malinaw na ito ay kinakailangan upang ma-tsek ang data para sa heteroscedasticity. Ang mga sumusunod na pagsubok ay nagsisilbi sa layuning ito. Sinusubukan nila ang pangunahing hypothesis tungkol sa pagkakapantay-pantay ng mga pagkakaiba-iba ng mga nalalabi laban sa alternatibong hypothesis (tungkol sa hindi pagkakapantay-pantay ng mga hypothesis na ito). Bilang karagdagan, mayroong isang priori na mga hadlang sa istruktura sa likas na katangian ng heteroscedasticity. Sa pagsubok ng Goldfeld-Kuandt, bilang panuntunan, ginagamit ang pagpapalagay ng direktang pag-asa ng pagkakaiba-iba ng error (nalalabi) sa halaga ng ilang independent variable. Ang pamamaraan ng aplikasyon ng pagsusulit na ito ay ang mga sumusunod. Una, ang data ay pinagsunod-sunod sa pababang pagkakasunud-sunod ng independiyenteng variable kung saan pinaghihinalaan ang heteroscedasticity. Ang ilang ibig sabihin ng mga obserbasyon ay hindi kasama sa nakaayos na dataset na ito, kung saan ang salitang "ilang" ay nangangahulugang humigit-kumulang isang-kapat (25%) ng kabuuan lahat ng obserbasyon. Susunod, dalawang independiyenteng regression ang ginagawa para sa una sa natitira (pagkatapos ng pag-aalis) ibig sabihin ng mga obserbasyon at ang huling dalawa sa mga natitirang ibig sabihin ng mga obserbasyon. Pagkatapos nito, ang dalawang kaukulang residues ay itinayo. Sa wakas, ang F-statistic ni Fisher ay pinagsama-sama, at kung ang hypothesis na pinag-aaralan ay totoo, ang F ay talagang isang Fisher distribution na may kaukulang antas ng kalayaan. Kung gayon ang isang malaking halaga ng istatistikang ito ay nangangahulugan na ang hypothesis na sinusubok ay dapat tanggihan. Kung wala ang hakbang ng pag-aalis ng mga obserbasyon, ang kapangyarihan ng pagsubok na ito ay bumababa.

Ang Breusch-Pagan test ay ginagamit kapag ipinapalagay na isang priori na ang mga pagkakaiba ay nakasalalay sa ilang karagdagang mga variable. Una, ang karaniwang (karaniwang) regression ay ginaganap at ang isang vector ng mga residual ay nakuha. Pagkatapos ay isang pagtatantya ng pagkakaiba ay itinayo. Susunod, ang regression ng parisukat ng vector ng mga nalalabi na hinati sa empirical na pagkakaiba-iba (pagtantiya ng pagkakaiba-iba) ay isinasagawa. Para sa kanya (regression) hanapin ang ipinaliwanag na bahagi ng variation. At para sa ipinaliwanag na bahagi ng pagkakaiba-iba, na hinati sa kalahati, ang mga istatistika ay binuo. Kung ang null hypothesis ay totoo (ang kawalan ng heteroscedasticity ay totoo), kung gayon ang dami na ito ay may distribusyon hee-parisukat. Kung, sa kabaligtaran, ang pagsubok ay nagsiwalat ng heteroscedasticity, kung gayon ang orihinal na modelo ay binago sa pamamagitan ng paghahati sa mga bahagi ng vector ng mga nalalabi sa mga kaukulang bahagi ng vector ng mga sinusunod na independiyenteng mga variable.

36. Paraan ng standard deviations sa anyo ni White.

Magagawa natin ang mga sumusunod na konklusyon. Ang paggamit ng GLS sa pagkakaroon ng heteroscedasticity ay binabawasan upang mabawasan ang kabuuan ng mga weighted squared deviations. Ang paggamit ng magagamit na GLS ay nauugnay sa pangangailangan para sa isang malaking bilang ng mga obserbasyon na lampas sa bilang ng mga tinantyang parameter. Ang pinaka-kanais-nais para sa paggamit ng GLS ay ang kaso kapag ang error (nalalabi) ay proporsyonal sa isa sa mga independyenteng variable at ang mga resultang pagtatantya ay pare-pareho. Kung, gayunpaman, sa isang modelo na may heteroscedasticity, kinakailangan na gumamit ng hindi GLS, ngunit karaniwang LSM, pagkatapos ay upang makakuha ng pare-parehong mga pagtatantya, ang isa ay maaaring gumamit ng mga pagtatantya ng error sa White o Nevie-West form.

Kapag sinusuri ang serye ng oras, madalas na kinakailangang isaalang-alang ang istatistikal na pag-asa ng mga obserbasyon sa iba't ibang mga punto sa oras. Sa kasong ito, ang pagpapalagay ng mga hindi nauugnay na mga error ay hindi nasiyahan. Isipin mo simpleng modelo, kung saan ang mga error ay bumubuo ng isang first-order na autoregressive na proseso. Sa kasong ito, ang mga error ay nakakatugon sa isang simpleng pag-uulit na ugnayan, sa kanang bahagi kung saan ang isa sa mga termino ay isang pagkakasunud-sunod ng mga independiyenteng normal na ipinamamahagi na mga random na variable na may zero mean at pare-pareho ang pagkakaiba. Ang pangalawang termino ay ang produkto ng parameter (autoregression coefficient) at ang mga halaga ng mga nalalabi sa nakaraang panahon. Ang pagkakasunud-sunod ng mga halaga ng error (nalalabi) mismo ay bumubuo ng isang nakatigil na random na proseso. Ang isang nakatigil na random na proseso ay nailalarawan sa pamamagitan ng pagiging matatag ng mga katangian nito sa paglipas ng panahon, sa partikular, ang ibig sabihin at pagkakaiba. Sa kasong ito, ang covariance matrix ng interes sa amin (mga miyembro nito) ay madaling maisulat gamit ang mga kapangyarihan ng parameter.

Ang pagtatantya ng autoregressive na modelo para sa isang kilalang parameter ay ginagawa gamit ang GLS. Sa kasong ito, sapat na lamang na bawasan ang orihinal na modelo sa pamamagitan ng isang simpleng pagbabago sa isang modelo na ang mga pagkakamali ay nakakatugon sa mga kondisyon ng karaniwang modelo ng regression. Napakabihirang, ngunit mayroon pa ring sitwasyon kung saan kilala ang parameter ng autoregression. Samakatuwid, sa pangkalahatan ay kinakailangan na magsagawa ng pagtatantya sa isang hindi kilalang parameter na autoregressive. May tatlong pinakakaraniwang ginagamit na pamamaraan ng pagtatasa. Cochrane-Orcutt method, Hildreth-Lou procedure at Durbin method.

Sa pangkalahatan, ang mga sumusunod na konklusyon ay totoo. Ang pagtatasa ng serye ng oras ay nangangailangan ng pagwawasto ng mga kumbensyonal na hindi bababa sa mga parisukat, dahil ang mga error sa kasong ito ay kadalasang nakakaugnay. Kadalasan ang mga error na ito ay bumubuo ng isang first-order stationary autoregressive na proseso. Ang mga pagtatantya ng OLS para sa first-order na autoregression ay walang kinikilingan, pare-pareho, ngunit hindi mahusay. Sa isang kilalang autoregression coefficient, ang OLS ay binabawasan sa mga simpleng pagbabagong-anyo (pagwawasto) ng orihinal na sistema at pagkatapos ay sa paglalapat ng karaniwang hindi bababa sa mga parisukat. Kung, tulad ng mas madalas na kaso, ang autoregressive coefficient ay hindi alam, kung gayon mayroong ilang mga pamamaraan ng magagamit na GLS, na binubuo sa pagtatantya ng hindi kilalang parameter (coefficient), pagkatapos kung saan ang parehong mga pagbabago ay inilapat tulad ng sa nakaraang kaso ng kilalang parameter.

37. Ang konsepto ng Breusch-Pagan test, ang Goldfeldt-Quandt test