Mga formula ng MNC. Pinakamababang mga parisukat sa excel - gamit ang trend function

Kung ilan pisikal na bilang depende sa isa pang dami, kung gayon ang pag-asa na ito ay maaaring pag-aralan sa pamamagitan ng pagsukat ng y sa iba't ibang mga halaga ng x. Bilang resulta ng mga sukat, isang serye ng mga halaga ang nakuha:

x 1 , x 2 , ..., x i , ... , x n ;

y 1 , y 2 , ..., y i , ... , y n .

Batay sa data ng naturang eksperimento, posibleng i-plot ang dependence y = ƒ(x). Ginagawang posible ng resultang curve na hatulan ang anyo ng function na ƒ(x). Gayunpaman pare-pareho ang mga koepisyent, na kasama sa function na ito, ay nananatiling hindi kilala. Ang pamamaraan ay nagpapahintulot sa iyo na matukoy ang mga ito hindi bababa sa mga parisukat. Ang mga pang-eksperimentong punto, bilang panuntunan, ay hindi eksaktong namamalagi sa kurba. Ang pamamaraan ng hindi bababa sa mga parisukat ay nangangailangan na ang kabuuan ng mga parisukat na paglihis ng mga pang-eksperimentong punto mula sa kurba, i.e. 2 ang pinakamaliit.

Sa pagsasagawa, ang pamamaraang ito ay pinakamadalas (at pinakasimpleng) ginagamit sa kaso ng isang linear na relasyon, i.e. kailan

y=kx o y = a + bx.

Ang linear dependence ay napakalawak sa pisika. At kahit na ang dependence ay hindi linear, kadalasang sinusubukan nilang bumuo ng isang graph sa paraang makakuha ng isang tuwid na linya. Halimbawa, kung ipinapalagay na ang refractive index ng salamin n ay nauugnay sa wavelength λ ng light wave sa pamamagitan ng kaugnayan n = a + b/λ 2 , kung gayon ang dependence ng n sa λ -2 ay naka-plot sa graph .

Isaalang-alang ang pagtitiwala y=kx(tuwid na linya na dumadaan sa pinanggalingan). Buuin natin ang halaga φ ang kabuuan ng mga squared deviations ng ating mga puntos mula sa tuwid na linya

Ang halaga ng φ ay palaging positibo at lumalabas na mas maliit, mas malapit ang ating mga punto sa tuwid na linya. Ang pamamaraan ng hindi bababa sa mga parisukat ay nagsasaad na para sa k isa ay dapat pumili ng ganoong halaga kung saan ang φ ay may pinakamababa


o
(19)

Ang pagkalkula ay nagpapakita na ang root-mean-square error sa pagtukoy ng halaga ng k ay katumbas ng

, (20)
kung saan ang n ay ang bilang ng mga sukat.

Isaalang-alang natin ngayon ang isang medyo mas mahirap na kaso, kapag ang mga puntos ay dapat masiyahan ang formula y = a + bx(isang tuwid na linya na hindi dumadaan sa pinanggalingan).

Ang gawain ay upang mahanap ang pinakamahusay na mga halaga ng a at b mula sa ibinigay na hanay ng mga halaga x i , y i .

Binubuo namin muli ang parisukat na anyo φ, katumbas ng kabuuan squared deviations ng mga puntos x i , y i mula sa isang tuwid na linya

at hanapin ang mga halaga a at b kung saan ang φ ay may pinakamababa

;

.

.

Ang pinagsamang solusyon ng mga equation na ito ay nagbibigay

(21)

Ang root-mean-square error sa pagtukoy ng a at b ay pantay

(23)

.  (24)

Kapag pinoproseso ang mga resulta ng pagsukat sa pamamagitan ng pamamaraang ito, maginhawang ibuod ang lahat ng data sa isang talahanayan kung saan ang lahat ng mga kabuuan na kasama sa mga formula (19)(24) ay paunang kinakalkula. Ang mga anyo ng mga talahanayang ito ay ipinapakita sa mga halimbawa sa ibaba.

Halimbawa 1 Ang pangunahing equation ng dynamics ng rotational motion ε = M/J (isang tuwid na linya na dumadaan sa pinanggalingan) ay pinag-aralan. Para sa iba't ibang mga halaga ng sandaling M, ang angular acceleration ε ng isang tiyak na katawan ay sinusukat. Kinakailangan upang matukoy ang sandali ng pagkawalang-galaw ng katawan na ito. Ang mga resulta ng mga sukat ng sandali ng puwersa at angular acceleration ay nakalista sa pangalawa at pangatlong hanay mga talahanayan 5.

Talahanayan 5
n M, N m ε, s-1 M2 M e ε - kM (ε - kM) 2
1 1.44 0.52 2.0736 0.7488 0.039432 0.001555
2 3.12 1.06 9.7344 3.3072 0.018768 0.000352
3 4.59 1.45 21.0681 6.6555 -0.08181 0.006693
4 5.90 1.92 34.81 11.328 -0.049 0.002401
5 7.45 2.56 55.5025 19.072 0.073725 0.005435
– – 123.1886 41.1115 – 0.016436

Sa pamamagitan ng formula (19) natutukoy natin:

.

Upang matukoy ang root-mean-square error, ginagamit namin ang formula (20)

0.005775kg-isa · m -2 .

Sa pamamagitan ng formula (18) mayroon tayo

; .

SJ = (2.996 0.005775)/0.3337 = 0.05185 kg m 2.

Dahil sa pagiging maaasahan P = 0.95, ayon sa talahanayan ng mga koepisyent ng Mag-aaral para sa n = 5, makikita natin ang t = 2.78 at matukoy ganap na pagkakamaliΔJ = 2.78 0.05185 = 0.1441 ≈ 0.2 kg m 2.

Sinusulat namin ang mga resulta sa form:

J = (3.0 ± 0.2) kg m 2;


Halimbawa 2 Kinakalkula namin ang koepisyent ng temperatura ng paglaban ng metal gamit ang paraan ng hindi bababa sa mga parisukat. Ang paglaban ay nakasalalay sa temperatura ayon sa isang linear na batas

R t \u003d R 0 (1 + α t °) \u003d R 0 + R 0 α t °.

Tinutukoy ng libreng termino ang paglaban R 0 sa temperatura na 0 ° C, at ang produkto ng slope koepisyent ng temperaturaα sa paglaban R 0 .

Ang mga resulta ng mga sukat at kalkulasyon ay ibinibigay sa talahanayan ( tingnan ang talahanayan 6).

Talahanayan 6
n t°, s r, Ohm t-¯t (t-¯t) 2 (t-¯t)r r-bt-a (r - bt - a) 2,10 -6
1 23 1.242 -62.8333 3948.028 -78.039 0.007673 58.8722
2 59 1.326 -26.8333 720.0278 -35.581 -0.00353 12.4959
3 84 1.386 -1.83333 3.361111 -2.541 -0.00965 93.1506
4 96 1.417 10.16667 103.3611 14.40617 -0.01039 107.898
5 120 1.512 34.16667 1167.361 51.66 0.021141 446.932
6 133 1.520 47.16667 2224.694 71.69333 -0.00524 27.4556
515 8.403 – 8166.833 21.5985 – 746.804
∑/n 85.83333 1.4005 – – – – –

Sa pamamagitan ng mga formula (21), (22) natutukoy natin

R 0 = ¯ R- α R 0 ¯ t = 1.4005 - 0.002645 85.83333 = 1.1735 Ohm.

Maghanap tayo ng error sa kahulugan ng α. Dahil , pagkatapos ay sa pamamagitan ng formula (18) mayroon tayong:

.

Gamit ang mga formula (23), (24) mayroon tayo

;

0.014126 Ohm.

Dahil sa pagiging maaasahan P = 0.95, ayon sa talahanayan ng mga koepisyent ng Mag-aaral para sa n = 6, makikita natin ang t = 2.57 at tinutukoy ang ganap na error Δα = 2.57 0.000132 = 0.000338 deg -1.

α = (23 ± 4) 10 -4 granizo-1 sa P = 0.95.


Halimbawa 3 Kinakailangang matukoy ang radius ng curvature ng lens mula sa mga singsing ni Newton. Ang radii ng mga singsing ni Newton r m ay sinusukat at ang mga bilang ng mga singsing na ito ay natukoy. Ang radii ng mga singsing ni Newton ay nauugnay sa radius ng curvature ng lens R at ang ring number sa pamamagitan ng equation

r 2 m = mλR - 2d 0 R,

kung saan d 0 ang kapal ng puwang sa pagitan ng lens at ng plane-parallel plate (o lens deformation),

Ang λ ay ang wavelength ng liwanag ng insidente.

λ = (600 ± 6) nm;
r 2 m = y;
m = x;
λR = b;
-2d 0 R = a,

pagkatapos ay ang equation ay kukuha ng anyo y = a + bx.

.

Ang mga resulta ng mga sukat at kalkulasyon ay ipinasok talahanayan 7.

Talahanayan 7
n x = m y \u003d r 2, 10 -2 mm 2 m-¯m (m-¯m) 2 (m-¯m)y y-bx-a, 10-4 (y - bx - a) 2, 10 -6
1 1 6.101 -2.5 6.25 -0.152525 12.01 1.44229
2 2 11.834 -1.5 2.25 -0.17751 -9.6 0.930766
3 3 17.808 -0.5 0.25 -0.08904 -7.2 0.519086
4 4 23.814 0.5 0.25 0.11907 -1.6 0.0243955
5 5 29.812 1.5 2.25 0.44718 3.28 0.107646
6 6 35.760 2.5 6.25 0.894 3.12 0.0975819
21 125.129 – 17.5 1.041175 – 3.12176
∑/n 3.5 20.8548333 – – – – –

Na nakakahanap ng pinakamalawak na aplikasyon sa iba't ibang larangan ng agham at kasanayan. Ito ay maaaring pisika, kimika, biyolohiya, ekonomiya, sosyolohiya, sikolohiya at iba pa at iba pa. Sa pamamagitan ng kalooban ng kapalaran, madalas kong kailangang harapin ang ekonomiya, at samakatuwid ngayon ay mag-aayos ako para sa iyo ng isang tiket sa isang kamangha-manghang bansa na tinatawag na Econometrics=) … Paanong ayaw mo niyan?! Napakaganda doon - kailangan mo lang magdesisyon! …Ngunit ang malamang na gusto mo ay matutunan kung paano lutasin ang mga problema hindi bababa sa mga parisukat. At lalo na ang masigasig na mga mambabasa ay matututong lutasin ang mga ito hindi lamang nang tumpak, kundi pati na rin NAPAKABILIS ;-) Ngunit una pangkalahatang pahayag ng problema+ kaugnay na halimbawa:

Hayaang pag-aralan ang mga indicator sa ilang subject area na may quantitative expression. Kasabay nito, mayroong bawat dahilan upang maniwala na ang tagapagpahiwatig ay nakasalalay sa tagapagpahiwatig. Ang pagpapalagay na ito ay maaaring parehong siyentipikong hypothesis at batay sa elementarya bait. Iwanan natin ang agham, gayunpaman, at tuklasin ang higit pang mga lugar na nakakatuwang - ibig sabihin, mga grocery store. Ipahiwatig sa pamamagitan ng:

– retail space ng isang grocery store, sq.m.,
- taunang turnover ng isang grocery store, milyong rubles.

Ito ay lubos na malinaw kung ano mas maraming lugar tindahan, mas malaki ang turnover nito sa karamihan ng mga kaso.

Ipagpalagay na pagkatapos magsagawa ng mga obserbasyon / mga eksperimento / mga kalkulasyon / pagsasayaw gamit ang isang tamburin, mayroon kami sa aming pagtatapon ng numerical data:

Sa mga grocery store, sa palagay ko ang lahat ay malinaw: - ito ang lugar ng 1st store, - ang taunang turnover nito, - ang lugar ng 2nd store, - ang taunang turnover nito, atbp. Sa pamamagitan ng paraan, hindi kinakailangan na magkaroon ng access sa mga classified na materyales - ang isang medyo tumpak na pagtatasa ng turnover ay maaaring makuha gamit ang mga istatistika ng matematika. Gayunpaman, huwag magambala, ang kurso ng komersyal na espiya ay binabayaran na =)

Ang data ng tabular ay maaari ding isulat sa anyo ng mga puntos at ilarawan sa karaniwang paraan para sa atin. Sistema ng Cartesian .

Kami ang sasagot mahalagang tanong: ilang puntos ang kailangan para sa isang qualitative study?

Ang mas malaki, mas mabuti. Ang minimum na tinatanggap na set ay binubuo ng 5-6 puntos. Bilang karagdagan, kung hindi sa malaking bilang data, ang mga "abnormal" na resulta ay hindi dapat isama sa sample. Kaya, halimbawa, ang isang maliit na elite na tindahan ay maaaring makatulong sa mga order ng magnitude nang higit pa kaysa sa "kanilang mga kasamahan", at sa gayon ay binabaluktot pangkalahatang pattern, na mahahanap!

Kung ito ay medyo simple, kailangan nating pumili ng isang function, iskedyul na pumasa nang mas malapit hangga't maaari sa mga puntos . Ang ganitong function ay tinatawag tinatantiya (approximation - approximation) o teoretikal na pag-andar . Sa pangkalahatan, dito agad lumilitaw ang isang halatang "nagpapanggap" - isang polynomial ng mataas na antas, ang graph kung saan dumadaan sa LAHAT ng mga puntos. Ngunit ang pagpipiliang ito ay kumplikado, at kadalasan ay hindi tama. (dahil ang tsart ay "hangin" sa lahat ng oras at hindi maganda ang sumasalamin sa pangunahing trend).

Kaya, ang nais na pag-andar ay dapat na sapat na simple at sa parehong oras ay sumasalamin sa pag-asa nang sapat. Tulad ng maaari mong hulaan, ang isa sa mga pamamaraan para sa paghahanap ng mga naturang function ay tinatawag hindi bababa sa mga parisukat. Una, suriin natin ang kakanyahan nito pangkalahatang pananaw. Hayaan ang ilang function na humigit-kumulang sa pang-eksperimentong data:


Paano suriin ang katumpakan ng pagtatantya na ito? Kalkulahin din natin ang mga pagkakaiba (mga paglihis) sa pagitan ng mga pang-eksperimentong at functional na halaga (pinag-aaralan namin ang pagguhit). Ang unang naiisip na pumasok sa isip ay ang tantiyahin kung gaano kalaki ang kabuuan, ngunit ang problema ay ang mga pagkakaiba ay maaaring negatibo. (Halimbawa, ) at ang mga paglihis bilang resulta ng naturang pagsusuma ay magkakansela sa isa't isa. Samakatuwid, bilang pagtatantya ng katumpakan ng pagtatantya, iminumungkahi nito ang sarili nitong kunin ang kabuuan mga module mga paglihis:

o sa nakatiklop na anyo: (bigla, sino ang hindi nakakaalam: ay ang sum icon, at isang auxiliary variable-"counter", na kumukuha ng mga halaga mula 1 hanggang ).

Tinatayang ang mga pang-eksperimentong punto na may iba't ibang mga pag-andar, makukuha natin iba't ibang kahulugan, at malinaw naman, kung saan mas kaunti ang sum na ito, mas tumpak ang function na iyon.

Ang ganitong paraan ay umiiral at tinatawag hindi bababa sa modulus na pamamaraan. Gayunpaman, sa pagsasagawa ito ay naging mas laganap. hindi bababa sa parisukat na paraan, kung saan ang posible mga negatibong halaga ay inalis hindi ng modulus, ngunit sa pamamagitan ng pag-squaring ng mga deviations:

, pagkatapos kung saan ang mga pagsisikap ay nakadirekta sa pagpili ng naturang function na ang kabuuan ng mga squared deviations ay kasing liit hangga't maaari. Sa totoo lang, kaya ang pangalan ng pamamaraan.

At ngayon ay bumalik kami sa isa pa mahalagang punto: tulad ng nabanggit sa itaas, ang napiling function ay dapat na medyo simple - ngunit mayroon ding maraming mga naturang function: linear , hyperbolic, exponential, logarithmic, parisukat atbp. At, siyempre, dito gusto kong agad na "bawasan ang larangan ng aktibidad." Anong klase ng mga function ang pipiliin para sa pananaliksik? Primitive ngunit epektibong pamamaraan:

- Ang pinakamadaling paraan upang gumuhit ng mga puntos sa pagguhit at pag-aralan ang kanilang lokasyon. Kung sila ay nasa isang tuwid na linya, dapat mong hanapin straight line equation na may pinakamainam na halaga at . Sa madaling salita, ang gawain ay upang mahanap ang GANITONG mga coefficient - upang ang kabuuan ng mga squared deviations ay ang pinakamaliit.

Kung ang mga punto ay matatagpuan, halimbawa, kasama hyperbole, pagkatapos ay malinaw na ang linear function ay magbibigay ng hindi magandang approximation. Sa kasong ito, hinahanap namin ang pinaka "kanais-nais" na mga coefficient para sa hyperbola equation - mga nagbibigay ang pinakamababang halaga mga parisukat .

Ngayon pansinin na sa parehong mga kaso ang pinag-uusapan natin function ng dalawang variable, na ang mga argumento ay naghanap ng mga opsyon sa dependency:

At sa esensya, kailangan nating lutasin ang isang karaniwang problema - upang mahanap minimum ng isang function ng dalawang variable.

Alalahanin ang aming halimbawa: ipagpalagay na ang mga punto ng "shop" ay malamang na matatagpuan sa isang tuwid na linya at mayroong lahat ng dahilan upang maniwala sa presensya linear dependence turnover mula sa lugar ng kalakalan. Hanapin natin ang GANOONG coefficient na "a" at "be" upang ang kabuuan ng mga squared deviations ay ang pinakamaliit. Lahat gaya ng dati - una mga partial derivatives ng 1st order. Ayon kay tuntunin ng linearity maaari kang mag-iba sa ilalim mismo ng icon ng kabuuan:

Kung nais mong gamitin ang impormasyong ito para sa isang sanaysay o coursework, ako ay lubos na magpapasalamat para sa link sa listahan ng mga mapagkukunan, hindi ka makakahanap ng ganoong detalyadong mga kalkulasyon kahit saan:

Gumawa tayo ng isang karaniwang sistema:

Binabawasan namin ang bawat equation ng "dalawa" at, bilang karagdagan, "paghiwa-hiwalayin" ang mga kabuuan:

Tandaan : nakapag-iisa na pag-aralan kung bakit maaaring alisin ang "a" at "be" sa icon ng kabuuan. Sa pamamagitan ng paraan, pormal na ito ay maaaring gawin sa kabuuan

Isulat muli natin ang system sa isang "inilapat" na form:

pagkatapos kung saan ang algorithm para sa paglutas ng aming problema ay nagsisimulang iguguhit:

Alam ba natin ang mga coordinate ng mga puntos? Alam namin. Sums mahahanap natin? Madali. Binubuo namin ang pinakasimpleng sistema ng dalawang linear na equation na may dalawang hindi alam("a" at "beh"). Niresolba namin ang sistema, halimbawa, Pamamaraan ni Cramer, na nagreresulta sa isang nakatigil na punto . Sinusuri sapat na kondisyon para sa isang extremum, maaari naming i-verify na sa puntong ito ang function tumpak na umabot pinakamababa. Ang pag-verify ay nauugnay sa mga karagdagang kalkulasyon at samakatuwid ay iiwan namin ito sa likod ng mga eksena. (kung kinakailangan, ang nawawalang frame ay maaaring tingnan). Ginagawa namin ang pangwakas na konklusyon:

Function ang pinakamahusay na paraan (hindi bababa sa kumpara sa anumang iba pang linear function) tinatantya ang mga pang-eksperimentong punto . Sa halos pagsasalita, ang graph nito ay pumasa nang mas malapit hangga't maaari sa mga puntong ito. Sa tradisyon econometrics ang resultang approximating function ay tinatawag din equation ng pares linear regression .

Malaki ang problemang isinasaalang-alang praktikal na halaga. Sa sitwasyon sa ating halimbawa, ang equation nagbibigay-daan sa iyo upang mahulaan kung anong uri ng turnover ("yig") ay nasa tindahan na may isa o ibang halaga ng lugar ng pagbebenta (isa o ibang kahulugan ng "x"). Oo, ang magreresultang pagtataya ay magiging isang hula lamang, ngunit sa maraming mga kaso ito ay magiging tumpak.

Susuriin ko lamang ang isang problema sa "tunay" na mga numero, dahil walang mga paghihirap dito - lahat ng mga kalkulasyon ay nasa antas kurikulum ng paaralan 7-8 baitang. Sa 95 porsiyento ng mga kaso, hihilingin sa iyo na maghanap lamang ng isang linear na function, ngunit sa pinakadulo ng artikulo ay ipapakita ko na hindi na mahirap hanapin ang mga equation para sa pinakamainam na hyperbola, exponent, at ilang iba pang mga function.

Sa katunayan, nananatili itong ipamahagi ang mga ipinangakong goodies - upang matutunan mo kung paano lutasin ang mga naturang halimbawa hindi lamang tumpak, ngunit mabilis din. Maingat naming pinag-aaralan ang pamantayan:

Isang gawain

Bilang resulta ng pag-aaral ng ugnayan sa pagitan ng dalawang tagapagpahiwatig, ang mga sumusunod na pares ng mga numero ay nakuha:

Gamit ang paraan ng least squares, hanapin ang linear function na pinakamahusay na tinatantya ang empirical (nakaranas) datos. Gumawa ng drawing kung saan, sa isang Cartesian rectangular coordinate system, mag-plot ng mga pang-eksperimentong punto at isang graph ng approximating function. . Hanapin ang kabuuan ng mga squared deviations sa pagitan ng empirical at theoretical values. Alamin kung magiging mas mahusay ang function (sa mga tuntunin ng pamamaraan ng least squares) tinatayang mga pang-eksperimentong punto.

Tandaan na ang mga halaga ng "x" ay mga likas na halaga, at ito ay may katangian na makabuluhang kahulugan, na tatalakayin ko sa ibang pagkakataon; ngunit sila, siyempre, ay maaaring maging fractional. Bilang karagdagan, depende sa nilalaman ng isang partikular na gawain, ang parehong "X" at "G" na mga halaga ay maaaring ganap o bahagyang negatibo. Buweno, binigyan kami ng isang "walang mukha" na gawain, at sinimulan namin ito solusyon:

Odds pinakamainam na pag-andar hanapin bilang solusyon sa system:

Para sa mga layunin ng isang mas compact na notation, ang "counter" na variable ay maaaring tanggalin, dahil ito ay malinaw na na ang pagsusuma ay isinasagawa mula 1 hanggang .

Ito ay mas maginhawa upang kalkulahin ang mga kinakailangang halaga sa isang tabular form:


Ang mga kalkulasyon ay maaaring isagawa sa isang microcalculator, ngunit mas mahusay na gumamit ng Excel - parehong mas mabilis at walang mga error; manood ng maikling video:

Kaya, nakukuha namin ang sumusunod sistema:

Dito maaari mong i-multiply ang pangalawang equation sa pamamagitan ng 3 at ibawas ang 2nd mula sa 1st equation term sa pamamagitan ng term. Ngunit ito ay swerte - sa pagsasagawa, ang mga sistema ay madalas na hindi likas na matalino, at sa mga ganitong kaso nakakatipid ito Pamamaraan ni Cramer:
, kaya may kakaibang solusyon ang system.

Suriin natin. Naiintindihan ko na ayaw ko, ngunit bakit laktawan ang mga pagkakamali kung saan talagang hindi mo makaligtaan ang mga ito? Palitan ang nahanap na solusyon sa kaliwang bahagi ng bawat equation ng system:

Ang mga tamang bahagi ng kaukulang mga equation ay nakuha, na nangangahulugan na ang sistema ay nalutas nang tama.

Kaya, ang gustong approximating function: – mula sa lahat ng linear function Ang pang-eksperimentong data ay pinakamahusay na tinatantya nito.

Unlike tuwid dependence ng turnover ng tindahan sa lugar nito, ang nahanap na dependence ay reverse (prinsipyo "mas marami - mas kaunti"), at ang katotohanang ito ay agad na inihayag ng negatibo angular coefficient. Function nagpapaalam sa amin na sa pagtaas ng isang tiyak na tagapagpahiwatig ng 1 yunit, ang halaga ng umaasa na tagapagpahiwatig ay bumababa karaniwan ng 0.65 units. Tulad ng sinasabi nila, mas mataas ang presyo ng bakwit, mas mababa ang ibinebenta.

Upang i-plot ang approximating function, makikita natin ang dalawa sa mga value nito:

at isagawa ang pagguhit:


Ang itinayong linya ay tinatawag linya ng trend (ibig sabihin, ang linya linear na kalakaran, ibig sabihin. sa pangkalahatan, ang trend ay hindi kinakailangang isang tuwid na linya). Ang bawat tao'y pamilyar sa pananalitang "upang maging nasa uso", at sa palagay ko ang terminong ito ay hindi nangangailangan ng karagdagang mga komento.

Kalkulahin ang kabuuan ng mga squared deviations sa pagitan ng empirical at theoretical values. Sa geometriko, ito ang kabuuan ng mga parisukat ng mga haba ng mga segment na "pulang-pula". (dalawa sa mga ito ay napakaliit na hindi mo makita ang mga ito).

Ibuod natin ang mga kalkulasyon sa isang talahanayan:


Maaari silang muling maisagawa nang manu-mano, kung sakaling magbibigay ako ng isang halimbawa para sa unang punto:

ngunit mas mahusay na gawin ang alam nang paraan:

Ulitin natin: ano ang kahulugan ng resulta? Mula sa lahat ng linear function function ang exponent ay ang pinakamaliit, iyon ay, sa pamilya nito ito ang pinakamahusay na approximation. At dito, sa pamamagitan ng paraan, ang huling tanong ng problema ay hindi sinasadya: paano kung ang iminungkahing exponential function mas mabuti bang tantiyahin ang mga pang-eksperimentong punto?

Hanapin natin ang katumbas na kabuuan ng mga squared deviations - upang makilala ang mga ito, itatalaga ko ang mga ito sa titik na "epsilon". Ang pamamaraan ay eksaktong pareho:


At muli para sa bawat pagkalkula ng sunog para sa 1st point:

Sa Excel, ginagamit namin ang karaniwang function EXP (Matatagpuan ang syntax sa Excel Help).

Konklusyon: , kaya tinatantya ng exponential function ang mga pang-eksperimentong puntos na mas malala kaysa sa tuwid na linya .

Ngunit dapat tandaan dito na "mas malala" ay hindi pa ibig sabihin, anong mali. Ngayon ay gumawa ako ng graph ng exponential function na ito - at pumasa din ito malapit sa mga puntos - kaya't kung walang analytical na pag-aaral ay mahirap sabihin kung aling function ang mas tumpak.

Nakumpleto nito ang solusyon, at bumalik ako sa tanong ng mga natural na halaga ng argumento. Sa iba't ibang mga pag-aaral, bilang panuntunan, pang-ekonomiya o sosyolohikal, buwan, taon o iba pang pantay na agwat ng oras ay binibilang ng natural na "X". Isaalang-alang, halimbawa, ang gayong problema.

  • Pagtuturo

Panimula

Ako ay isang computer programmer. Ginawa ko ang pinakamalaking hakbang sa aking karera noong natutunan kong sabihin: "Wala akong maintindihan!" Ngayon hindi ako nahihiyang sabihin sa luminary ng agham na binibigyan niya ako ng lecture, na hindi ko maintindihan kung ano ang pinag-uusapan nito, ang luminary, sa akin. At napakahirap. Oo, mahirap at nakakahiyang aminin na hindi mo alam. Sino ang gustong umamin na hindi niya alam ang mga pangunahing kaalaman ng isang bagay-doon. Dahil sa aking propesyon, kailangan kong dumalo sa isang malaking bilang ng mga pagtatanghal at mga lektura, kung saan, aminado ako, sa karamihan ng mga kaso nakakaramdam ako ng antok, dahil wala akong naiintindihan. At hindi ko maintindihan dahil ang malaking problema ng kasalukuyang sitwasyon sa agham ay nasa matematika. Ipinapalagay nito na ang lahat ng mga mag-aaral ay pamilyar sa ganap na lahat ng mga lugar ng matematika (na walang katotohanan). Ang aminin na hindi mo alam kung ano ang isang derivative (na ito ay isang maliit na mamaya) ay isang kahihiyan.

Pero natutunan kong sabihin na hindi ko alam kung ano ang multiplication. Oo, hindi ko alam kung ano ang subalgebra sa Lie algebra. Oo, hindi ko alam kung bakit kailangan mo sa buhay quadratic equation. Oo nga pala, kung sigurado ka na alam mo, may pag-uusapan tayo! Ang matematika ay isang serye ng mga trick. Sinisikap ng mga mathematician na lituhin at takutin ang publiko; kung saan walang kalituhan, walang reputasyon, walang awtoridad. Oo, ito ay prestihiyosong magsalita sa pinaka-abstract na wika na posible, na kung saan ay ganap na walang kapararakan sa sarili nito.

Alam mo ba kung ano ang derivative? Malamang na sasabihin mo sa akin ang tungkol sa limitasyon ng ugnayan ng pagkakaiba. Sa unang taon ng matematika sa St. Petersburg State University, Viktor Petrovich Khavin ako tinukoy derivative bilang koepisyent ng unang termino ng Taylor series ng function sa punto (ito ay isang hiwalay na himnastiko upang matukoy ang Taylor series na walang derivatives). Matagal akong natawa sa depinisyon na ito, hanggang sa huli kong naintindihan kung tungkol saan ito. Ang derivative ay hindi hihigit sa isang sukatan lamang kung gaano kapareho ang function na ating pinagkaiba sa function na y=x, y=x^2, y=x^3.

Ako ngayon ay may karangalan ng pagtuturo sa mga mag-aaral na takot matematika. Kung natatakot ka sa matematika - papunta na kami. Sa sandaling sinubukan mong magbasa ng ilang teksto at sa tingin mo ito ay sobrang kumplikado, pagkatapos ay alamin na ito ay hindi maganda ang pagkakasulat. Pinagtatalunan ko na walang isang solong lugar ng matematika na hindi masasabi tungkol sa "sa mga daliri" nang hindi nawawala ang katumpakan.

Hamon sa Hinaharap: Inutusan ko ang aking mga estudyante na maunawaan kung ano ang linear-quadratic controller. Huwag kang mahiya, sayangin ang tatlong minuto ng iyong buhay, sundan ang link. Kung hindi mo maintindihan ang anumang bagay, pagkatapos ay nasa daan na kami. Ako (isang propesyonal na mathematician-programmer) ay wala ring naintindihan. At tinitiyak ko sa iyo, maaari itong ayusin "sa mga daliri." Sa sa sandaling ito Hindi ko alam kung ano ito, ngunit sinisiguro ko sa iyo na malalaman natin ito.

Kaya, ang unang lektura na ibibigay ko sa aking mga mag-aaral pagkatapos nilang tumakbo sa akin nang may takot na may mga salitang ang linear-quadratic controller ay isang kakila-kilabot na bug na hinding-hindi mo madadaanan sa iyong buhay ay mga pamamaraan ng least squares. Maaari kang magpasya linear na equation? Kung binabasa mo ang tekstong ito, malamang na hindi.

Kaya, dahil sa dalawang puntos (x0, y0), (x1, y1), halimbawa, (1,1) at (3,2), ang gawain ay hanapin ang equation ng isang tuwid na linya na dumadaan sa dalawang puntong ito:

paglalarawan

Ang tuwid na linyang ito ay dapat magkaroon ng equation tulad ng sumusunod:

Dito hindi alam sa amin ang alpha at beta, ngunit alam ang dalawang punto ng linyang ito:

Ang equation na ito ay maaaring isulat sa matrix form:

Dito dapat mong gawin lyrical digression: ano ang matrix? Ang matrix ay walang iba kundi isang two-dimensional array. Ito ay isang paraan ng pag-iimbak ng data, wala nang mga halaga ang dapat ibigay dito. Nasa sa atin kung paano eksaktong i-interpret ang isang tiyak na matrix. Paminsan-minsan, bibigyang-kahulugan ko ito bilang isang linear na pagmamapa, pana-panahon bilang isang parisukat na anyo, at kung minsan bilang isang set lamang ng mga vector. Ang lahat ng ito ay lilinawin sa konteksto.

Palitan natin ang mga partikular na matrice ng kanilang simbolikong representasyon:

Pagkatapos (alpha, beta) ay madaling mahanap:

Mas partikular para sa aming nakaraang data:

Na humahantong sa sumusunod na equation ng isang tuwid na linya na dumadaan sa mga puntos (1,1) at (3,2):

Okay, malinaw na ang lahat dito. At hanapin natin ang equation ng isang tuwid na linya na dumadaan tatlo puntos: (x0,y0), (x1,y1) at (x2,y2):

Oh-oh-oh, ngunit mayroon kaming tatlong equation para sa dalawang hindi alam! Sasabihin ng karaniwang mathematician na walang solusyon. Ano ang sasabihin ng programmer? At muli niyang isusulat ang nakaraang sistema ng mga equation sa sumusunod na anyo:

Sa kaso natin mga vector i,j,b ay tatlong-dimensional, kaya (sa pangkalahatang kaso) walang solusyon sa sistemang ito. Ang anumang vector (alpha\*i + beta\*j) ay nasa eroplanong pinalawak ng mga vectors (i, j). Kung ang b ay hindi kabilang sa eroplanong ito, kung gayon walang solusyon (ang pagkakapantay-pantay sa equation ay hindi makakamit). Anong gagawin? Maghanap tayo ng kompromiso. Tukuyin natin ng e(alpha, beta) kung paano eksaktong hindi namin nakamit ang pagkakapantay-pantay:

At susubukan naming bawasan ang error na ito:

Bakit parisukat?

Kami ay naghahanap hindi lamang para sa minimum ng pamantayan, ngunit para sa pinakamababang parisukat ng pamantayan. Bakit? Ang pinakamababang punto mismo ay nagtutugma, at ang parisukat ay nagbibigay ng isang maayos na pag-andar (isang parisukat na pag-andar ng mga argumento (alpha,beta)), habang ang haba lamang ay nagbibigay ng isang function sa anyo ng isang kono, na hindi nakikilala sa pinakamababang punto. Brr. Ang parisukat ay mas maginhawa.

Malinaw, ang error ay minimize kapag ang vector e orthogonal sa eroplanong pinalawak ng mga vectors i at j.

Ilustrasyon

Sa madaling salita: naghahanap kami ng isang linya na ang kabuuan ng mga parisukat na haba ng mga distansya mula sa lahat ng mga punto hanggang sa linyang ito ay minimal:

I-UPDATE: dito mayroon akong hamba, ang distansya sa linya ay dapat na sukatin nang patayo, hindi orthographic projection. Tama ang commenter na ito.

Ilustrasyon

Sa ganap na magkakaibang mga salita (maingat, hindi gaanong pormal, ngunit dapat itong malinaw sa mga daliri): kinukuha namin ang lahat ng posibleng mga linya sa pagitan ng lahat ng mga pares ng mga punto at hinahanap ang average na linya sa pagitan ng lahat:

Ilustrasyon

Ang isa pang paliwanag sa mga daliri: nag-attach kami ng isang spring sa pagitan ng lahat ng mga punto ng data (narito mayroon kaming tatlo) at ang linya na hinahanap namin, at ang linya ng estado ng balanse ay eksakto kung ano ang hinahanap namin.

Quadratic na anyo minimum

Kaya, pagkakaroon binigay na vector b at ang eroplanong pinalawak ng mga column-vector ng matrix A(sa kasong ito (x0,x1,x2) at (1,1,1)), naghahanap kami ng isang vector e na may pinakamababang parisukat na haba. Malinaw, ang minimum ay makakamit lamang para sa vector e, orthogonal sa eroplano na pinalawak ng mga column-vector ng matrix A:

Sa madaling salita, naghahanap kami ng isang vector x=(alpha, beta) tulad ng:

Ipinaaalala ko sa iyo na ang vector na ito x=(alpha, beta) ay ang pinakamababa quadratic function||e(alpha, beta)||^2:

Dito kapaki-pakinabang na tandaan na ang matrix ay maaaring bigyang-kahulugan pati na rin ang parisukat na anyo, halimbawa, ang identity matrix ((1,0),(0,1)) ay maaaring bigyang-kahulugan bilang isang function ng x^2 + y ^2:

parisukat na anyo

Ang lahat ng gymnastics na ito ay kilala bilang linear regression.

Laplace equation na may Dirichlet boundary condition

Ngayon ang pinakasimpleng tunay na problema: mayroong isang tiyak na triangulated na ibabaw, ito ay kinakailangan upang pakinisin ito. Halimbawa, i-load natin ang modelo ng aking mukha:

Available ang orihinal na commit. Upang mabawasan ang mga panlabas na dependency, kinuha ko ang code ng aking software renderer, na nasa Habré na. Para sa mga solusyon linear na sistema Gumagamit ako ng OpenNL , ito ay isang mahusay na solver, ngunit ito ay talagang mahirap i-install: kailangan mong kopyahin ang dalawang file (.h+.c) sa iyong folder ng proyekto. Ang lahat ng smoothing ay ginagawa sa pamamagitan ng sumusunod na code:

Para sa (int d=0; d<3; d++) { nlNewContext(); nlSolverParameteri(NL_NB_VARIABLES, verts.size()); nlSolverParameteri(NL_LEAST_SQUARES, NL_TRUE); nlBegin(NL_SYSTEM); nlBegin(NL_MATRIX); for (int i=0; i<(int)verts.size(); i++) { nlBegin(NL_ROW); nlCoefficient(i, 1); nlRightHandSide(verts[i][d]); nlEnd(NL_ROW); } for (unsigned int i=0; i&face = mukha[i]; para sa (int j=0; j<3; j++) { nlBegin(NL_ROW); nlCoefficient(face[ j ], 1); nlCoefficient(face[(j+1)%3], -1); nlEnd(NL_ROW); } } nlEnd(NL_MATRIX); nlEnd(NL_SYSTEM); nlSolve(); for (int i=0; i<(int)verts.size(); i++) { verts[i][d] = nlGetVariable(i); } }

Ang mga coordinate ng X, Y at Z ay mapaghihiwalay, hinihiwalay ko ang mga ito. Iyon ay, nilulutas ko ang tatlong sistema ng mga linear na equation, bawat isa ay may parehong bilang ng mga variable bilang ang bilang ng mga vertex sa aking modelo. Ang unang n row ng matrix A ay may isa lamang 1 bawat row, at ang unang n row ng vector b ay may orihinal na mga coordinate ng modelo. Iyon ay, spring-tie ko sa pagitan ng bagong posisyon ng vertex at ng lumang posisyon ng vertex - ang mga bago ay hindi dapat masyadong malayo sa mga luma.

Ang lahat ng kasunod na row ng matrix A (faces.size()*3 = ang bilang ng mga gilid ng lahat ng triangles sa grid) ay may isang paglitaw ng 1 at isang paglitaw ng -1, habang ang vector b ay may zero na bahagi sa tapat. Nangangahulugan ito na naglalagay ako ng spring sa bawat gilid ng aming triangular mesh: sinusubukan ng lahat ng mga gilid na makuha ang parehong vertex bilang kanilang mga panimulang punto at pagtatapos.

Muli: ang lahat ng mga vertex ay mga variable, at hindi sila maaaring lumihis nang malayo sa kanilang orihinal na posisyon, ngunit sa parehong oras sinusubukan nilang maging katulad sa bawat isa.

Narito ang resulta:

Magiging maayos ang lahat, ang modelo ay talagang pinakinis, ngunit lumayo ito sa orihinal nitong gilid. Baguhin natin ng kaunti ang code:

Para sa (int i=0; i<(int)verts.size(); i++) { float scale = border[i] ? 1000: 1; nlBegin(NL_ROW); nlCoefficient(i, scale); nlRightHandSide(scale*verts[i][d]); nlEnd(NL_ROW); }

Sa aming matrix A, para sa mga vertices na nasa gilid, hindi ako nagdaragdag ng isang row mula sa kategoryang v_i = verts[i][d], ngunit 1000*v_i = 1000*verts[i][d]. Ano ang binabago nito? At binabago nito ang aming quadratic form ng error. Ngayon ang isang solong paglihis mula sa tuktok sa gilid ay nagkakahalaga ng hindi isang yunit, tulad ng dati, ngunit 1000 * 1000 na mga yunit. Iyon ay, nag-hang kami ng isang mas malakas na spring sa matinding vertices, mas pinipili ng solusyon na iunat ang iba nang mas malakas. Narito ang resulta:

Doblehin natin ang lakas ng mga bukal sa pagitan ng mga vertex:
nlCoefficient(mukha[j], 2); nlCoefficient(mukha[(j+1)%3], -2);

Ito ay lohikal na ang ibabaw ay naging mas makinis:

At ngayon kahit isang daang beses na mas malakas:

Ano ito? Isipin na nilubog namin ang isang wire ring sa tubig na may sabon. Bilang resulta, ang resultang soap film ay susubukan na magkaroon ng pinakamaliit na curvature hangga't maaari, na humahawak sa parehong hangganan - ang aming wire ring. Ito ay eksakto kung ano ang nakuha namin sa pamamagitan ng pag-aayos ng hangganan at paghingi ng isang makinis na ibabaw sa loob. Binabati kita, nalutas na natin ang Laplace equation na may mga kundisyon sa hangganan ng Dirichlet. Mukhang cool? Ngunit sa katunayan, isang sistema lamang ng mga linear na equation upang malutas.

Poisson equation

Tandaan natin ang isa pang cool na pangalan.

Sabihin nating mayroon akong larawang tulad nito:

Lahat ay mabuti, ngunit hindi ko gusto ang upuan.

Hatiin ko sa kalahati ang larawan:



At pipili ako ng upuan gamit ang aking mga kamay:

Pagkatapos ay i-drag ko ang lahat ng puti sa maskara sa kaliwang bahagi ng larawan, at sa parehong oras ay sasabihin ko sa buong larawan na ang pagkakaiba sa pagitan ng dalawang magkalapit na mga pixel ay dapat na katumbas ng pagkakaiba sa pagitan ng dalawang magkalapit na mga pixel ng kanang larawan:

Para sa (int i=0; i

Narito ang resulta:

Available ang code at mga larawan

Ito ay malawakang ginagamit sa econometrics sa anyo ng isang malinaw na pang-ekonomiyang interpretasyon ng mga parameter nito.

Ang linear regression ay binabawasan sa paghahanap ng equation ng form

o

Uri ng equation nagbibigay-daan para sa ibinigay na mga halaga ng parameter X may mga teoretikal na halaga ng epektibong tampok, na pinapalitan ang aktwal na mga halaga ng kadahilanan dito X.

Ang pagbuo ng linear regression ay bumababa sa pagtatantya ng mga parameter nito − a at sa. Ang mga pagtatantya ng parameter ng linear regression ay matatagpuan sa iba't ibang pamamaraan.

Ang klasikal na diskarte sa pagtatantya ng mga parameter ng linear regression ay batay sa hindi bababa sa mga parisukat(MNK).

Pinapayagan ng LSM ang isa na makakuha ng mga naturang pagtatantya ng parameter a at sa, sa ilalim kung saan ang kabuuan ng mga squared deviations ng aktwal na mga halaga ng resultang katangian (y) mula sa kinakalkula (teoretikal) mini-minimum:

Upang mahanap ang minimum ng isang function, kinakailangan upang kalkulahin ang mga partial derivatives na may paggalang sa bawat isa sa mga parameter. a at b at i-equate ang mga ito sa zero.

Magpakilala sa pamamagitan ng S, pagkatapos:

Ang pagbabago ng formula, nakukuha namin ang sumusunod na sistema ng mga normal na equation para sa pagtantya ng mga parameter a at sa:

Ang paglutas ng sistema ng mga normal na equation (3.5) alinman sa paraan ng sunud-sunod na pag-aalis ng mga variable o sa pamamagitan ng paraan ng mga determinant, makikita natin ang nais na mga pagtatantya ng parameter a at sa.

Parameter sa tinatawag na regression coefficient. Ang halaga nito ay nagpapakita ng average na pagbabago sa resulta na may pagbabago sa factor ng isang yunit.

Ang equation ng regression ay palaging pupunan ng isang tagapagpahiwatig ng higpit ng relasyon. Kapag gumagamit ng linear regression, ang linear correlation coefficient ay kumikilos bilang isang indicator. Mayroong iba't ibang mga pagbabago ng linear correlation coefficient formula. Ang ilan sa mga ito ay nakalista sa ibaba:

Tulad ng alam mo, ang linear correlation coefficient ay nasa loob ng mga limitasyon: -1 1.

Upang masuri ang kalidad ng pagpili ng isang linear function, ang parisukat ay kinakalkula

Isang linear correlation coefficient na tinatawag koepisyent ng pagpapasiya. Ang koepisyent ng determinasyon ay nagpapakilala sa proporsyon ng pagkakaiba-iba ng epektibong tampok y, ipinaliwanag sa pamamagitan ng regression, sa kabuuang pagkakaiba ng nagresultang katangian:

Alinsunod dito, ang halaga 1 - ay nagpapakilala sa proporsyon ng pagpapakalat y, sanhi ng impluwensya ng iba pang mga kadahilanan na hindi isinasaalang-alang sa modelo.

Mga tanong para sa pagpipigil sa sarili

1. Ang kakanyahan ng pamamaraan ng hindi bababa sa mga parisukat?

2. Ilang variable ang nagbibigay ng pairwise regression?

3. Anong koepisyent ang tumutukoy sa higpit ng koneksyon sa pagitan ng mga pagbabago?

4. Sa loob ng anong mga limitasyon natutukoy ang coefficient of determination?

5. Pagtataya ng parameter b sa pagsusuri ng ugnayan-pagbabalik?

1. Christopher Dougherty. Panimula sa econometrics. - M.: INFRA - M, 2001 - 402 p.

2. S.A. Borodich. Econometrics. Minsk LLC "Bagong Kaalaman" 2001.


3. R.U. Rakhmetova Maikling kurso sa econometrics. Pagtuturo. Almaty. 2004. -78s.

4. I.I. Eliseeva. Econometrics. - M.: "Pananalapi at mga istatistika", 2002

5. Buwanang impormasyon at analytical magazine.

Nonlinear na mga modelong pang-ekonomiya. Mga modelo ng nonlinear regression. Pag-convert ng mga variable.

Nonlinear na mga modelo ng ekonomiya..

Pag-convert ng mga variable.

koepisyent ng pagkalastiko.

Kung mayroong mga non-linear na relasyon sa pagitan ng mga pang-ekonomiyang phenomena, kung gayon ang mga ito ay ipinahayag gamit ang kaukulang non-linear na mga pag-andar: halimbawa, isang equilateral hyperbola , pangalawang antas ng mga parabola at iba pa.

Mayroong dalawang klase ng non-linear regressions:

1. Mga regression na hindi linear na may kinalaman sa mga nagpapaliwanag na variable na kasama sa pagsusuri, ngunit linear na may kinalaman sa mga tinantyang parameter, halimbawa:

Mga polynomial ng iba't ibang antas - , ;

Equilateral hyperbole - ;

Semilogarithmic function - .

2. Mga regression na hindi linear sa mga tinantyang parameter, halimbawa:

Kapangyarihan - ;

Nagpapakita -;

Exponential - .

Ang kabuuang kabuuan ng mga squared deviations ng mga indibidwal na halaga ng nagresultang katangian sa mula sa average na halaga ay sanhi ng impluwensya ng maraming mga kadahilanan. May kondisyon naming hinahati ang buong hanay ng mga dahilan sa dalawang grupo: pinag-aralan na salik x at iba pang mga kadahilanan.

Kung ang kadahilanan ay hindi makakaapekto sa resulta, ang linya ng regression sa graph ay kahanay sa axis oh at

Pagkatapos ang buong pagpapakalat ng nagreresultang katangian ay dahil sa impluwensya ng iba pang mga kadahilanan at ang kabuuang kabuuan ng mga squared deviations ay magkakasabay sa nalalabi. Kung ang ibang mga kadahilanan ay hindi nakakaapekto sa resulta, kung gayon nakatali ka Sa X functionally, at ang natitirang kabuuan ng mga parisukat ay zero. Sa kasong ito, ang kabuuan ng mga squared deviations na ipinaliwanag ng regression ay pareho sa kabuuang kabuuan ng mga parisukat.

Dahil hindi lahat ng mga punto ng patlang ng ugnayan ay nasa linya ng pagbabalik, ang kanilang scatter ay palaging nagaganap dahil sa impluwensya ng salik. X, ibig sabihin, regression sa sa X, at sanhi ng pagkilos ng iba pang mga sanhi (hindi maipaliwanag na pagkakaiba-iba). Ang kaangkupan ng linya ng regression para sa forecast ay depende sa kung anong bahagi ng kabuuang variation ng katangian sa mga account para sa ipinaliwanag na pagkakaiba-iba

Malinaw, kung ang kabuuan ng mga squared deviations dahil sa regression ay mas malaki kaysa sa natitirang kabuuan ng mga parisukat, kung gayon ang regression equation ay istatistikal na makabuluhan at ang factor X ay may malaking epekto sa kinalabasan. y.

, i.e. sa bilang ng kalayaan ng independiyenteng pagkakaiba-iba ng tampok. Ang bilang ng mga antas ng kalayaan ay nauugnay sa bilang ng mga yunit ng populasyon n at ang bilang ng mga constant na tinutukoy mula dito. Kaugnay ng problemang pinag-aaralan, ang bilang ng mga antas ng kalayaan ay dapat magpakita kung gaano karaming mga independiyenteng paglihis mula sa P

Ang pagtatasa ng kahalagahan ng regression equation sa kabuuan ay ibinibigay sa tulong ng F- Pamantayan ni Fisher. Sa kasong ito, isang null hypothesis ang iniharap na ang regression coefficient ay katumbas ng zero, i.e. b= 0, at samakatuwid ang kadahilanan X hindi nakakaapekto sa resulta y.

Ang direktang pagkalkula ng F-criterion ay nauuna sa pagsusuri ng pagkakaiba. Ang sentro nito ay ang pagpapalawak ng kabuuang kabuuan ng mga squared deviations ng variable sa mula sa average na halaga sa sa dalawang bahagi - "ipinaliwanag" at "hindi maipaliwanag":

- kabuuang kabuuan ng mga squared deviations;

- kabuuan ng mga squared deviations na ipinaliwanag ng regression;

ay ang natitirang kabuuan ng mga parisukat ng paglihis.

Ang anumang kabuuan ng mga squared deviations ay nauugnay sa bilang ng mga degree ng kalayaan , i.e. sa bilang ng kalayaan ng independiyenteng pagkakaiba-iba ng tampok. Ang bilang ng mga antas ng kalayaan ay nauugnay sa bilang ng mga yunit ng populasyon n at sa bilang ng mga constants na tinutukoy mula dito. Kaugnay ng problemang pinag-aaralan, ang bilang ng mga antas ng kalayaan ay dapat magpakita kung gaano karaming mga independiyenteng paglihis mula sa P posible ay kinakailangan upang bumuo ng isang naibigay na kabuuan ng mga parisukat.

Pagpapakalat sa bawat antas ng kalayaanD.

F-ratio (F-criterion):

Kung ang null hypothesis ay totoo, kung gayon ang kadahilanan at natitirang mga pagkakaiba-iba ay hindi naiiba sa bawat isa. Para sa H 0, kinakailangan ang isang pagtanggi upang ang pagkakaiba-iba ng kadahilanan ay lumampas sa nalalabi nang maraming beses. Ang English statistician na si Snedecor ay bumuo ng mga talahanayan ng mga kritikal na halaga F-mga relasyon sa iba't ibang antas ng kahalagahan ng null hypothesis at ibang bilang ng antas ng kalayaan. Halaga ng talahanayan F-criterion ay ang pinakamataas na halaga ng ratio ng mga pagkakaiba-iba na maaaring mangyari kung sila ay magkakahiwalay para sa isang partikular na antas ng posibilidad ng pagkakaroon ng isang null hypothesis. Nakalkula ang halaga F-Ang relasyon ay kinikilalang maaasahan kung ang o ay mas malaki kaysa sa tabular.

Sa kasong ito, ang null hypothesis tungkol sa kawalan ng isang relasyon ng mga tampok ay tinanggihan at isang konklusyon ay ginawa tungkol sa kahalagahan ng relasyon na ito: F katotohanan > F talahanayan Tinanggihan ang H 0.

Kung ang halaga ay mas mababa sa talahanayan F katotohanan ‹, F tab, kung gayon ang posibilidad ng null hypothesis ay mas mataas kaysa sa isang naibigay na antas at hindi ito maaaring tanggihan nang walang seryosong panganib na makagawa ng maling konklusyon tungkol sa pagkakaroon ng isang relasyon. Sa kasong ito, ang equation ng regression ay itinuturing na hindi gaanong mahalaga sa istatistika. Hindi lumilihis ang N o.

Standard error ng regression coefficient

Upang masuri ang kahalagahan ng koepisyent ng regression, ang halaga nito ay inihambing sa karaniwang error nito, ibig sabihin, ang aktwal na halaga ay tinutukoy. t-Pamantayan ng mag-aaral: na kung saan ay inihambing sa talahanayan na halaga sa isang tiyak na antas ng kahalagahan at ang bilang ng mga antas ng kalayaan ( n- 2).

Parameter Standard Error a:

Sinusuri ang kahalagahan ng linear correlation coefficient batay sa laki ng error. koepisyent ng ugnayan r:

Kabuuang pagkakaiba-iba ng isang tampok X:

Maramihang Linear Regression

Modelo ng gusali

Maramihang Pagbabalik ay isang regression ng isang epektibong feature na may dalawa o higit pang salik, ibig sabihin, isang modelo ng form

Ang regression ay maaaring magbigay ng magandang resulta sa pagmomodelo kung ang impluwensya ng iba pang mga salik na nakakaapekto sa bagay ng pag-aaral ay maaaring mapabayaan. Ang pag-uugali ng mga indibidwal na variable na pang-ekonomiya ay hindi makokontrol, ibig sabihin, hindi posible na matiyak ang pagkakapantay-pantay ng lahat ng iba pang mga kondisyon para sa pagtatasa ng impluwensya ng isang kadahilanan sa ilalim ng pag-aaral. Sa kasong ito, dapat mong subukang tukuyin ang impluwensya ng iba pang mga kadahilanan sa pamamagitan ng pagpapakilala sa mga ito sa modelo, ibig sabihin, bumuo ng isang multiple regression equation: y = a+b 1 x 1 +b 2 +…+b p x p + .

Ang pangunahing layunin ng multiple regression ay ang bumuo ng isang modelo na may malaking bilang ng mga salik, habang tinutukoy ang impluwensya ng bawat isa sa kanila nang paisa-isa, pati na rin ang kanilang pinagsama-samang epekto sa modelong tagapagpahiwatig. Kasama sa detalye ng modelo ang dalawang lugar ng mga katanungan: ang pagpili ng mga salik at ang pagpili ng uri ng equation ng regression

Ang kakanyahan ng pamamaraan ay nakasalalay sa katotohanan na ang pamantayan para sa kalidad ng solusyon na isinasaalang-alang ay ang kabuuan ng mga squared error, na hinahangad na mabawasan. Upang mailapat ito, kinakailangan na magsagawa ng maraming mga sukat ng isang hindi kilalang random na variable hangga't maaari (mas marami - mas mataas ang katumpakan ng solusyon) at isang tiyak na hanay ng mga inaasahang solusyon, kung saan kinakailangan na pumili ng pinakamahusay. . Kung ang hanay ng mga solusyon ay na-parameter, kung gayon ang pinakamainam na halaga ng mga parameter ay dapat matagpuan.

Bakit pinaliit ang mga parisukat ng error, at hindi ang mga error mismo? Ang katotohanan ay na sa karamihan ng mga kaso ang mga error ay nangyayari sa parehong direksyon: ang pagtatantya ay maaaring mas malaki kaysa sa pagsukat o mas mababa kaysa dito. Kung magdaragdag kami ng mga error na may iba't ibang mga palatandaan, pagkatapos ay kakanselahin nila ang isa't isa, at bilang isang resulta, ang kabuuan ay magbibigay sa amin ng isang hindi tamang ideya ng kalidad ng pagtatantya. Kadalasan, upang ang panghuling pagtatantya ay magkaroon ng parehong dimensyon sa mga sinusukat na halaga, ang square root ay kinuha mula sa kabuuan ng mga squared error.


Isang larawan:

Ang LSM ay ginagamit sa matematika, sa partikular - sa probability theory at mathematical statistics. Ang pamamaraang ito ay may pinakamalaking aplikasyon sa mga problema sa pag-filter, kapag kinakailangan upang paghiwalayin ang kapaki-pakinabang na signal mula sa ingay na nakapatong dito.

Ginagamit din ito sa mathematical analysis para sa isang tinatayang representasyon ng isang ibinigay na function sa pamamagitan ng mas simpleng function. Ang isa pang lugar ng aplikasyon ng LSM ay ang solusyon ng mga sistema ng mga equation na may mas kaunting mga hindi alam kaysa sa bilang ng mga equation.

Nakaisip ako ng ilan pang hindi inaasahang aplikasyon ng LSM, na gusto kong pag-usapan sa artikulong ito.

Mga MNC at typo

Ang mga typo at spelling error ay ang salot ng mga awtomatikong tagasalin at mga search engine. Sa katunayan, kung ang isang salita ay naiiba sa pamamagitan lamang ng 1 titik, itinuturing ito ng programa bilang isa pang salita at isinasalin/hinahanap ito nang hindi tama o hindi naisalin/hindi ito mahanap.

Nagkaroon ako ng katulad na problema: mayroong dalawang database na may mga address ng mga bahay sa Moscow, at kinakailangan na pagsamahin ang mga ito sa isa. Ngunit ang mga address ay nakasulat sa ibang istilo. Sa isang database mayroong KLADR standard (All-Russian address classifier), halimbawa: "BABUSHKINA PILOT UL., D10K3". At sa isa pang database mayroong isang istilo ng postal, halimbawa: "St. Pilot Babushkin, bahay 10 gusali 3. Tila walang mga error sa parehong mga kaso, at ang pag-automate ng proseso ay hindi kapani-paniwalang mahirap (bawat database ay may 40,000 na tala!). Bagama't may sapat ding mga typo ... Paano ipaunawa sa computer na ang 2 address sa itaas ay kabilang sa parehong bahay? Dito nakatulong ang MNC para sa akin.

Ang aking nagawa? Nang makita ko ang susunod na liham sa unang address, hinanap ko ang parehong sulat sa pangalawang address. Kung pareho silang nasa parehong lugar, ipinapalagay ko na ang error para sa liham na iyon ay 0. Kung nasa magkatabing posisyon sila, kung gayon ang error ay 1. Kung nagkaroon ng shift ng 2 posisyon, ang error ay 2, at kaya sa. Kung walang ganoong sulat sa kabilang address, ang error ay ipinapalagay na n+1, kung saan ang n ay ang bilang ng mga titik sa unang address. Kaya, kinakalkula ko ang kabuuan ng mga squared error at ikinonekta ang mga tala kung saan ang kabuuan na ito ay minimal.

Siyempre, ang bilang ng mga bahay at gusali ay hiwalay na naproseso. Hindi ko alam kung nag-imbento ako ng isa pang "bisikleta", o ito talaga, ngunit ang problema ay nalutas nang mabilis at mahusay. Nagtataka ako kung ang pamamaraang ito ay ginagamit sa mga search engine? Marahil ito ay ginagamit, dahil ang bawat self-respecting search engine, kapag nakakatugon sa isang hindi pamilyar na salita, ay nag-aalok ng kapalit mula sa mga pamilyar na salita ("marahil ang ibig mong sabihin ..."). Gayunpaman, maaari nilang gawin ang pagsusuring ito sa ibang paraan.

OLS at maghanap sa pamamagitan ng mga larawan, mukha at mapa

Ang pamamaraang ito ay maaari ding ilapat sa paghahanap sa pamamagitan ng mga larawan, mga guhit, mga mapa, at maging sa pamamagitan ng mga mukha ng mga tao.

Isang larawan:

Ngayon ang lahat ng mga search engine, sa halip na maghanap ayon sa mga larawan, sa katunayan, ay gumagamit ng paghahanap ayon sa mga caption ng larawan. Ito ay walang alinlangan na isang kapaki-pakinabang at maginhawang serbisyo, ngunit ipinapanukala kong dagdagan ito ng isang tunay na paghahanap ng imahe.

Ang isang sample na larawan ay ipinakilala at ang isang rating ay ginawa para sa lahat ng mga larawan sa pamamagitan ng kabuuan ng mga squared deviations ng mga katangian na puntos. Ang pagtukoy sa mga mismong katangiang puntong ito ay sa sarili nitong isang di-maliit na gawain. Gayunpaman, ito ay lubos na nalulusaw: halimbawa, para sa mga mukha, ito ang mga sulok ng mga mata, labi, dulo ng ilong, butas ng ilong, mga gilid at sentro ng mga kilay, mga mag-aaral, atbp.

Sa pamamagitan ng paghahambing ng mga parameter na ito, makakahanap ka ng mukha na pinakakapareho sa sample. Nakakita na ako ng mga site kung saan gumagana ang ganoong serbisyo, at makakahanap ka ng isang celebrity na pinakakapareho sa larawang iminungkahi mo, at kahit na gumawa ng animation na gagawin kang isang celebrity at pabalik. Tiyak na ang parehong paraan ay gumagana sa mga base ng Ministry of Internal Affairs, na naglalaman ng mga identikit na larawan ng mga kriminal.

Larawan: pixabay.com

Oo, at ang mga fingerprint ay maaaring hanapin sa parehong paraan. Ang paghahanap sa mapa ay nakatuon sa mga likas na iregularidad ng mga heograpikal na bagay - ang mga liko ng mga ilog, mga hanay ng bundok, ang mga balangkas ng mga baybayin, kagubatan at mga bukid.

Narito ang isang kahanga-hanga at maraming nalalaman na pamamaraan ng OLS. Sigurado ako na ikaw, mahal na mga mambabasa, ay makakahanap ng maraming hindi pangkaraniwang at hindi inaasahang mga aplikasyon ng pamamaraang ito para sa iyong sarili.