Ang paraan ng hindi bababa sa mga parisukat ay linear. Finger Math: Mga Paraan ng Least Squares

Pagkatapos ng alignment, makakakuha tayo ng function ng sumusunod na form: g (x) = x + 1 3 + 1 .

Maaari naming tantiyahin ang data na ito sa isang linear na relasyon y = a x + b sa pamamagitan ng pagkalkula ng naaangkop na mga parameter. Para magawa ito, kakailanganin nating ilapat ang tinatawag na least squares method. Kakailanganin mo ring gumawa ng drawing para masuri kung aling linya ang pinakamahusay na ihanay ang pang-eksperimentong data.

Yandex.RTB R-A-339285-1

Ano nga ba ang OLS (least squares method)

Ang pangunahing bagay na kailangan nating gawin ay maghanap ng mga linear dependence coefficient kung saan ang halaga ng function ng dalawang variable F (a, b) = ∑ i = 1 n (yi - (axi + b)) 2 ang magiging pinakamaliit. . Sa madaling salita, para sa ilang mga halaga ng a at b, ang kabuuan ng mga squared deviations ng ipinakita na data mula sa nagreresultang tuwid na linya ay magkakaroon ng pinakamababang halaga. Ito ang kahulugan ng least squares method. Ang kailangan lang nating gawin upang malutas ang halimbawa ay upang mahanap ang extremum ng function ng dalawang variable.

Paano makakuha ng mga formula para sa pagkalkula ng mga coefficient

Upang makakuha ng mga pormula para sa pagkalkula ng mga coefficient, kinakailangan na bumuo at lutasin ang isang sistema ng mga equation na may dalawang variable. Upang gawin ito, kinakalkula namin ang mga partial derivatives ng expression na F (a , b) = ∑ i = 1 n (y i - (a x i + b)) 2 na may paggalang sa a at b at itinutumbas ang mga ito sa 0 .

δ F (a , b) δ a = 0 δ F (a , b) δ b = 0 ⇔ - 2 ∑ i = 1 n (yi - (axi + b)) xi = 0 - 2 ∑ i = 1 n ( yi - (axi + b)) = 0 ⇔ a ∑ i = 1 nxi 2 + b ∑ i = 1 nxi = ∑ i = 1 nxiyia ∑ i = 1 nxi + ∑ i = 1 nb = ∑ i = 1 nyi ⇔ a ∑ i = 1 nxi 2 + b ∑ i = 1 nxi = ∑ i = 1 nxiyia ∑ i = 1 nxi + nb = ∑ i = 1 nyi

Upang malutas ang isang sistema ng mga equation, maaari kang gumamit ng anumang mga pamamaraan, tulad ng pagpapalit o pamamaraan ng Cramer. Bilang resulta, dapat tayong makakuha ng mga formula na kinakalkula ang mga koepisyent gamit ang pinakamababang paraan ng mga parisukat.

n ∑ i = 1 n x i y i - ∑ i = 1 n x i ∑ i = 1 n y i n ∑ i = 1 n - ∑ i = 1 n x i 2 b = ∑ i = 1 n y i - a ∑ i = 1 n x i n

Kinakalkula namin ang mga halaga ng mga variable kung saan ang function
Ang F (a , b) = ∑ i = 1 n (y i - (a x i + b)) 2 ay kukuha ng pinakamababang halaga. Sa ikatlong talata, patunayan natin kung bakit nagkaganyan.

Ito ang aplikasyon ng pinakamababang paraan ng mga parisukat sa pagsasanay. Ang kanyang formula, na ginagamit upang mahanap ang parameter a , ay kinabibilangan ng ∑ i = 1 n x i , ∑ i = 1 n y i , ∑ i = 1 n x i y i , ∑ i = 1 n x i 2 , at ang parameter
n - ito ay nagsasaad ng dami ng pang-eksperimentong data. Pinapayuhan ka naming kalkulahin ang bawat halaga nang hiwalay. Ang coefficient value b ay kinakalkula kaagad pagkatapos ng a .

Bumalik tayo sa orihinal na halimbawa.

Halimbawa 1

Narito mayroon kaming n katumbas ng lima. Upang gawing mas maginhawa ang pagkalkula ng mga kinakailangang halaga na kasama sa mga formula ng koepisyent, pinupunan namin ang talahanayan.

ako = 1 ako = 2 ako = 3 ako = 4 ako = 5 ∑ i = 1 5
x i 0 1 2 4 5 12
y i 2 , 1 2 , 4 2 , 6 2 , 8 3 12 , 9
x i y i 0 2 , 4 5 , 2 11 , 2 15 33 , 8
x i 2 0 1 4 16 25 46

Solusyon

Ang ikaapat na hilera ay naglalaman ng data na nakuha sa pamamagitan ng pagpaparami ng mga halaga mula sa pangalawang hilera ng mga halaga ng pangatlo para sa bawat indibidwal na i . Ang ikalimang linya ay naglalaman ng data mula sa pangalawang squared. Ang huling hanay ay nagpapakita ng mga kabuuan ng mga halaga ng mga indibidwal na hilera.

Gamitin natin ang paraan ng least squares para kalkulahin ang coefficients a at b na kailangan natin. Upang gawin ito, palitan ang nais na mga halaga mula sa huling hanay at kalkulahin ang mga kabuuan:

n ∑ i = 1 nxiyi - ∑ i = 1 nxi ∑ i = 1 nyin ∑ i = 1 n - ∑ i = 1 nxi 2 b = ∑ i = 1 nyi - a ∑ i = 1 nxin ⇒ a = 5 33 , 8 - 12 12, 9 5 46 - 12 2 b = 12, 9 - a 12 5 ⇒ a ≈ 0, 165 b ≈ 2, 184

Nakuha namin na ang gustong tinatayang tuwid na linya ay magmumukhang y = 0 , 165 x + 2 , 184 . Ngayon kailangan nating tukuyin kung aling linya ang pinakamahusay na tinatayang ang data - g (x) = x + 1 3 + 1 o 0 , 165 x + 2 , 184 . Gumawa tayo ng pagtatantya gamit ang paraan ng least squares.

Upang kalkulahin ang error, kailangan nating hanapin ang mga kabuuan ng mga squared deviations ng data mula sa mga linya σ 1 = ∑ i = 1 n (yi - (axi + bi)) 2 at σ 2 = ∑ i = 1 n (yi - g (xi)) 2 , ang pinakamababang halaga ay tumutugma sa isang mas angkop na linya.

σ 1 = ∑ i = 1 n (yi - (axi + bi)) 2 = = ∑ i = 1 5 (yi - (0 , 165 xi + 2 , 184)) 2 ≈ 0 , 019 σ 2 = ∑ i = 1 n (yi - g (xi)) 2 = = ∑ i = 1 5 (yi - (xi + 1 3 + 1)) 2 ≈ 0 , 096

Sagot: mula noong σ 1< σ 2 , то прямой, ang pinakamahusay na paraan pagtatantya sa orihinal na data ay magiging
y = 0 , 165 x + 2 , 184 .

Ang paraan ng least squares ay malinaw na ipinapakita sa graphic na paglalarawan. Ang pulang linya ay nagmamarka ng tuwid na linya g (x) = x + 1 3 + 1, ang asul na linya ay nagmamarka ng y = 0, 165 x + 2, 184. Ang raw data ay minarkahan ng mga pink na tuldok.

Ipaliwanag natin kung bakit kailangan ang eksaktong mga pagtatantya ng ganitong uri.

Magagamit ang mga ito sa mga problemang nangangailangan ng pag-smoothing ng data, gayundin sa mga kung saan kailangang i-interpolated o extrapolated ang data. Halimbawa, sa problemang tinalakay sa itaas, maaaring mahanap ang halaga ng naobserbahang dami y sa x = 3 o sa x = 6 . Nagtalaga kami ng isang hiwalay na artikulo sa gayong mga halimbawa.

Patunay ng pamamaraang LSM

Para makuha ng function ang pinakamababang halaga para sa kalkuladong a at b, kinakailangan na sa isang naibigay na punto ang matrix ng quadratic form ng differential ng function ng form F (a, b) = ∑ i = 1 n ( yi - (axi + b)) 2 be positive definite. Ipakita natin sa iyo kung paano ito dapat magmukhang.

Halimbawa 2

Mayroon kaming second-order differential ng sumusunod na form:

d 2 F (a ; b) = δ 2 F (a ; b) δ a 2 d 2 a + 2 δ 2 F (a ; b) δ a δ bdadb + δ 2 F (a ; b) δ b 2 d 2b

Solusyon

δ 2 F (a ; b) δ a 2 = δ δ F (a ; b) δ a δ a = = δ - 2 ∑ i = 1 n (yi - (axi + b)) xi δ a = 2 ∑ i = 1 n (xi) 2 δ 2 F (a ; b) δ a δ b = δ δ F (a ; b) δ a δ b = = δ - 2 ∑ i = 1 n (yi - (axi + b) ) xi δ b = 2 ∑ i = 1 nxi δ 2 F (a ; b) δ b 2 = δ δ F (a ; b) δ b δ b = δ - 2 ∑ i = 1 n (yi - (axi + b)) δ b = 2 ∑ i = 1 n (1) = 2 n

Sa madaling salita, maaari itong isulat ng mga sumusunod: d 2 F (a ; b) = 2 ∑ i = 1 n (x i) 2 d 2 a + 2 2 ∑ x i i = 1 n d a d b + (2 n) d 2 b .

Nakakuha kami ng isang matrix ng quadratic form M = 2 ∑ i = 1 n (x i) 2 2 ∑ i = 1 n x i 2 ∑ i = 1 n x i 2 n .

Sa kasong ito, ang mga halaga ng mga indibidwal na elemento ay hindi magbabago depende sa a at b. Siguradong positibo ba ang matrix na ito? Para masagot ang tanong na ito, tingnan natin kung ang mga angular minor nito ay positibo.

Kalkulahin ang unang ayos angular minor: 2 ∑ i = 1 n (x i) 2 > 0 . Dahil ang mga puntos na x i ay hindi nagtutugma, ang hindi pagkakapantay-pantay ay mahigpit. Isaisip namin ito sa mga karagdagang kalkulasyon.

Kinakalkula namin ang pangalawang-order na angular minor:

d e t (M) = 2 ∑ i = 1 n (x i) 2 2 ∑ i = 1 n x i 2 ∑ i = 1 n x i 2 n = 4 n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2

Pagkatapos nito, magpatuloy tayo sa patunay ng hindi pagkakapantay-pantay n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 gamit ang mathematical induction.

  1. Suriin natin kung ang hindi pagkakapantay-pantay na ito ay wasto para sa arbitrary n . Kumuha tayo ng 2 at kalkulahin:

2 ∑ i = 1 2 (xi) 2 - ∑ i = 1 2 xi 2 = 2 x 1 2 + x 2 2 - x 1 + x 2 2 = = x 1 2 - 2 x 1 x 2 + x 2 2 = x 1 + x 2 2 > 0

Nakuha namin ang tamang pagkakapantay-pantay (kung ang mga halaga x 1 at x 2 ay hindi magkatugma).

  1. Gawin natin ang pagpapalagay na ang hindi pagkakapantay-pantay na ito ay magiging totoo para sa n , i.e. n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 – totoo.
  2. Ngayon patunayan natin ang bisa para sa n + 1 , i.e. na (n + 1) ∑ i = 1 n + 1 (xi) 2 - ∑ i = 1 n + 1 xi 2 > 0 kung n ∑ i = 1 n (xi) 2 - ∑ i = 1 nxi 2 > 0 .

Kinakalkula namin:

(n + 1) ∑ i = 1 n + 1 (xi) 2 - ∑ i = 1 n + 1 xi 2 = = (n + 1) ∑ i = 1 n (xi) 2 + xn + 1 2 - ∑ i = 1 nxi + xn + 1 2 = = n ∑ i = 1 n (xi) 2 + n xn + 1 2 + ∑ i = 1 n (xi) 2 + xn + 1 2 - - ∑ i = 1 nxi 2 + 2 xn + 1 ∑ i = 1 nxi + xn + 1 2 = = ∑ i = 1 n (xi) 2 - ∑ i = 1 nxi 2 + n xn + 1 2 - xn + 1 ∑ i = 1 nxi + ∑ i = 1 n (xi) 2 = = ∑ i = 1 n (xi) 2 - ∑ i = 1 nxi 2 + xn + 1 2 - 2 xn + 1 x 1 + x 1 2 + + xn + 1 2 - 2 xn + 1 x 2 + x 2 2 + . . . + xn + 1 2 - 2 xn + 1 x 1 + xn 2 = = n ∑ i = 1 n (xi) 2 - ∑ i = 1 nxi 2 + + (xn + 1 - x 1) 2 + (xn + 1) - x 2) 2 + . . . + (x n - 1 - x n) 2 > 0

Ang expression na nakapaloob sa mga kulot na brace ay magiging mas malaki sa 0 (batay sa kung ano ang ipinapalagay namin sa hakbang 2), at ang natitirang mga termino ay magiging mas malaki sa 0 dahil lahat sila ay mga parisukat ng mga numero. Napatunayan natin ang hindi pagkakapantay-pantay.

Sagot: natagpuan ang a at b ay magkatugma ang pinakamaliit na halaga mga function F (a , b) \u003d ∑ i \u003d 1 n (y i - (a x i + b)) 2, na nangangahulugang sila ang nais na mga parameter ng hindi bababa sa pamamaraan ng mga parisukat (LSM).

Kung may napansin kang pagkakamali sa teksto, mangyaring i-highlight ito at pindutin ang Ctrl+Enter

Na nakakahanap ng pinakamalawak na aplikasyon sa iba't ibang larangan ng agham at kasanayan. Ito ay maaaring pisika, kimika, biology, ekonomiya, sosyolohiya, sikolohiya at iba pa at iba pa. Sa pamamagitan ng kalooban ng kapalaran, madalas kong kailangang harapin ang ekonomiya, at samakatuwid ngayon ay mag-aayos ako para sa iyo ng isang tiket sa isang kamangha-manghang bansa na tinatawag na Econometrics=) … Paanong ayaw mo?! Napakaganda doon - kailangan mo lang magdesisyon! …Ngunit ang talagang gusto mo ay matutunan kung paano lutasin ang mga problema hindi bababa sa mga parisukat. At lalo na ang masigasig na mga mambabasa ay matututong lutasin ang mga ito hindi lamang nang tumpak, ngunit napakabilis din ;-) Ngunit una pangkalahatang pahayag ng problema+ kaugnay na halimbawa:

Hayaang pag-aralan ang mga indicator sa ilang subject area na may quantitative expression. Kasabay nito, mayroong bawat dahilan upang maniwala na ang tagapagpahiwatig ay nakasalalay sa tagapagpahiwatig. Ang pagpapalagay na ito ay maaaring parehong siyentipikong hypothesis at batay sa elementarya na sentido komun. Iwanan natin ang agham, gayunpaman, at tuklasin ang higit pang mga lugar na kasiya-siya - ibig sabihin, mga grocery store. Ipahiwatig sa pamamagitan ng:

– retail space ng isang grocery store, sq.m.,
- taunang turnover ng isang grocery store, milyong rubles.

Ito ay medyo malinaw kung ano mas maraming lugar tindahan, mas malaki ang turnover nito sa karamihan ng mga kaso.

Ipagpalagay na pagkatapos magsagawa ng mga obserbasyon / mga eksperimento / mga kalkulasyon / pagsasayaw gamit ang isang tamburin, mayroon kami sa aming pagtatapon ng numerical data:

Sa mga grocery store, sa palagay ko ang lahat ay malinaw: - ito ang lugar ng 1st store, - ang taunang turnover nito, - ang lugar ng 2nd store, - ang taunang turnover nito, atbp. Sa pamamagitan ng paraan, hindi kinakailangan na magkaroon ng access sa mga classified na materyales - ang isang medyo tumpak na pagtatasa ng turnover ay maaaring makuha gamit ang mga istatistika ng matematika. Gayunpaman, huwag magambala, ang kurso ng komersyal na espiya ay binabayaran na =)

Ang data ng tabular ay maaari ding isulat sa anyo ng mga puntos at ilarawan sa karaniwang paraan para sa atin. Sistema ng Cartesian .

Kami ang sasagot mahalagang tanong: ilang puntos ang kailangan para sa isang qualitative study?

Ang mas malaki, mas mabuti. Ang minimum na tinatanggap na set ay binubuo ng 5-6 puntos. Bilang karagdagan, na may maliit na halaga ng data, hindi dapat isama ang mga "abnormal" na resulta sa sample. Kaya, halimbawa, ang isang maliit na elite na tindahan ay maaaring makatulong sa mga order ng magnitude nang higit pa kaysa sa "kanilang mga kasamahan", at sa gayon ay nabaluktot pangkalahatang pattern, na mahahanap!

Kung ito ay medyo simple, kailangan nating pumili ng isang function, iskedyul na pumasa nang mas malapit hangga't maaari sa mga puntos . Ang ganitong function ay tinatawag tinatantiya (approximation - approximation) o teoretikal na pag-andar . Sa pangkalahatan, dito agad na lumilitaw ang isang halatang "nagpapanggap" - isang polynomial na may mataas na antas, ang graph kung saan dumadaan sa LAHAT ng mga puntos. Ngunit ang pagpipiliang ito ay kumplikado, at kadalasan ay hindi tama. (dahil ang tsart ay "hangin" sa lahat ng oras at hindi maganda ang sumasalamin sa pangunahing trend).

Kaya, ang nais na pag-andar ay dapat na sapat na simple at sa parehong oras ay sumasalamin sa pag-asa nang sapat. Tulad ng maaari mong hulaan, ang isa sa mga pamamaraan para sa paghahanap ng mga naturang function ay tinatawag hindi bababa sa mga parisukat. Una, pag-aralan natin ang kakanyahan nito pangkalahatang pananaw. Hayaan ang ilang function na humigit-kumulang sa pang-eksperimentong data:


Paano suriin ang katumpakan ng pagtatantya na ito? Kalkulahin din natin ang mga pagkakaiba (mga deviation) sa pagitan ng mga pang-eksperimentong at functional na halaga (pinag-aaralan namin ang pagguhit). Ang unang naiisip na pumasok sa isip ay ang tantiyahin kung gaano kalaki ang kabuuan, ngunit ang problema ay ang mga pagkakaiba ay maaaring negatibo. (Halimbawa, ) at ang mga paglihis bilang resulta ng naturang pagsusuma ay magkakansela sa isa't isa. Samakatuwid, bilang isang pagtatantya ng katumpakan ng pagtatantya, iminumungkahi nito ang sarili nitong kunin ang kabuuan mga module mga paglihis:

o sa nakatiklop na anyo: (bigla, sino ang hindi nakakaalam: - ito ang sum icon, at - ang auxiliary variable - "counter", na kumukuha ng mga halaga mula 1 hanggang ).

Tinatantya ang mga pang-eksperimentong punto na may iba't ibang mga pag-andar, makukuha natin iba't ibang kahulugan, at malinaw naman, kung saan mas mababa ang kabuuan na ito, mas tumpak ang pagpapaandar na iyon.

Ang ganitong paraan ay umiiral at tinatawag hindi bababa sa modulus na pamamaraan. Gayunpaman, sa pagsasagawa ito ay naging mas laganap. hindi bababa sa parisukat na paraan, kung saan ang mga posibleng negatibong halaga ay inaalis hindi ng modulus, ngunit sa pamamagitan ng pag-square ng mga deviations:

, pagkatapos kung saan ang mga pagsisikap ay nakadirekta sa pagpili ng naturang function na ang kabuuan ng mga squared deviations ay kasing liit hangga't maaari. Sa totoo lang, kaya ang pangalan ng pamamaraan.

At ngayon ay bumalik kami sa isa pa mahalagang punto: tulad ng nabanggit sa itaas, ang napiling function ay dapat na medyo simple - ngunit mayroon ding maraming mga naturang function: linear , hyperbolic, exponential, logarithmic, parisukat atbp. At, siyempre, dito gusto ko agad na "bawasan ang larangan ng aktibidad." Anong klase ng mga function ang pipiliin para sa pananaliksik? Primitive ngunit epektibong pamamaraan:

- Ang pinakamadaling paraan upang gumuhit ng mga puntos sa pagguhit at pag-aralan ang kanilang lokasyon. Kung sila ay nasa isang tuwid na linya, dapat mong hanapin straight line equation na may pinakamainam na halaga at . Sa madaling salita, ang gawain ay upang mahanap ang GANITONG mga coefficient - upang ang kabuuan ng mga squared deviations ay ang pinakamaliit.

Kung ang mga punto ay matatagpuan, halimbawa, kasama hyperbole, pagkatapos ay tiyak na malinaw na ang isang linear na function ay magbibigay ng hindi magandang approximation. Sa kasong ito, hinahanap namin ang pinaka "kanais-nais" na mga coefficient para sa hyperbola equation - mga nagbibigay ang pinakamababang halaga mga parisukat .

Ngayon pansinin na sa parehong mga kaso ang pinag-uusapan natin mga function ng dalawang variable, na ang mga argumento ay naghanap ng mga opsyon sa dependency:

At sa esensya, kailangan nating lutasin ang isang karaniwang problema - upang mahanap minimum ng isang function ng dalawang variable.

Alalahanin ang aming halimbawa: ipagpalagay na ang mga punto ng "shop" ay malamang na matatagpuan sa isang tuwid na linya at mayroong lahat ng dahilan upang maniwala sa presensya linear dependence turnover mula sa lugar ng kalakalan. Hanapin natin ang MGA GANITONG coefficient na "a" at "be" upang ang kabuuan ng mga squared deviations ay ang pinakamaliit. Lahat gaya ng dati - una mga partial derivatives ng 1st order. Ayon kay tuntunin ng linearity maaari kang mag-iba sa ilalim mismo ng icon ng kabuuan:

Kung nais mong gamitin ang impormasyong ito para sa isang sanaysay o coursework, ako ay lubos na nagpapasalamat para sa link sa listahan ng mga mapagkukunan, hindi ka makakahanap ng ganoong detalyadong mga kalkulasyon kahit saan:

Gumawa tayo ng isang karaniwang sistema:

Binabawasan namin ang bawat equation ng "dalawa" at, bilang karagdagan, "paghiwa-hiwalayin" ang mga kabuuan:

Tandaan : nakapag-iisa na pag-aralan kung bakit maaaring alisin ang "a" at "be" sa icon ng kabuuan. Sa pamamagitan ng paraan, pormal na ito ay maaaring gawin sa kabuuan

Isulat muli natin ang system sa isang "inilapat" na form:

pagkatapos kung saan ang algorithm para sa paglutas ng aming problema ay nagsisimulang iguguhit:

Alam ba natin ang mga coordinate ng mga puntos? Alam namin. Sums mahahanap natin? Madali. Binubuo namin ang pinakasimpleng sistema ng dalawang linear na equation na may dalawang hindi alam("a" at "beh"). Niresolba namin ang sistema, halimbawa, Pamamaraan ni Cramer, na nagreresulta sa isang nakatigil na punto . Sinusuri sapat na kondisyon para sa isang extremum, maaari naming i-verify na sa puntong ito ang function tumpak na umabot pinakamababa. Ang pag-verify ay nauugnay sa mga karagdagang kalkulasyon at samakatuwid ay iiwan namin ito sa likod ng mga eksena. (kung kinakailangan, ang nawawalang frame ay maaaring tingnan). Ginagawa namin ang pangwakas na konklusyon:

Function ang pinakamahusay na paraan (hindi bababa sa kumpara sa anumang iba pang linear function) pinalalapit ang mga pang-eksperimentong punto . Sa halos pagsasalita, ang graph nito ay pumasa nang mas malapit hangga't maaari sa mga puntong ito. Sa tradisyon econometrics ang resultang approximating function ay tinatawag din equation ng pares linear regression .

Ang problemang isinasaalang-alang ay malaki praktikal na halaga. Sa sitwasyon sa ating halimbawa, ang equation nagbibigay-daan sa iyo upang mahulaan kung anong uri ng turnover ("yig") ay nasa tindahan na may isa o ibang halaga ng lugar ng pagbebenta (isa o ibang kahulugan ng "x"). Oo, ang magreresultang hula ay magiging isang hula lamang, ngunit sa maraming mga kaso ito ay magiging tumpak.

Susuriin ko lamang ang isang problema sa "tunay" na mga numero, dahil walang mga paghihirap dito - lahat ng mga kalkulasyon ay nasa antas kurikulum ng paaralan 7-8 baitang. Sa 95 porsiyento ng mga kaso, hihilingin sa iyo na maghanap lamang ng isang linear na function, ngunit sa pinakadulo ng artikulo ay ipapakita ko na hindi na mahirap hanapin ang mga equation para sa pinakamainam na hyperbola, exponent, at ilang iba pang mga function.

Sa katunayan, nananatili itong ipamahagi ang mga ipinangakong goodies - upang matutunan mo kung paano malutas ang mga naturang halimbawa hindi lamang tumpak, ngunit mabilis din. Maingat naming pinag-aaralan ang pamantayan:

Isang gawain

Bilang resulta ng pag-aaral ng ugnayan sa pagitan ng dalawang tagapagpahiwatig, ang mga sumusunod na pares ng mga numero ay nakuha:

Gamit ang paraan ng least squares, hanapin ang linear function na pinakamahusay na tinatantya ang empirical (nakaranas) datos. Gumawa ng isang guhit kung saan, sa isang Cartesian rectangular coordinate system, mag-plot ng mga pang-eksperimentong punto at isang graph ng approximating function. . Hanapin ang kabuuan ng mga squared deviation sa pagitan ng empirical at theoretical na mga halaga. Alamin kung ang function ay mas mahusay (sa mga tuntunin ng paraan ng least squares) tinatayang mga pang-eksperimentong punto.

Tandaan na ang mga "x" na halaga ay mga likas na halaga, at ito ay may katangian na makabuluhang kahulugan, na tatalakayin ko sa ibang pagkakataon; ngunit sila, siyempre, ay maaaring maging fractional. Bilang karagdagan, depende sa nilalaman ng isang partikular na gawain, ang parehong "X" at "G" na mga halaga ay maaaring ganap o bahagyang negatibo. Buweno, binigyan kami ng isang "walang mukha" na gawain, at sinimulan namin ito solusyon:

Odds pinakamainam na pag-andar hanapin bilang solusyon sa system:

Para sa mga layunin ng isang mas compact na notation, ang "counter" na variable ay maaaring tanggalin, dahil ito ay malinaw na na ang pagsusuma ay isinasagawa mula 1 hanggang .

Ito ay mas maginhawa upang kalkulahin ang mga kinakailangang halaga sa isang tabular form:


Maaaring isagawa ang mga kalkulasyon sa isang microcalculator, ngunit mas mahusay na gumamit ng Excel - parehong mas mabilis at walang mga error; manood ng maikling video:

Kaya, nakukuha namin ang sumusunod sistema:

Dito maaari mong i-multiply ang pangalawang equation sa 3 at ibawas ang 2nd mula sa 1st equation term sa pamamagitan ng term. Ngunit ito ay swerte - sa pagsasagawa, ang mga sistema ay madalas na hindi likas na matalino, at sa mga ganitong kaso nakakatipid ito Pamamaraan ni Cramer:
, kaya ang system ay may natatanging solusyon.

Suriin natin. Naiintindihan ko na ayaw ko, ngunit bakit laktawan ang mga pagkakamali kung saan talagang hindi mo makaligtaan ang mga ito? Palitan ang nahanap na solusyon sa kaliwang bahagi ng bawat equation ng system:

Ang mga tamang bahagi ng kaukulang mga equation ay nakuha, na nangangahulugan na ang sistema ay nalutas nang tama.

Kaya, ang gustong approximating function: – mula sa lahat ng linear function Ang pang-eksperimentong data ay pinakamahusay na tinatantya nito.

Unlike tuwid dependence ng turnover ng tindahan sa lugar nito, ang nahanap na dependence ay reverse (prinsipyo "mas marami - mas kaunti"), at ang katotohanang ito ay agad na inihayag ng negatibo angular coefficient. Function nagpapaalam sa amin na sa pagtaas ng isang tiyak na tagapagpahiwatig ng 1 yunit, ang halaga ng umaasa na tagapagpahiwatig ay bumababa karaniwan ng 0.65 units. Tulad ng sinasabi nila, mas mataas ang presyo ng bakwit, mas mababa ang ibinebenta.

Upang i-plot ang approximating function, makikita namin ang dalawa sa mga value nito:

at isagawa ang pagguhit:


Ang itinayong linya ay tinatawag linya ng trend (ibig sabihin, isang linear trend line, ibig sabihin, sa pangkalahatang kaso, ang isang trend ay hindi nangangahulugang isang tuwid na linya). Ang bawat isa ay pamilyar sa pananalitang "maging nasa trend", at sa palagay ko ang terminong ito ay hindi nangangailangan ng karagdagang mga komento.

Kalkulahin ang kabuuan ng mga squared deviations sa pagitan ng empirical at theoretical values. Sa geometriko, ito ang kabuuan ng mga parisukat ng mga haba ng mga segment na "pulang-pula". (dalawa sa mga ito ay napakaliit na hindi mo makita ang mga ito).

Ibuod natin ang mga kalkulasyon sa isang talahanayan:


Maaari silang muling isagawa nang manu-mano, kung sakaling magbibigay ako ng isang halimbawa para sa unang punto:

ngunit mas mahusay na gawin ang alam nang paraan:

Ulitin natin: ano ang kahulugan ng resulta? Mula sa lahat ng linear function sa function ang exponent ay ang pinakamaliit, iyon ay, ito ang pinakamahusay na approximation sa pamilya nito. At dito, sa pamamagitan ng paraan, ang huling tanong ng problema ay hindi sinasadya: paano kung ang iminungkahing exponential function mas mabuti bang tantiyahin ang mga pang-eksperimentong punto?

Hanapin natin ang katumbas na kabuuan ng mga parisukat na paglihis - upang makilala sa pagitan ng mga ito, itatalaga ko ang mga ito sa titik na "epsilon". Ang pamamaraan ay eksaktong pareho:


At muli para sa bawat pagkalkula ng sunog para sa 1st point:

Sa Excel, ginagamit namin ang karaniwang function EXP (Matatagpuan ang syntax sa Excel Help).

Output: , kaya tinatantya ng exponential function ang mga pang-eksperimentong puntos na mas malala kaysa sa tuwid na linya .

Ngunit dapat tandaan dito na ang "mas malala" ay hindi pa ibig sabihin, ano ang mali. Ngayon ay gumawa ako ng graph ng exponential function na ito - at pumasa din ito malapit sa mga puntos - kaya kung walang analytical na pag-aaral ay mahirap sabihin kung aling function ang mas tumpak.

Nakumpleto nito ang solusyon, at bumalik ako sa tanong ng mga natural na halaga ng argumento. Sa iba't ibang mga pag-aaral, bilang panuntunan, pang-ekonomiya o sosyolohikal, buwan, taon o iba pang pantay na pagitan ng oras ay binibilang ng natural na "X". Isaalang-alang, halimbawa, ang gayong problema.

100 r bonus sa unang order

Piliin ang uri ng trabaho Thesis gawaing kurso Abstract Master's thesis Report on practice Article Report Review Pagsusulit Monograph Paglutas ng problema Plano ng negosyo Mga sagot sa mga tanong malikhaing gawain Pagguhit ng Sanaysay Mga Sanaysay Pagsasalin Presentasyon Pagta-type Iba Pa Pagdaragdag ng pagiging kakaiba ng teksto Tesis ng Kandidato Gawain sa laboratoryo On-line na tulong

Pahingi ng presyo

Ang pamamaraan ng hindi bababa sa mga parisukat ay isang matematikal (matematika-istatistika) na pamamaraan na nagsisilbing pantay-pantay ang serye ng oras, kilalanin ang anyo ng isang ugnayan sa pagitan ng mga random na variable, atbp. Ito ay binubuo sa katotohanan na ang function na naglalarawan sa hindi pangkaraniwang bagay na ito ay tinatantya ng isang mas simpleng function . Ang huli ay pinili sa paraang iyon karaniwang lihis(tingnan ang Variance) ng mga aktwal na antas ng function sa mga naobserbahang punto mula sa mga nakahanay ay ang pinakamaliit.

Halimbawa, ayon sa magagamit na data ( xi,yi) (i = 1, 2, ..., n) tulad ng isang kurba ay itinayo y = a + bx, kung saan naabot ang minimum ng kabuuan ng mga squared deviations

ibig sabihin, ang isang function ay pinaliit na depende sa dalawang parameter: a- segment sa y-axis at b- ang slope ng tuwid na linya.

Pagbibigay ng mga equation mga kinakailangang kondisyon pag-minimize ng function S(a,b), ay tinatawag normal na equation. Bilang approximating function, hindi lamang linear (alignment sa isang tuwid na linya), kundi pati na rin ang quadratic, parabolic, exponential, atbp. M.2, kung saan ang kabuuan ng mga squared na distansya ( y 1 – ȳ 1)2 + (y 2 – ȳ 2)2 .... ay ang pinakamaliit, at ang nagreresultang tuwid na linya ay pinakamahusay na sumasalamin sa trend ng dynamic na serye ng mga obserbasyon para sa ilang indicator sa paglipas ng panahon.

Para sa walang pinapanigan na least squares estimators, ito ay kinakailangan at sapat upang matugunan ang pinakamahalagang kondisyon pagsusuri ng regression: kondisyon sa mga kadahilanan ang inaasahan ng matematika ng isang random na error ay dapat na katumbas ng zero. Ang kundisyong ito, sa partikular, ay natutugunan kung: 1.ang mathematical na inaasahan ng mga random na error ay katumbas ng zero, at 2.ang mga factor at random na error ay independiyenteng random variable. Ang unang kundisyon ay maaaring ituring na palaging nasiyahan para sa mga modelo na may pare-pareho, dahil ang pare-pareho ay tumatagal sa isang hindi-zero na pag-asa sa matematika ng mga pagkakamali. Ang pangalawang kondisyon - ang kondisyon ng mga exogenous na kadahilanan - ay mahalaga. Kung hindi nasiyahan ang pag-aari na ito, maaari nating ipagpalagay na halos anumang mga pagtatantya ay magiging lubhang hindi kasiya-siya: hindi sila magiging pare-pareho (iyon ay, kahit na ang isang napakalaking halaga ng data ay hindi pinapayagan ang pagkuha ng mga pagtatantya ng husay sa kasong ito).

Ang pinakakaraniwan sa pagsasagawa ng statistical estimation ng mga parameter ng regression equation ay ang paraan ng least squares. Ang pamamaraang ito ay batay sa isang bilang ng mga pagpapalagay tungkol sa likas na katangian ng data at ang mga resulta ng pagbuo ng modelo. Ang mga pangunahing ay isang malinaw na paghihiwalay ng mga paunang variable sa umaasa at independyente, ang hindi pagkakaugnay ng mga salik na kasama sa mga equation, ang linearity ng relasyon, ang kawalan ng autocorrelation ng mga nalalabi, ang kanilang pagkakapantay-pantay. mga inaasahan sa matematika zero at patuloy na pagpapakalat.

Isa sa mga pangunahing hypotheses ng LSM ay ang pagpapalagay na ang mga dispersion ng deviations ei ay pantay, i.e. ang kanilang pagkalat sa paligid ng average (zero) na halaga ng serye ay dapat na isang matatag na halaga. Ang ari-arian na ito ay tinatawag na homoscedasticity. Sa pagsasagawa, ang mga pagkakaiba-iba ng mga paglihis ay madalas na hindi pareho, iyon ay, ang heteroscedasticity ay sinusunod. Ito ay maaaring dahil sa iba't ibang dahilan. Halimbawa, maaaring may mga error sa orihinal na data. Ang mga random na kamalian sa pinagmulang impormasyon, tulad ng mga error sa pagkakasunud-sunod ng mga numero, ay maaaring magkaroon ng malaking epekto sa mga resulta. Kadalasan ang isang mas malaking pagkalat ng mga deviations єi ay sinusunod sa malalaking halaga ng dependent variable (mga variable). Kung ang data ay naglalaman ng isang makabuluhang error, kung gayon, natural, ang paglihis ng halaga ng modelo na kinakalkula mula sa maling data ay magiging malaki din. Upang mapupuksa ang error na ito, kailangan naming bawasan ang kontribusyon ng mga data na ito sa mga resulta ng pagkalkula, magtakda ng mas mababang timbang para sa mga ito kaysa sa lahat ng iba pa. Ang ideyang ito ay ipinatupad sa may pinakamababang timbang na mga parisukat.

Halimbawa.

Pang-eksperimentong data sa mga halaga ng mga variable X At sa ay ibinigay sa talahanayan.

Bilang resulta ng kanilang pagkakahanay, ang pag-andar

Gamit hindi bababa sa parisukat na paraan, tantiyahin ang mga data na ito na may linear na dependence y=ax+b(hanapin ang mga parameter ngunit At b). Alamin kung alin sa dalawang linya ang mas mahusay (sa kahulugan ng pinakamaliit na paraan ng mga parisukat) ang nakahanay sa pang-eksperimentong data. Gumawa ng drawing.

Ang kakanyahan ng pamamaraan ng hindi bababa sa mga parisukat (LSM).

Ang problema ay upang mahanap ang mga linear dependence coefficients kung saan ang function ng dalawang variable ngunit At b kumukuha ng pinakamaliit na halaga. Ibig sabihin, ibinigay ang data ngunit At b ang kabuuan ng mga squared deviations ng pang-eksperimentong data mula sa natagpuang tuwid na linya ang magiging pinakamaliit. Ito ang buong punto ng pamamaraan ng least squares.

Kaya, ang solusyon ng halimbawa ay nabawasan sa paghahanap ng extremum ng isang function ng dalawang variable.

Derivation ng mga formula para sa paghahanap ng mga coefficient.

Ang isang sistema ng dalawang equation na may dalawang hindi alam ay pinagsama-sama at nalulutas. Paghahanap ng mga partial derivatives ng mga function sa pamamagitan ng mga variable ngunit At b, itinutumbas namin ang mga derivative na ito sa zero.

Nalulutas namin ang nagresultang sistema ng mga equation sa pamamagitan ng anumang pamamaraan (halimbawa paraan ng pagpapalit o Pamamaraan ni Cramer) at kumuha ng mga formula para sa paghahanap ng mga coefficient gamit ang least squares method (LSM).

Gamit ang data ngunit At b function kumukuha ng pinakamaliit na halaga. Ang patunay ng katotohanang ito ay ibinigay sa ibaba ng teksto sa dulo ng pahina.

Iyan ang buong paraan ng hindi bababa sa mga parisukat. Formula para sa paghahanap ng parameter a naglalaman ng mga kabuuan ,,, at ang parameter n- dami ng pang-eksperimentong data. Ang mga halaga ng mga kabuuan na ito ay inirerekomenda na kalkulahin nang hiwalay. Coefficient b natagpuan pagkatapos ng pagkalkula a.

Oras na para alalahanin ang orihinal na halimbawa.

Solusyon.

Sa ating halimbawa n=5. Pinupuno namin ang talahanayan para sa kaginhawaan ng pagkalkula ng mga halaga na kasama sa mga formula ng mga kinakailangang coefficient.

Ang mga halaga sa ika-apat na hilera ng talahanayan ay nakuha sa pamamagitan ng pagpaparami ng mga halaga ng ika-2 hilera sa mga halaga ng ika-3 hilera para sa bawat numero i.

Ang mga halaga sa ikalimang hilera ng talahanayan ay nakuha sa pamamagitan ng pag-squaring ng mga halaga ng ika-2 hilera para sa bawat numero i.

Ang mga halaga ng huling hanay ng talahanayan ay ang mga kabuuan ng mga halaga sa mga hilera.

Ginagamit namin ang mga formula ng pinakamaliit na paraan ng mga parisukat upang mahanap ang mga coefficient ngunit At b. Pinapalitan namin sa kanila ang kaukulang mga halaga mula sa huling hanay ng talahanayan:

Dahil dito, y=0.165x+2.184 ay ang nais na tinatayang tuwid na linya.

Ito ay nananatiling alamin kung alin sa mga linya y=0.165x+2.184 o mas mahusay na tinatantya ang orihinal na data, ibig sabihin, gumawa ng pagtatantya gamit ang paraan ng least squares.

Pagtatantya ng error ng paraan ng hindi bababa sa mga parisukat.

Upang gawin ito, kailangan mong kalkulahin ang mga kabuuan ng mga squared deviations ng orihinal na data mula sa mga linyang ito At , ang isang mas maliit na halaga ay tumutugma sa isang linya na mas mahusay na tinatantya ang orihinal na data sa mga tuntunin ng pinakamaliit na paraan ng mga parisukat.

Since , tapos yung linya y=0.165x+2.184 mas mahusay na tinatantya ang orihinal na data.

Graphic na paglalarawan ng least squares method (LSM).

Ang lahat ay mukhang mahusay sa mga chart. Ang pulang linya ay ang nahanap na linya y=0.165x+2.184, ang asul na linya ay , ang mga pink na tuldok ay ang orihinal na data.

Sa pagsasagawa, kapag nagmomodelo ng iba't ibang mga proseso - sa partikular, pang-ekonomiya, pisikal, teknikal, panlipunan - ang mga ito o ang mga pamamaraan ng pagkalkula ng tinatayang mga halaga ng mga pag-andar mula sa kanilang mga kilalang halaga sa ilang mga nakapirming punto ay malawakang ginagamit.

Ang mga problema sa pagtatantya ng mga pag-andar ng ganitong uri ay madalas na lumitaw:

    kapag bumubuo ng tinatayang mga formula para sa pagkalkula ng mga halaga ng mga katangian na dami ng proseso sa ilalim ng pag-aaral ayon sa tabular na data na nakuha bilang isang resulta ng eksperimento;

    sa numerical integration, differentiation, solusyon differential equation atbp.;

    kung kinakailangan upang kalkulahin ang mga halaga ng mga pag-andar sa mga intermediate na punto ng itinuturing na agwat;

    kapag tinutukoy ang mga halaga ng mga katangian na dami ng proseso sa labas ng itinuturing na agwat, lalo na, kapag nagtataya.

Kung, upang magmodelo ng isang tiyak na proseso na tinukoy ng isang talahanayan, ang isang function ay itinayo na humigit-kumulang na naglalarawan sa prosesong ito batay sa pinakamababang paraan ng mga parisukat, ito ay tatawagin na isang approximating function (regression), at ang gawain ng pagbuo ng approximating function mismo ay maging isang problema sa pagtatantya.

Tinatalakay ng artikulong ito ang mga kakayahan ng pakete ng MS Excel para sa paglutas ng mga naturang problema, bilang karagdagan, mga pamamaraan at pamamaraan para sa pagbuo (paglikha) ng mga regression para sa tabular itakda ang mga function(na siyang batayan ng pagsusuri ng regression).

Mayroong dalawang mga pagpipilian para sa pagbuo ng mga regression sa Excel.

    Pagdaragdag ng mga napiling regression (trendlines) sa isang chart na binuo batay sa isang talahanayan ng data para sa katangian ng pinag-aralan na proseso (magagamit lamang kung ang isang chart ay binuo);

    Gamit ang built-in na statistical function ng Excel worksheet, na nagbibigay-daan sa iyong makakuha ng mga regression (mga linya ng trend) nang direkta mula sa source data table.

Pagdaragdag ng mga Trendline sa isang Chart

Para sa isang talahanayan ng data na naglalarawan sa isang tiyak na proseso at kinakatawan ng isang diagram, ang Excel ay may isang epektibong tool sa pagsusuri ng regression na nagbibigay-daan sa iyong:

    bumuo sa batayan ng least squares method at magdagdag sa diagram ng limang uri ng regressions na nagmomodelo sa prosesong pinag-aaralan na may iba't ibang antas ng katumpakan;

    magdagdag ng equation ng constructed regression sa diagram;

    tukuyin ang antas ng pagsunod ng napiling regression sa data na ipinapakita sa chart.

Batay sa data ng tsart, pinapayagan ka ng Excel na makakuha ng linear, polynomial, logarithmic, exponential, exponential na mga uri ng regressions, na ibinibigay ng equation:

y = y(x)

kung saan ang x ay isang independiyenteng variable, na kadalasang kumukuha ng mga halaga ng pagkakasunod-sunod ng mga natural na numero (1; 2; 3; ...) at gumagawa, halimbawa, ng countdown ng oras ng prosesong pinag-aaralan (mga katangian) .

1 . Ang linear regression ay mahusay sa pagmomodelo ng mga feature na tumataas o bumababa sa pare-parehong bilis. Ito ang pinakasimpleng modelo ng prosesong pinag-aaralan. Ito ay binuo ayon sa equation:

y=mx+b

kung saan ang m ay ang padaplis ng slope ng linear regression sa x-axis; b - coordinate ng punto ng intersection ng linear regression sa y-axis.

2 . Ang isang polynomial trendline ay kapaki-pakinabang para sa paglalarawan ng mga katangian na may ilang natatanging extremes (highs at lows). Ang pagpili ng antas ng polynomial ay tinutukoy ng bilang ng extrema ng katangian sa ilalim ng pag-aaral. Kaya, ang isang polynomial ng pangalawang antas ay mahusay na naglalarawan ng isang proseso na mayroon lamang isang maximum o minimum; polynomial ng ikatlong antas - hindi hihigit sa dalawang extrema; polynomial ng ika-apat na degree - hindi hihigit sa tatlong extrema, atbp.

Sa kasong ito, ang linya ng trend ay binuo alinsunod sa equation:

y = c0 + c1x + c2x2 + c3x3 + c4x4 + c5x5 + c6x6

kung saan ang mga coefficient c0, c1, c2,... c6 ay mga constant na ang mga halaga ay tinutukoy sa panahon ng konstruksiyon.

3 . Ang logarithmic trend line ay matagumpay na ginagamit sa pagmomodelo ng mga katangian, ang mga halaga na mabilis na nagbabago sa simula, at pagkatapos ay unti-unting nagpapatatag.

y = c ln(x) + b

4 . Ang linya ng takbo ng kuryente ay nagbibigay ng magagandang resulta kung ang mga halaga ng pinag-aralan na pag-asa ay nailalarawan sa pamamagitan ng patuloy na pagbabago sa rate ng paglago. Ang isang halimbawa ng naturang pag-asa ay maaaring magsilbi bilang isang graph ng pantay na pinabilis na paggalaw ng kotse. Kung mayroong zero o negatibong mga halaga sa data, hindi ka maaaring gumamit ng linya ng trend ng kuryente.

Ito ay binuo alinsunod sa equation:

y = cxb

kung saan ang mga coefficient b, c ay pare-pareho.

5 . Dapat gumamit ng exponential trendline kung patuloy na tumataas ang rate ng pagbabago sa data. Para sa data na naglalaman ng zero o negatibong mga halaga, hindi rin naaangkop ang ganitong uri ng pagtatantya.

Ito ay binuo alinsunod sa equation:

y=cebx

kung saan ang mga coefficient b, c ay pare-pareho.

Kapag pumipili ng linya ng trend, awtomatikong kinakalkula ng Excel ang halaga ng R2, na nagpapakilala sa katumpakan ng pagtatantya: kung mas malapit ang halaga ng R2 sa isa, mas mapagkakatiwalaan ang linya ng trend na tinatantya ang prosesong pinag-aaralan. Kung kinakailangan, ang halaga ng R2 ay maaaring palaging ipakita sa diagram.

Natutukoy ng formula:

Upang magdagdag ng linya ng trend sa isang serye ng data:

    buhayin ang chart na binuo batay sa serye ng data, ibig sabihin, mag-click sa loob ng lugar ng chart. Lalabas ang item sa Chart sa pangunahing menu;

    pagkatapos mag-click sa item na ito, lalabas ang isang menu sa screen, kung saan dapat mong piliin ang Add trend line command.

Ang parehong mga aksyon ay madaling ipatupad kung mag-hover ka sa graph na tumutugma sa isa sa mga serye ng data at i-right-click; sa lalabas na menu ng konteksto, piliin ang command na Add trend line. Lalabas ang dialog box ng Trendline sa screen na may nakabukas na tab na Uri (Fig. 1).

Pagkatapos nito kailangan mo:

Sa tab na Uri, piliin ang kinakailangang uri ng trend line (Linear ay pinili bilang default). Para sa uri ng Polynomial, sa field na Degree, tukuyin ang antas ng napiling polynomial.

1 . Inililista ng field na Built on Series ang lahat ng serye ng data sa chart na pinag-uusapan. Upang magdagdag ng trendline sa isang partikular na serye ng data, piliin ang pangalan nito sa field na Built on series.

Kung kinakailangan, sa pamamagitan ng pagpunta sa tab na Mga Parameter (Fig. 2), maaari mong itakda ang mga sumusunod na parameter para sa linya ng trend:

    baguhin ang pangalan ng linya ng trend sa Pangalan ng tinatayang (pinakinis) na patlang ng kurba.

    itakda ang bilang ng mga tuldok (pasulong o paatras) para sa pagtataya sa field ng Pagtataya;

    ipakita ang equation ng trend line sa chart area, kung saan dapat mong paganahin ang checkbox na ipakita ang equation sa chart;

    ipakita ang halaga ng approximation reliability R2 sa diagram area, kung saan dapat mong paganahin ang checkbox ilagay ang value ng approximation reliability (R^2) sa diagram;

    itakda ang punto ng intersection ng trend line sa Y-axis, kung saan dapat mong paganahin ang checkbox Intersection ng curve na may Y-axis sa isang punto;

    i-click ang OK button upang isara ang dialog box.

May tatlong paraan upang simulan ang pag-edit ng isang nakabuo nang trendline:

    gamitin ang Napiling trend line na command mula sa Format menu, pagkatapos piliin ang trend line;

    piliin ang Format Trendline na utos mula sa menu ng konteksto, na tinatawag sa pamamagitan ng pag-right-click sa trendline;

    sa pamamagitan ng pag-double click sa trend line.

Ang Format Trendline dialog box ay lalabas sa screen (Fig. 3), na naglalaman ng tatlong tab: View, Type, Parameters, at ang mga nilalaman ng huling dalawang ganap na tumutugma sa mga katulad na tab ng Trendline dialog box (Fig. 1-2 ). Sa tab na View, maaari mong itakda ang uri ng linya, kulay at kapal nito.

Upang tanggalin ang isang nabuo nang trend line, piliin ang trend line na tatanggalin at pindutin ang Delete key.

Ang mga bentahe ng itinuturing na tool sa pagsusuri ng regression ay:

    ang kamag-anak na kadalian ng pag-plot ng trend line sa mga chart nang hindi gumagawa ng talahanayan ng data para dito;

    isang medyo malawak na listahan ng mga uri ng mga iminungkahing linya ng trend, at kasama sa listahang ito ang mga pinakakaraniwang ginagamit na uri ng regression;

    ang posibilidad na mahulaan ang pag-uugali ng prosesong pinag-aaralan para sa isang arbitraryo (sa loob bait) ang bilang ng mga hakbang pasulong at pabalik;

    ang posibilidad na makuha ang equation ng trend line sa isang analytical form;

    ang posibilidad, kung kinakailangan, ng pagkuha ng isang pagtatasa ng pagiging maaasahan ng approximation.

Kasama sa mga kawalan ang mga sumusunod na puntos:

    ang pagtatayo ng isang linya ng trend ay isinasagawa lamang kung mayroong isang tsart na binuo sa isang serye ng data;

    ang proseso ng pagbuo ng mga serye ng data para sa katangiang pinag-aaralan batay sa mga equation ng mga linya ng trend na nakuha para dito ay medyo kalat: ang mga kinakailangang regression equation ay ina-update sa bawat pagbabago sa mga halaga ng orihinal na serye ng data, ngunit sa loob lamang ng diagram lugar, habang serye ng datos, na nabuo batay sa lumang equation ng linya ng trend, ay nananatiling hindi nagbabago;

    Sa mga ulat ng PivotChart, kapag binago mo ang view ng chart o ang nauugnay na ulat ng PivotTable, hindi pinapanatili ang mga kasalukuyang trendline, kaya dapat mong tiyakin na natutugunan ng layout ng ulat ang iyong mga kinakailangan bago ka gumuhit ng mga trendline o kung hindi man ay i-format ang ulat ng PivotChart.

Maaaring idagdag ang mga linya ng trend sa serye ng data na ipinakita sa mga chart gaya ng graph, histogram, flat non-normalized na area chart, bar, scatter, bubble at stock chart.

Hindi ka maaaring magdagdag ng mga trendline sa serye ng data sa 3-D, Standard, Radar, Pie, at Donut chart.

Paggamit ng Mga Built-in na Excel Function

Nagbibigay din ang Excel ng regression analysis tool para sa pag-plot ng mga trendline sa labas ng chart area. Ang isang bilang ng mga pag-andar ng statistical worksheet ay maaaring gamitin para sa layuning ito, ngunit lahat ng mga ito ay nagpapahintulot sa iyo na bumuo lamang ng mga linear o exponential regression.

Ang Excel ay may ilang mga function para sa pagbuo ng linear regression, sa partikular:

    TREND;

  • SLOPE at PUTOL.

Pati na rin ang ilang mga function para sa pagbuo ng isang exponential trend line, sa partikular:

    LGRFPapprox.

Dapat tandaan na ang mga pamamaraan para sa pagbuo ng mga regression gamit ang TREND at GROWTH function ay halos pareho. Ang parehong ay maaaring sinabi tungkol sa pares ng mga function LINEST at LGRFPRIBL. Para sa apat na function na ito, kapag lumilikha ng talahanayan ng mga halaga, ginagamit ang mga feature ng Excel tulad ng mga array formula, na medyo nakakagulo sa proseso ng pagbuo ng mga regression. Napansin din namin na ang pagbuo ng isang linear regression, sa aming opinyon, ay pinakamadaling ipatupad gamit ang SLOPE at INTERCEPT function, kung saan ang una sa mga ito ay tumutukoy sa slope ng linear regression, at ang pangalawa ay tumutukoy sa segment na pinutol ng regression sa y-axis.

Ang mga bentahe ng built-in na tool sa pag-andar para sa pagsusuri ng regression ay:

    isang medyo simpleng proseso ng parehong uri ng pagbuo ng serye ng data ng katangian sa ilalim ng pag-aaral para sa lahat ng built-in na istatistikal na function na nagtatakda ng mga linya ng trend;

    isang karaniwang pamamaraan para sa pagbuo ng mga linya ng trend batay sa nabuong serye ng data;

    ang posibilidad na mahulaan ang pag-uugali ng prosesong pinag-aaralan sa kinakailangang halaga hakbang pasulong o paatras.

At ang mga disadvantages ay kinabibilangan ng katotohanan na ang Excel ay walang mga built-in na function para sa paglikha ng iba pang (maliban sa linear at exponential) na mga uri ng mga linya ng trend. Ang sitwasyong ito ay madalas na hindi nagpapahintulot sa pagpili ng isang sapat na tumpak na modelo ng prosesong pinag-aaralan, pati na rin ang pagkuha ng mga pagtataya na malapit sa katotohanan. Bilang karagdagan, kapag ginagamit ang TREND at GROW function, ang mga equation ng mga linya ng trend ay hindi alam.

Dapat pansinin na ang mga may-akda ay hindi nagtakda ng layunin ng artikulo na ipakita ang kurso ng pagsusuri ng regression na may iba't ibang antas ng pagkakumpleto. Ang pangunahing gawain nito ay upang ipakita ang mga kakayahan ng Excel package sa paglutas ng mga problema sa pagtatantya gamit ang mga partikular na halimbawa; ipakita kung anong mga epektibong tool ang Excel para sa pagbuo ng mga regression at pagtataya; ilarawan kung gaano kadali ang mga ganitong problema ay malulutas kahit ng isang gumagamit na walang malalim na kaalaman sa pagsusuri ng regression.

Mga halimbawa ng paglutas ng mga partikular na problema

Isaalang-alang ang solusyon ng mga partikular na problema gamit ang mga nakalistang tool ng Excel package.

Gawain 1

Sa isang talahanayan ng data sa kita ng isang negosyo sa transportasyon ng motor para sa 1995-2002. kailangan mong gawin ang mga sumusunod.

    Bumuo ng tsart.

    Magdagdag ng mga linear at polynomial (quadratic at cubic) na mga linya ng trend sa chart.

    Gamit ang mga equation ng trend line, kumuha ng tabular na data sa tubo ng enterprise para sa bawat trend line para sa 1995-2004.

    Gumawa ng pagtataya ng kita para sa negosyo para sa 2003 at 2004.

Ang solusyon sa problema

    Sa hanay ng mga cell A4:C11 ng Excel worksheet, ipinasok namin ang worksheet na ipinapakita sa Fig. 4.

    Ang pagkakaroon ng napiling hanay ng mga cell B4:C11, bumuo kami ng isang tsart.

    Ina-activate namin ang itinayong tsart at, ayon sa pamamaraang inilarawan sa itaas, pagkatapos piliin ang uri ng trend line sa dialog box ng Trend Line (tingnan ang Fig. 1), halili kaming nagdaragdag ng mga linear, quadratic at cubic trend lines sa chart. Sa parehong dialog box, buksan ang tab na Mga Parameter (tingnan ang Fig. 2), sa Pangalan ng tinatayang (smoothed) na curve field, ilagay ang pangalan ng idinagdag na trend, at sa Forecast forward para sa: mga patlang, itakda ang halaga 2, dahil ito ay binalak na gumawa ng forecast ng kita para sa dalawang taon sa hinaharap. Upang ipakita ang regression equation at ang approximation reliability value R2 sa lugar ng diagram, paganahin ang mga checkbox na Ipakita ang equation sa screen at ilagay ang approximation reliability value (R^2) sa diagram. Para sa mas magandang visual na perception, binabago namin ang uri, kulay, at kapal ng mga itinayong linya ng trend, kung saan ginagamit namin ang View na tab ng Trend Line Format dialog box (tingnan ang Fig. 3). Ang resultang tsart na may idinagdag na mga linya ng trend ay ipinapakita sa fig. lima.

    Upang makakuha ng tabular data sa kita ng enterprise para sa bawat trend line para sa 1995-2004. Gamitin natin ang mga equation ng trend lines na ipinakita sa fig. 5. Upang gawin ito, ipasok ang impormasyon ng teksto tungkol sa uri ng napiling linya ng trend sa mga cell ng hanay na D3:F3: Linear na kalakaran, Quadratic trend, Cubic trend. Susunod, ilagay ang linear regression formula sa cell D4 at, gamit ang fill marker, kopyahin ang formula na ito na may mga kaugnay na sanggunian sa hanay ng mga cell D5:D13. Dapat tandaan na ang bawat cell na may linear regression formula mula sa hanay ng mga cell D4:D13 ay may katumbas na cell mula sa range na A4:A13 bilang argumento. Katulad nito, para sa quadratic regression, ang cell range E4:E13 ay napunan, at para sa cubic regression, ang cell range na F4:F13 ay napunan. Kaya, ang isang pagtataya ay ginawa para sa kita ng negosyo para sa 2003 at 2004. na may tatlong uso. Ang resultang talahanayan ng mga halaga ay ipinapakita sa fig. 6.

Gawain 2

    Bumuo ng tsart.

    Magdagdag ng logarithmic, exponential at exponential trend lines sa chart.

    Kunin ang mga equation ng nakuha na mga linya ng trend, pati na rin ang mga halaga ng approximation reliability R2 para sa bawat isa sa kanila.

    Gamit ang mga equation ng trend line, kumuha ng tabular data sa tubo ng enterprise para sa bawat trend line para sa 1995-2002.

    Gumawa ng hula sa kita para sa negosyo para sa 2003 at 2004 gamit ang mga linya ng trend na ito.

Ang solusyon sa problema

Kasunod ng pamamaraang ibinigay sa paglutas ng problema 1, nakakuha kami ng isang diagram na may idinagdag na logarithmic, exponential at exponential trend lines (Fig. 7). Dagdag pa, gamit ang nakuha na mga equation ng linya ng trend, pinupunan namin ang talahanayan ng mga halaga para sa kita ng negosyo, kasama ang hinulaang mga halaga para sa 2003 at 2004. (Larawan 8).

Sa fig. 5 at fig. makikita na ang modelo na may logarithmic trend ay tumutugma sa pinakamababang halaga ng approximation reliability

R2 = 0.8659

Ang pinakamataas na halaga ng R2 ay tumutugma sa mga modelong may polynomial trend: quadratic (R2 = 0.9263) at cubic (R2 = 0.933).

Gawain 3

Sa isang talahanayan ng data sa kita ng isang negosyo sa transportasyon ng motor para sa 1995-2002, na ibinigay sa gawain 1, dapat mong gawin ang mga sumusunod na hakbang.

    Kumuha ng serye ng data para sa mga linear at exponential na trendline gamit ang TREND at GROW function.

    Gamit ang TREND at GROWTH function, gumawa ng forecast ng kita para sa enterprise para sa 2003 at 2004.

    Para sa paunang data at natanggap na serye ng data, bumuo ng diagram.

Ang solusyon sa problema

Gamitin natin ang worksheet ng gawain 1 (tingnan ang Fig. 4). Magsimula tayo sa Mga function ng TREND:

    piliin ang hanay ng mga cell D4:D11, na dapat punan ng mga halaga ng TREND function na naaayon sa kilalang data sa kita ng negosyo;

    tawagan ang Function command mula sa Insert menu. Sa lalabas na dialog box ng Function Wizard, piliin ang TREND function mula sa Statistical category, at pagkatapos ay i-click ang OK na buton. Ang parehong operasyon ay maaaring isagawa sa pamamagitan ng pagpindot sa pindutan (Insert function) ng karaniwang toolbar.

    Sa lalabas na dialog box ng Function Arguments, ilagay ang hanay ng mga cell C4:C11 sa Known_values_y field; sa Known_values_x field - ang hanay ng mga cell B4:B11;

    para gawing array formula ang inilagay na formula, gamitin ang key combination + + .

Ang formula na inilagay namin sa formula bar ay magiging ganito: =(TREND(C4:C11;B4:B11)).

Bilang resulta, ang hanay ng mga cell D4:D11 ay napuno ng kaukulang mga halaga ng TREND function (Larawan 9).

Upang gumawa ng pagtataya ng kita ng kumpanya para sa 2003 at 2004. kailangan:

    piliin ang hanay ng mga cell D12:D13, kung saan ang mga halaga na hinulaan ng TREND function ay ipapasok.

    tawagan ang TREND function at sa lalabas na dialog box ng Function Arguments, ilagay sa Known_values_y field - ang hanay ng mga cell C4:C11; sa Known_values_x field - ang hanay ng mga cell B4:B11; at sa field na New_values_x - ang hanay ng mga cell B12:B13.

    gawing array formula ang formula na ito gamit ang keyboard shortcut na Ctrl + Shift + Enter.

    Ang inilagay na formula ay magmumukhang: =(TREND(C4:C11;B4:B11;B12:B13)), at ang hanay ng mga cell D12:D13 ay mapupuno ng mga hinulaang halaga ng TREND function (tingnan ang Fig. 9).

Katulad nito, ang isang serye ng data ay pinupunan gamit ang GROWTH function, na ginagamit sa pagsusuri ng mga non-linear na dependencies at gumagana nang eksakto katulad ng linear counterpart na TREND nito.

Ipinapakita ng Figure 10 ang talahanayan sa formula display mode.

Para sa paunang data at ang nakuhang serye ng data, ang diagram na ipinapakita sa fig. labing-isa.

Gawain 4

Gamit ang talahanayan ng data sa pagtanggap ng mga aplikasyon para sa mga serbisyo sa pamamagitan ng pagpapadala ng serbisyo ng negosyo sa transportasyon ng motor para sa panahon mula ika-1 hanggang ika-11 araw ng kasalukuyang buwan, ang mga sumusunod na aksyon ay dapat isagawa.

    Kumuha ng serye ng data para sa linear regression: gamit ang SLOPE at INTERCEPT function; gamit ang LINEST function.

    Kumuha ng serye ng data para sa exponential regression gamit ang LYFFPRIB function.

    Gamit ang mga function sa itaas, gumawa ng forecast tungkol sa pagtanggap ng mga aplikasyon sa dispatch service para sa panahon mula ika-12 hanggang ika-14 na araw ng kasalukuyang buwan.

    Para sa orihinal at natanggap na serye ng data, gumawa ng diagram.

Ang solusyon sa problema

Tandaan na, hindi katulad ng mga function ng TREND at GROW, wala sa mga function na nakalista sa itaas (SLOPE, INTERCEPTION, LINEST, LGRFPRIB) ang mga regression. Ang mga function na ito ay gumaganap lamang ng isang pantulong na papel, na tinutukoy ang kinakailangang mga parameter ng regression.

Para sa mga linear at exponential regression na binuo gamit ang SLOPE, INTERCEPT, LINEST, LGRFINB function, ang hitsura ng kanilang mga equation ay palaging kilala, sa kaibahan sa linear at exponential regression na tumutugma sa TREND at GROWTH function.

1 . Bumuo tayo ng linear regression na may equation:

y=mx+b

gamit ang SLOPE at INTERCEPT function, na ang slope ng regression m ay tinutukoy ng SLOPE function, at ang constant term b - ng INTERCEPT function.

Upang gawin ito, ginagawa namin ang mga sumusunod na aksyon:

    ipasok ang source table sa hanay ng mga cell A4:B14;

    ang halaga ng parameter m ay matutukoy sa cell C19. Piliin mula sa kategoryang Statistical ang Slope function; ipasok ang hanay ng mga cell B4:B14 sa kilalang_values_y na field at ang hanay ng mga cell A4:A14 sa kilalang_values_x na field. Ang formula ay ipapasok sa cell C19: =SLOPE(B4:B14;A4:A14);

    gamit ang isang katulad na paraan, ang halaga ng parameter b sa cell D19 ay tinutukoy. At ang nilalaman nito ay magiging ganito: = INTERCEPT(B4:B14;A4:A14). Kaya, ang mga halaga ng mga parameter m at b, na kinakailangan para sa pagbuo ng isang linear regression, ay maiimbak, ayon sa pagkakabanggit, sa mga cell C19, D19;

    pagkatapos ay ipinasok namin ang linear regression formula sa cell C4 sa form: = $ C * A4 + $ D. Sa formula na ito, ang mga cell C19 at D19 ay nakasulat na may ganap na mga sanggunian (ang cell address ay hindi dapat magbago sa posibleng pagkopya). Ang absolute reference sign na $ ay maaaring i-type mula sa keyboard o gamit ang F4 key, pagkatapos ilagay ang cursor sa cell address. Gamit ang fill handle, kopyahin ang formula na ito sa hanay ng mga cell C4:C17. Nakukuha namin ang nais na serye ng data (Larawan 12). Dahil sa katotohanan na ang bilang ng mga kahilingan ay isang integer, dapat mong itakda ang format ng numero sa tab na Numero ng window ng Cell Format na may bilang ng mga decimal na lugar sa 0.

2 . Ngayon, bumuo tayo ng linear regression na ibinigay ng equation:

y=mx+b

gamit ang LINEST function.

Para dito:

    ipasok ang LINEST function bilang array formula sa hanay ng mga cell C20:D20: =(LINEST(B4:B14;A4:A14)). Bilang resulta, nakukuha namin ang halaga ng parameter m sa cell C20, at ang halaga ng parameter b sa cell D20;

    ipasok ang formula sa cell D4: =$C*A4+$D;

    kopyahin ang formula na ito gamit ang fill marker sa hanay ng mga cell D4:D17 at makuha ang gustong serye ng data.

3 . Bumubuo kami ng exponential regression na may equation:

sa tulong ng LGRFPRIBL function, ito ay ginaganap nang katulad:

    sa hanay ng mga cell C21:D21, ilagay ang function na LGRFPRIBL bilang array formula: =( LGRFPRIBL (B4:B14;A4:A14)). Sa kasong ito, ang halaga ng parameter m ay tutukuyin sa cell C21, at ang halaga ng parameter b ay tutukuyin sa cell D21;

    ang formula ay ipinasok sa cell E4: =$D*$C^A4;

    gamit ang fill marker, ang formula na ito ay kinokopya sa hanay ng mga cell E4:E17, kung saan matatagpuan ang serye ng data para sa exponential regression (tingnan ang Fig. 12).

Sa fig. Ang 13 ay nagpapakita ng talahanayan kung saan makikita natin ang mga function na ginagamit natin kasama ang mga kinakailangang hanay ng cell, pati na rin ang mga formula.

Halaga R 2 tinawag koepisyent ng pagpapasiya.

Ang gawain ng pagbuo ng isang regression dependence ay upang mahanap ang vector ng coefficients m ng modelo (1) kung saan ang coefficient R ay kumukuha ng pinakamataas na halaga.

Upang masuri ang kahalagahan ng R, ginagamit ang F-test ni Fisher, na kinakalkula ng formula

saan n- laki ng sample (bilang ng mga eksperimento);

k ay ang bilang ng mga model coefficient.

Kung ang F ay lumampas sa ilang kritikal na halaga para sa data n At k at ang tinatanggap na antas ng kumpiyansa, kung gayon ang halaga ng R ay itinuturing na makabuluhan. mga mesa mga kritikal na halaga Ang F ay ibinibigay sa mga sangguniang aklat sa mga istatistika ng matematika.

Kaya, ang kahalagahan ng R ay natutukoy hindi lamang sa halaga nito, kundi pati na rin sa ratio sa pagitan ng bilang ng mga eksperimento at bilang ng mga coefficient (parameter) ng modelo. Sa katunayan, ang ratio ng ugnayan para sa n=2 para sa isang simpleng linear na modelo ay 1 (sa pamamagitan ng 2 puntos sa eroplano, maaari kang palaging gumuhit ng isang solong tuwid na linya). Gayunpaman, kung ang pang-eksperimentong data ay mga random na variable, ang naturang halaga ng R ay dapat na pagkatiwalaan nang may mahusay na pangangalaga. Karaniwan, upang makakuha ng isang makabuluhang R at maaasahang regression, ito ay naglalayong tiyakin na ang bilang ng mga eksperimento ay makabuluhang lumampas sa bilang ng mga coefficient ng modelo (n>k).

Upang bumuo ng isang linear regression na modelo, dapat mong:

1) maghanda ng listahan ng n row at m column na naglalaman ng pang-eksperimentong data (column na naglalaman ng output value Y dapat mauna o huli sa listahan); halimbawa, kunin natin ang data ng nakaraang gawain, pagdaragdag ng column na tinatawag na "period number", na binibilang ang mga bilang ng mga tuldok mula 1 hanggang 12. (ito ang magiging mga halaga X)

2) pumunta sa menu ng Data/Data Analysis/Regression

Kung ang item na "Pagsusuri ng Data" sa menu na "Mga Tool" ay nawawala, dapat kang pumunta sa item na "Mga Add-In" ng parehong menu at lagyan ng check ang kahon ng "Analysis Package."

3) sa dialog box na "Regression", itakda ang:

pagitan ng input Y;

pagitan ng input X;

agwat ng output - ang itaas na kaliwang cell ng agwat kung saan ilalagay ang mga resulta ng pagkalkula (inirerekumenda na ilagay ito sa isang bagong worksheet);

4) i-click ang "Ok" at suriin ang mga resulta.

Ang pamamaraan ng hindi bababa sa mga parisukat (LSM) ay nagbibigay-daan sa iyo upang tantyahin ang iba't ibang dami gamit ang mga resulta ng maraming mga sukat na naglalaman ng mga random na error.

Katangian ng MNC

Pangunahing ideya ang pamamaraang ito ay binubuo sa katotohanan na bilang isang pamantayan para sa katumpakan ng solusyon ng problema, ang kabuuan ng mga squared error ay isinasaalang-alang, na hinahangad na mabawasan. Kapag ginagamit ang pamamaraang ito, maaaring ilapat ang parehong mga numerical at analytical na diskarte.

Sa partikular, bilang isang numerical na pagpapatupad, ang least squares na paraan ay nagpapahiwatig ng pagsasagawa hangga't maaari higit pa mga sukat ng hindi alam random variable. Bukod dito, mas maraming mga kalkulasyon, mas tumpak ang magiging solusyon. Sa set na ito ng mga kalkulasyon (paunang data), isa pang hanay ng mga iminungkahing solusyon ang nakuha, kung saan pipiliin ang pinakamahusay. Kung ang hanay ng mga solusyon ay parametrized, kung gayon ang pinakamababang paraan ng mga parisukat ay mababawasan sa paghahanap ng pinakamainam na halaga ng mga parameter.

Bilang isang analytical na diskarte sa pagpapatupad ng LSM sa hanay ng mga paunang data (mga sukat) at ang iminungkahing hanay ng mga solusyon, ang ilan (functional) ay tinukoy, na maaaring ipahayag ng isang formula na nakuha bilang isang tiyak na hypothesis na kailangang kumpirmahin . Sa kasong ito, ang paraan ng least squares ay binabawasan sa paghahanap ng minimum ng functional na ito sa set ng mga squared error ng paunang data.

Tandaan na hindi ang mga pagkakamali mismo, ngunit ang mga parisukat ng mga pagkakamali. Bakit? Ang katotohanan ay madalas na mga paglihis ng mga sukat mula sa eksaktong halaga ay parehong positibo at negatibo. Kapag tinutukoy ang average, ang simpleng pagbubuod ay maaaring humantong sa isang maling konklusyon tungkol sa kalidad ng pagtatantya, dahil ang magkaparehong pagpuksa ng positibo at mga negatibong halaga babawasan ang lakas ng sampling ng hanay ng mga sukat. At, dahil dito, ang katumpakan ng pagtatasa.

Upang maiwasang mangyari ito, ang mga squared deviations ay summed up. Higit pa riyan, upang mapantayan ang dimensyon ng sinusukat na halaga at ang panghuling pagtatantya, mula sa kabuuan ng mga squared error,

Ang ilang mga aplikasyon ng MNCs

Ang MNC ay malawakang ginagamit sa iba't ibang larangan. Halimbawa, sa probability theory at mga istatistika ng matematika ang pamamaraan ay ginagamit upang matukoy ang gayong katangian ng isang random na variable bilang mean karaniwang lihis, na tumutukoy sa lapad ng hanay ng mga halaga ng random variable.