Agwat ng kumpiyansa para sa mathematical na inaasahan ng isang normal na distribusyon na may alam na pagkakaiba. Mga agwat ng kumpiyansa para sa pagtatantya ng inaasahan sa matematika

Maaari mong gamitin ang form sa paghahanap na ito upang mahanap ninanais na gawain. Maglagay ng salita, parirala mula sa gawain o numero nito kung alam mo ito.


Maghanap lamang sa seksyong ito


Mga Pagitan ng Kumpiyansa: Listahan ng Mga Solusyon sa Problema

Mga pagitan ng kumpiyansa: teorya at mga problema

Pag-unawa sa Mga Pagitan ng Kumpiyansa

Ipakilala natin sa madaling sabi ang konsepto ng agwat ng kumpiyansa, na
1) tinatantya ang ilang parameter ng isang numerical na sample nang direkta mula sa data ng sample mismo,
2) sumasaklaw sa halaga ng parameter na ito na may posibilidad na γ.

Agwat ng kumpiyansa para sa parameter X(na may posibilidad na γ) ay tinatawag na isang pagitan ng anyo , tulad na , at ang mga halaga ay nakalkula sa ilang paraan mula sa sample.

Karaniwan sa mga inilapat na gawain ang antas ng kumpiyansa ay kinuha katumbas ng γ = 0.9; 0.95; 0.99.

Isaalang-alang ang ilang sample ng laki n, na ginawa mula sa populasyon, ipinamahagi siguro ayon sa normal na batas sa pamamahagi. Ipakita natin sa pamamagitan ng kung anong mga formula ang matatagpuan mga agwat ng kumpiyansa para sa mga parameter ng pamamahagi - inaasahan sa matematika at pagpapakalat (standard deviation).

Agwat ng kumpiyansa para sa inaasahan sa matematika

Kaso 1 Ang pagkakaiba-iba ng pamamahagi ay kilala at katumbas ng . Pagkatapos ay ang agwat ng kumpiyansa para sa parameter a mukhang:
t ay tinutukoy mula sa talahanayan ng pamamahagi ng Laplace sa pamamagitan ng ratio

Kaso 2 Hindi alam ang pagkakaiba-iba ng pamamahagi, na kinakalkula mula sa sample pagtatantya ng punto pagpapakalat. Pagkatapos ay ang agwat ng kumpiyansa para sa parameter a mukhang:
, kung saan kinakalkula ang sample mean mula sa sample, parameter t tinutukoy mula sa talahanayan ng pamamahagi ng Mag-aaral

Halimbawa. Batay sa data ng 7 mga sukat ng isang tiyak na halaga, ang average ng mga resulta ng pagsukat ay natagpuan na katumbas ng 30 at ang sample na pagkakaiba ay katumbas ng 36. Hanapin ang mga hangganan kung saan ang tunay na halaga ng sinusukat na halaga ay nilalaman na may pagiging maaasahan na 0.99 .

Solusyon. Hanapin natin . Pagkatapos ang mga limitasyon ng kumpiyansa para sa pagitan na naglalaman ng tunay na halaga ng sinusukat na halaga ay makikita ng formula:
, kung saan ang sample mean, ay ang sample variance. Ang pag-plug sa lahat ng mga halaga, makakakuha tayo ng:

Agwat ng kumpiyansa para sa pagkakaiba

Naniniwala kami na, sa pangkalahatan, ang pag-asa sa matematika ay hindi alam, at isang puntong walang pinapanigan na pagtatantya ng pagkakaiba ang nalalaman. Pagkatapos ang agwat ng kumpiyansa ay ganito ang hitsura:
, saan - mga dami ng pamamahagi na tinutukoy mula sa mga talahanayan.

Halimbawa. Batay sa data ng 7 pagsubok, natagpuan ang halaga ng pagtatantya para sa karaniwang paglihis s=12. Hanapin na may probabilidad na 0.9 ang lapad ng confidence interval na binuo upang tantyahin ang pagkakaiba.

Solusyon. Ang agwat ng kumpiyansa para sa hindi kilalang pagkakaiba-iba ng populasyon ay matatagpuan gamit ang formula:

Palitan at makuha:


Pagkatapos ang lapad ng confidence interval ay 465.589-71.708=393.881.

Agwat ng kumpiyansa para sa posibilidad (porsiyento)

Kaso 1 Hayaang malaman ang sample size at sample fraction (relative frequency) sa problema. Kung gayon ang agwat ng kumpiyansa para sa pangkalahatang bahagi (tunay na posibilidad) ay:
, kung saan ang parameter t ay tinutukoy mula sa talahanayan ng pamamahagi ng Laplace sa pamamagitan ng ratio .

Kaso 2 Kung alam din ng problema ang kabuuang sukat ng populasyon kung saan kinuha ang sample, ang agwat ng kumpiyansa para sa pangkalahatang fraction (tunay na probabilidad) ay makikita gamit ang adjusted formula:
.

Halimbawa. Ito ay kilala na Hanapin ang mga hangganan kung saan ang pangkalahatang bahagi ay natapos na may posibilidad.

Solusyon. Ginagamit namin ang formula:

Hanapin natin ang parameter mula sa kundisyon , nakakakuha tayo ng Substitute sa formula:


Iba pang mga halimbawa ng mga gawain para sa mga istatistika ng matematika makikita mo sa page

Kadalasan ang appraiser ay kailangang suriin ang real estate market ng segment kung saan matatagpuan ang appraisal object. Kung ang merkado ay binuo, maaaring mahirap pag-aralan ang buong hanay ng mga ipinakita na bagay, samakatuwid, ang isang sample ng mga bagay ay ginagamit para sa pagsusuri. Ang sample na ito ay hindi palaging homogenous, kung minsan ay kinakailangan na alisin ito sa mga sukdulan - masyadong mataas o masyadong mababa ang mga alok sa merkado. Para sa layuning ito, inilapat ito agwat ng kumpiyansa. Target itong pag aaral- magsagawa ng comparative analysis ng dalawang paraan para sa pagkalkula ng confidence interval at piliin ang pinakamahusay na opsyon sa pagkalkula kapag nagtatrabaho sa iba't ibang sample sa estimatica.pro system.

Agwat ng kumpiyansa - kinakalkula batay sa sample, ang pagitan ng mga halaga ng katangian, na may kilalang probabilidad ay naglalaman ng tinantyang parameter ng pangkalahatang populasyon.

Ang kahulugan ng pagkalkula ng agwat ng kumpiyansa ay ang pagbuo ng ganoong agwat batay sa sample na data upang ito ay maigiit na may ibinigay na posibilidad na ang halaga ng tinantyang parameter ay nasa pagitan na ito. Sa madaling salita, ang agwat ng kumpiyansa na may tiyak na posibilidad ay naglalaman ng hindi kilalang halaga ng tinantyang dami. Kung mas malawak ang pagitan, mas mataas ang kamalian.

Mayroong iba't ibang mga pamamaraan para sa pagtukoy ng agwat ng kumpiyansa. Sa artikulong ito, isasaalang-alang natin ang 2 paraan:

  • sa pamamagitan ng median at standard deviation;
  • sa kabila kritikal na halaga t-statistics (koepisyent ng mag-aaral).

Mga yugto paghahambing na pagsusuri iba't ibang paraan Pagkalkula ng CI:

1. bumuo ng sample ng data;

2. iproseso ito paraang istatistikal: kalkulahin ang mean, median, variance, atbp.;

3. kinakalkula namin ang pagitan ng kumpiyansa sa dalawang paraan;

4. Suriin ang mga nalinis na sample at ang nakuhang confidence interval.

Stage 1. Data sampling

Ang sample ay nabuo gamit ang estimatica.pro system. Kasama sa sample ang 91 na alok para sa pagbebenta ng mga apartment na may 1 silid sa ika-3 na zone ng presyo na may uri ng pagpaplano na "Khrushchev".

Talahanayan 1. Paunang sample

Ang presyo ng 1 sq.m., c.u.

Fig.1. Paunang sample



Stage 2. Pagproseso ng unang sample

Ang pagpoproseso ng sample sa pamamagitan ng mga istatistikal na pamamaraan ay nangangailangan ng pagkalkula ng mga sumusunod na halaga:

1. Arithmetic mean

2. Median - isang numero na nagpapakilala sa sample: eksaktong kalahati ng mga elemento ng sample ay mas malaki kaysa sa median, ang isa pang kalahati ay mas mababa sa median

(para sa isang sample na may kakaibang bilang ng mga halaga)

3. Saklaw - ang pagkakaiba sa pagitan ng maximum at minimum na mga halaga sa sample

4. Variance - ginagamit upang mas tumpak na matantya ang variation sa data

5. Ang karaniwang paglihis para sa sample (simula dito ay tinutukoy bilang RMS) ay ang pinakakaraniwang tagapagpahiwatig ng pagpapakalat ng mga halaga ng pagsasaayos sa paligid ng arithmetic mean.

6. Coefficient of variation - sumasalamin sa antas ng dispersion ng mga halaga ng pagsasaayos

7. oscillation coefficient - sumasalamin sa kamag-anak na pagbabagu-bago ng mga matinding halaga ng mga presyo sa sample sa paligid ng average

Talahanayan 2. Mga tagapagpahiwatig ng istatistika ng orihinal na sample

Ang coefficient ng variation, na nagpapakilala sa homogeneity ng data, ay 12.29%, ngunit ang coefficient ng oscillation ay masyadong malaki. Kaya, maaari nating sabihin na ang orihinal na sample ay hindi homogenous, kaya magpatuloy tayo sa pagkalkula ng agwat ng kumpiyansa.

Stage 3. Pagkalkula ng agwat ng kumpiyansa

Paraan 1. Pagkalkula sa pamamagitan ng median at standard deviation.

Ang agwat ng kumpiyansa ay tinutukoy bilang mga sumusunod: ang pinakamababang halaga - ang karaniwang paglihis ay ibinabawas mula sa median; ang pinakamataas na halaga - ang karaniwang paglihis ay idinagdag sa median.

Kaya, ang agwat ng kumpiyansa (47179 CU; 60689 CU)

kanin. 2. Mga halaga sa loob ng pagitan ng kumpiyansa 1.



Paraan 2. Pagbuo ng agwat ng kumpiyansa sa pamamagitan ng kritikal na halaga ng t-statistics (Koepisyent ng mag-aaral)

S.V. Gribovsky sa aklat na "Mga pamamaraan ng matematika para sa pagtatasa ng halaga ng ari-arian" ay naglalarawan ng isang paraan para sa pagkalkula ng agwat ng kumpiyansa sa pamamagitan ng koepisyent ng Mag-aaral. Kapag nagkalkula sa pamamagitan ng pamamaraang ito, ang estimator mismo ay dapat magtakda ng antas ng kahalagahan ∝, na tumutukoy sa posibilidad na mabuo ang pagitan ng kumpiyansa. Ang mga antas ng kahalagahan ng 0.1 ay karaniwang ginagamit; 0.05 at 0.01. Tumutugma sila sa mga probabilidad ng kumpiyansa na 0.9; 0.95 at 0.99. Sa pamamaraang ito, ang mga tunay na halaga ng inaasahan at pagkakaiba-iba ng matematika ay itinuturing na halos hindi alam (na halos palaging totoo kapag nilulutas mga praktikal na gawain mga rating).

Formula sa pagitan ng kumpiyansa:

n - laki ng sample;

Ang kritikal na halaga ng t-statistics (Mga distribusyon ng Mag-aaral) na may antas ng kahalagahan ∝, ang bilang ng mga antas ng kalayaan n-1, na tinutukoy ng mga espesyal na talahanayan ng istatistika o gamit ang MS Excel (→"Statistical"→ STUDRASPOBR);

∝ - antas ng kahalagahan, kinukuha namin ang ∝=0.01.

kanin. 2. Mga halaga sa loob ng agwat ng kumpiyansa 2.

Hakbang 4. Pagsusuri ng iba't ibang paraan upang makalkula ang pagitan ng kumpiyansa

Dalawang paraan upang makalkula ang pagitan ng kumpiyansa - sa pamamagitan ng median at koepisyent ng Mag-aaral - na humantong sa iba't ibang halaga mga pagitan. Alinsunod dito, nakuha ang dalawang magkaibang purified sample.

Talahanayan 3. Mga tagapagpahiwatig ng istatistika para sa tatlong sample.

Tagapagpahiwatig

Paunang sample

1 opsyon

Opsyon 2

ibig sabihin

Pagpapakalat

Coef. mga pagkakaiba-iba

Coef. mga oscillations

Bilang ng mga retiradong bagay, mga pcs.

Batay sa mga kalkulasyon na isinagawa, masasabing ang iba't ibang pamamaraan ang mga halaga ng mga agwat ng kumpiyansa ay nagsalubong, kaya maaari mong gamitin ang alinman sa mga paraan ng pagkalkula sa pagpapasya ng evaluator.

Gayunpaman, naniniwala kami na kapag nagtatrabaho sa estimatica.pro system, ipinapayong pumili ng paraan para sa pagkalkula ng agwat ng kumpiyansa, depende sa antas ng pag-unlad ng merkado:

  • kung ang merkado ay hindi binuo, ilapat ang paraan ng pagkalkula sa pamamagitan ng median at standard deviation, dahil ang bilang ng mga retiradong bagay sa kasong ito ay maliit;
  • kung ang merkado ay binuo, ilapat ang pagkalkula sa pamamagitan ng kritikal na halaga ng t-statistics (estudyante's coefficient), dahil posible na bumuo ng isang malaking paunang sample.

Sa paghahanda ng artikulo ay ginamit:

1. Gribovsky S.V., Sivets S.A., Levykina I.A. Mga pamamaraan ng matematika para sa pagtatasa ng halaga ng ari-arian. Moscow, 2014

2. Data mula sa estimatica.pro system

At iba pa. Lahat ng mga ito ay mga pagtatantya ng kanilang mga teoretikal na katapat, na maaaring makuha kung walang sample, ngunit ang pangkalahatang populasyon. Ngunit sayang, ang pangkalahatang populasyon ay napakamahal at kadalasan ay hindi magagamit.

Ang konsepto ng pagtatantya ng pagitan

Ang anumang sample na pagtatantya ay may ilang scatter, dahil ay isang random variable, depende sa mga halaga sa isang partikular na sample. Samakatuwid, para sa mas maaasahang istatistikal na inferences, dapat malaman hindi lamang ang point estimate, kundi pati na rin ang interval, na may mataas na posibilidad. γ Sinasaklaw ng (gamma) ang tinantyang tagapagpahiwatig θ (theta).

Pormal, ito ay dalawang ganoong halaga (mga istatistika) T1(X) At T2(X), Ano T1< T 2 , kung saan sa isang naibigay na antas ng posibilidad γ natugunan ang kondisyon:

Sa madaling salita, malamang γ o higit pa ang tunay na halaga ay nasa pagitan ng mga puntos T1(X) At T2(X), na tinatawag na lower at upper bounds agwat ng kumpiyansa.

Ang isa sa mga kondisyon para sa pagbuo ng mga agwat ng kumpiyansa ay ang maximum na makitid nito, i.e. ito ay dapat na maikli hangga't maaari. Ang pagnanais ay medyo natural, dahil. sinusubukan ng mananaliksik na mas tumpak na i-localize ang paghahanap ng nais na parameter.

Ito ay sumusunod na ang agwat ng kumpiyansa ay dapat sumaklaw sa pinakamataas na posibilidad ng pamamahagi. at ang score mismo ay nasa gitna.

Iyon ay, ang posibilidad ng isang paglihis (ng tunay na tagapagpahiwatig mula sa pagtatantya) sa malaking bahagi ay katumbas ng posibilidad ng pababang paglihis. Dapat ding tandaan na para sa mga skewed distribution, ang interval sa kanan ay hindi katumbas ng interval sa kaliwa.

Ang figure sa itaas ay malinaw na nagpapakita na mas malaki ang antas ng kumpiyansa, mas malawak ang pagitan - isang direktang relasyon.

Ito ay isang maliit na panimula sa teorya ng pagtatantya ng pagitan ng hindi kilalang mga parameter. Lumipat tayo sa paghahanap ng mga limitasyon ng kumpiyansa para sa inaasahan sa matematika.

Agwat ng kumpiyansa para sa inaasahan sa matematika

Kung ang orihinal na data ay ibinahagi sa , ang average ay magiging isang normal na halaga. Ito ay sumusunod mula sa panuntunan na ang isang linear na kumbinasyon ng mga normal na halaga ay mayroon ding normal na distribusyon. Samakatuwid, upang kalkulahin ang mga probabilidad, maaari naming gamitin ang mathematical apparatus ng normal na batas sa pamamahagi.

Gayunpaman, mangangailangan ito ng kaalaman sa dalawang parameter - ang inaasahang halaga at ang pagkakaiba, na karaniwang hindi alam. Maaari mong, siyempre, gumamit ng mga pagtatantya sa halip na mga parameter (arithmetic mean at ), ngunit pagkatapos ay ang distribusyon ng mean ay hindi magiging normal, ito ay bahagyang pipi. Mahusay na napansin ng mamamayang si William Gosset ng Ireland ang katotohanang ito nang ilathala niya ang kanyang natuklasan sa Marso 1908 na isyu ng Biometrica. Para sa mga layuning lihim, lumagda si Gosset kasama ang Mag-aaral. Ganito lumabas ang t-distribution ng Student.

Gayunpaman, ang normal na pamamahagi ng data, na ginamit ni K. Gauss sa pagsusuri ng mga pagkakamali sa mga obserbasyon sa astronomiya, ay napakabihirang sa buhay sa lupa at medyo mahirap itatag ito (para sa mataas na katumpakan, mga 2 libong obserbasyon ang kailangan). Samakatuwid, pinakamahusay na i-drop ang normality assumption at gumamit ng mga pamamaraan na hindi nakadepende sa pamamahagi ng orihinal na data.

Ang tanong ay lumitaw: ano ang pamamahagi ng ibig sabihin ng aritmetika kung ito ay kinakalkula mula sa data ng isang hindi kilalang pamamahagi? Ang sagot ay ibinigay ng kilalang in probability theory Central limit theorem(CPT). Sa matematika, mayroong ilang mga bersyon nito (ang mga pormulasyon ay napino sa paglipas ng mga taon), ngunit, sa halos pagsasalita, lahat sila ay bumagsak sa pahayag na ang kabuuan isang malaking bilang ang mga independent random variable ay sumusunod sa normal na batas sa pamamahagi.

Kapag kinakalkula ang arithmetic mean, ang kabuuan ng mga random na variable ay ginagamit. Mula dito lumalabas na ang arithmetic mean ay may normal na distribusyon, kung saan ang inaasahang halaga ay ang inaasahang halaga ng paunang data, at ang pagkakaiba ay .

Mga matatalinong tao alam kung paano patunayan ang CLT, ngunit ibe-verify namin ito sa tulong ng isang eksperimento na isinagawa sa Excel. Gayahin natin ang isang sample ng 50 pare-parehong ipinamamahagi na mga random na variable (gamit ang Mga function ng Excel RANDOMBETWEEN). Pagkatapos ay gagawa kami ng 1000 tulad ng mga sample at kalkulahin ang arithmetic mean para sa bawat isa. Tingnan natin ang kanilang pamamahagi.

Makikita na ang distribusyon ng average ay malapit sa normal na batas. Kung ang dami ng mga sample at ang kanilang bilang ay gagawing mas malaki, kung gayon ang pagkakatulad ay magiging mas mahusay.

Ngayon na nakita natin sa ating sarili ang bisa ng CLT, maaari nating, gamit ang , kalkulahin ang mga agwat ng kumpiyansa para sa arithmetic mean, na sumasaklaw sa tunay na mean o mathematical na inaasahan na may ibinigay na posibilidad.

Upang itakda ang upper at lower bounds, kailangan mong malaman ang mga parameter normal na pamamahagi. Bilang isang patakaran, hindi sila, samakatuwid, ang mga pagtatantya ay ginagamit: ibig sabihin ng aritmetika At sample na pagkakaiba-iba. Muli, ang pamamaraang ito ay nagbibigay ng isang mahusay na approximation para lamang sa malalaking sample. Kapag ang mga sample ay maliit, madalas na inirerekomenda na gamitin ang pamamahagi ng Mag-aaral. Huwag maniwala! Ang distribusyon ng mag-aaral para sa mean ay nangyayari lamang kapag ang orihinal na data ay may normal na distribusyon, iyon ay, halos hindi kailanman. Samakatuwid, mas mahusay na agad na itakda ang minimum na bar para sa dami ng kinakailangang data at gumamit ng mga asymptotically correct na pamamaraan. Sabi nila, sapat na ang 30 obserbasyon. Kumuha ng 50 - hindi ka maaaring magkamali.

T 1.2 ay ang lower at upper bounds ng confidence interval

– sample na arithmetic mean

s0– sample na standard deviation (walang pinapanigan)

n – laki ng sample

γ – antas ng kumpiyansa (karaniwang katumbas ng 0.9, 0.95 o 0.99)

c γ =Φ -1 ((1+γ)/2) ay ang kapalit ng karaniwang normal na distribution function. Sa simpleng mga termino, ito ang bilang ng mga karaniwang error mula sa arithmetic mean hanggang sa lower o upper bound (ang ipinahiwatig na tatlong probabilidad ay tumutugma sa mga halaga ng 1.64, 1.96 at 2.58).

Ang kakanyahan ng formula ay ang arithmetic mean ay kinuha at pagkatapos ay isang tiyak na halaga ay itabi mula dito ( kasama si γ) karaniwang mga error ( s 0 /√n). Ang lahat ay alam, kunin at bilangin.

Bago ang malawakang paggamit ng mga PC, upang makuha ang mga halaga ng normal na function ng pamamahagi at ang kabaligtaran nito, ginamit nila . Ginagamit pa rin ang mga ito, ngunit mas mahusay na lumipat sa handa na Mga formula ng Excel. Ang lahat ng elemento mula sa formula sa itaas ( , at ) ay madaling kalkulahin sa Excel. Ngunit mayroon ding isang handa na formula para sa pagkalkula ng agwat ng kumpiyansa - NORM NG tiwala sa sarili. Ang syntax nito ay ang mga sumusunod.

CONFIDENCE NORM(alpha, standard_dev, size)

alpha– antas ng kahalagahan o antas ng kumpiyansa, na sa notasyon sa itaas ay katumbas ng 1-γ, i.e. ang posibilidad na ang mathematicalang inaasahan ay nasa labas ng confidence interval. Sa antas ng kumpiyansa 0.95, alpha ay 0.05, at iba pa.

standard_off ay ang standard deviation ng sample data. Hindi mo kailangang kalkulahin ang karaniwang error, hahatiin ng Excel sa ugat ng n.

laki– laki ng sample (n).

Ang resulta ng function na CONFIDENCE.NORM ay ang pangalawang termino mula sa formula para sa pagkalkula ng agwat ng kumpiyansa, i.e. kalahating pagitan. Alinsunod dito, ang mas mababa at itaas na mga punto ay ang average ± ang nakuhang halaga.

Kaya, posible na bumuo ng isang unibersal na algorithm para sa pagkalkula ng mga agwat ng kumpiyansa para sa arithmetic mean, na hindi nakasalalay sa pamamahagi ng paunang data. Ang presyo para sa pagiging pangkalahatan ay ang asymptotic na kalikasan nito, i.e. ang pangangailangang gumamit ng medyo malalaking sample. Gayunpaman, sa siglo makabagong teknolohiya ang pagkolekta ng tamang dami ng data ay karaniwang hindi mahirap.

Pagsubok sa Statistical Hypotheses Gamit ang Confidence Interval

(module 111)

Ang isa sa mga pangunahing problema na nalutas sa istatistika ay. Sa madaling salita, ang kakanyahan nito ay ito. Ang isang pagpapalagay ay ginawa, halimbawa, na ang inaasahan ng pangkalahatang populasyon ay katumbas ng ilang halaga. Pagkatapos ay ang pamamahagi ng sample na paraan ay itinayo, na maaaring maobserbahan sa isang naibigay na inaasahan. Susunod, titingnan natin kung saan sa kondisyonal na pamamahagi na ito ang tunay na average ay matatagpuan. Kung ito ay lumampas sa pinahihintulutang mga limitasyon, kung gayon ang hitsura ng naturang average ay napaka hindi malamang, at sa isang solong pag-uulit ng eksperimento ito ay halos imposible, na sumasalungat sa hypothesis na iniharap, na matagumpay na tinanggihan. Kung ang ibig sabihin ay hindi lalampas kritikal na antas, kung gayon ang hypothesis ay hindi tinatanggihan (ngunit hindi napatunayan!).

Kaya, sa tulong ng mga agwat ng kumpiyansa, sa aming kaso para sa inaasahan, maaari mo ring subukan ang ilang mga hypotheses. Napakadaling gawin. Ipagpalagay na ang arithmetic mean para sa ilang sample ay 100. Ang hypothesis ay sinusubok na ang inaasahang halaga ay, sabihin nating, 90. Ibig sabihin, kung ilalagay natin ang tanong sa primitively, ito ay parang ganito: maaari ba na sa totoong halaga ng average na katumbas ng 90, ang naobserbahang average ay 100?

Upang masagot ang tanong na ito, karagdagang impormasyon sa karaniwan karaniwang lihis at laki ng sample. Sabihin nating karaniwang lihis ay 30 at ang bilang ng mga obserbasyon ay 64 (upang madaling makuha ang ugat). Pagkatapos ang karaniwang error ng mean ay 30/8 o 3.75. Upang kalkulahin ang 95% na agwat ng kumpiyansa, kakailanganin mong magtabi ng dalawang karaniwang error sa magkabilang panig ng mean (mas tiyak, 1.96). Ang confidence interval ay magiging humigit-kumulang 100 ± 7.5, o mula 92.5 hanggang 107.5.

Ang karagdagang pangangatwiran ay ang mga sumusunod. Kung ang nasubok na halaga ay nasa loob ng agwat ng kumpiyansa, kung gayon hindi ito sumasalungat sa hypothesis, dahil umaangkop sa loob ng mga limitasyon ng mga random na pagbabagu-bago (na may posibilidad na 95%). Kung ang nasubok na punto ay nasa labas ng agwat ng kumpiyansa, kung gayon ang posibilidad ng naturang kaganapan ay napakaliit, sa anumang kaso ay mas mababa katanggap-tanggap na antas. Samakatuwid, ang hypothesis ay tinanggihan bilang sumasalungat sa naobserbahang data. Sa aming kaso, ang expectation hypothesis ay nasa labas ng confidence interval (ang nasubok na value na 90 ay hindi kasama sa interval na 100±7.5), kaya dapat itong tanggihan. Ang pagsagot sa primitive na tanong sa itaas, dapat sabihin ng isa: hindi, hindi, sa anumang kaso, ito ay napakabihirang mangyari. Kadalasan, ito ay nagpapahiwatig ng isang tiyak na posibilidad ng maling pagtanggi sa hypothesis (p-level), at hindi isang naibigay na antas, ayon sa kung saan ang agwat ng kumpiyansa ay binuo, ngunit higit pa sa ibang pagkakataon.

Tulad ng nakikita mo, hindi mahirap bumuo ng isang agwat ng kumpiyansa para sa mean (o inaasahan sa matematika). Ang pangunahing bagay ay upang mahuli ang kakanyahan, at pagkatapos ay pupunta ang mga bagay. Sa pagsasagawa, karamihan ay gumagamit ng 95% na agwat ng kumpiyansa, na halos dalawang karaniwang error ang lapad sa magkabilang panig ng mean.

Yun lang muna. Lahat ng pinakamahusay!

Sa mga istatistika, mayroong dalawang uri ng mga pagtatantya: punto at pagitan. Pagtataya ng Punto ay isang solong sample na istatistika na ginagamit upang tantyahin ang isang parameter ng populasyon. Halimbawa, ang ibig sabihin ng sample ay isang puntong pagtatantya ng ibig sabihin ng populasyon, at ang sample na pagkakaiba-iba S2- punto ng pagtatantya ng pagkakaiba-iba ng populasyon σ2. ipinakita na ang sample mean ay isang walang pinapanigan na pagtatantya ng inaasahan ng populasyon. Ang sample mean ay tinatawag na walang pinapanigan dahil ang ibig sabihin ng lahat ng sample ay (na may parehong laki ng sample n) ay katumbas ng mathematical na inaasahan ng pangkalahatang populasyon.

Upang ang sample na pagkakaiba-iba S2 naging walang pinapanigan na estimator ng pagkakaiba-iba ng populasyon σ2, ang denominator ng sample na variance ay dapat itakda na katumbas ng n – 1 , ngunit hindi n. Sa madaling salita, ang pagkakaiba-iba ng populasyon ay ang average ng lahat ng posibleng pagkakaiba-iba ng sample.

Kapag tinatantya ang mga parameter ng populasyon, dapat tandaan na ang mga sample na istatistika tulad ng , depende sa mga partikular na sample. Upang isaalang-alang ang katotohanang ito, upang makuha pagtatantya ng pagitan ang matematikal na inaasahan ng pangkalahatang populasyon ay sinusuri ang pamamahagi ng sample na paraan (para sa higit pang mga detalye, tingnan). Ang itinayong agwat ay nailalarawan sa pamamagitan ng isang tiyak na antas ng kumpiyansa, na kung saan ay ang posibilidad na ang tunay na parameter ng pangkalahatang populasyon ay natantiya nang tama. Maaaring gamitin ang mga katulad na agwat ng kumpiyansa upang tantiyahin ang proporsyon ng isang feature R at ang pangunahing ibinahagi na masa ng pangkalahatang populasyon.

Mag-download ng tala sa o format, mga halimbawa sa format

Pagbuo ng isang agwat ng kumpiyansa para sa mathematical na inaasahan ng pangkalahatang populasyon na may kilalang standard deviation

Pagbuo ng isang agwat ng kumpiyansa para sa proporsyon ng isang katangian sa pangkalahatang populasyon

Sa seksyong ito, ang konsepto ng isang agwat ng kumpiyansa ay pinalawak sa kategoryang data. Ito ay nagpapahintulot sa iyo na tantyahin ang bahagi ng katangian sa pangkalahatang populasyon R na may sample share RS= X/n. Tulad ng nabanggit, kung ang mga halaga nR At n(1 - p) lumampas sa numero 5, ang binomial distribution ay maaaring tantiyahin ng normal. Samakatuwid, upang tantyahin ang bahagi ng isang katangian sa pangkalahatang populasyon R posible na bumuo ng isang pagitan na ang antas ng kumpiyansa ay katumbas ng (1 - α)x100%.


saan pS- sample na bahagi ng tampok, katumbas ng X/n, ibig sabihin. ang bilang ng mga tagumpay na hinati sa laki ng sample, R- ang bahagi ng katangian sa pangkalahatang populasyon, Z ay ang kritikal na halaga ng standardized normal distribution, n- laki ng sample.

Halimbawa 3 Ipagpalagay natin na ang isang sample ay kinuha mula sa sistema ng impormasyon, na binubuo ng 100 mga invoice na nakumpleto noong nakaraang buwan. Sabihin nating mali ang 10 sa mga invoice na ito. Sa ganitong paraan, R= 10/100 = 0.1. Ang 95% na antas ng kumpiyansa ay tumutugma sa kritikal na halaga Z = 1.96.

Kaya, mayroong 95% na pagkakataon na sa pagitan ng 4.12% at 15.88% ng mga invoice ay naglalaman ng mga error.

Para sa isang ibinigay na laki ng sample, ang agwat ng kumpiyansa na naglalaman ng proporsyon ng katangian sa pangkalahatang populasyon ay tila mas malawak kaysa sa isang tuluy-tuloy na random na variable. Ito ay dahil ang mga sukat ng isang tuluy-tuloy na random na variable ay naglalaman ng mas maraming impormasyon kaysa sa mga sukat ng pang-kategoryang data. Sa madaling salita, ang kategoryang data na kumukuha lamang ng dalawang halaga ay naglalaman ng hindi sapat na impormasyon upang matantya ang mga parameter ng kanilang pamamahagi.

SApagkalkula ng mga pagtatantya na nakuha mula sa isang may hangganang populasyon

Pagtataya ng inaasahan sa matematika. Salik ng pagwawasto para sa huling populasyon ( fpc) ay ginamit upang mabawasan karaniwang error sa oras. Kapag kinakalkula ang mga agwat ng kumpiyansa para sa mga pagtatantya ng parameter ng populasyon, inilalapat ang isang salik sa pagwawasto sa mga sitwasyon kung saan kinukuha ang mga sample nang walang kapalit. Kaya, ang pagitan ng kumpiyansa para sa inaasahan sa matematika, pagkakaroon ng antas ng kumpiyansa na katumbas ng (1 - α)x100%, ay kinakalkula ng formula:

Halimbawa 4 Upang ilarawan ang aplikasyon ng correction factor para sa isang limitadong populasyon, bumalik tayo sa problema ng pagkalkula ng confidence interval para sa average na halaga ng mga invoice na tinalakay sa Halimbawa 3 sa itaas. Ipagpalagay na ang isang kumpanya ay nag-isyu ng 5,000 invoice bawat buwan, at Xᅳ=110.27 USD, S= $28.95 N = 5000, n = 100, α = 0.05, t99 = 1.9842. Ayon sa formula (6) nakukuha natin:

Pagtatantya ng bahagi ng tampok. Kapag pumipili ng walang pagbabalik, ang agwat ng kumpiyansa para sa proporsyon ng tampok na may antas ng kumpiyansa na katumbas ng (1 - α)x100%, ay kinakalkula ng formula:

Mga pagitan ng kumpiyansa at mga isyung etikal

Kapag nagsa-sample ng isang populasyon at bumubuo ng mga istatistikal na hinuha, madalas na lumitaw ang mga problema sa etika. Ang pangunahing isa ay kung paano nagkakasundo ang mga agwat ng kumpiyansa at mga pagtatantya ng punto ng mga sample na istatistika. Ang mga pagtatantya sa punto ng pag-publish nang hindi tinutukoy ang mga naaangkop na agwat ng kumpiyansa (karaniwan ay nasa 95% na antas ng kumpiyansa) at ang laki ng sample kung saan nagmula ang mga ito ay maaaring mapanlinlang. Ito ay maaaring magbigay sa user ng impresyon na ang pagtatantya ng punto ay eksaktong kailangan niya upang mahulaan ang mga katangian ng buong populasyon. Kaya, kinakailangang maunawaan na sa anumang pananaliksik, hindi punto, ngunit ang mga pagtatantya ng pagitan ay dapat ilagay sa unahan. Bilang karagdagan, ang espesyal na pansin ay dapat bayaran sa tamang pagpili ng mga laki ng sample.

Kadalasan, ang mga bagay ng statistical manipulations ay ang mga resulta opinyon botohan mga tao sa ilang mga isyung pampulitika. Kasabay nito, ang mga resulta ng survey ay inilalagay sa mga front page ng mga pahayagan, at ang error sample na pag-aaral at metodolohiya pagsusuri sa istatistika i-print sa isang lugar sa gitna. Upang patunayan ang bisa ng nakuha na mga pagtatantya ng punto, kinakailangang ipahiwatig ang laki ng sample batay sa kung saan nakuha ang mga ito, ang mga hangganan ng agwat ng kumpiyansa at antas ng kahalagahan nito.

Susunod na tala

Mga materyales mula sa aklat na Levin et al. Ginagamit ang mga istatistika para sa mga tagapamahala. - M.: Williams, 2004. - p. 448–462

Central limit theorem nagsasaad na, dahil sa sapat na laki ng sample, ang sample distribution ng mga paraan ay maaaring tantiyahin sa pamamagitan ng normal na distribution. Ang ari-arian na ito ay hindi nakadepende sa uri ng pamamahagi ng populasyon.

Hayaan ang isang random na variable (maaari nating pag-usapan ang isang pangkalahatang populasyon) na ipamahagi ayon sa normal na batas, kung saan ang pagkakaiba D = 2 (> 0) ay kilala. Mula sa pangkalahatang populasyon (sa hanay ng mga bagay kung saan tinutukoy ang isang random na variable), isang sample ng laki n ang ginawa. Ang sample x 1 , x 2 ,..., x n ay isinasaalang-alang bilang isang koleksyon ng n independiyenteng random na mga variable na ibinahagi sa parehong paraan tulad ng (ang diskarte na ipinaliwanag sa itaas sa teksto).

Noong nakaraan, ang mga sumusunod na pagkakapantay-pantay ay tinalakay at napatunayan din:

Mx 1 = Mx 2 = ... = Mx n = M;

Dx 1 = Dx 2 = ... = Dx n = D;

Sapat na lamang na patunayan (inaalis namin ang patunay) na ang random variable sa kasong ito ay ipinamamahagi din ayon sa normal na batas.

Tukuyin natin ang hindi kilalang halaga ng M sa pamamagitan ng a at piliin ang numerong d > 0 ayon sa ibinigay na pagiging maaasahan upang ang sumusunod na kondisyon ay masiyahan:

P(- a< d) = (1)

Dahil ang random variable ay ibinahagi ayon sa normal na batas na may inaasahan sa matematika M = M = a at ang variance D = D / n = 2 / n, nakukuha namin ang:

P(- a< d) =P(a - d < < a + d) =

Ito ay nananatiling pumili d tulad na ang pagkakapantay-pantay

Para sa sinuman, mahahanap ng isa ang gayong numero t mula sa talahanayan na (t) \u003d / 2. Ang numerong ito ay tinatawag minsan dami.

Ngayon mula sa pagkakapantay-pantay

tukuyin ang halaga ng d:

Nakukuha namin ang huling resulta sa pamamagitan ng pagpapakita ng formula (1) sa form:

Ang kahulugan ng huling formula ay ang mga sumusunod: may pagiging maaasahan, ang pagitan ng kumpiyansa

sumasaklaw sa hindi kilalang parameter a = M ng populasyon. Maaari itong sabihin nang iba: tinutukoy ng pagtatantya ng punto ang halaga ng parameter M na may katumpakan ng d= t / at pagiging maaasahan.

Isang gawain. Hayaang magkaroon ng pangkalahatang populasyon na may ilang katangian na ibinahagi ayon sa normal na batas na may dispersion na katumbas ng 6.25. Isang sample na may sukat n = 27 ang ginawa at nakuha ang average na sample value ng katangian = 12. Hanapin ang confidence interval na sumasaklaw sa hindi alam na mathematical expectation ng pinag-aralan na katangian ng pangkalahatang populasyon na may reliability = 0.99.

Solusyon. Una, gamit ang talahanayan para sa Laplace function, nakita namin ang halaga ng t mula sa equation (t) \u003d / 2 \u003d 0.495. Batay sa nakuhang halaga t = 2.58, tinutukoy namin ang katumpakan ng pagtatantya (o kalahati ng haba ng agwat ng kumpiyansa) d: d = 2.52.58 / 1.24. Mula dito makuha natin ang ninanais na agwat ng kumpiyansa: (10.76; 13.24).

istatistikal na hypothesis pangkalahatang variasyonal

Agwat ng kumpiyansa para sa inaasahan ng isang normal na distribusyon na may hindi kilalang pagkakaiba

Hayaan ang isang random na variable na ibinahagi ayon sa normal na batas na may hindi kilalang matematikal na inaasahan M, na tinutukoy namin ng titik a . Gumawa tayo ng sample ng laki n. Alamin natin ang average na sample at naitama ang sample variance s 2 gamit ang mga kilalang formula.

Random na halaga

ibinahagi ayon sa batas ng Mag-aaral na may n - 1 antas ng kalayaan.

Ang gawain ay upang mahanap ang gayong numero t ayon sa ibinigay na pagiging maaasahan at ang bilang ng mga antas ng kalayaan n - 1 upang ang pagkakapantay-pantay

o katumbas na pagkakapantay-pantay

Dito, sa mga panaklong, ang kundisyon ay nakasulat na ang halaga ng hindi kilalang parameter a ay kabilang sa isang tiyak na agwat, na siyang agwat ng kumpiyansa. Ang mga hangganan nito ay nakasalalay sa pagiging maaasahan, gayundin sa mga parameter ng sampling at s.

Upang matukoy ang halaga ng t ayon sa magnitude, binabago namin ang pagkakapantay-pantay (2) sa anyo:

Ngayon, ayon sa talahanayan para sa isang random na variable t, na ibinahagi ayon sa batas ng Estudyante, ayon sa posibilidad na 1 - at ang bilang ng mga antas ng kalayaan n - 1, nakita natin ang t. Ang Formula (3) ay nagbibigay ng sagot sa problema.

Isang gawain. Sa mga control test ng 20 electric lamp, ang average na tagal ng kanilang operasyon ay katumbas ng 2000 oras na may average karaniwang lihis(kinakalkula bilang square root ng itinamang sample variance) katumbas ng 11 oras. Ito ay kilala na ang tagal ng pagpapatakbo ng lamp ay isang normal na ibinahagi na random variable. Tukuyin na may reliability na 0.95 ang confidence interval para sa mathematical expectation ng random variable na ito.

Solusyon. Ang halaga 1 - sa kasong ito ay katumbas ng 0.05. Ayon sa talahanayan ng pamamahagi ng Estudyante, na may bilang ng mga antas ng kalayaan na katumbas ng 19, makikita natin ang: t = 2.093. Kalkulahin natin ngayon ang katumpakan ng pagtatantya: 2.093121/ = 56.6. Mula dito nakukuha natin ang ninanais na agwat ng kumpiyansa: (1943.4; 2056.6).