Mga pagitan ng kumpiyansa. Agwat ng kumpiyansa para sa inaasahan sa matematika

Mayroong dalawang uri ng mga pagtatantya sa mga istatistika: punto at pagitan. Pagtatantya ng punto kumakatawan sa isang hiwalay na sample na istatistika na ginagamit upang tantyahin ang isang parameter populasyon. Halimbawa, ang ibig sabihin ng sample ay isang puntong pagtatantya ng mathematical na inaasahan ng populasyon, at ang sample na pagkakaiba S 2- punto ng pagtatantya ng pagkakaiba-iba ng populasyon σ 2. ipinakita na ang sample mean ay isang walang pinapanigan na pagtatantya ng matematikal na inaasahan ng populasyon. Ang isang sample mean ay tinatawag na walang kinikilingan dahil ang average ng lahat ng sample ay nangangahulugan (na may parehong laki ng sample) n) ay katumbas ng mathematical na inaasahan ng pangkalahatang populasyon.

Upang ang sample na pagkakaiba-iba S 2 naging walang pinapanigan na pagtatantya ng pagkakaiba-iba ng populasyon σ 2, ang denominator ng sample na variance ay dapat itakda na katumbas ng n – 1 , ngunit hindi n. Sa madaling salita, ang pagkakaiba-iba ng populasyon ay ang average ng lahat ng posibleng pagkakaiba-iba ng sample.

Kapag tinatantya ang mga parameter ng populasyon, dapat tandaan na ang mga sample na istatistika tulad ng , depende sa mga partikular na sample. Upang isaalang-alang ang katotohanang ito, upang makuha pagtatantya ng pagitan pag-asa sa matematika ng pangkalahatang populasyon, pag-aralan ang pamamahagi ng mga sample na paraan (para sa higit pang mga detalye, tingnan). Ang itinayong agwat ay nailalarawan sa pamamagitan ng isang tiyak na antas ng kumpiyansa, na kumakatawan sa posibilidad na ang tunay na parameter ng populasyon ay natantiya nang tama. Maaaring gamitin ang mga katulad na agwat ng kumpiyansa upang tantiyahin ang proporsyon ng isang katangian R at ang pangunahing ibinahagi na masa ng populasyon.

I-download ang tala sa o format, mga halimbawa sa format

Pagbubuo ng agwat ng kumpiyansa para sa mathematical na inaasahan ng populasyon na may kilalang standard deviation

Pagbuo ng agwat ng kumpiyansa para sa bahagi ng isang katangian sa populasyon

Pinapalawak ng seksyong ito ang konsepto ng agwat ng kumpiyansa sa pangkategoryang data. Ito ay nagpapahintulot sa amin na matantya ang bahagi ng katangian sa populasyon R gamit ang sample share RS= X/n. Tulad ng ipinahiwatig, kung ang mga dami nR At n(1 – p) lumampas sa numero 5, ang binomial distribution ay maaaring tantiyahin bilang normal. Samakatuwid, upang tantiyahin ang bahagi ng isang katangian sa populasyon R posible na bumuo ng isang pagitan na ang antas ng kumpiyansa ay katumbas ng (1 – α)х100%.


saan pS- sample na proporsyon ng katangian na katumbas ng X/n, ibig sabihin. bilang ng mga tagumpay na hinati sa laki ng sample, R- ang bahagi ng katangian sa pangkalahatang populasyon, Z - kritikal na halaga standardized normal distribution, n- laki ng sample.

Halimbawa 3. Ipagpalagay natin na ang isang sample na binubuo ng 100 invoice na napunan noong nakaraang buwan ay nakuha mula sa sistema ng impormasyon. Sabihin nating 10 sa mga invoice na ito ay pinagsama-sama ng mga error. kaya, R= 10/100 = 0.1. Ang 95% na antas ng kumpiyansa ay tumutugma sa kritikal na halaga Z = 1.96.

Kaya, ang posibilidad na sa pagitan ng 4.12% at 15.88% ng mga invoice ay naglalaman ng mga error ay 95%.

Para sa ibinigay na laki ng sample agwat ng kumpiyansa, na naglalaman ng bahagi ng katangian sa populasyon, ay tila mas malawak kaysa sa tuluy-tuloy random variable. Ito ay dahil ang mga pagsukat ng isang tuluy-tuloy na random na variable ay naglalaman ng higit pang impormasyon kaysa sa mga sukat ng pangkategoryang data. Sa madaling salita, ang mga kategoryang data na kumukuha lamang ng dalawang halaga ay naglalaman ng hindi sapat na impormasyon upang matantya ang mga parameter ng kanilang pamamahagi.

SApagkalkula ng mga pagtatantya na nakuha mula sa isang may hangganang populasyon

Pagtatantya ng inaasahan sa matematika. Salik ng pagwawasto para sa panghuling populasyon ( fpc) ay ginamit upang bawasan ang karaniwang error sa pamamagitan ng isang kadahilanan. Kapag kinakalkula ang mga agwat ng kumpiyansa para sa mga pagtatantya ng parameter ng populasyon, isang salik sa pagwawasto ay inilalapat sa mga sitwasyon kung saan ang mga sample ay kinukuha nang hindi ibinabalik. Kaya, isang agwat ng kumpiyansa para sa inaasahan sa matematika na may antas ng kumpiyansa na katumbas ng (1 – α)х100%, ay kinakalkula ng formula:

Halimbawa 4. Upang ilarawan ang paggamit ng correction factor para sa isang limitadong populasyon, bumalik tayo sa problema ng pagkalkula ng confidence interval para sa average na halaga ng mga invoice, na tinalakay sa itaas sa Halimbawa 3. Ipagpalagay na ang isang kumpanya ay nag-isyu ng 5,000 invoice bawat buwan, at Xᅳ=110.27 dolyar, S= $28.95, N = 5000, n = 100, α = 0.05, t 99 = 1.9842. Gamit ang formula (6) makuha natin:

Pagtatantya ng bahagi ng isang tampok. Kapag pumipili nang walang pagbabalik, ang agwat ng kumpiyansa para sa proporsyon ng katangian na may antas ng kumpiyansa na katumbas ng (1 – α)х100%, ay kinakalkula ng formula:

Mga Pagitan ng Kumpiyansa at Mga Isyu sa Etikal

Kapag nagsa-sample ng isang populasyon at gumuhit ng mga istatistikal na konklusyon, madalas na lumilitaw ang mga isyu sa etika. Ang pangunahing isa ay kung paano nagkakasundo ang mga agwat ng kumpiyansa at mga pagtatantya ng punto ng mga sample na istatistika. Ang mga pagtatantya ng punto ng pag-publish nang hindi tinukoy ang nauugnay na mga pagitan ng kumpiyansa (karaniwan ay nasa 95% na antas ng kumpiyansa) at ang laki ng sample kung saan nagmula ang mga ito ay maaaring lumikha ng kalituhan. Maaari itong magbigay ng impresyon sa user na ang pagtatantya ng punto ay eksaktong kailangan niya upang mahulaan ang mga katangian ng buong populasyon. Kaya, kinakailangang maunawaan na sa anumang pananaliksik ang pagtutuon ay hindi dapat sa mga pagtatantya ng punto, ngunit sa mga pagtatantya ng pagitan. Bilang karagdagan, ang espesyal na pansin ay dapat bayaran sa tamang pagpili ng mga laki ng sample.

Kadalasan, ang mga bagay ng statistical manipulation ay ang mga resulta opinyon poll populasyon sa ilang mga isyung pampulitika. Sa kasong ito, ang mga resulta ng survey ay nai-publish sa mga front page ng mga pahayagan, at ang error sample survey at metodolohiya istatistikal na pagsusuri naka-print sa isang lugar sa gitna. Upang patunayan ang bisa ng nakuha na mga pagtatantya ng punto, kinakailangang ipahiwatig ang laki ng sample batay sa kung saan nakuha ang mga ito, ang mga hangganan ng agwat ng kumpiyansa at ang antas ng kahalagahan nito.

Susunod na tala

Mga materyales mula sa aklat na Levin et al. Ginagamit ang Statistics for Managers. – M.: Williams, 2004. – p. 448–462

Central limit theorem nagsasaad na may sapat na malaking sample size, ang sample distribution ng mga paraan ay maaaring tantiyahin sa pamamagitan ng normal na distribution. Ang ari-arian na ito ay hindi nakadepende sa uri ng pamamahagi ng populasyon.

Ipagpalagay na mayroon kaming isang malaking bilang ng mga item na may normal na pamamahagi ng ilang mga katangian (halimbawa, isang buong bodega ng mga gulay na may parehong uri, ang laki at bigat nito ay nag-iiba). Gusto mong malaman ang karaniwang mga katangian ng buong batch ng mga kalakal, ngunit wala kang oras o pagnanais na sukatin at timbangin ang bawat gulay. Naiintindihan mo na hindi ito kailangan. Ngunit ilang piraso ang kailangang kunin para sa isang spot check?

Bago magbigay ng ilang mga formula na kapaki-pakinabang para sa sitwasyong ito, alalahanin natin ang ilang notasyon.

Una, kung susukatin natin ang buong bodega ng mga gulay (ang hanay ng mga elementong ito ay tinatawag na pangkalahatang populasyon), malalaman natin sa lahat ng katumpakan na magagamit sa amin ang average na timbang ng buong batch. Tawagin natin itong average X avg .g en . - pangkalahatang average. Alam na natin kung ano ang ganap na natutukoy kung ang ibig sabihin ng halaga at paglihis nito ay kilala . Totoo, habang hindi kami X average na gen. o s Hindi natin alam ang pangkalahatang populasyon. Maaari lang kaming kumuha ng isang partikular na sample, sukatin ang mga halaga na kailangan namin at kalkulahin para sa sample na ito ang parehong average na halaga ng X avg. at ang standard deviation S na pinili.

Ito ay kilala na kung ang aming sample check ay naglalaman ng isang malaking bilang ng mga elemento (karaniwan ay n ay mas malaki kaysa sa 30), at sila ay kinuha random talaga, pagkatapos ay s ang pangkalahatang populasyon ay halos hindi mag-iiba mula sa pagpili ng S ..

Bilang karagdagan, para sa kaso ng normal na pamamahagi maaari naming gamitin ang mga sumusunod na formula:

May posibilidad na 95%


May posibilidad na 99%



SA pangkalahatang pananaw may posibilidad na P (t)


Ang ugnayan sa pagitan ng t value at probability value na P (t), kung saan gusto nating malaman ang confidence interval, ay maaaring kunin mula sa sumusunod na talahanayan:


Kaya, natukoy namin kung saang saklaw ang average na halaga para sa populasyon ay namamalagi (na may ibinigay na posibilidad).

Maliban kung mayroon tayong sapat na malaking sample, hindi natin masasabi na ang populasyon ay may s = S piliin Bilang karagdagan, sa kasong ito ang pagiging malapit ng sample sa normal na pamamahagi ay may problema. Sa kasong ito, ginagamit din namin ang S select sa halip s sa formula:




ngunit ang halaga ng t para sa isang nakapirming probabilidad na P(t) ay depende sa bilang ng mga elemento sa sample n. Kung mas malaki ang n, mas malapit ang magreresultang agwat ng kumpiyansa sa halagang ibinigay ng formula (1). Ang mga halaga ng t sa kasong ito ay kinuha mula sa isa pang talahanayan ( T-test ng mag-aaral), na ipinakita namin sa ibaba:

Ang mga halaga ng t-test ng mag-aaral para sa posibilidad na 0.95 at 0.99


Halimbawa 3. 30 katao ang random na pinili mula sa mga empleyado ng kumpanya. Ayon sa sample, lumabas na ang average na suweldo (bawat buwan) ay 30 libong rubles na may average parisukat na paglihis 5 libong rubles. Tukuyin ang average na suweldo sa kumpanya na may posibilidad na 0.99.

Solusyon: Ayon sa kundisyon mayroon kaming n = 30, X avg. =30000, S=5000, P = 0.99. Upang mahanap ang agwat ng kumpiyansa, gagamitin namin ang formula na tumutugma sa t test ng Estudyante. Mula sa talahanayan para sa n = 30 at P = 0.99 nakita namin ang t = 2.756, samakatuwid,


mga. hinahanap na katiwala pagitan 27484< Х ср.ген < 32516.

Kaya, na may posibilidad na 0.99 maaari nating sabihin na ang pagitan (27484; 32516) ay naglalaman sa loob mismo ng average na suweldo sa kumpanya.

Inaasahan namin na gagamitin mo ang pamamaraang ito, at hindi kinakailangan na mayroon kang isang talahanayan sa bawat oras. Ang mga kalkulasyon ay maaaring awtomatikong isagawa sa Excel. Habang nasa Excel file, i-click ang fx button sa tuktok na menu. Pagkatapos, piliin ang uri ng "statistical" sa mga function, at mula sa iminungkahing listahan sa window - STUDAR DISCOVER. Pagkatapos, sa prompt, paglalagay ng cursor sa field na "probability", ipasok ang halaga ng inverse probability (i.e. sa aming kaso, sa halip na probabilidad na 0.95, kailangan mong i-type ang probabilidad na 0.05). Malamang spreadsheet ay pinagsama-sama sa paraan na ang resulta ay sumasagot sa tanong na may posibilidad na maaari tayong magkamali. Katulad nito, sa Degree of Freedom field, maglagay ng value (n-1) para sa iyong sample.

At iba pa. Lahat ng mga ito ay mga pagtatantya ng kanilang mga theoretical analogues, na maaaring makuha kung hindi isang sample, ngunit isang pangkalahatang populasyon ay magagamit. Ngunit sayang, ang pangkalahatang populasyon ay napakamahal at kadalasang hindi naa-access.

Ang konsepto ng pagtatantya ng pagitan

Ang anumang sample na pagtatantya ay may ilang pagkalat, dahil ay isang random na variable depende sa mga halaga sa isang partikular na sample. Samakatuwid, para sa mas maaasahang istatistikal na konklusyon, dapat malaman ng isa hindi lamang pagtatantya ng punto, ngunit pati na rin ang isang pagitan na mataas ang posibilidad γ Sinasaklaw ng (gamma) ang nasuri na tagapagpahiwatig θ (theta).

Pormal, ito ay dalawang ganoong halaga (mga istatistika) T 1 (X) At T 2 (X), Ano T 1< T 2 , kung saan sa isang naibigay na antas ng posibilidad γ natugunan ang kondisyon:

Sa madaling salita, malamang γ o higit pa ang tunay na tagapagpahiwatig ay nasa pagitan ng mga punto T 1 (X) At T 2 (X), na tinatawag na lower at upper bounds agwat ng kumpiyansa.

Ang isa sa mga kondisyon para sa pagbuo ng mga agwat ng kumpiyansa ay ang pinakamataas na makitid nito, i.e. ito ay dapat na maikli hangga't maaari. Ang pagnanais ay medyo natural, dahil... sinusubukan ng mananaliksik na mas tumpak na i-localize ang lokasyon ng nais na parameter.

Ito ay sumusunod na ang agwat ng kumpiyansa ay dapat sumasakop sa pinakamataas na posibilidad ng pamamahagi. at ang pagtatasa mismo ay dapat nasa gitna.

Iyon ay, ang posibilidad ng paglihis (ng tunay na tagapagpahiwatig mula sa pagtatantya) sa malaking bahagi katumbas ng posibilidad ng isang pababang paglihis. Dapat ding tandaan na para sa mga asymmetric distribution, ang interval sa kanan ay hindi katumbas ng interval sa kaliwa.

Ang figure sa itaas ay malinaw na nagpapakita na ang higit pa posibilidad ng kumpiyansa, mas malawak ang pagitan - isang direktang relasyon.

Ito ay isang maikling panimula sa teorya ng pagtatantya ng pagitan ng hindi kilalang mga parameter. Lumipat tayo sa paghahanap ng mga limitasyon ng kumpiyansa para sa inaasahan sa matematika.

Agwat ng kumpiyansa para sa inaasahan sa matematika

Kung ang orihinal na data ay ibinahagi sa , ang average ay magiging isang normal na halaga. Ito ay sumusunod mula sa panuntunan na ang isang linear na kumbinasyon ng mga normal na halaga ay mayroon ding isang normal na distribusyon. Samakatuwid, upang kalkulahin ang mga probabilidad na maaari nating gamitin ang mathematical apparatus ng normal na batas sa pamamahagi.

Gayunpaman, mangangailangan ito ng pag-alam ng dalawang parameter - inaasahan at pagkakaiba-iba, na karaniwang hindi alam. Maaari mong, siyempre, gumamit ng mga pagtatantya sa halip na mga parameter (arithmetic mean at ), ngunit pagkatapos ay ang distribusyon ng average ay hindi magiging ganap na normal, ito ay bahagyang patagin pababa. Ang katotohanang ito ay matalinong napansin ng mamamayang si William Gosset mula sa Ireland, na inilathala ang kanyang natuklasan sa Marso 1908 na isyu ng journal na Biometrica. Para sa mga layunin ng pagiging lihim, pinirmahan ni Gosset ang kanyang sarili na Estudyante. Ito ay kung paano lumitaw ang Student t-distribution.

Gayunpaman, ang normal na pamamahagi ng data, na ginamit ni K. Gauss sa pagsusuri ng mga pagkakamali sa mga obserbasyon sa astronomiya, ay napakabihirang sa buhay sa lupa at medyo mahirap itatag (mga 2 libong obserbasyon ang kailangan para sa mataas na katumpakan). Samakatuwid, pinakamahusay na itapon ang pagpapalagay ng normalidad at gumamit ng mga pamamaraan na hindi nakadepende sa pamamahagi ng orihinal na data.

Ang tanong ay lumitaw: ano ang pamamahagi ng arithmetic mean kung ito ay kinakalkula mula sa data ng isang hindi kilalang pamamahagi? Ang sagot ay ibinigay ng kilalang in probability theory Central limit theorem(CPT). Sa matematika, mayroong ilang mga variant nito (ang mga pormulasyon ay napino sa paglipas ng mga taon), ngunit lahat ng mga ito, sa halos pagsasalita, ay bumaba sa pahayag na ang kabuuan malaking dami ang mga independent random variable ay sumusunod sa normal na batas sa pamamahagi.

Kapag kinakalkula ang arithmetic mean, ang kabuuan ng mga random na variable ay ginagamit. Mula dito lumalabas na ang arithmetic mean ay may normal na distribusyon, kung saan ang inaasahan ay ang inaasahan ng orihinal na data, at ang pagkakaiba ay .

Mga matatalinong tao alam kung paano patunayan ang CLT, ngunit ibe-verify namin ito sa tulong ng isang eksperimento na isinagawa sa Excel. Gayahin natin ang isang sample ng 50 pare-parehong ipinamamahagi na mga random na variable (gamit ang Mga function ng Excel KASO SA PAGITAN). Pagkatapos ay gagawa kami ng 1000 tulad ng mga sample at kalkulahin ang arithmetic mean para sa bawat isa. Tingnan natin ang kanilang pamamahagi.

Makikita na ang distribusyon ng average ay malapit sa normal na batas. Kung gagawing mas malaki ang sample size at number, mas magiging maganda ang pagkakatulad.

Ngayong nakita na natin ng sarili nating mga mata ang bisa ng CLT, maaari nating, gamit ang , kalkulahin ang mga pagitan ng kumpiyansa para sa arithmetic mean, na sumasaklaw sa totoong mean o mathematical na inaasahan na may ibinigay na posibilidad.

Upang maitatag ang itaas at mas mababang mga limitasyon, kailangan mong malaman ang mga parameter ng normal na pamamahagi. Bilang isang patakaran, wala, kaya ginagamit ang mga pagtatantya: ibig sabihin ng aritmetika At sample na pagkakaiba-iba. Uulitin ko, ang pamamaraang ito ay nagbibigay ng isang mahusay na approximation lamang sa malalaking sample. Kapag maliit ang mga sample, kadalasang inirerekomendang gamitin ang pamamahagi ng Mag-aaral. Huwag maniwala! Ang distribusyon ng Mag-aaral para sa mean ay nangyayari lamang kapag ang orihinal na data ay karaniwang ipinamamahagi, iyon ay, halos hindi kailanman. Samakatuwid, mas mahusay na agad na magtakda ng isang minimum na bar para sa dami ng kinakailangang data at gumamit ng mga asymptotically correct na pamamaraan. Sabi nila, sapat na ang 30 obserbasyon. Kumuha ng 50 - hindi ka magkakamali.

T 1.2– lower at upper limits ng confidence interval

– sample na arithmetic mean

s 0– karaniwang paglihis ng sample (walang pinapanigan)

n – laki ng sample

γ – probabilidad ng kumpiyansa (karaniwang katumbas ng 0.9, 0.95 o 0.99)

c γ =Φ -1 ((1+γ)/2)– ang kabaligtaran na halaga ng karaniwang normal na distribution function. Sa madaling salita, ito ang bilang ng mga karaniwang error mula sa arithmetic mean hanggang sa lower o upper bound (ang tatlong probabilities na ito ay tumutugma sa mga value na 1.64, 1.96 at 2.58).

Ang kakanyahan ng formula ay ang arithmetic mean ay kinuha at pagkatapos ay isang tiyak na halaga ay itabi mula dito ( kasama ang γ) mga karaniwang error ( s 0 /√n). Ang lahat ay alam, kunin ito at isaalang-alang ito.

Bago ang malawakang paggamit ng mga personal na computer, ginamit nila upang makuha ang mga halaga ng normal na function ng pamamahagi at kabaligtaran nito. Ginagamit pa rin ang mga ito ngayon, ngunit mas epektibong bumaling sa handa na Mga formula ng Excel. Ang lahat ng elemento mula sa formula sa itaas ( , at ) ay madaling kalkulahin sa Excel. Ngunit mayroong isang handa na pormula para sa pagkalkula ng agwat ng kumpiyansa - TIWALA.NORM. Ang syntax nito ay ang mga sumusunod.

CONFIDENCE.NORM(alpha;standard_off;size)

alpha– antas ng kahalagahan o antas ng kumpiyansa, na sa notasyong pinagtibay sa itaas ay katumbas ng 1- γ, i.e. ang posibilidad na ang mathematicalang inaasahan ay nasa labas ng confidence interval. Sa antas ng kumpiyansa na 0.95, ang alpha ay 0.05, atbp.

standard_off– karaniwang paglihis ng sample na data. Hindi na kailangang kalkulahin ang karaniwang error; ang Excel mismo ay hahatiin sa ugat ng n.

laki– laki ng sample (n).

Ang resulta ng function na CONFIDENCE NORM ay ang pangalawang termino mula sa formula para sa pagkalkula ng agwat ng kumpiyansa, i.e. kalahating pagitan Alinsunod dito, ang mas mababa at itaas na mga puntos ay ang average ± ang nakuhang halaga.

Kaya, posible na bumuo ng isang unibersal na algorithm para sa pagkalkula ng mga agwat ng kumpiyansa para sa arithmetic mean, na hindi nakasalalay sa pamamahagi ng orihinal na data. Ang presyo para sa pagiging pangkalahatan ay ang asymptotic na kalikasan nito, i.e. ang pangangailangang gumamit ng medyo malalaking sample. Gayunpaman, sa edad makabagong teknolohiya ang pagkolekta ng kinakailangang dami ng data ay karaniwang hindi mahirap.

Pagsubok ng mga istatistikal na hypotheses gamit ang mga agwat ng kumpiyansa

(module 111)

Ang isa sa mga pangunahing problema na nalutas sa istatistika ay. Ang kakanyahan nito ay maikli ang sumusunod. Ang isang pagpapalagay ay ginawa, halimbawa, na ang inaasahan ng pangkalahatang populasyon ay katumbas ng ilang halaga. Pagkatapos ang pamamahagi ng sample ay nangangahulugan na maaaring maobserbahan para sa isang naibigay na inaasahan ay itinayo. Susunod, tinitingnan nila kung saan sa conditional distribution na ito matatagpuan ang tunay na average. Kung lumampas ito sa mga katanggap-tanggap na limitasyon, kung gayon ang hitsura ng naturang average ay napaka-malamang, at kung ang eksperimento ay paulit-ulit nang isang beses, ito ay halos imposible, na sumasalungat sa hypothesis na iniharap, na matagumpay na tinanggihan. Kung ang average ay hindi lalampas kritikal na antas, kung gayon ang hypothesis ay hindi tinatanggihan (ngunit hindi rin napatunayan!).

Kaya, sa tulong ng mga agwat ng kumpiyansa, sa aming kaso para sa inaasahan, maaari mo ring subukan ang ilang mga hypotheses. Napakadaling gawin. Sabihin natin na ang arithmetic mean para sa isang partikular na sample ay katumbas ng 100. Ang hypothesis ay nasubok na ang inaasahang halaga ay, sabihin nating, 90. Iyon ay, kung ilalagay natin ang tanong sa primitively, ito ay ganito ang tunog: maaari ba iyon sa totoo halaga ng mean na katumbas ng 90, ang naobserbahang average ay naging 100?

Upang masagot ang tanong na ito, kakailanganin mo ng karagdagang impormasyon tungkol sa average parisukat na paglihis at laki ng sample. Sabihin nating karaniwang lihis ay 30, at ang bilang ng mga obserbasyon ay 64 (upang madaling makuha ang ugat). Kung gayon ang karaniwang error ng mean ay 30/8 o 3.75. Upang makalkula ang isang 95% na agwat ng kumpiyansa, kakailanganin mong magtabi ng dalawa sa magkabilang panig ng mean. karaniwang mga error(mas tiyak, 1.96 bawat isa). Ang confidence interval ay magiging humigit-kumulang 100±7.5 o mula 92.5 hanggang 107.5.

Ang karagdagang pangangatwiran ay ang mga sumusunod. Kung ang value na sinusuri ay nasa loob ng confidence interval, hindi ito sumasalungat sa hypothesis, dahil nasa loob ng mga limitasyon ng mga random na pagbabagu-bago (na may posibilidad na 95%). Kung ang puntong sinusuri ay nasa labas ng agwat ng kumpiyansa, kung gayon ang posibilidad ng naturang kaganapan ay napakaliit, hindi bababa sa mas mababa pinahihintulutang antas. Nangangahulugan ito na ang hypothesis ay tinanggihan bilang sumasalungat sa naobserbahang data. Sa aming kaso, ang hypothesis tungkol sa inaasahang halaga ay nasa labas ng agwat ng kumpiyansa (ang nasubok na halaga na 90 ay hindi kasama sa pagitan na 100±7.5), kaya dapat itong tanggihan. Ang pagsagot sa primitive na tanong sa itaas, dapat itong sabihin: hindi, hindi, sa anumang kaso, ito ay napakabihirang mangyari. Kadalasan, ipinapahiwatig nila ang tiyak na posibilidad ng maling pagtanggi sa hypothesis (p-level), at hindi ang tinukoy na antas kung saan itinayo ang agwat ng kumpiyansa, ngunit higit pa sa ibang pagkakataon.

Tulad ng nakikita mo, ang pagbuo ng isang agwat ng kumpiyansa para sa average (o inaasahan sa matematika) ay hindi mahirap. Ang pangunahing bagay ay upang maunawaan ang kakanyahan, at pagkatapos ay magpapatuloy ang mga bagay. Sa pagsasagawa, karamihan sa mga kaso ay gumagamit ng 95% na agwat ng kumpiyansa, na humigit-kumulang dalawang karaniwang error ang lapad sa magkabilang panig ng mean.

Yun lang muna. Lahat ng pinakamahusay!

Ang agwat ng kumpiyansa ay dumating sa amin mula sa larangan ng mga istatistika. Ito ay isang tiyak na hanay na nagsisilbing tantyahin ang isang hindi kilalang parameter na may mataas na antas ng pagiging maaasahan. Ang pinakamadaling paraan upang ipaliwanag ito ay sa pamamagitan ng isang halimbawa.

Ipagpalagay na kailangan mong pag-aralan ang ilang random na variable, halimbawa, ang bilis ng pagtugon ng server sa isang kahilingan ng kliyente. Sa tuwing ita-type ng user ang address ng isang partikular na website, tumutugon ang server sa iba't ibang bilis. Kaya, ang oras ng pagtugon sa ilalim ng pag-aaral ay random. Kaya, ang agwat ng kumpiyansa ay nagpapahintulot sa amin na matukoy ang mga hangganan ng parameter na ito, at pagkatapos ay maaari naming sabihin na may 95% na posibilidad na ang server ay nasa saklaw na aming kinakalkula.

O kailangan mong malaman kung gaano karaming tao ang nakakaalam tungkol sa trademark ng kumpanya. Kapag kinakalkula ang agwat ng kumpiyansa, posibleng sabihin, halimbawa, na may 95% na posibilidad ang bahagi ng mga mamimili na nakakaalam nito ay nasa saklaw mula 27% hanggang 34%.

Ang malapit na nauugnay sa terminong ito ay ang halaga ng posibilidad ng kumpiyansa. Kinakatawan nito ang posibilidad na ang nais na parameter ay kasama sa pagitan ng kumpiyansa. Kung gaano kalaki ang ating gustong hanay ay depende sa halagang ito. Kung mas malaki ang halaga na kailangan, mas makitid ang pagitan ng kumpiyansa, at kabaliktaran. Kadalasan ito ay nakatakda sa 90%, 95% o 99%. Ang halagang 95% ang pinakasikat.

Ang indicator na ito ay naiimpluwensyahan din ng dispersion ng mga obserbasyon at ang depinisyon nito ay batay sa pag-aakalang sumusunod ang katangiang pinag-aaralan.Ang pahayag na ito ay kilala rin bilang Gauss’s Law. Ayon sa kanya, ang normal ay isang distribusyon ng lahat ng probabilities ng isang tuluy-tuloy na random variable na maaaring ilarawan ng probability density. Kung ang pagpapalagay ng isang normal na distribusyon ay hindi tama, kung gayon ang pagtatantya ay maaaring mali.

Una, alamin natin kung paano kalkulahin ang agwat ng kumpiyansa para sa Mayroong dalawang posibleng mga kaso dito. Ang dispersion (ang antas ng pagkalat ng isang random na variable) ay maaaring malaman o hindi. Kung ito ay kilala, kung gayon ang aming agwat ng kumpiyansa ay kinakalkula gamit ang sumusunod na formula:

xsr - t*σ / (sqrt(n))<= α <= хср + t*σ / (sqrt(n)), где

α - tanda,

t - parameter mula sa talahanayan ng pamamahagi ng Laplace,

σ ay ang square root ng variance.

Kung hindi alam ang pagkakaiba, maaari itong kalkulahin kung alam natin ang lahat ng mga halaga ng nais na tampok. Ang sumusunod na formula ay ginagamit para dito:

σ2 = х2ср - (хср)2, kung saan

х2ср - average na halaga ng mga parisukat ng pinag-aralan na katangian,

(хср)2 ang parisukat ng katangiang ito.

Ang formula kung saan kinakalkula ang agwat ng kumpiyansa sa kasong ito ay bahagyang nagbabago:

xsr - t*s / (sqrt(n))<= α <= хср + t*s / (sqrt(n)), где

xsr - sample average,

α - tanda,

Ang t ay isang parameter na matatagpuan gamit ang talahanayan ng pamamahagi ng Mag-aaral t = t(ɣ;n-1),

sqrt(n) - square root ng kabuuang laki ng sample,

s ay ang square root ng variance.

Isaalang-alang ang halimbawang ito. Ipagpalagay na batay sa mga resulta ng 7 pagsukat, ang pinag-aralan na katangian ay natukoy na katumbas ng 30 at ang sample na pagkakaiba ay katumbas ng 36. Ito ay kinakailangan upang mahanap, na may posibilidad na 99%, isang agwat ng kumpiyansa na naglalaman ng totoo halaga ng sinusukat na parameter.

Una, tukuyin natin kung ano ang katumbas ng t: t = t (0.99; 7-1) = 3.71. Gamit ang formula sa itaas, nakukuha namin:

xsr - t*s / (sqrt(n))<= α <= хср + t*s / (sqrt(n))

30 - 3.71*36 / (sqrt(7))<= α <= 30 + 3.71*36 / (sqrt(7))

21.587 <= α <= 38.413

Ang agwat ng kumpiyansa para sa pagkakaiba ay kinakalkula kapwa sa kaso ng isang kilalang mean at kapag walang data sa inaasahan sa matematika, at tanging ang halaga ng puntong walang pinapanigan na pagtatantya ng pagkakaiba ang nalalaman. Hindi kami magbibigay ng mga formula para sa pagkalkula dito, dahil ang mga ito ay medyo kumplikado at, kung ninanais, ay palaging matatagpuan sa Internet.

Tandaan lamang natin na maginhawa upang matukoy ang agwat ng kumpiyansa gamit ang Excel o isang serbisyo sa network, na tinatawag na ganoong paraan.

Agwat ng kumpiyansa(CI; sa English, confidence interval - CI) na nakuha sa isang pag-aaral na may sample ay nagbibigay ng sukatan ng katumpakan (o kawalan ng katiyakan) ng mga resulta ng pag-aaral upang makagawa ng mga konklusyon tungkol sa populasyon ng lahat ng naturang mga pasyente (ang pangkalahatang populasyon). Ang tamang kahulugan ng isang 95% CI ay maaaring buuin tulad ng sumusunod: 95% ng naturang mga pagitan ay maglalaman ng tunay na halaga sa populasyon. Ang interpretasyong ito ay medyo hindi gaanong tumpak: Ang CI ay ang hanay ng mga halaga kung saan maaari kang maging 95% sigurado na naglalaman ito ng tunay na halaga. Kapag gumagamit ng CI, ang diin ay sa pagtukoy ng isang quantitative effect, kumpara sa P value na nagreresulta mula sa pagsubok ng statistical significance. Ang halaga ng P ay hindi tinatantya ang anumang dami, ngunit sa halip ay nagsisilbing sukatan ng lakas ng ebidensya laban sa null hypothesis ng "walang epekto." Ang halaga ng P mismo ay hindi nagsasabi sa amin ng anuman tungkol sa laki ng pagkakaiba, o kahit tungkol sa direksyon nito. Samakatuwid, ang mga independiyenteng halaga ng P ay ganap na hindi nagbibigay-kaalaman sa mga artikulo o abstract. Sa kaibahan, ang CI ay nagpapahiwatig ng parehong laki ng epekto ng agarang interes, tulad ng benepisyo ng isang paggamot, at ang lakas ng ebidensya. Samakatuwid, ang DI ay direktang nauugnay sa pagsasanay ng EBM.

Ang diskarte sa pagtatantya sa pagsusuri sa istatistika, na ipinakita ng CI, ay naglalayong sukatin ang dami ng isang epekto ng interes (sensitivity ng isang diagnostic test, rate ng mga hinulaang kaso, relatibong pagbabawas ng panganib sa paggamot, atbp.) at upang masukat din ang kawalan ng katiyakan doon epekto. Kadalasan, ang CI ay ang hanay ng mga halaga sa magkabilang panig ng pagtatantya kung saan ang totoong halaga ay malamang na magsinungaling, at maaari kang maging 95% sigurado dito. Ang kasunduan na gamitin ang 95% na posibilidad ay arbitrary, gayundin ang P value.<0,05 для оценки статистической значимости, и авторы иногда используют 90% или 99% ДИ. Заметим, что слово «интервал» означает диапазон величин и поэтому стоит в единственном числе. Две величины, которые ограничивают интервал, называются «доверительными пределами».

Ang CI ay batay sa ideya na ang parehong pag-aaral na ginawa sa iba't ibang sample ng mga pasyente ay hindi magbubunga ng magkatulad na resulta, ngunit ang kanilang mga resulta ay ibabahagi sa paligid ng isang totoo ngunit hindi kilalang halaga. Sa madaling salita, inilalarawan ito ng CI bilang "sample-dependent variability." Ang CI ay hindi nagpapakita ng karagdagang kawalan ng katiyakan dahil sa iba pang mga dahilan; sa partikular, hindi kasama dito ang epekto ng selective loss sa follow-up, mahinang pagsunod o hindi tumpak na pagsukat ng resulta, kawalan ng pagbulag, atbp. Ang CI samakatuwid ay palaging minamaliit ang kabuuang halaga ng kawalan ng katiyakan.

Pagkalkula ng Interval ng Kumpiyansa

Talahanayan A1.1. Mga karaniwang error at agwat ng kumpiyansa para sa mga piling klinikal na sukat

Karaniwan, ang isang CI ay kinakalkula mula sa isang naobserbahang pagtatantya ng isang dami, tulad ng pagkakaiba (d) sa pagitan ng dalawang proporsyon, at ang karaniwang error (SE) sa pagtatantya ng pagkakaibang iyon. Ang tinatayang 95% CI na nakuha sa ganitong paraan ay d ± 1.96 SE. Ang formula ay nagbabago ayon sa likas na katangian ng sukatan ng kinalabasan at ang saklaw ng CI. Halimbawa, sa isang randomized, placebo-controlled na pagsubok ng isang acellular pertussis vaccine, 72 sa 1670 (4.3%) na mga sanggol na nakatanggap ng bakuna ay nagkaroon ng pertussis at 240 sa 1665 (14.4%) sa control group. Ang pagkakaiba sa porsyento, na kilala bilang ganap na pagbabawas ng panganib, ay 10.1%. Ang SE ng pagkakaibang ito ay 0.99%. Alinsunod dito, ang 95% CI ay 10.1% + 1.96 x 0.99%, ibig sabihin. mula 8.2 hanggang 12.0.

Sa kabila ng kanilang magkakaibang pamamaraang pilosopikal, ang mga CI at mga pagsusulit sa kahalagahan ng istatistika ay malapit na nauugnay sa matematika.

Kaya, ang halaga ng P ay "makabuluhan", i.e. R<0,05 соответствует 95% ДИ, который исключает величину эффекта, указывающую на отсутствие различия. Например, для различия между двумя средними пропорциями это ноль, а для относительного риска или отношения шансов - единица. При некоторых обстоятельствах эти два подхода могут быть не совсем эквивалентны. Преобладающая точка зрения: оценка с помощью ДИ - предпочтительный подход к суммированию результатов исследования, но ДИ и величина Р взаимодополняющи, и во многих статьях используются оба способа представления результатов.

Ang kawalan ng katiyakan (pagkakamali) ng pagtatantya, na ipinahayag sa CI, ay higit na nauugnay sa square root ng sample size. Ang mga maliliit na sample ay nagbibigay ng mas kaunting impormasyon kaysa sa mga malalaki, at ang CI ay katumbas na mas malawak sa isang mas maliit na sample. Halimbawa, ang isang artikulong naghahambing sa pagganap ng tatlong pagsubok na ginamit upang masuri ang impeksyon sa Helicobacter pylori ay nag-ulat ng pagiging sensitibo ng urea breath test na 95.8% (95% CI 75–100). Habang ang 95.8% na bilang ay kahanga-hanga, ang maliit na sample ng 24 na mga pasyenteng nasa hustong gulang na may J. pylori ay nangangahulugan na mayroong makabuluhang kawalan ng katiyakan sa pagtatantya na ito, tulad ng ipinapakita ng malawak na CI. Sa katunayan, ang mas mababang limitasyon ng 75% ay mas mababa kaysa sa 95.8% na pagtatantya. Kung ang parehong sensitivity ay naobserbahan sa isang sample ng 240 tao, ang 95% CI ay magiging 92.5-98.0, na nagbibigay ng higit na katiyakan na ang pagsubok ay lubos na sensitibo.

Sa mga randomized na kinokontrol na pagsubok (RCT), ang mga hindi makabuluhang resulta (ibig sabihin, ang mga may P >0.05) ay partikular na madaling kapitan ng maling interpretasyon. Ang CI ay partikular na kapaki-pakinabang dito dahil ipinapakita nito kung gaano kaayon ang mga resulta sa klinikal na kapaki-pakinabang na totoong epekto. Halimbawa, sa isang RCT na naghahambing ng colonic suture at staple anastomosis, ang impeksyon sa sugat ay nabuo sa 10.9% at 13.5% ng mga pasyente, ayon sa pagkakabanggit (P = 0.30). Ang 95% CI para sa pagkakaibang ito ay 2.6% (−2 hanggang +8). Kahit na sa pag-aaral na ito ng 652 mga pasyente, nananatiling posible na mayroong katamtamang pagkakaiba sa saklaw ng mga impeksyon na nagreresulta mula sa dalawang pamamaraan. Ang mas kaunting pananaliksik, mas malaki ang kawalan ng katiyakan. Sung et al. nagsagawa ng isang RCT upang ihambing ang pagbubuhos ng octreotide na may talamak na sclerotherapy para sa talamak na pagdurugo ng variceal sa 100 mga pasyente. Sa pangkat ng octreotide, ang bleeding control rate ay 84%; sa sclerotherapy group - 90%, na nagbibigay ng P = 0.56. Tandaan na ang mga rate ng patuloy na pagdurugo ay katulad ng para sa impeksyon sa sugat sa pag-aaral na nabanggit. Sa kasong ito, gayunpaman, ang 95% CI para sa pagkakaiba sa pagitan ng mga interbensyon ay 6% (−7 hanggang +19). Ang saklaw na ito ay medyo malawak kumpara sa 5% na pagkakaiba na magiging interes sa klinikal. Maliwanag, ang pag-aaral ay hindi nagbubukod ng isang makabuluhang pagkakaiba sa pagiging epektibo. Samakatuwid, ang konklusyon ng mga may-akda na "octreotide infusion at sclerotherapy ay pantay na epektibo sa paggamot ng pagdurugo mula sa varicose veins" ay tiyak na hindi wasto. Sa mga kasong tulad nito, kung saan, tulad dito, ang 95% CI para sa absolute risk reduction (ARR) ay may kasamang zero, ang CI para sa NNT (numero na kailangan upang gamutin) ay medyo mahirap bigyang-kahulugan . Ang NPL at ang CI nito ay nakuha mula sa mga reciprocal ng ACP (multiply ng 100 kung ang mga halagang ito ay ibinibigay bilang mga porsyento). Dito nakukuha natin ang NPL = 100: 6 = 16.6 na may 95% CI na -14.3 hanggang 5.3. Tulad ng makikita mula sa talababa na "d" sa talahanayan. A1.1, ang CI na ito ay kinabibilangan ng mga halaga ng NPL mula 5.3 hanggang infinity at NPL mula 14.3 hanggang infinity.

Maaaring buuin ang mga CI para sa pinakakaraniwang ginagamit na istatistikal na pagtatantya o paghahambing. Para sa mga RCT, kabilang dito ang pagkakaiba sa pagitan ng mga mean na proporsyon, mga kamag-anak na panganib, mga ratio ng odds, at mga NLR. Katulad nito, ang mga CI ay maaaring makuha para sa lahat ng pangunahing pagtatantya na ginawa sa diagnostic test accuracy studies—sensitivity, specificity, positive predictive value (lahat ng mga ito ay simpleng proporsyon), at likelihood ratios—mga pagtatantya na nakuha sa meta-analyses at paghahambing-may-kontrol. pag-aaral. Ang isang personal na programa sa computer na sumasaklaw sa marami sa mga paggamit na ito ng mga MDI ay magagamit sa ikalawang edisyon ng Statistics with Confidence. Ang mga macro para sa pagkalkula ng mga CI para sa mga proporsyon ay magagamit nang walang bayad para sa Excel at ang mga programang istatistikal na SPSS at Minitab sa http://www.uwcm.ac.uk/study/medicine/epidemiology_statistics/research/statistics/proportions, htm.

Maramihang mga pagtatantya ng epekto ng paggamot

Habang ang mga CI ay kanais-nais para sa mga pangunahing resulta ng pag-aaral, hindi sila kinakailangan para sa lahat ng mga kinalabasan. Ang CI ay may kinalaman sa klinikal na mahahalagang paghahambing. Halimbawa, kapag naghahambing ng dalawang grupo, ang tamang CI ay ang ginawa para sa pagkakaiba sa pagitan ng mga pangkat, tulad ng ipinapakita sa mga halimbawa sa itaas, at hindi ang CI na maaaring itayo para sa pagtatantya sa bawat pangkat. Hindi lamang nakatutulong na magbigay ng hiwalay na mga CI para sa mga pagtatantya sa bawat grupo, ang pagtatanghal na ito ay maaaring mapanlinlang. Katulad nito, ang tamang diskarte kapag inihahambing ang pagiging epektibo ng mga paggamot sa iba't ibang mga subgroup ay direktang ihambing ang dalawa (o higit pang) subgroup. Hindi tama na ipagpalagay na ang isang paggamot ay epektibo sa isang subgroup lamang kung ang CI nito ay nagbubukod ng halaga na walang epekto at ang iba ay hindi. Kapaki-pakinabang din ang mga CI kapag naghahambing ng mga resulta sa maraming subgroup. Sa Fig. Ang 1.1 ay nagpapakita ng kamag-anak na panganib ng eclampsia sa mga babaeng may preeclampsia sa mga subgroup ng kababaihan mula sa isang placebo-controlled na RCT ng magnesium sulfate.

kanin. A1.2. Ipinapakita ng forest plot ang mga resulta ng 11 randomized na klinikal na pagsubok ng bovine rotavirus vaccine para sa pag-iwas sa pagtatae kumpara sa placebo. Ang isang 95% na agwat ng kumpiyansa ay ginamit upang tantiyahin ang kamag-anak na panganib ng pagtatae. Ang laki ng itim na parisukat ay proporsyonal sa dami ng impormasyon. Bilang karagdagan, ang buod na pagtatantya ng pagiging epektibo ng paggamot at ang 95% na agwat ng kumpiyansa (ipinahiwatig ng isang brilyante) ay ipinapakita. Gumamit ang meta-analysis ng random effects na modelo na mas malaki kaysa sa ilang paunang tinukoy; halimbawa, maaaring ito ang sukat na ginamit sa pagkalkula ng laki ng sample. Ang isang mas mahigpit na pamantayan ay nangangailangan na ang buong hanay ng CI ay magpakita ng benepisyong higit sa isang itinakdang minimum.

Napag-usapan na natin ang kamalian ng pagkuha ng kakulangan ng istatistikal na kahalagahan bilang isang indikasyon na ang dalawang paggamot ay pantay na epektibo. Parehong mahalaga na huwag ipantay ang istatistikal na kahalagahan sa klinikal na kahalagahan. Maaaring ipalagay ang klinikal na kahalagahan kapag ang resulta ay makabuluhan ayon sa istatistika at ang laki ng pagtatantya ng pagiging epektibo ng paggamot

Maaaring ipakita ng mga pag-aaral kung ang mga resulta ay makabuluhan sa istatistika at alin ang mahalaga sa klinika at alin ang hindi. Sa Fig. Ipinapakita ng A1.2 ang mga resulta ng apat na pagsubok, kung saan ang buong CI<1, т.е. их результаты статистически значимы при Р <0,05 , . После высказанного предположения о том, что клинически важным различием было бы сокращение риска диареи на 20% (ОР = 0,8), все эти испытания показали клинически значимую оценку сокращения риска, и лишь в исследовании Treanor весь 95% ДИ меньше этой величины. Два других РКИ показали клинически важные результаты, которые не были статистически значимыми. Обратите внимание, что в трёх испытаниях точечные оценки эффективности лечения были почти идентичны, но ширина ДИ различалась (отражает размер выборки). Таким образом, по отдельности доказательная сила этих РКИ различна.