Pagtatantya ng mathematical na inaasahan at pagkakaiba sa sample. Mga pagtatantya ng punto ng inaasahan at pagkakaiba

Hayaang mabuo ang random sample ng naobserbahang random variable ξ, ang mathematical na inaasahan at pagkakaiba na hindi kilala. Iminungkahi na gamitin ang sample na average bilang mga pagtatantya para sa mga katangiang ito

at pagkakaiba-iba ng sample

. (3.14)

Isaalang-alang natin ang ilang katangian ng mga pagtatantya inaasahan sa matematika at pagpapakalat.

1. Kalkulahin ang mathematical na inaasahan ng sample na average:

Samakatuwid, ang sample mean ay isang walang pinapanigan na estimator para sa .

2. Alalahanin na ang mga resulta obserbasyon - malaya mga random na variable, na ang bawat isa ay may parehong batas sa pamamahagi gaya ng dami, ibig sabihin , , . Ipagpalagay namin na ang pagkakaiba ay may hangganan. Pagkatapos, ayon sa teorama ni Chebyshev sa batas malalaking numero, para sa anumang ε > 0 ang pagkakapantay-pantay ,

na maaaring isulat tulad nito: . (3.16) Paghahambing ng (3.16) sa kahulugan ng consistency property (3.11), makikita natin na ang pagtatantya ay pare-parehong pagtatantya ng matematikal na inaasahan.

3. Hanapin ang pagkakaiba ng sample mean:

. (3.17)

Kaya, ang pagkakaiba-iba ng pagtatantya ng inaasahan sa matematika ay bumababa sa kabaligtaran na proporsyon sa laki ng sample.

Mapapatunayan na kung ang random variable na ξ ay karaniwang ipinamamahagi, kung gayon ang sample mean ay isang epektibong pagtatantya ng inaasahan sa matematika, iyon ay, ang pagkakaiba ay tumatagal. pinakamaliit na halaga kumpara sa anumang ibang pagtatantya ng inaasahan sa matematika. Para sa iba pang mga batas sa pamamahagi ξ maaaring hindi ito ang kaso.

Ang sample na variance ay isang biased estimate ng variance dahil . (3.18)

Sa katunayan, gamit ang mga katangian ng mathematical na inaasahan at formula (3.17), nakita namin

.

Upang makakuha ng walang pinapanigan na pagtatantya ng pagkakaiba, ang pagtatantya (3.14) ay dapat na itama, ibig sabihin, i-multiply sa . Pagkatapos ay makuha namin ang walang pinapanigan na pagkakaiba-iba ng sample

. (3.19)

Tandaan na ang mga formula (3.14) at (3.19) ay naiiba lamang sa denominator, at para sa malalaking halaga ang sample at walang pinapanigan na mga pagkakaiba ay kaunti lamang ang pagkakaiba. Gayunpaman, sa maliit na sukat ng sample, dapat gamitin ang kaugnayan (3.19).

Upang matantya ang karaniwang paglihis ng isang random na variable, ang tinatawag na "corrected" mean ay ginagamit karaniwang lihis, na katumbas parisukat na ugat mula sa walang pinapanigan na pagkakaiba-iba: .

Mga pagtatantya sa pagitan

Sa mga istatistika, mayroong dalawang diskarte sa pagtantya ng hindi kilalang mga parameter ng mga distribusyon: punto at pagitan. Alinsunod sa pagtatantya ng punto, na tinalakay sa nakaraang seksyon, tanging ang punto sa paligid kung saan matatagpuan ang tinantyang parameter ay ipinahiwatig. Ito ay kanais-nais, gayunpaman, upang malaman kung gaano kalayo ang parameter na ito ay maaaring aktwal na mula sa mga posibleng pagsasakatuparan ng mga pagtatantya sa iba't ibang serye ng mga obserbasyon.

Ang sagot sa tanong na ito - tinatayang din - ay ibinibigay ng isa pang paraan ng pagtantya ng mga parameter - agwat. Alinsunod sa paraan ng pagtatantya na ito, ang isang pagitan ay natagpuan na, na may posibilidad na malapit sa isa, ay sumasaklaw sa hindi kilalang numerical na halaga ng parameter.

Ang konsepto ng pagtatantya ng pagitan

Pagtatantya ng punto ay isang random na variable at para sa mga posibleng sample na pagpapatupad ay kumukuha ng mga halaga lamang ng humigit-kumulang katumbas ng tunay na halaga ng parameter. Kung mas maliit ang pagkakaiba, mas tumpak ang pagtatantya. kaya, positibong numero, para sa , ay nagpapakilala sa katumpakan ng pagtatantya at tinatawag error sa pagtatantya (o marginal error).

probabilidad ng kumpiyansa(o pagiging maaasahan) tinatawag na probabilidad β , kung saan napagtanto ang hindi pagkakapantay-pantay , ibig sabihin.

. (3.20)

Pinapalitan ang hindi pagkakapantay-pantay katumbas ng dobleng hindi pagkakapantay-pantay , o , nakukuha namin

Pagitan , sumasaklaw sa posibilidad β , , hindi kilalang parameter, ay tinatawag agwat ng kumpiyansa (o pagtatantya ng pagitan), katumbas na posibilidad ng kumpiyansa β .

Ang isang random na variable ay hindi lamang isang pagtatantya, ngunit isang error din: ang halaga nito ay nakasalalay sa posibilidad β at, bilang panuntunan, mula sa sample. Samakatuwid, ang agwat ng kumpiyansa ay random at ang expression (3.21) ay dapat basahin bilang mga sumusunod: "Sasaklawin ng agwat ang parameter na may posibilidad β ", at hindi tulad nito: "Ang parameter ay mahuhulog sa pagitan na may posibilidad β ”.

Ibig sabihin agwat ng kumpiyansa ay kapag inuulit ang dami ng sample ng maraming beses sa isang kamag-anak na proporsyon ng mga kaso na katumbas ng β , agwat ng kumpiyansa na tumutugma sa posibilidad ng kumpiyansa β , sumasaklaw sa tunay na halaga ng tinantyang parameter. Kaya, ang posibilidad ng kumpiyansa β nagpapakilala pagiging maaasahan pagtatasa ng kumpiyansa: higit pa β , mas malamang na ang pagpapatupad ng agwat ng kumpiyansa ay naglalaman ng hindi kilalang parameter.

LAYUNIN NG LECTURE: ipakilala ang konsepto ng pagtantya ng hindi kilalang parameter ng pamamahagi at magbigay ng klasipikasyon ng mga naturang pagtatantya; kumuha ng punto at pagitan ng mga pagtatantya ng matematikal na inaasahan at pagpapakalat.

Sa pagsasagawa, sa karamihan ng mga kaso, ang batas ng pamamahagi ng isang random na variable ay hindi alam, at ayon sa mga resulta ng mga obserbasyon
kinakailangang tantiyahin ang mga numerical na katangian (halimbawa, mathematical expectation, dispersion o iba pang mga sandali) o isang hindi kilalang parameter , na tumutukoy sa batas ng pamamahagi (densidad ng pamamahagi)
random variable na pinag-aaralan. Kaya, para sa isang exponential distribution o Poisson distribution, ito ay sapat na upang tantiyahin ang isang parameter, ngunit para sa isang normal na distribution, dalawang parameter ang dapat na tantyahin - ang matematikal na inaasahan at ang pagkakaiba.

Mga uri ng pagtatasa

Random na halaga
may probability density
, Saan – hindi kilalang parameter ng pamamahagi. Bilang resulta ng eksperimento, nakuha ang mga halaga ng random variable na ito:
. Upang gumawa ng isang pagtatasa ay mahalagang nangangahulugan na ang mga sample na halaga ng isang random na variable ay dapat na nauugnay sa isang tiyak na halaga ng parameter , ibig sabihin, lumikha ng ilang function ng mga resulta ng pagmamasid
, ang halaga nito ay kinuha bilang isang pagtatantya parameter . Index ay nagpapahiwatig ng bilang ng mga eksperimento na isinagawa.

Ang anumang function na nakasalalay sa mga resulta ng mga obserbasyon ay tinatawag mga istatistika. Dahil ang mga resulta ng mga obserbasyon ay mga random na variable, ang mga istatistika ay magiging isang random variable din. Samakatuwid, ang pagtatasa
hindi kilalang parameter ay dapat ituring bilang isang random na variable, at ang halaga nito ay kinakalkula mula sa eksperimental binigay na volume, – bilang isa sa mga posibleng halaga ng random variable na ito.

Ang mga pagtatantya ng mga parameter ng pamamahagi (numerical na katangian ng isang random na variable) ay nahahati sa punto at pagitan. Pagtatantya ng punto parameter tinutukoy ng isang numero , at ang katumpakan nito ay nailalarawan sa pagkakaiba-iba ng pagtatantya. Pagtatantya ng pagitan tinatawag na marka na tinutukoy ng dalawang numero, At – mga dulo ng agwat na sumasaklaw sa tinantyang parameter na may ibinigay posibilidad ng kumpiyansa.

Pag-uuri ng mga pagtatantya ng punto

Para sa pagtatantya ng punto ng hindi kilalang parameter
pinakamahusay sa mga tuntunin ng katumpakan, dapat itong pare-pareho, walang kinikilingan at mahusay.

Mayaman tinatawag na pagtatasa
parameter , kung ito ay nagtatagpo sa posibilidad sa tinantyang parameter, i.e.

. (8.8)

Batay sa hindi pagkakapantay-pantay ni Chebyshev, maipapakita iyon sapat na kondisyon ang katuparan ng kaugnayan (8.8) ay ang pagkakapantay-pantay

.

Ang pagkakapare-pareho ay isang asymptotic na katangian ng pagtatantya sa
.

Walang pinapanigan tinatawag na pagtatasa
(tantiya nang walang sistematikong error), ang inaasahan sa matematika na katumbas ng tinantyang parameter, i.e.

. (8.9)

Kung ang pagkakapantay-pantay (8.9) ay hindi nasiyahan, kung gayon ang pagtatantya ay tinatawag na bias. Pagkakaiba
tinatawag na bias o sistematikong pagkakamali sa pagtatantya. Kung ang pagkakapantay-pantay (8.9) ay nasiyahan lamang para sa
, pagkatapos ay ang katumbas na pagtatantya ay tinatawag na asymptotically unbiased.

Dapat pansinin na kung ang pagkakapare-pareho ay isang halos ipinag-uutos na kondisyon para sa lahat ng mga pagtatantya na ginagamit sa pagsasanay (ang hindi pare-parehong mga pagtatantya ay ginagamit nang napakabihirang), kung gayon ang pag-aari ng walang kinikilingan ay kanais-nais lamang. Maraming madalas na ginagamit na mga pagtatantya ang walang walang pinapanigan na pag-aari.

Sa pangkalahatan, ang katumpakan ng pagtatantya ng ilang parameter , nakuha sa batayan ng pang-eksperimentong data
, na nailalarawan sa pamamagitan ng mean squared error

,

na maaaring bawasan sa anyo

,

nasaan ang pagkakaiba,
– squared estimate bias.

Kung ang pagtatantya ay walang kinikilingan, kung gayon

Sa may hangganan maaaring mag-iba ang mga pagtatantya sa pamamagitan ng mean squared error . Naturally, mas maliit ang error na ito, mas malapit ang mga halaga ng pagtatasa ay pinagsama-sama sa tinantyang parameter. Samakatuwid, palaging kanais-nais na ang error sa pagtatantya ay maliit hangga't maaari, ibig sabihin, ang kondisyon ay nasiyahan

. (8.10)

Pagsusuri , kasiya-siyang kondisyon (8.10), ay tinatawag na pagtatantya na may pinakamababang error sa squared.

Epektibo tinatawag na pagtatasa
, kung saan ang mean squared error ay hindi mas malaki kaysa sa mean squared error ng anumang iba pang pagtatantya, i.e.

saan – anumang iba pang pagtatantya ng parameter .

Ito ay kilala na ang pagkakaiba-iba ng anumang walang pinapanigan na pagtatantya ng isang parameter natutugunan ang hindi pagkakapantay-pantay ng Cramer–Rao

,

saan
– conditional probability density distribution ng mga nakuhang halaga ng random variable sa totoong halaga ng parameter .

Kaya, ang walang pinapanigan na pagtatantya
, kung saan ang hindi pagkakapantay-pantay ng Cramer–Rao ay magiging mabisa, ibig sabihin, ang naturang pagtatantya ay may kaunting pagkakaiba.

Mga pagtatantya ng puntos inaasahan at pagkakaiba sa matematika

Kung ang isang random na variable ay isinasaalang-alang
, na may mathematical na inaasahan at pagkakaiba-iba , at ang parehong mga parameter na ito ay itinuturing na hindi alam. Samakatuwid, sa isang random na variable
ginawa mga independyenteng eksperimento na nagbibigay ng mga resulta:
. Kinakailangang makahanap ng pare-pareho at walang pinapanigan na mga pagtatantya ng hindi kilalang mga parameter At .

Bilang mga pagtatantya At Karaniwan ang statistical (sample) mean at statistical (sample) variance ay pinili ayon sa pagkakabanggit:

; (8.11)

. (8.12)

Ang pagtatantya ng inaasahan sa matematika (8.11) ay pare-pareho ayon sa batas ng malalaking numero (theorem ni Chebyshev):

.

Inaasahan ng isang random na variable

.

Samakatuwid, ang pagtatantya ay walang kinikilingan.

Pagkalat ng pagtatantya ng inaasahan sa matematika:

Kung ang random variable
ay ipinamamahagi ayon sa normal na batas, pagkatapos ay ang pagtatantya ay epektibo rin.

Inaasahan ng variance estimate

Sa parehong oras

.

kasi
, A
, pagkatapos makuha namin

. (8.13)

kaya,
– isang bias na pagtatasa, bagama't ito ay pare-pareho at epektibo.

Mula sa formula (8.13) ito ay sumusunod na upang makakuha ng isang walang pinapanigan na pagtatantya
ang sample na pagkakaiba-iba (8.12) ay dapat mabago tulad ng sumusunod:

na itinuturing na "mas mahusay" kumpara sa pagtatantya (8.12), bagaman sa pangkalahatan ang mga pagtatantya na ito ay halos katumbas ng bawat isa.

Mga pamamaraan para sa pagkuha ng mga pagtatantya ng mga parameter ng pamamahagi

Kadalasan sa pagsasanay, batay sa isang pagsusuri ng pisikal na mekanismo na bumubuo ng random na variable
, maaari tayong gumawa ng konklusyon tungkol sa batas ng pamamahagi ng random variable na ito. Gayunpaman, ang mga parameter ng distribusyon na ito ay hindi alam at dapat na tantyahin mula sa mga pang-eksperimentong resulta, kadalasang ipinapakita sa anyo ng isang may hangganang sample
. Upang malutas ang problemang ito, dalawang pamamaraan ang madalas na ginagamit: ang paraan ng mga sandali at ang maximum na paraan ng posibilidad.

Paraan ng mga sandali. Ang pamamaraan ay binubuo sa pagtutumbas ng mga teoretikal na sandali sa kaukulang empirikal na mga sandali ng parehong pagkakasunud-sunod.

Empirical na panimulang punto -th order ay tinutukoy ng mga formula:

,

at ang kaukulang teoretikal na mga paunang sandali -th order - mga formula:

para sa mga discrete random variable,

para sa tuluy-tuloy na random variable,

saan – tinantyang parameter ng pamamahagi.

Upang makakuha ng mga pagtatantya ng mga parameter ng isang distribusyon na naglalaman ng dalawang hindi kilalang parameter At , isang sistema ng dalawang equation ang pinagsama-sama

saan At – teoretikal at empirikal na mga sentral na sandali ng ikalawang pagkakasunud-sunod.

Ang solusyon sa sistema ng mga equation ay ang mga pagtatantya At hindi kilalang mga parameter ng pamamahagi At .

Pagtutumbas ng teoretikal at empirikal na mga paunang sandali ng unang pagkakasunud-sunod, nakukuha natin iyon sa pamamagitan ng pagtantya sa inaasahan ng matematika ng isang random na variable.
, pagkakaroon ng di-makatwirang pamamahagi, ang magiging sample mean, i.e.
. Pagkatapos, itinutumbas ang teoretikal at empirikal na mga sentral na sandali ng pangalawang pagkakasunud-sunod, nakuha namin na ang pagtatantya ng pagkakaiba-iba ng random na variable.
, na may arbitrary na pamamahagi, ay tinutukoy ng formula

.

Sa katulad na paraan, makakahanap ng mga pagtatantya ng mga teoretikal na sandali ng anumang pagkakasunud-sunod.

Ang paraan ng mga sandali ay simple at hindi nangangailangan ng mga kumplikadong kalkulasyon, ngunit ang mga pagtatantya na nakuha ng pamamaraang ito ay madalas na hindi epektibo.

Paraan ng maximum na posibilidad. Ang maximum na posibilidad na paraan ng pagtatantya ng punto ng hindi kilalang mga parameter ng pamamahagi ay bumababa sa paghahanap ng maximum ng function ng isa o higit pang mga tinantyang parameter.

Hayaan
ay isang tuluy-tuloy na random variable, na bilang isang resulta ang mga pagsubok ay kumuha ng mga halaga
. Upang makakuha ng isang pagtatantya ng isang hindi kilalang parameter ito ay kinakailangan upang mahanap ang ganoong halaga , kung saan magiging maximum ang posibilidad na ipatupad ang resultang sample. kasi
kumakatawan sa magkaparehong independiyenteng mga dami na may parehong probability density
, Iyon function ng posibilidad tawagan ang argument function :

Sa pamamagitan ng maximum na posibilidad na pagtatantya ng parameter ang halagang ito ay tinatawag , kung saan ang function ng posibilidad ay umabot sa isang maximum, ibig sabihin, ay isang solusyon sa equation

,

na malinaw na nakasalalay sa mga resulta ng pagsusulit
.

Dahil ang mga pag-andar
At
maabot ang maximum sa parehong mga halaga
, pagkatapos ay upang gawing simple ang mga kalkulasyon, madalas nilang ginagamit ang logarithmic likelihood function at hanapin ang ugat ng katumbas na equation.

,

na tinatawag na equation ng posibilidad.

Kung kailangan mong suriin ang ilang mga parameter
pamamahagi
, kung gayon ang function ng posibilidad ay depende sa mga parameter na ito. Upang makahanap ng mga pagtatantya
mga parameter ng pamamahagi ito ay kinakailangan upang malutas ang sistema mga equation ng posibilidad

.

Ang paraan ng maximum na posibilidad ay nagbibigay ng pare-pareho at asymptotically mahusay na mga pagtatantya. Gayunpaman, ang mga pagtatantya na nakuha ng maximum na paraan ng posibilidad ay bias, at, bilang karagdagan, upang makahanap ng mga pagtatantya, madalas na kinakailangan upang malutas ang medyo kumplikadong mga sistema ng mga equation.

Mga pagtatantya ng parameter ng pagitan

Ang katumpakan ng mga pagtatantya ng punto ay nailalarawan sa kanilang pagkakaiba. Gayunpaman, walang impormasyon tungkol sa kung gaano kalapit ang nakuha na mga pagtatantya sa mga tunay na halaga ng mga parameter. Sa isang bilang ng mga gawain, hindi mo lamang kailangang hanapin ang parameter angkop na halaga ng numero, ngunit din upang suriin ang katumpakan at pagiging maaasahan nito. Kailangan mong malaman kung anong mga error ang maaaring humantong sa pagpapalit ng isang parameter point estimate nito at sa anong antas ng kumpiyansa ang dapat nating asahan na ang mga pagkakamaling ito ay hindi lalampas sa mga kilalang limitasyon.

Ang ganitong mga gawain ay partikular na nauugnay kapag mayroong isang maliit na bilang ng mga eksperimento. , kapag ang pagtatantya ng punto higit sa lahat ay random at tinatayang kapalit sa maaaring humantong sa mga makabuluhang pagkakamali.

Mas kumpleto at maaasahang paraan Ang pagtatantya ng mga parameter ng mga distribusyon ay binubuo sa pagtukoy ng hindi isang solong halaga ng punto, ngunit isang agwat na, na may ibinigay na posibilidad, ay sumasaklaw sa tunay na halaga ng tinantyang parameter.

Hayaan ayon sa mga resulta mga eksperimento, isang walang pinapanigan na pagtatantya ang nakuha
parameter . Ito ay kinakailangan upang suriin ang posibleng pagkakamali. Napili ang ilang sapat na malaking posibilidad
(halimbawa), tulad na ang isang kaganapan na may ganitong posibilidad ay maaaring ituring na isang halos tiyak na kaganapan, at ang isang halaga ay natagpuan , para sa

. (8.15)

Sa kasong ito, ang saklaw ng halos posibleng mga halaga ng error na nangyayari sa panahon ng pagpapalit sa , kalooban
, at ang mga error na malaki sa ganap na halaga ay lilitaw lamang na may mababang posibilidad .

Ang expression (8.15) ay nangangahulugan na may posibilidad
hindi kilalang halaga ng parameter nahuhulog sa pagitan

. (8.16)

Probability
tinawag posibilidad ng kumpiyansa, at ang pagitan , sumasaklaw sa posibilidad ang tunay na halaga ng parameter ay tinatawag agwat ng kumpiyansa. Tandaan na hindi tamang sabihin na ang value ng parameter ay nasa loob ng confidence interval na may posibilidad . Ang pormulasyon na ginamit (mga pabalat) ay nangangahulugan na kahit na ang parameter na tinatantya ay hindi alam, ito ay may pare-parehong halaga at samakatuwid ay walang spread dahil ito ay hindi isang random na variable.

Hayaang magkaroon ng random variable X, at ang mga parameter nito ay ang mathematical expectation A at pagkakaiba ay hindi alam. N independyenteng mga eksperimento ang isinagawa sa halagang X, na nagbigay ng mga resulta ng x 1, x 2, x n.

Nang hindi binabawasan ang pangkalahatan ng pangangatwiran, isasaalang-alang namin ang mga halagang ito ng random variable na naiiba. Isasaalang-alang namin ang mga halaga ng x 1, x 2, x n bilang independyente, magkaparehong ipinamamahagi na mga random na variable X 1, X 2, X n.

Ang pinakasimpleng paraan istatistikal na pagsusuri - ang paraan ng pagpapalit at pagkakatulad - ay binubuo sa katotohanan na bilang isang pagtatasa ng isa o isa pang numerical na katangian (average, variance, atbp.) populasyon kunin ang kaukulang katangian ng sample distribution - ang sample na katangian.

Gamit ang paraan ng pagpapalit bilang isang pagtatantya ng inaasahan sa matematika A kailangan nating kunin ang mathematical na inaasahan ng sample distribution - ang sample mean. Kaya, nakukuha namin

Upang suriin ang pagiging walang kinikilingan at pagkakapare-pareho ng ibig sabihin ng sample bilang isang pagtatantya A, isaalang-alang ang istatistikang ito bilang isang function ng napiling vector (X 1, X 2, X n). Isinasaalang-alang na ang bawat isa sa mga dami ng X 1, X 2, X n ay may parehong batas sa pamamahagi ng halagang X, napagpasyahan namin na ang mga numerical na katangian ng mga dami na ito at ang halaga ng X ay pareho: M(X i) = M(X) = a, D(X i) = D(X) = , i = 1, 2, n , kung saan ang X i ay sama-samang independiyenteng mga random na variable.

Kaya naman,

Mula dito, ayon sa kahulugan, nakuha namin iyon ay isang walang pinapanigan na pagtatantya A, at dahil D()®0 para sa n®¥, pagkatapos ay sa pamamagitan ng theorem ng nakaraang talata ay isang pare-parehong pagtatantya ng inaasahan sa matematika A pangkalahatang populasyon.

Ang pagiging epektibo o hindi epektibo ng pagtatantya ay nakasalalay sa uri ng batas ng pamamahagi ng random variable X. Mapapatunayan na kung ang halaga ng X ay ibinahagi ayon sa isang normal na batas, kung gayon ang pagtatantya ay epektibo. Para sa iba pang mga batas sa pamamahagi, maaaring hindi ito ang kaso.

Isang walang pinapanigan na pagtatantya ng pangkalahatang pagkakaiba nagsisilbing corrected sample variance

,

kasi , kung saan ang pangkalahatang pagkakaiba. Talaga,

Ang pagtatantya na s -- 2 para sa pangkalahatang pagkakaiba ay wasto din, ngunit hindi ito mahusay. Gayunpaman, sa kaso ng isang normal na distribusyon, ito ay "asymptotically efficient", iyon ay, habang ang n ay tumataas, ang ratio ng pagkakaiba nito sa pinakamababang posibleng isa ay lumalapit sa pagkakaisa.

Kaya, kung bibigyan ng isang sample mula sa pamamahagi F( x) random variable X na may hindi alam na mathematical expectation A at pagpapakalat, pagkatapos ay upang kalkulahin ang mga halaga ng mga parameter na ito ay may karapatan kaming gamitin ang mga sumusunod na tinatayang formula:

a ,

.

Dito x-i- - opsyon sa pag-sample, n-i - - mga opsyon sa dalas x i, - - laki ng sample.
Upang kalkulahin ang naitama na pagkakaiba-iba ng sample, ang formula ay mas maginhawa


.

Upang gawing simple ang pagkalkula, ipinapayong lumipat sa mga opsyonal na kondisyon (tulad ng ito ay kapaki-pakinabang na kunin ang orihinal na bersyon, na matatagpuan sa gitna ng agwat serye ng pagkakaiba-iba). Pagkatapos

, .

Pagtatantya ng pagitan

Sa itaas ay isinasaalang-alang namin ang isyu ng pagtantya ng hindi kilalang parameter A isang numero. Tinatawag namin ang mga naturang pagtatantya na mga pagtatantya ng punto. Mayroon silang kawalan na sa maliit na sukat ng sample maaari silang mag-iba nang malaki mula sa mga tinantyang parameter. Samakatuwid, upang makakuha ng ideya ng kalapitan sa pagitan ng isang parameter at pagtatantya nito, sa mga istatistika ng matematika ipinakilala ang tinatawag na mga pagtatantya ng pagitan.

Hayaang matagpuan ang isang point estimate q * sa sample para sa parameter q. Karaniwan, ang mga mananaliksik ay binibigyan nang maaga ng ilang sapat na malaking probabilidad g (halimbawa, 0.95, 0.99 o 0.999) upang ang isang kaganapang may probabilidad g ay maituturing na halos tiyak, at itinaas nila ang tanong ng paghahanap ng ganoong halaga na e > 0 kung saan

.

Ang pagbabago sa pagkakapantay-pantay na ito, makukuha natin:

at sa kasong ito ay sasabihin natin na ang pagitan ]q * - e; Sinasaklaw ng q * + e[ ang tinantyang parameter q na may posibilidad na g.

Pagitan ]q * -e; q * +e [ ay tinatawag agwat ng kumpiyansa .

Ang probabilidad g ay tinatawag pagiging maaasahan (confidence probability) ng pagtatantya ng pagitan.

Ang mga dulo ng agwat ng kumpiyansa, i.e. ang mga puntos na q * -e at q * +e ay tinatawag mga hangganan ng tiwala .

Ang numero e ay tinatawag katumpakan ng pagtatasa .

Bilang isang halimbawa ng problema sa pagtukoy ng mga limitasyon ng kumpiyansa, isaalang-alang ang tanong ng pagtatantya sa matematikal na inaasahan ng isang random na variable X, na may normal na batas sa pamamahagi na may mga parameter. A at s, i.e. X = N( a, s). Ang inaasahan sa matematika sa kasong ito ay katumbas ng A. Batay sa mga obserbasyon X 1, X 2, X n, kinakalkula namin ang average at pagtatasa pagpapakalat s 2.

Lumalabas na mula sa sample na data posible na bumuo ng isang random na variable

na mayroong distribusyon ng Mag-aaral (o t-distribution) na may n = n -1 degrees ng kalayaan.

Gamitin natin ang Talahanayan A.1.3 at hanapin ang ibinigay na probabilidad g at numero n ang numerong t g upang ang probabilidad

P(|t(n)|< t g) = g,

.

Ang pagkakaroon ng malinaw na mga pagbabagong nakukuha natin,

Ang pamamaraan para sa paglalapat ng F-test ay ang mga sumusunod:

1. Ang pagpapalagay ay ginawa na ang distribusyon ng populasyon ay normal. Sa isang ibinigay na antas ng kahalagahan a, ang null hypothesis H 0: s x 2 = s y 2 ay nabuo tungkol sa pagkakapantay-pantay ng mga pangkalahatang pagkakaiba-iba ng mga normal na populasyon sa ilalim ng nakikipagkumpitensyang hypothesis H 1: s x 2 > s y 2.

2. Dalawang independiyenteng sample ang nakuha mula sa mga populasyon X at Y ng volume n x at n y, ayon sa pagkakabanggit.

3. Kalkulahin ang mga halaga ng mga naitama na sample na pagkakaiba-iba s x 2 at s y 2 (mga pamamaraan ng pagkalkula ay tinalakay sa §13.4). Ang mas malaki sa mga variance (s x 2 o s y 2) ay itinalagang s 1 2, ang mas maliit - s 2 2.

4. Ang halaga ng F-criterion ay kinakalkula gamit ang formula F obs = s 1 2 / s 2 2.

5. Gamit ang talahanayan ng mga kritikal na punto ng pamamahagi ng Fisher-Snedecor, sa isang naibigay na antas ng kahalagahan a at ang bilang ng mga antas ng kalayaan n 1 = n 1 - 1, n 2 = n 2 - 1 (n 1 ay ang bilang ng antas ng kalayaan ng mas malaking naitama na pagkakaiba-iba), ang kritikal na punto ay matatagpuan F cr (a, n 1, n 2).

Tandaan na ang Talahanayan A.1.7 ay nagpapakita kritikal na halaga one-sided F-test. Samakatuwid, kung ang isang dalawang panig na pamantayan ay inilapat (H 1: s x 2 ¹ s y 2), kung gayon ang kanang bahagi kritikal na punto Hinahanap ang F cr (a/2, n 1, n 2) sa pamamagitan ng antas ng kahalagahan a/2 (kalahati ng tinukoy na halaga) at ang bilang ng mga antas ng kalayaan n 1 at n 2 (n 1 ay ang bilang ng mga antas ng kalayaan ng higit na pagpapakalat). Ang kaliwang kritikal na punto ay maaaring hindi matagpuan.

6. Ang konklusyon ay iginuhit: kung ang kinakalkula na halaga ng F-criterion ay mas malaki kaysa o katumbas ng kritikal na halaga (F obs ³ F cr), kung gayon ang mga pagkakaiba ay makabuluhang naiiba sa isang naibigay na antas ng kahalagahan. Kung hindi (F obs.< F кр) нет оснований для отклонения нулевой гипотезы о равенстве двух дисперсий.

Suliranin 15.1. Ang pagkonsumo ng mga hilaw na materyales sa bawat yunit ng produksyon gamit ang lumang teknolohiya ay:

Gamit ang bagong teknolohiya:

Ipagpalagay na ang kaukulang pangkalahatang populasyon na X at Y ay may mga normal na distribusyon, suriin na sa mga tuntunin ng pagkakaiba-iba, ang pagkonsumo ng mga hilaw na materyales para sa bago at lumang mga teknolohiya ay hindi naiiba, kung kukunin natin ang antas ng kahalagahan a = 0.1.

Solusyon. Nagpapatuloy kami sa pagkakasunud-sunod na ipinahiwatig sa itaas.

1. Hahatulan natin ang pagkakaiba-iba ng pagkonsumo ng hilaw na materyal sa pamamagitan ng bago at lumang mga teknolohiya batay sa mga halaga ng pagpapakalat. Kaya, ang null hypothesis ay may anyong H 0: s x 2 = s y 2. Bilang isang nakikipagkumpitensyang hypothesis, tinatanggap namin ang hypothesis H 1: s x 2 ¹ s y 2, dahil hindi kami sigurado nang maaga na ang alinman sa mga pangkalahatang pagkakaiba ay mas malaki kaysa sa iba.

2-3. Hanapin natin ang mga sample na pagkakaiba. Upang gawing simple ang mga kalkulasyon, lumipat tayo sa mga opsyonal na kondisyon:

u i = x i - 307, v i = y i - 304.

Aayusin namin ang lahat ng mga kalkulasyon sa anyo ng mga sumusunod na talahanayan:

u i m i ako u i ako at ako 2 m i (u i +1) 2 v i n i n i v i n i v i 2 n i (v i +1) 2
-3 -3 -1 -2
å -
å -

Kontrol: å m i u i 2 + 2å m i u i + m i = Kontrol: å n i v i 2 + 2å n i v i + n i = 13 + 2 + 9 = 24 = 34 + 20 + 13 = 67

Hanapin natin ang mga naitama na sample na pagkakaiba-iba:

4. Paghambingin natin ang mga pagkakaiba. Hanapin natin ang ratio ng mas malaking corrected variance sa mas maliit:

.

5. Sa pamamagitan ng kundisyon, ang nakikipagkumpitensyang hypothesis ay may anyo na s x 2 ¹ s y 2, samakatuwid ang kritikal na rehiyon ay dalawang-panig at kapag hinahanap ang kritikal na punto, dapat kunin ang mga antas ng kahalagahan na kalahati ng tinukoy na halaga.

Ayon sa Talahanayan A.1.7, gamit ang antas ng kahalagahan a/2 = 0.1/2 = 0.05 at ang bilang ng mga antas ng kalayaan n 1 = n 1 - 1 = 12, n 2 = n 2 - 1 = 8, makikita natin ang kritikal na punto F cr ( 0.05; 12; 8) = 3.28.

6. Dahil si F obs.< F кр то гипотезу о равенстве дисперсий расхода сырья при старой и bagong teknolohiya tinatanggap namin.

Sa itaas, kapag sinusubukan ang mga hypotheses, ipinapalagay namin ang normal na distribusyon ng mga random na variable na pinag-aaralan. Gayunpaman, ipinakita ng mga espesyal na pag-aaral na ang mga iminungkahing algorithm ay napaka-stable (lalo na sa malalaking sukat ng sample) na may paggalang sa mga paglihis mula sa normal na distribusyon.

Ang pinakamahalagang mga katangiang numero random variable X ay siya inaasahan sa matematika m x =M at pagpapakalatσ 2 x = D[x] = M[(X – m x) 2 ] = M –. Numero m x ay ang average na halaga ng isang random na variable sa paligid kung saan ang mga halaga ng mga dami ay nakakalat X, ang isang sukatan ng pagkalat na ito ay ang pagpapakalat D[x] At karaniwang lihis:

s x =(1.11)

Isasaalang-alang pa natin ang isang mahalagang problema para sa pag-aaral ng isang nakikitang random variable. Hayaang magkaroon ng ilang sample (ipahiwatig namin ito S) random variable X. Kinakailangang tantyahin ang mga hindi kilalang halaga mula sa umiiral na sample. m x At .

Ang teorya ng mga pagtatantya ng iba't ibang mga parameter ay sumasakop sa isang makabuluhang lugar sa mga istatistika ng matematika. Samakatuwid, isaalang-alang muna natin karaniwang gawain. Hayaang kailanganin na tantyahin ang ilang parameter a sa pamamagitan ng sample S. Ang bawat naturang pagtatasa a* ay ilang function a*=a*(S) mula sa mga sample na halaga. Ang mga sample na halaga ay random, samakatuwid ang pagtatantya mismo a* ay isang random na variable. Posibleng bumuo ng marami iba't ibang mga pagtatantya(ibig sabihin, mga function) a*, ngunit sa parehong oras ito ay kanais-nais na magkaroon ng isang "mabuti" o kahit na "pinakamahusay", sa isang kahulugan, pagtatasa. Ang sumusunod na tatlong natural na pangangailangan ay karaniwang ipinapataw sa mga pagtatasa.

1. Hindi nalipat. Pag-asa sa matematika ng pagtatasa a* dapat katumbas ng eksaktong halaga ng parameter: M = a. Sa madaling salita, ang iskor a* hindi dapat magkaroon ng sistematikong pagkakamali.

2. Kayamanan. Sa isang walang katapusang pagtaas sa laki ng sample, ang pagtatantya a* ay dapat magtagpo sa isang eksaktong halaga, iyon ay, habang ang bilang ng mga obserbasyon ay tumataas, ang error sa pagtatantya ay nagiging zero.

3. Kahusayan. Grade a* ay sinasabing mahusay kung ito ay walang kinikilingan at may pinakamaliit na posibleng pagkakaiba ng error. Sa kasong ito, ang pagkalat ng mga pagtatantya ay minimal a* kaugnay sa eksaktong halaga at pagtatantya sa sa isang tiyak na kahulugan ay ang "pinaka tumpak".

Sa kasamaang palad, hindi laging posible na bumuo ng isang pagtatasa na nakakatugon sa lahat ng tatlong mga kinakailangan nang sabay-sabay.

Upang matantya ang inaasahan sa matematika, ang pagtatantya ay kadalasang ginagamit.

= , (1.12)

ibig sabihin, ang arithmetic mean ng sample. Kung ang random variable X may hangganan m x At s x, pagkatapos ay ang pagtatantya (1.12) ay hindi bias at pare-pareho. Ang pagtatantya na ito ay epektibo, halimbawa, kung X ay may normal na distribusyon (Figure 1.4, Appendix 1). Para sa iba pang mga pamamahagi, maaaring hindi ito epektibo. Halimbawa, kung sakali pare-parehong pamamahagi(Figure 1.1, Appendix 1) isang walang kinikilingan, pare-parehong pagtatantya

(1.13)

Kasabay nito, ang pagtatantya (1.13) para sa normal na pamamahagi ay hindi magiging pare-pareho o epektibo, at lalala pa sa pagtaas ng laki ng sample.

Kaya, para sa bawat uri ng pamamahagi ng isang random na variable X dapat mong gamitin ang iyong pagtatantya ng inaasahan sa matematika. Gayunpaman, sa aming sitwasyon, ang uri ng pamamahagi ay maaari lamang malaman nang pansamantala. Samakatuwid, gagamitin namin ang pagtatantya (1.12), na medyo simple at may pinakamahalagang katangian ng walang kinikilingan at pagkakapare-pareho.

Upang matantya ang inaasahan sa matematika para sa isang nakagrupong sample, ginagamit ang sumusunod na formula:

= , (1.14)

na maaaring makuha mula sa nauna, kung isasaalang-alang natin ang lahat m i mga sample na halaga na kasama sa i-ika agwat na katumbas ng kinatawan z i agwat na ito. Ang pagtatantya na ito ay natural na mas magaspang, ngunit nangangailangan ng makabuluhang mas kaunting pag-compute, lalo na sa isang malaking sukat ng sample.

Ang pinakakaraniwang ginagamit na pagtatantya upang tantyahin ang pagkakaiba ay:

= , (1.15)

Ang pagtatantya na ito ay hindi bias at wasto para sa anumang random na variable X, pagkakaroon ng may hangganang mga sandali hanggang sa ikaapat na pagkakasunud-sunod kasama.

Sa kaso ng isang nakapangkat na sample, ang ginamit na pagtatantya ay:

= (1.16)

Ang mga pagtatantya (1.14) at (1.16), bilang isang panuntunan, ay may kinikilingan at hindi mapanindigan, dahil ang kanilang mga inaasahan sa matematika at ang mga limitasyon kung saan sila ay nagtatagpo ay naiiba sa m x at dahil sa pagpapalit ng lahat ng sample value na kasama sa i-ika na pagitan, bawat kinatawan ng pagitan z i.

Tandaan na para sa malaki n, koepisyent n/(n – 1) sa mga expression (1.15) at (1.16) ay malapit sa pagkakaisa, kaya maaari itong alisin.

Mga pagtatantya sa pagitan.

Hayaan eksaktong halaga ang ilang parameter ay katumbas ng a at ang pagtatantya nito ay natagpuan a*(S) sa pamamagitan ng sample S. Pagsusuri a* tumutugma sa isang punto sa numerical axis (Larawan 1.5), kaya tinawag ang pagtatantya na ito punto. Ang lahat ng mga pagtatantya na tinalakay sa nakaraang talata ay mga pagtatantya ng punto. Halos palagi, dahil sa pagkakataon

a* ¹ a, at maaari lamang tayong umasa na ang punto a* ay nasa malapit na lugar a. Ngunit gaano kalapit? Ang anumang pagtatantya ng punto ay magkakaroon ng parehong sagabal - ang kakulangan ng sukatan ng pagiging maaasahan ng resulta.


Fig.1.5. Pagtatantya ng parameter ng punto.

Mas tiyak sa bagay na ito ay mga pagtatantya ng pagitan. Ang marka ng pagitan ay kumakatawan sa isang pagitan I b = (a , b), kung saan matatagpuan ang eksaktong halaga ng tinantyang parameter na may ibinigay na posibilidad b. Pagitan Ib tinawag agwat ng kumpiyansa, at ang posibilidad b tinawag posibilidad ng kumpiyansa at maaaring ituring bilang pagiging maaasahan ng pagtatasa.

Ang agwat ng kumpiyansa ay batay sa magagamit na sample S, ito ay random sa kahulugan na ang mga hangganan nito ay random a(S) At b(S), na kakalkulahin namin mula sa isang (random) na sample. kaya lang b may posibilidad na ang random interval Ib sasaklawin ang isang hindi random na punto a. Sa Fig. 1.6. pagitan Ib sakop ang punto a, A Ib*- Hindi. Samakatuwid, hindi ganap na tama na sabihin iyon isang" bumagsak" sa pagitan.

Kung ang posibilidad ng kumpiyansa b malaki (halimbawa, b = 0.999), pagkatapos ay halos palaging ang eksaktong halaga a ay nasa loob ng constructed interval.


Fig.1.6. Mga agwat ng kumpiyansa ng parameter a para sa iba't ibang sample.

Isaalang-alang natin ang isang paraan para sa pagbuo ng isang agwat ng kumpiyansa para sa inaasahan ng matematika ng isang random na variable X, batay sa Central limit theorem.

Hayaan ang random variable X ay may hindi kilalang mathematical na inaasahan m x At kilalang pagkakaiba-iba. Pagkatapos, sa bisa ng central limit theorem, ang arithmetic mean ay:

= , (1.17)

resulta n independiyenteng mga pagsubok ng magnitude X ay isang random na variable na ang distribusyon sa pangkalahatan n, malapit sa normal na pamamahagi na may katamtaman m x at karaniwang paglihis. Samakatuwid ang random variable

(1.18)

ay may probability distribution na maaaring isaalang-alang karaniwang normal na may density ng pamamahagi j(t), ang graph kung saan ay ipinapakita sa Fig. 1.7 (pati na rin sa Fig. 1.4, Appendix 1).



Fig.1.7. Probability density distribution ng isang random variable t.

Hayaang ibigay ang posibilidad ng kumpiyansa b At t b - numero na nagbibigay-kasiyahan sa equation

b = Ф 0 (t b) – Ф 0 (-t b) = 2 Ф 0 (t b),(1.19)

saan - Laplace function. Pagkatapos ang posibilidad na mahulog sa pagitan (-t b , t b) ay magiging katumbas ng may kulay sa Fig. 1.7. lugar, at, sa bisa ng pagpapahayag (1.19), ay katumbas ng b. Kaya naman

b = P(-t b< < t b) = P( – tb< m x < + t b ) =

= P( – tb< m x < + t b).(1.20)

Kaya, bilang isang agwat ng kumpiyansa maaari nating kunin ang agwat

ako b = ( – t b ; + tb ) , (1.21)

dahil ang expression (1.20) ay nangangahulugan na ang hindi kilalang eksaktong halaga m x ay nasa Ib na may ibinigay na posibilidad ng kumpiyansa b. Para sa gusali Ib kailangan ayon sa tinukoy b hanapin t b mula sa equation (1.19). Magbigay tayo ng ilang halaga t b kailangan sa hinaharap :

t 0.9 = 1.645; t 0.95 = 1.96; t 0.99 = 2.58; t 0.999 = 3.3.

Kapag kumukuha ng expression (1.21), ipinapalagay na ang eksaktong halaga ng standard deviation ay kilala s x. Gayunpaman, hindi ito palaging kilala. Samakatuwid, gamitin natin ang kanyang pagtatantya (1.15) at makuha ang:

ako b = ( – t b ; +tb). (1.22)

Alinsunod dito, ang mga pagtatantya ng at nakuha mula sa nakapangkat na sample ay nagbibigay ng sumusunod na formula para sa agwat ng kumpiyansa:

ako b = ( – t b ; +tb). (1.23)

Mga pagtatantya ng inaasahan at pagkakaiba sa matematika.

Kami ay naging pamilyar sa konsepto ng mga parameter ng pamamahagi sa teorya ng posibilidad. Halimbawa, sa normal na batas sa pamamahagi, na tinukoy ng probability density function

nagsisilbing mga parameter A– inaasahan sa matematika at A- karaniwang lihis. Sa pamamahagi ng Poisson ang parameter ay ang numero a = ex.

Kahulugan. Ang isang istatistikal na pagtatantya ng isang hindi kilalang parameter ng isang teoretikal na pamamahagi ay ang tinatayang halaga nito, depende sa sample na data(x 1, x 2, x 3,..., xk; n 1, n 2, n 3,..., n k), ibig sabihin, ilang function ng mga dami na ito.

Dito x 1, x 2, x 3,..., x k- mga katangiang halaga, n 1, n 2, n 3,..., n k– ang kaukulang mga frequency. Ang istatistikal na pagtatantya ay isang random na variable.

Ipahiwatig natin sa pamamagitan ng θ ay ang tinantyang parameter, at sa pamamagitan ng θ * – pagtatasa ng istatistika nito. Magnitude | θ *–θ | tinawag katumpakan ng pagtatasa. Ang mas kaunti | θ *–θ |, mas mabuti, ang hindi kilalang parameter ay mas tiyak na tinukoy.

Upang makapuntos θ * nagkaroon praktikal na kahalagahan, hindi ito dapat maglaman ng isang sistematikong error at sa parehong oras ay may kaunting dispersion hangga't maaari. Bilang karagdagan, habang tumataas ang laki ng sample, ang posibilidad ng arbitraryong maliliit na paglihis | θ *–θ | dapat malapit sa 1.

Bumuo tayo ng mga sumusunod na kahulugan.

1. Ang pagtatantya ng parameter ay tinatawag na walang kinikilingan kung ang inaasahan sa matematika nito ay M(θ *) katumbas ng tinantyang parameter θ, i.e.

M(θ *) = θ, (1)

at inilipat kung

M(θ *) ≠ θ, (2)

2. Ang isang pagtatantya θ* ay sinasabing pare-pareho kung para sa alinmang δ > 0

(3)

Ang pagkakapantay-pantay (3) ay ganito: pagtatantya θ * nagtatagpo sa posibilidad sa θ .

3. Ang pagtatantya θ* ay tinatawag na epektibo kung, para sa isang naibigay na n, ito ay may pinakamaliit na pagkakaiba.

Teorama 1.Ang sample na ibig sabihin ng X B ay isang walang kinikilingan at pare-parehong pagtatantya ng inaasahan sa matematika.

Patunay. Hayaang maging kinatawan ang sample, ibig sabihin, lahat ng elemento ng pangkalahatang populasyon ay may parehong pagkakataon na maisama sa sample. Mga katangiang halaga x 1, x 2, x 3,..., x n maaaring kunin bilang mga independiyenteng random na variable X 1, X 2, X 3, ..., X n na may magkaparehong mga distribusyon at mga katangiang numero, kabilang ang mga pantay na inaasahan sa matematika, pantay A,

Dahil ang bawat isa sa mga dami X 1, X 2, X 3, ..., X p may distribusyon na tumutugma sa distribusyon ng populasyon, kung gayon M(X)= a. kaya lang

kung saan sumusunod ito ay isang pare-parehong pagtatantya M(X).

Gamit ang panuntunan ng pananaliksik para sa extremum, posibleng patunayan na isa rin itong mabisang pagtatantya M(X).