Serye ng pamamahagi ng pagkakaiba-iba ng pagitan. Pagbuo ng isang serye ng pagkakaiba-iba ng pagitan para sa tuluy-tuloy na dami ng data

Kung ang random na variable sa ilalim ng pag-aaral ay tuluy-tuloy, kung gayon ang pagraranggo at pagpapangkat ng mga naobserbahang halaga ay kadalasang hindi pinapayagan ang isa na mag-isa. mga katangian ng karakter pag-iiba-iba ng mga halaga nito. Ito ay dahil sa mga indibidwal na halaga random variable ay maaaring magkaiba nang kasing liit ng ninanais sa isa't isa, at samakatuwid, sa kabuuan ng naobserbahang data, ang parehong mga halaga ng dami ay maaaring madalang na mangyari, at ang mga frequency ng mga variant ay bahagyang naiiba sa bawat isa.

Hindi rin praktikal na bumuo ng isang discrete series para sa isang discrete random variable, na ang bilang ng mga posibleng halaga ay malaki. SA katulad na mga kaso dapat itayo serye ng pagkakaiba-iba ng pagitan pamamahagi.

Upang makabuo ng naturang serye, ang buong pagitan ng pagkakaiba-iba ng mga naobserbahang halaga ng isang random na variable ay nahahati sa isang serye bahagyang agwat at pagbibilang ng dalas ng paglitaw ng mga halaga ng magnitude sa bawat bahagyang pagitan.

pagitan serye ng pagkakaiba-iba tinatawag na isang nakaayos na hanay ng mga pagitan ng pagkakaiba-iba ng mga halaga ng isang random na variable na may kaukulang mga frequency o mga kamag-anak na frequency ng mga hit sa bawat isa sa kanila ng mga halaga ng dami.

Upang bumuo ng isang serye ng pagitan, kailangan mo:

  1. tukuyin halaga bahagyang agwat;
  2. tukuyin lapad mga pagitan;
  3. itakda para sa bawat pagitan nito itaas At lower bound ;
  4. pangkatin ang mga resulta ng obserbasyon.

1 . Ang tanong ng pagpili ng bilang at lapad ng mga pagitan ng pagpapangkat ay kailangang mapagpasyahan sa bawat partikular na kaso batay sa mga layunin pananaliksik, dami sampling at antas ng pagkakaiba-iba tampok sa sample.

Tinatayang bilang ng mga agwat k maaari lamang matantya mula sa laki ng sample n sa isa sa mga sumusunod na paraan:

  • ayon sa pormula Sturges : k = 1 + 3.32 log n ;
  • gamit ang talahanayan 1.

Talahanayan 1

2 . Ang mga pagitan ng parehong lapad ay karaniwang ginustong. Upang matukoy ang lapad ng mga pagitan h kalkulahin:

  • saklaw ng pagkakaiba-iba R - mga sample na halaga: R = x max - x min ,

saan xmax At xmin - maximum at minimum na mga pagpipilian sa sample;

  • ang lapad ng bawat pagitan h tinutukoy ng sumusunod na formula: h = R/k .

3 . Bottom line unang pagitan x h1 ay pinili upang ang pinakamababang sample na variant xmin nahulog humigit-kumulang sa gitna ng agwat na ito: x h1 = x min - 0.5 h .

Mga pagitan nakuha sa pamamagitan ng pagdaragdag sa dulo ng nakaraang pagitan ng haba ng bahagyang pagitan h :

xhi = xhi-1 +h.

Ang pagtatayo ng sukat ng mga agwat batay sa pagkalkula ng mga hangganan ng mga agwat ay nagpapatuloy hanggang sa halaga x hi natutugunan ang kaugnayan:

x hi< x max + 0,5·h .

4 . Alinsunod sa sukat ng mga agwat, ang mga halaga ng katangian ay pinagsama - para sa bawat bahagyang agwat, ang kabuuan ng mga frequency ay kinakalkula n i nahuli ang variant i -ika agwat. Sa kasong ito, ang pagitan ay kinabibilangan ng mga halaga ng isang random na variable na mas malaki sa o katumbas ng mas mababang limitasyon at mas mababa sa itaas na limitasyon ng agwat.

Polygon at histogram

Para sa kalinawan, ang iba't ibang mga graph ng distribusyon ng istatistika ay binuo.

Ayon sa discrete serye ng pagkakaiba-iba ay nagtatayo polygon mga frequency o relative frequency.

Polygon ng dalas x 1 ; n 1 ), (x2 ; n 2 ), ..., (x k ; nk ). Upang bumuo ng isang polygon ng mga frequency sa abscissa axis, ang mga opsyon ay itinatabi x i , at sa y-axis - ang kaukulang mga frequency n i . Mga puntos ( x i ; n i ) ay konektado sa pamamagitan ng mga segment ng mga tuwid na linya at ang isang frequency polygon ay nakuha (Larawan 1).

Kamag-anak na dalas ng polygon ay tinatawag na polyline na ang mga segment ay nagkokonekta sa mga punto ( x 1 ; W 1 ), (x2 ; W2 ), ..., (x k ; Wk ). Upang bumuo ng isang polygon ng mga kamag-anak na frequency sa abscissa, tanggalin ang mga opsyon x i , at sa y-axis - ang mga kamag-anak na frequency na naaayon sa kanila Wi . Mga puntos ( x i ; Wi ) ay konektado sa pamamagitan ng mga segment ng mga tuwid na linya at isang polygon ng mga relatibong frequency ay nakuha.

Kailan tuloy-tuloy na tampok ito ay nararapat na magtayo histogram .

frequency histogram tinatawag na stepped figure na binubuo ng mga parihaba na ang mga base ay bahagyang pagitan ng haba h , at ang mga taas ay katumbas ng ratio nih (densidad ng dalas).

Upang makabuo ng histogram ng mga frequency, ang mga bahagyang pagitan ay naka-plot sa abscissa axis, at ang mga segment ay iginuhit sa itaas ng mga ito parallel sa abscissa axis sa layo. nih .

Ang mga ito ay ipinakita sa anyo ng serye ng pamamahagi at naka-format bilang .

Ang isang serye ng pamamahagi ay isang uri ng pagpapangkat.

Saklaw ng pamamahagi- kumakatawan sa isang maayos na pamamahagi ng mga yunit ng pinag-aralan na populasyon sa mga pangkat ayon sa isang tiyak na iba't ibang katangian.

Depende sa katangiang pinagbabatayan ng pagbuo ng isang serye ng pamamahagi, mayroong katangian at pagkakaiba-iba mga ranggo ng pamamahagi:

  • katangian- tawagan ang serye ng pamamahagi na binuo sa mga batayan ng husay.
  • Ang mga serye ng pamamahagi na binuo sa pataas o pababang pagkakasunud-sunod ng mga halaga ng isang quantitative na katangian ay tinatawag pagkakaiba-iba.
Ang serye ng variation ng pamamahagi ay binubuo ng dalawang column:

Ang unang column ay naglalaman ng mga quantitative value ng variable na katangian, na tinatawag mga pagpipilian at minarkahan. Discrete variant - ipinahayag bilang integer. Ang opsyon sa pagitan ay nasa hanay mula at hanggang. Depende sa uri ng mga variant, posibleng bumuo ng discrete o interval variational series.
Ang ikalawang hanay ay naglalaman ng bilang ng tiyak na opsyon, na ipinahayag sa mga tuntunin ng mga frequency o frequency:

Mga frequency- ito ay mga ganap na numero na nagpapakita kung gaano karaming beses sa pinagsama-samang ito nangyayari binigay na halaga mga palatandaan na kumakatawan sa . Ang kabuuan ng lahat ng mga frequency ay dapat na katumbas ng bilang ng mga yunit ng buong populasyon.

Mga frequency() ay ang mga frequency na ipinahayag bilang isang porsyento ng kabuuan. Ang kabuuan ng lahat ng mga frequency na ipinahayag bilang isang porsyento ay dapat na katumbas ng 100% sa mga fraction ng isa.

Graphical na representasyon ng serye ng pamamahagi

Ang serye ng pamamahagi ay nakikita gamit ang mga graphic na larawan.

Ang serye ng pamamahagi ay ipinapakita bilang:
  • Polygon
  • Mga histogram
  • Nag-iipon
  • ogives

Polygon

Kapag gumagawa ng isang polygon, sa pahalang na axis (abscissa) ang mga halaga ng variable na katangian ay naka-plot, at sa vertical axis (ordinate) - mga frequency o frequency.

Ang polygon sa fig. 6.1 ay itinayo ayon sa micro-census ng populasyon ng Russia noong 1994.

6.1. Pamamahagi ng mga kabahayan ayon sa laki

Kundisyon: Ang data ay ibinigay sa pamamahagi ng 25 empleyado ng isa sa mga negosyo ayon sa mga kategorya ng taripa:
4; 2; 4; 6; 5; 6; 4; 1; 3; 1; 2; 5; 2; 6; 3; 1; 2; 3; 4; 5; 4; 6; 2; 3; 4
Isang gawain: Bumuo ng discrete variational series at ilarawan ito nang grapiko bilang distribution polygon.
Solusyon:
Sa halimbawang ito, ang mga pagpipilian ay kategorya ng taripa manggagawa. Upang matukoy ang mga frequency, kinakailangan upang kalkulahin ang bilang ng mga empleyado na may naaangkop na kategorya ng sahod.

Ginagamit ang polygon para sa discrete variation series.

Upang makabuo ng polygon ng pamamahagi (Larawan 1), kasama ang abscissa (X), inilalagay namin ang dami ng mga halaga ng iba't ibang katangian - mga variant, at kasama ang ordinate - mga frequency o frequency.

Kung ang mga halaga ng katangian ay ipinahayag bilang mga agwat, kung gayon ang naturang serye ay tinatawag na isang serye ng agwat.
serye ng pagitan ipinapakita ang mga distribusyon bilang isang histogram, cumulate o ogive.

Talahanayan ng istatistika

Kundisyon: Ang data sa laki ng mga deposito 20 ay ibinigay mga indibidwal sa isang bangko (libong rubles) 60; 25; 12; 10; 68; 35; 2; 17; 51; siyam; 3; 130; 24; 85; isang daan; 152; 6; labing-walo; 7; 42.
Isang gawain: Bumuo ng serye ng pagkakaiba-iba ng pagitan na may pantay na pagitan.
Solusyon:

  1. Ang paunang populasyon ay binubuo ng 20 yunit (N = 20).
  2. Gamit ang formula ng Sturgess, tinutukoy namin ang kinakailangang bilang ng mga pangkat na ginamit: n=1+3.322*lg20=5
  3. Kalkulahin natin ang halaga ng pantay na pagitan: i=(152 - 2) /5 = 30 thousand rubles
  4. Hinahati namin ang paunang populasyon sa 5 grupo na may pagitan ng 30 libong rubles.
  5. Ang mga resulta ng pagpapangkat ay ipinakita sa talahanayan:

Sa ganoong pag-record ng isang tuluy-tuloy na feature, kapag ang parehong halaga ay nangyari nang dalawang beses (bilang ang itaas na limitasyon ng isang agwat at ang mas mababang limitasyon ng isa pang agwat), ang halagang ito ay nabibilang sa pangkat kung saan ang halagang ito ay nagsisilbing pinakamataas na limitasyon.

bar graph

Upang bumuo ng isang histogram sa kahabaan ng abscissa, ipahiwatig ang mga halaga ng mga hangganan ng mga agwat at, batay sa mga ito, bumuo ng mga parihaba na ang taas ay proporsyonal sa mga frequency (o mga frequency).

Sa fig. 6.2. ipinapakita ang histogram ng pamamahagi ng populasyon ng Russia noong 1997 ayon sa mga pangkat ng edad.

kanin. 6.2. Pamamahagi ng populasyon ng Russia ayon sa mga pangkat ng edad

Kundisyon: Ang pamamahagi ng 30 empleyado ng kumpanya ayon sa laki ng buwanang suweldo ay ibinibigay

Isang gawain: Ipakita ang graphic na serye ng pagkakaiba-iba ng agwat bilang isang histogram at i-cumulate.
Solusyon:

  1. Ang hindi kilalang hangganan ng bukas (unang) agwat ay tinutukoy ng halaga ng pangalawang agwat: 7000 - 5000 = 2000 rubles. Sa parehong halaga, nakita namin ang mas mababang limitasyon ng unang agwat: 5000 - 2000 = 3000 rubles.
  2. Upang makabuo ng isang histogram sa isang hugis-parihaba na sistema ng coordinate, kasama ang abscissa axis, itinatabi namin ang mga segment na ang mga halaga ay tumutugma sa mga pagitan ng serye ng variant.
    Ang mga segment na ito ay nagsisilbing mas mababang base, at ang kaukulang dalas (frequency) ay nagsisilbing taas ng mga parihaba na nabuo.
  3. Bumuo tayo ng histogram:

Upang mabuo ang pinagsama-samang, kinakailangan upang kalkulahin ang naipon na mga frequency (mga frequency). Tinutukoy ang mga ito sa pamamagitan ng sunud-sunod na pagsusuma ng mga frequency (frequencies) ng mga naunang agwat at tinutukoy ng S. Ang mga naipon na frequency ay nagpapakita kung gaano karaming mga yunit ng populasyon ang may tampok na halaga na hindi hihigit sa isa na isinasaalang-alang.

Magsama-sama

Ang distribusyon ng isang katangian sa isang variational series ayon sa mga naipon na frequency (frequencies) ay inilalarawan gamit ang cumulate.

Magsama-sama o ang pinagsama-samang kurba, sa kaibahan sa polygon, ay binuo sa mga naipon na frequency o frequency. Kasabay nito, ang mga halaga ng tampok ay inilalagay sa abscissa axis, at ang mga naipon na frequency o frequency ay inilalagay sa ordinate axis (Fig. 6.3).

kanin. 6.3. Pinagsama-samang pamamahagi ng mga kabahayan ayon sa laki

4. Kalkulahin ang mga naipon na frequency:
Ang dalas ng tuhod ng unang pagitan ay kinakalkula tulad ng sumusunod: 0 + 4 = 4, para sa pangalawa: 4 + 12 = 16; para sa pangatlo: 4 + 12 + 8 = 24, atbp.

Kapag binubuo ang pinagsama-samang, ang naipon na dalas (dalas) ng kaukulang pagitan ay itinalaga sa itaas na hangganan nito:

Ogiva

Ogiva ay itinayo katulad ng pinagsama-samang may pagkakaiba lamang na ang mga naipon na frequency ay inilalagay sa abscissa axis, at ang mga halaga ng tampok ay inilalagay sa ordinate axis.

Ang isang variation ng cumulate ay ang concentration curve o Lorenz plot. Upang i-plot ang curve ng konsentrasyon, ang parehong mga axes ng rectangular coordinate system ay ini-scale bilang isang porsyento mula 0 hanggang 100. Sa kasong ito, ang mga abscissa axes ay nagpapahiwatig ng mga naipon na frequency, at ang mga ordinate axes ay nagpapakita ng mga naipon na halaga ng bahagi (sa porsyento) sa dami ng tampok.

Ang pare-parehong pamamahagi ng tanda ay tumutugma sa dayagonal ng parisukat sa graph (Larawan 6.4). Sa hindi pantay na distribusyon, ang graph ay isang malukong kurba depende sa antas ng konsentrasyon ng katangian.

6.4. kurba ng konsentrasyon

Sa maraming kaso, kung ang istatistikal na populasyon ay may kasamang malaki o, higit pa, isang walang katapusang bilang ng mga opsyon, na kadalasang matatagpuan na may tuluy-tuloy na pagkakaiba-iba, halos imposible at hindi praktikal na bumuo ng isang pangkat ng mga yunit para sa bawat opsyon. Sa ganitong mga kaso, ang pagsasama-sama ng mga yunit ng istatistika sa mga grupo ay posible lamang sa batayan ng agwat, i.e. tulad ng isang pangkat na may ilang mga limitasyon ng mga halaga ng iba't ibang katangian. Ang mga limitasyong ito ay ipinahiwatig ng dalawang numero na nagsasaad ng itaas at mas mababang mga limitasyon ng bawat pangkat. Ang paggamit ng mga agwat ay humahantong sa pagbuo ng isang serye ng pamamahagi ng agwat.

interval rad ay isang variational na serye, ang mga variant nito ay ipinakita bilang mga pagitan.

Ang isang serye ng pagitan ay maaaring mabuo na may pantay at hindi pantay na mga pagitan, habang ang pagpili ng prinsipyo para sa pagbuo ng seryeng ito ay higit na nakasalalay sa antas ng pagiging kinatawan at kaginhawahan ng istatistikal na populasyon. Kung ang hanay ay sapat na malaki (kinatawan) sa mga tuntunin ng bilang ng mga yunit at medyo homogenous sa komposisyon nito, pagkatapos ay ipinapayong ilagay ang pantay na mga agwat bilang batayan para sa pagbuo ng serye ng pagitan. Karaniwan, ayon sa prinsipyong ito, serye ng pagitan para sa mga populasyon kung saan medyo maliit ang hanay ng variation, i.e. ang maximum at minimum na mga variant ay karaniwang nag-iiba sa isa't isa nang ilang beses. Sa kasong ito, ang halaga ng pantay na pagitan ay kinakalkula sa pamamagitan ng ratio ng hanay ng pagkakaiba-iba ng katangian sa ibinigay na bilang ng mga nabuong pagitan. Upang matukoy ang pantay At interval, maaaring gamitin ang formula ng Sturgess (karaniwan ay may maliit na pagkakaiba-iba sa mga feature ng interval at malaking bilang ng mga unit sa istatistikal na populasyon):

kung saan x i - ang halaga ng isang pantay na pagitan; X max, X min - maximum at minimum na mga opsyon sa istatistikal na populasyon; n . - ang bilang ng mga yunit sa populasyon.

Halimbawa. Maipapayo na kalkulahin ang laki ng isang pantay na agwat sa mga tuntunin ng density ng radioactive contamination na may cesium - 137 sa 100 mga pamayanan ng distrito ng Krasnopolsky ng rehiyon ng Mogilev, kung alam na ang paunang (minimum) na variant ay katumbas ng I km / km 2, ang pangwakas ( maximum) - 65 ki / km 2. Gamit ang formula 5.1. makuha namin:

Samakatuwid, upang makabuo ng isang serye ng agwat na may pantay na agwat para sa density ng polusyon ng cesium - 137 mga pamayanan ng distrito ng Krasnopolsky, ang laki ng isang pantay na agwat ay maaaring 8 ki/km 2 .

Sa mga kondisyon ng hindi pantay na pamamahagi i.e. kapag ang maximum at minimum na mga pagpipilian ay daan-daang beses, kapag bumubuo ng serye ng pagitan, maaari mong ilapat ang prinsipyo hindi pantay mga pagitan. Karaniwang tumataas ang hindi pantay na pagitan habang lumilipat ka sa mas malalaking halaga ng feature.

Ang hugis ng mga pagitan ay maaaring sarado at bukas. sarado Nakaugalian na ang pangalan ng mga agwat kung saan ang parehong ibaba at itaas na mga hangganan ay ipinahiwatig. bukas ang mga pagitan ay may isang hangganan lamang: sa unang pagitan - ang itaas, sa huli - ang mas mababang hangganan.

Maipapayo na suriin ang mga serye ng agwat, lalo na ang mga may hindi pantay na agwat, na isinasaalang-alang density ng pamamahagi, ang pinakasimpleng paraan upang makalkula kung alin ang ratio ng lokal na dalas (o dalas) sa laki ng pagitan.

Para sa praktikal na pagbuo ng serye ng pagitan, maaari mong gamitin ang layout ng talahanayan. 5.3.

T a b l e 5.3. Ang pagkakasunud-sunod ng pagbuo ng serye ng pagitan mga pamayanan Krasnopolsky district ayon sa density ng radioactive contamination na may cesium -137

Ang pangunahing bentahe ng serye ng pagitan ay ang limitasyon nito pagiging compact. sa parehong oras, sa pagitan ng serye ng pamamahagi, ang mga indibidwal na variant ng katangian ay nakatago sa mga kaukulang agwat

Kapag ang isang graphical na representasyon ng isang serye ng pagitan sa isang sistema ng mga parihaba na coordinate, ang mga itaas na hangganan ng mga pagitan ay naka-plot sa abscissa axis, at ang mga lokal na frequency ng serye ay nasa ordinate axis. Ang graphical na konstruksyon ng isang serye ng agwat ay naiiba sa pagbuo ng isang polygon ng pamamahagi dahil ang bawat pagitan ay may mas mababa at itaas na hangganan, at dalawang abscissas ang tumutugma sa anumang halaga ng ordinate. Samakatuwid, sa graph ng serye ng pagitan, hindi isang punto ang minarkahan, tulad ng sa isang polygon, ngunit isang linya na nagkokonekta sa dalawang puntos. Ang mga ito pahalang na linya kumonekta sa isa't isa mga linyang patayo at ang pigura ng isang stepped polygon ay nakuha, na karaniwang tinatawag histogram mga pamamahagi (Larawan 5.3).

Sa graphical na pagtatayo ng isang serye ng pagitan para sa isang sapat na malaking istatistikal na populasyon, ang histogram ay lumalapit simetriko form ng pamamahagi. Sa mga kasong iyon kung saan maliit ang istatistikal na populasyon, bilang panuntunan, ito ay nabuo walang simetriko bar graph.

Sa ilang mga kaso, mayroong kahusayan sa pagbuo ng isang bilang ng mga naipon na frequency, i.e. pinagsama-samang hilera. Maaaring mabuo ang pinagsama-samang serye batay sa isang discrete o interval distribution series. Gamit ang isang graphic pinagsama-samang serye sa sistema ng mga rectangular coordinates, ang mga variant ay naka-plot sa abscissa axis, at ang mga naipon na frequency (frequencies) ay naka-plot sa ordinate axis. Ang nagresultang hubog na linya ay tinatawag pinagsama-samang mga pamamahagi (Larawan 5.4).

Pagbubuo at graphic na larawan iba't ibang uri Ang variational series ay nag-aambag sa isang pinasimple na pagkalkula ng mga pangunahing istatistikal na katangian, na tinalakay nang detalyado sa paksa 6, ay tumutulong upang mas maunawaan ang kakanyahan ng mga batas ng pamamahagi ng isang istatistikal na populasyon. Ang pagsusuri ng serye ng variation ay partikular na kahalagahan sa mga kaso kung saan kinakailangan upang matukoy at masubaybayan ang kaugnayan sa pagitan ng mga variant at frequency (mga frequency). Ang pag-asa na ito ay ipinakita sa katotohanan na ang bilang ng mga kaso sa bawat variant ay nasa isang tiyak na paraan na nauugnay sa halaga ng variant na ito, i.e. na may pagtaas sa mga halaga ng variable sign ng dalas (dalas) ng mga halagang ito, nakakaranas sila ng ilang, sistematikong mga pagbabago. Nangangahulugan ito na ang mga numero sa column ng mga frequency (frequencies) ay hindi napapailalim sa magulong pagbabagu-bago, ngunit nagbabago sa isang tiyak na direksyon, sa isang tiyak na pagkakasunud-sunod at pagkakasunud-sunod.

Kung ang mga frequency sa kanilang mga pagbabago ay nagpapakita ng isang tiyak na sistematiko, nangangahulugan ito na tayo ay patungo sa pagtukoy ng mga pattern. Ang sistema, pagkakasunud-sunod, pagkakasunud-sunod sa pagbabago ng mga frequency ay isang salamin ng mga karaniwang sanhi, pangkalahatang kondisyon katangian ng buong populasyon.

Hindi dapat ipagpalagay na ang pattern ng pamamahagi ay palaging ibinibigay na handa. Mayroong ilang mga serye ng variational kung saan ang mga frequency ay kakaibang tumalon, tumataas man o bumababa. Sa ganitong mga kaso, ipinapayong alamin kung anong uri ng pamamahagi ang kinakaharap ng mananaliksik: alinman sa pamamahagi na ito ay walang mga regularidad, o ang kalikasan nito ay hindi pa natukoy: Ang unang kaso ay bihira, habang ang pangalawa, ang Ang pangalawang kaso ay medyo madalas at napaka-pangkaraniwang pangyayari.

Kaya, kapag bumubuo ng serye ng pagitan kabuuang bilang ang mga yunit ng istatistika ay maaaring maliit, at ang isang maliit na bilang ng mga pagpipilian ay nahuhulog sa bawat pagitan (halimbawa, 1-3 mga yunit). Sa ganitong mga kaso, hindi kinakailangang umasa sa pagpapakita ng anumang regularidad. Upang makakuha ng isang regular na resulta batay sa mga random na obserbasyon, ang batas ng malalaking numero ay dapat na magkabisa, i.e. upang sa bawat pagitan ay hindi magkakaroon ng ilan, ngunit sampu at daan-daang mga yunit ng istatistika. Sa layuning ito, dapat nating subukang dagdagan ang bilang ng mga obserbasyon hangga't maaari. Ito ang pinaka Ang tamang daan pagtuklas ng mga pattern sa mga proseso ng masa. Kung hindi ito lilitaw tunay na pagkakataon dagdagan ang bilang ng mga obserbasyon, pagkatapos ay ang pagkakakilanlan ng mga pattern ay maaaring makamit sa pamamagitan ng pagbabawas ng bilang ng mga agwat sa serye ng pamamahagi. Binabawasan ang bilang ng mga agwat sa serye ng variation, sa gayon ay tumataas ang bilang ng mga frequency sa bawat agwat. Nangangahulugan ito na ang mga random na pagbabagu-bago ng bawat yunit ng istatistika ay nakapatong sa bawat isa, "pinakinis", nagiging isang pattern.

Ang pagbuo at pagbuo ng variational series ay nagbibigay-daan sa iyo upang makakuha lamang ng pangkalahatan, tinatayang larawan ng distribusyon ng istatistikal na populasyon. Halimbawa, ang isang histogram ay halos nagpapahayag lamang ng kaugnayan sa pagitan ng mga halaga ng isang katangian at ng mga frequency nito (mga frequency). Samakatuwid, ang mga serye ng variational ay mahalagang batayan lamang para sa karagdagang, malalim na pag-aaral ng panloob na regularidad ng isang static na pamamahagi.

PAKSA 5 MGA TANONG

1. Ano ang pagkakaiba-iba? Ano ang sanhi ng pagkakaiba-iba ng isang katangian sa isang istatistikal na populasyon?

2. Anong mga uri ng mga variable na palatandaan ang maaaring maganap sa mga istatistika?

3. Ano ang variation series? Ano ang mga uri ng variation series?

4. Ano ang isang ranggo na serye? Ano ang mga pakinabang at disadvantage nito?

5. Ano ang isang discrete series at ano ang mga pakinabang at disadvantage nito?

6. Ano ang pagkakasunud-sunod ng pagbuo ng serye ng pagitan, ano ang mga pakinabang at disadvantage nito?

7. Ano ang isang graphical na representasyon ng isang ranggo, discrete, interval distribution series?

8. Ano ang distribution cumulate at ano ang katangian nito?

Kapag nagpoproseso ng malaking halaga ng impormasyon, na kung saan ay lalong mahalaga kapag nagsasagawa ng mga modernong pang-agham na pag-unlad, ang mananaliksik ay nahaharap sa seryosong gawain ng wastong pagpapangkat ng paunang data. Kung ang data ay discrete, kung gayon, tulad ng nakita natin, walang mga problema - kailangan mo lamang kalkulahin ang dalas ng bawat tampok. Kung ang katangiang pinag-aaralan ay may tuloy-tuloy character (na mas karaniwan sa pagsasanay), kung gayon ang pagpili ng pinakamainam na bilang ng mga agwat para sa pagpapangkat ng isang tampok ay hindi nangangahulugang isang maliit na gawain.

Upang ipangkat ang tuluy-tuloy na mga random na variable, ang buong hanay ng variation ng tampok ay nahahati sa isang tiyak na bilang ng mga agwat sa.

Pinagsamang pagitan (tuloy-tuloy) serye ng pagkakaiba-iba tinatawag na mga agwat na niraranggo ayon sa halaga ng tampok (), kung saan ipinahiwatig kasama ng kaukulang mga frequency () ang bilang ng mga obserbasyon na nahulog sa r "th interval, o mga relatibong frequency ():

Mga agwat ng halaga ng katangian

dalas ng mi

bar graph At pinagsama-sama (ogiva), na tinalakay na namin nang detalyado, ay isang mahusay na tool sa visualization ng data na nagbibigay-daan sa iyong makakuha ng pangunahing pag-unawa sa istruktura ng data. Ang ganitong mga graph (Larawan 1.15) ay binuo para sa tuluy-tuloy na data sa parehong paraan tulad ng para sa discrete data, isinasaalang-alang lamang ang katotohanan na ang tuluy-tuloy na data ay ganap na pinupuno ang lugar ng mga posibleng halaga nito, na kumukuha ng anumang mga halaga.

kanin. 1.15.

kaya lang ang mga hanay sa histogram at ang pinagsama-samang dapat ay nasa contact, walang mga lugar kung saan ang mga halaga ng katangian ay hindi nasa loob ng lahat ng posibleng(i.e., ang histogram at cumulate ay hindi dapat magkaroon ng "mga butas" sa kahabaan ng abscissa axis, kung saan ang mga halaga ng variable na pinag-aaralan ay hindi bumabagsak, tulad ng sa Fig. 1.16). Ang taas ng bar ay tumutugma sa dalas - ang bilang ng mga obserbasyon na nahuhulog sa ibinigay na agwat, o ang kamag-anak na dalas - ang proporsyon ng mga obserbasyon. Mga pagitan hindi dapat tumawid at kadalasan ay pareho ang lapad.

kanin. 1.16.

Ang histogram at ang polygon ay mga pagtatantya ng probability density curve (differential function) f(x) theoretical distribution, na isinasaalang-alang sa kurso ng probability theory. Samakatuwid, ang kanilang pagtatayo ay kahalagahan sa pangunahing pagpoproseso ng istatistika ng dami ng tuluy-tuloy na data - sa kanilang anyo ay maaaring hatulan ng isa ang hypothetical na batas sa pamamahagi.

Cumulate - ang kurba ng mga naipon na frequency (frequencies) ng serye ng pagkakaiba-iba ng pagitan. Ang graph ng integral distribution function ay inihambing sa cumulate F(x), isinasaalang-alang din sa kurso ng teorya ng posibilidad.

Karaniwan, ang mga konsepto ng histogram at cumulates ay tiyak na nauugnay sa tuluy-tuloy na data at ang kanilang mga serye ng pagkakaiba-iba ng pagitan, dahil ang kanilang mga graph ay mga empirical na pagtatantya ng probability density function at distribution function, ayon sa pagkakabanggit.

Ang pagbuo ng isang serye ng pagkakaiba-iba ng pagitan ay nagsisimula sa pagtukoy sa bilang ng mga pagitan k. At ang gawaing ito ay marahil ang pinakamahirap, mahalaga at kontrobersyal sa isyung pinag-aaralan.

Ang bilang ng mga pagitan ay hindi dapat masyadong maliit, dahil ang histogram ay magiging masyadong makinis ( oversmoothed), nawawala ang lahat ng mga tampok ng pagkakaiba-iba ng paunang data - sa Fig. 1.17 makikita mo kung paano ang parehong data kung saan ang mga graph ng Fig. 1.15 ay ginagamit upang bumuo ng histogram na may mas maliit na bilang ng mga pagitan (kaliwang graph).

Kasabay nito, ang bilang ng mga agwat ay hindi dapat masyadong malaki - kung hindi, hindi namin matantya ang density ng pamamahagi ng data na pinag-aaralan kasama ang numerical axis: ang histogram ay magiging undersmoothed (undersmooth) na may mga hindi napunong pagitan, hindi pantay (tingnan ang Fig. 1.17, kanang graph).

kanin. 1.17.

Paano matukoy ang pinakagustong bilang ng mga pagitan?

Noong 1926, iminungkahi ni Herbert Sturges ang isang pormula para sa pagkalkula ng bilang ng mga agwat kung saan kinakailangan upang hatiin ang paunang hanay ng mga halaga ng pinag-aralan na katangian. Ang pormula na ito ay talagang naging napakapopular - karamihan sa mga aklat-aralin sa istatistika ay nag-aalok nito, at maraming mga pakete ng istatistika ang gumagamit nito bilang default. Kung ito ay makatwiran at sa lahat ng kaso ay isang napakaseryosong tanong.

Kaya ano ang batayan ng formula ng Sturges?

Isaalang-alang ang binomial distribution )