Reparera Design möbel

Statistiskt urval. Intervalluppskattning av den allmänna andelen

Det händer ofta att det är nödvändigt att analysera ett specifikt socialt fenomen och få information om det. Sådana uppgifter uppstår ofta i statistik och i statistiska studier. Det är ofta omöjligt att verifiera ett fullt definierat socialt fenomen. Till exempel, hur får man reda på vad befolkningen eller alla invånare i en viss stad tycker om någon fråga? Att fråga absolut alla är nästan omöjligt och väldigt mödosamt. I sådana fall behöver vi ett prov. Det är just detta koncept som nästan all forskning och analys bygger på.

Vad är provtagning

När man analyserar ett specifikt socialt fenomen är det nödvändigt att få information om det. Om du tar någon forskning kommer du att märka att inte varje enhet av helheten av forskningsobjektet är föremål för forskning och analys. Endast en viss del av hela denna uppsättning tas med i beräkningen. Denna process är ett urval: när endast vissa enheter från en uppsättning undersöks.

Mycket beror förstås på typ av prov. Men det finns också grundläggande regler. Det viktigaste är att urvalet från befolkningen måste vara helt slumpmässigt. De befolkningsenheter som ska användas bör inte väljas på grund av något kriterium. Grovt sett, om det är nödvändigt att rekrytera en befolkning från befolkningen i en viss stad och bara välja män, kommer det att finnas ett fel i studien, eftersom urvalet inte gjordes av en slump, utan valdes ut efter kön. Nästan alla provtagningsmetoder bygger på denna regel.

Provtagningsregler

För att den valda befolkningen ska återspegla de grundläggande egenskaperna hos hela fenomenet måste den byggas enligt specifika lagar, där huvuduppmärksamheten måste ägnas åt följande kategorier:

  • urval (provpopulation);
  • allmänna befolkningen;
  • representativitet;
  • fel i representativitet;
  • enhet av befolkningen;
  • provtagningsmetoder.

Funktionerna för provtagning och provtagning är följande:

  1. Alla erhållna resultat är baserade på matematiska lagar och regler, det vill säga om forskningen utförs korrekt och med korrekta beräkningar kommer resultaten inte att förvrängas på subjektiv basis.
  2. Det gör det möjligt att få ett resultat mycket snabbare och med mindre tid och resurser, och studerar inte hela uppsättningen av händelser, utan bara en del av dem.
  3. Den kan användas för att studera olika objekt: från specifika frågor t.ex. ålder, kön på gruppen av intresse för oss, till studiet av den allmänna opinionen eller nivån på befolkningens materiella säkerhet.

Selektiv observation

Selektiv är detta statistisk observation, där inte hela aggregatet av det som studeras underkastas forskning, utan endast en viss del av det, utvalt på ett visst sätt, och resultaten av undersökningen av denna del utvidgas till hela aggregatet. Denna del kallas provpopulationen. den det enda sättet studera ett stort antal forskningsobjekt.

Men selektiv observation kan endast användas i fall där det är nödvändigt att studera endast en liten grupp enheter. Till exempel, när man studerar förhållandet mellan män och kvinnor i världen, kommer provobservation att användas. Av uppenbara skäl är det omöjligt att ta hänsyn till varje invånare på vår planet.

Men med samma studie, men inte alla invånare på jorden, utan en viss 2 "A" klass i en viss skola, kan en viss stad, ett visst land klara sig utan selektiv observation. När allt kommer omkring är det fullt möjligt att analysera hela uppsättningen av forskningsobjektet. Det är nödvändigt att räkna pojkarna och flickorna i den här klassen - det kommer att vara förhållandet.

Urval och allmän population

Faktum är att allt inte är så komplicerat som det låter. I varje studieobjekt finns det två system: den allmänna befolkningen och urvalspopulationen. Vad är det? Alla enheter klassificeras som allmänna. Och till urvalet - de enheter av den allmänna befolkningen som togs för urvalet. Om allt görs korrekt kommer den valda delen att utgöra en reducerad modell av hela (allmänna) befolkningen.

Om vi ​​talar om den allmänna befolkningen, kan vi bara särskilja två av dess sorter: en bestämd och obestämd allmän befolkning. Beror på om det totala antalet enheter i ett givet system är känt eller inte. Om detta är en specifik population, kommer urvalet att bli lättare eftersom det är känt hur stor procentandel av det totala antalet enheter som kommer att tas i urval.

Denna punkt är mycket nödvändig i forskning. Till exempel om du vill undersöka andelen konfektyrprodukter av dålig kvalitet på en viss fabrik. Låt oss anta att befolkningen redan är bestämd. Det är säkert känt att detta företag producerar 1000 konfektyrprodukter per år. Om vi ​​gör ett urval av 100 slumpmässiga konfektyrprodukter från dessa tusen och skickar dem för undersökning, så blir felet minimalt. Grovt sett var 10 % av alla produkter föremål för forskning, och enligt resultaten kan vi, med hänsyn till representativitetsfelet, tala om den dåliga kvaliteten på alla produkter.

Och om vi provar 100 konfektyrprodukter från en odefinierad allmän befolkning, där det faktiskt fanns, säg, 1 miljon enheter, så kommer resultatet av provet och själva studien att vara kritiskt osannolikt och felaktigt. Känner du skillnaden? Därför är säkerheten för den allmänna befolkningen i de flesta fall extremt viktig och påverkar i hög grad resultatet av studien.

Befolkningens representativitet

Så, nu en av de viktigaste frågorna - vad ska provet vara? Detta är det mesta huvudpoäng forskning. I detta skede är det nödvändigt att beräkna provet och välja enheter från det totala antalet in i det. Populationen valdes korrekt om vissa egenskaper och egenskaper hos den allmänna populationen finns kvar i urvalet. Detta kallas representativitet.

Med andra ord, om en del efter urval behåller samma tendenser och egenskaper som hela kvantiteten hos den undersökta personen, så kallas en sådan uppsättning representativ. Men inte varje särskilt urval kan väljas från en representativ population. Det finns också sådana forskningsobjekt, vars urval helt enkelt inte kan vara representativt. Det är här begreppet representativitetsfel uppstår. Men låt oss prata om detta mer i detalj lite mer.

Hur man gör ett prov

Så för att maximera representativiteten finns det tre huvudsakliga urvalsregler:


Fel (fel) av representativitet

Den huvudsakliga egenskapen kvaliteten på det valda urvalet är begreppet "representativitetsfel". Vad är det? Dessa är vissa skillnader mellan indikatorerna för selektiv och kontinuerlig observation. När det gäller felindikatorer är representativiteten uppdelad i tillförlitlig, normal och ungefärlig. Med andra ord är avvikelser på upp till 3 %, från 3 till 10 % respektive från 10 till 20 % tillåtna. Även om det i statistiken är önskvärt att felet inte överstiger 5-6%. Annars finns det anledning att tala om otillräcklig representativitet för urvalet. Många faktorer tas med i beräkningen för att beräkna representativitetens bias och hur den påverkar ett urval eller en allmän population:

  1. Sannolikheten med vilken du vill få ett korrekt resultat.
  2. Antalet enheter i urvalet. Som tidigare nämnts, ju färre enheter urvalet gör, desto större blir representativitetsfelet och vice versa.
  3. Homogeniteten hos den studerade populationen. Ju mer heterogen befolkningen är, desto större blir felet i representativitet. Ett aggregats förmåga att vara representativt beror på homogeniteten hos alla dess ingående enheter.
  4. Metoden för att välja enheter för provet.

I specifika studier bestäms vanligtvis medelvärdets felprocent av forskaren själv utifrån observationsprogrammet och enligt tidigare studier. Som regel anses det acceptabla marginella urvalsfelet (representativitetsfelet) ligga inom 3-5 %.

Större är inte alltid bättre

Det är också värt att komma ihåg att det viktigaste med att organisera selektiv observation är att få volymen till ett acceptabelt minimum. Samtidigt bör man inte eftersträva en alltför stor minskning av urvalsfelsgränserna, eftersom detta kan leda till en omotiverad ökning av urvalsstorleken och följaktligen till en ökning av kostnaden för att genomföra en selektiv undersökning.

Samtidigt är det omöjligt att överdrivet öka storleken på representativitetsfelet. Faktum är att i det här fallet, även om det kommer att bli en minskning av storleken på urvalspopulationen, kommer detta att leda till en försämring av tillförlitligheten hos de erhållna resultaten.

Vilka frågor brukar ställas inför forskaren

All forskning, om den utförs, har något syfte och för att få resultat. När man genomför en urvalsundersökning ställs som regel de första frågorna:


Metoder för att välja forskningsenheter i urvalet

Inte alla prov är representativa. Ibland uttrycks samma tecken olika i helheten och i sin del. För att uppnå kraven på representativitet är det lämpligt att använda olika provtagningstekniker. Dessutom beror användningen av en eller annan metod på de specifika omständigheterna. Dessa provtagningstekniker inkluderar:

  • slumpmässigt urval;
  • mekaniskt val;
  • typiskt urval;
  • seriellt (kapslat) urval.

Slumpmässigt urval är ett måttsystem som syftar till slumpmässigt urval av enheter i populationen, när sannolikheten att komma in i urvalet är lika för alla enheter i den allmänna populationen. Det är tillrådligt att använda denna teknik endast i fallet med homogenitet och ett litet antal inneboende egenskaper. Annars några specifika egenskaper riskerar att inte återspeglas i urvalet. Slumpmässigt urval är kärnan i alla andra provtagningsmetoder.

Med mekaniskt val av enheter utförs det med ett visst intervall. Om det är nödvändigt att göra ett urval av specifika brott kan vart femte, tionde eller femtonde kort tas bort från alla statistiska register över registrerade brott, beroende på deras totala antal och tillgängliga urvalsstorlekar. Nackdelen med denna metod är att innan provtagning är det nödvändigt att ha en fullständig redogörelse för befolkningens enheter, då är det nödvändigt att göra en rangordning, och först efter det är det möjligt att utföra en provtagning med ett visst intervall . Denna metod är tidskrävande och används därför inte ofta.

Typiskt (zonat) urval är en typ av provtagning där den allmänna befolkningen delas in i homogena grupper enligt en viss egenskap. Ibland använder forskare andra termer istället för "grupper": "områden" och "zoner". Sedan, från varje grupp, väljs ett visst antal enheter slumpmässigt i proportion till Specifik gravitation grupper i den allmänna befolkningen. Vanligt urval görs ofta i flera steg.

Serieprovtagning är en metod där urvalet av enheter görs i grupper (serier) och alla enheter i den valda gruppen (serierna) är föremål för granskning. Fördelen med denna metod är att det ibland är svårare att välja enskilda enheter än serier, till exempel när man studerar en person som avtjänar ett straff. Inom de utvalda distrikten, zonerna, tillämpas studien av alla enheter utan undantag, till exempel studien av alla personer som avtjänar ett straff i en viss institution.

provtagningstyper:

Egentligen slumpmässigt;

Mekanisk;

Typisk;

Serie;

Kombinerad.

Rätt slumpmässigt urval består i urvalet av enheter från den allmänna befolkningen slumpmässigt eller slumpmässigt utan några systematiska inslag. Innan man gör ett korrekt slumpmässigt urval är det dock nödvändigt att se till att alla enheter i den allmänna befolkningen, utan undantag, har absolut lika chanser att ingå i urvalet, det finns inga utelämnanden i listorna eller listan, utan att ignorera enskilda enheter, etc. Tydliga gränser för befolkningen bör också fastställas så att inkluderingen eller exkluderingen av enskilda enheter är tydlig. Så, till exempel, när man granskar studenter, är det nödvändigt att ange om personer på akademisk ledighet, studenter från icke-statliga universitet, militärskolor, etc.; det är viktigt för en undersökning av handlare att avgöra om befolkningen kommer att omfatta handelspaviljonger, kommersiella tält och andra liknande föremål. Egentligen kan slumpmässigt urval antingen upprepas eller inte upprepas. För att genomföra ett icke-upprepat urval i dragningsprocessen, återförs de utdragna lotterna inte till den ursprungliga uppsättningen och deltar inte i det fortsatta urvalet. När du använder tabeller slumpmässiga siffror icke-upprepning av urval uppnås genom att hoppa över siffror om de upprepas i den eller de valda kolumnerna.

Mekanisk provtagning gäller i de fall den allmänna befolkningen är ordnad på något sätt, d.v.s. det finns en viss ordningsföljd i arrangemanget av enheter (personalnummer för anställda, röstlistor, telefonnummer till respondenter, antal hus och lägenheter, etc.).

Den allmänna populationen under mekaniskt urval kan rangordnas eller ordnas enligt värdet av det studerade eller korrelerade med det attribut, vilket kommer att öka representativiteten för urvalet. Men i det här fallet ökar risken för ett systematiskt fel, i samband med en underskattning av värdena för egenskapen som studeras (om det första värdet registreras från varje intervall) eller med dess överskattning (om det sista värdet registreras från varje intervall). Därför är det lämpligt att börja välja från mitten av det första intervallet

Typiskt urval. Denna urvalsmetod används i de fall då alla enheter i den allmänna befolkningen kan delas in i flera typiska grupper. Vid kartläggning av befolkningen kan sådana grupper vara till exempel distrikt, social-, ålders- eller utbildningsgrupper, vid kartläggning av företag - en bransch eller delbransch, ägarform m.m. Typiskt urval innebär urval av enheter från varje typisk grupp genom slumpvis eller mekaniskt... Eftersom urvalspopulationen i en eller annan andel med nödvändighet inkluderar representanter för alla grupper, gör typifiering av den allmänna populationen det möjligt att utesluta påverkan av intergruppvarians på det genomsnittliga urvalsfelet, vilket i detta fall endast bestäms av intragruppsvariation.

Urvalet av enheter i ett typiskt urval kan organiseras antingen i proportion till volymen av typiska grupper, eller i proportion till den intragruppsdifferentiering av egenskapen.

Serieval. Denna urvalsmetod är praktisk när befolkningsenheterna kombineras i små grupper eller serier. Förpackningar med en viss mängd kan betraktas som en sådan serie. färdiga produkter, varuförsändelser, studentgrupper, brigader och andra föreningar. Kärnan i serieprovtagning är faktiskt slumpmässigt eller mekaniskt urval av serier, inom vilka en kontinuerlig undersökning av enheter utförs.

Det händer ofta att det är nödvändigt att analysera ett specifikt socialt fenomen och få information om det. Sådana uppgifter uppstår ofta i statistik och i statistiska studier. Det är ofta omöjligt att verifiera ett fullt definierat socialt fenomen. Till exempel, hur får man reda på vad befolkningen eller alla invånare i en viss stad tycker om någon fråga? Att fråga absolut alla är nästan omöjligt och väldigt mödosamt. I sådana fall behöver vi ett prov. Det är just detta koncept som nästan all forskning och analys bygger på.

Vad är provtagning

När man analyserar ett specifikt socialt fenomen är det nödvändigt att få information om det. Om du tar någon forskning kommer du att märka att inte varje enhet av helheten av forskningsobjektet är föremål för forskning och analys. Endast en viss del av hela denna uppsättning tas med i beräkningen. Denna process är ett urval: när endast vissa enheter från en uppsättning undersöks.

Mycket beror förstås på typ av prov. Men det finns också grundläggande regler. Det viktigaste är att urvalet från befolkningen måste vara helt slumpmässigt. De befolkningsenheter som ska användas bör inte väljas på grund av något kriterium. Grovt sett, om det är nödvändigt att rekrytera en befolkning från befolkningen i en viss stad och bara välja män, kommer det att finnas ett fel i studien, eftersom urvalet inte gjordes av en slump, utan valdes ut efter kön. Nästan alla provtagningsmetoder bygger på denna regel.

Provtagningsregler

För att den valda befolkningen ska återspegla de grundläggande egenskaperna hos hela fenomenet måste den byggas enligt specifika lagar, där huvuduppmärksamheten måste ägnas åt följande kategorier:

  • urval (provpopulation);
  • allmänna befolkningen;
  • representativitet;
  • fel i representativitet;
  • enhet av befolkningen;
  • provtagningsmetoder.

Funktionerna för provtagning och provtagning är följande:

  1. Alla erhållna resultat är baserade på matematiska lagar och regler, det vill säga om forskningen utförs korrekt och med korrekta beräkningar kommer resultaten inte att förvrängas på subjektiv basis.
  2. Det gör det möjligt att få ett resultat mycket snabbare och med mindre tid och resurser, och studerar inte hela uppsättningen av händelser, utan bara en del av dem.
  3. Det kan användas för att studera olika föremål: från specifika frågor, till exempel ålder, kön på gruppen av intresse för oss, till studiet av den allmänna opinionen eller nivån på befolkningens materiella säkerhet.

Selektiv observation

Selektiv är en statistisk observation där inte hela uppsättningen av det studerade utsätts för forskning, utan endast en viss del av den, utvald på ett visst sätt, och resultaten som erhålls från att studera denna del utvidgas till hela uppsättningen. Denna del kallas provpopulationen. Detta är det enda sättet att studera ett stort antal forskningsobjekt.

Men selektiv observation kan endast användas i fall där det är nödvändigt att studera endast en liten grupp enheter. Till exempel, när man studerar förhållandet mellan män och kvinnor i världen, kommer provobservation att användas. Av uppenbara skäl är det omöjligt att ta hänsyn till varje invånare på vår planet.

Men med samma studie, men inte alla invånare på jorden, utan en viss 2 "A" klass i en viss skola, kan en viss stad, ett visst land klara sig utan selektiv observation. När allt kommer omkring är det fullt möjligt att analysera hela samlingen av forskningsobjektet. Det är nödvändigt att räkna pojkarna och flickorna i den här klassen - det kommer att vara förhållandet.


Urval och allmän population

Faktum är att allt inte är så komplicerat som det låter. I varje studieobjekt finns det två system: den allmänna befolkningen och urvalspopulationen. Vad är det? Alla enheter klassificeras som allmänna. Och till urvalet - de enheter av den allmänna befolkningen som togs för urvalet. Om allt görs korrekt kommer den valda delen att utgöra en reducerad modell av hela (allmänna) befolkningen.

Om vi ​​talar om den allmänna befolkningen, kan vi bara särskilja två av dess sorter: en bestämd och obestämd allmän befolkning. Beror på om det totala antalet enheter i ett givet system är känt eller inte. Om detta är en specifik population, kommer urvalet att bli lättare eftersom det är känt hur stor procentandel av det totala antalet enheter som kommer att tas i urval.

Denna punkt är mycket nödvändig i forskning. Till exempel om du vill undersöka andelen konfektyrprodukter av dålig kvalitet på en viss fabrik. Låt oss anta att befolkningen redan är bestämd. Det är säkert känt att detta företag producerar 1000 konfektyrprodukter per år. Om vi ​​gör ett urval av 100 slumpmässiga konfektyrprodukter från dessa tusen och skickar dem för undersökning, så blir felet minimalt. Grovt sett var 10 % av alla produkter föremål för forskning, och enligt resultaten kan vi, med hänsyn till representativitetsfelet, tala om den dåliga kvaliteten på alla produkter.

Och om vi provar 100 konfektyrprodukter från en odefinierad allmän befolkning, där det faktiskt fanns, säg, 1 miljon enheter, så kommer resultatet av provet och själva studien att vara kritiskt osannolikt och felaktigt. Känner du skillnaden? Därför är säkerheten för den allmänna befolkningen i de flesta fall extremt viktig och påverkar i hög grad resultatet av studien.


Befolkningens representativitet

Så, nu en av de viktigaste frågorna - vad ska provet vara? Detta är den viktigaste punkten i studien. I detta skede är det nödvändigt att beräkna provet och välja enheter från det totala antalet in i det. Populationen valdes korrekt om vissa egenskaper och egenskaper hos den allmänna populationen finns kvar i urvalet. Detta kallas representativitet.

Med andra ord, om en del efter urval behåller samma tendenser och egenskaper som hela kvantiteten hos den undersökta personen, så kallas en sådan uppsättning representativ. Men inte varje särskilt urval kan väljas från en representativ population. Det finns också sådana forskningsobjekt, vars urval helt enkelt inte kan vara representativt. Det är här begreppet representativitetsfel uppstår. Men låt oss prata om detta mer i detalj lite mer.

Hur man gör ett prov

Så för att maximera representativiteten finns det tre huvudsakliga urvalsregler:

  1. Den mest unika indikatorn på urvalsstorleken anses vara 20 %. Statistiskt urval i 20% kommer nästan alltid att ge resultatet så nära verkligheten som möjligt. Samtidigt finns det inget behov av att överföra till den samlade stora delen av den allmänna befolkningen. 20 % av urvalet är den siffra som har utvecklats av många studier. Låt oss ge lite mer teori. Ju större urval, desto mindre representativitetsfel och desto mer exakt forskningsresultat. Ju närmare urvalet är den allmänna populationen vad gäller antalet enheter, desto mer exakta och korrekta blir resultaten. När allt kommer omkring, om du undersöker hela systemet, blir resultatet 100%. Men det finns inget mer provtagning här. Det är studier där hela arrayen undersöks, alla enheter, så detta är inte av intresse för oss.
  2. I händelse av olämplighet att bearbeta 20% av den allmänna befolkningen är det tillåtet att studera enheter av befolkningen i en mängd av minst 1001. Detta är också en av indikatorerna för studien av samlingen av forskningsobjektet , som har utvecklats över tiden. Naturligtvis kommer det inte att ge exakta resultat för stora forskningsvolymer, men det kommer att föra det så nära den möjliga provtagningsnoggrannheten som möjligt.
  3. Det finns många formler och sammanfattningstabeller i statistik. Beroende på forskningsobjektet och urvalskriteriet är det lämpligt att välja en eller annan formel. Men denna punkt används i komplex forskning i flera steg.

Fel (fel) av representativitet

Det huvudsakliga kännetecknet för kvaliteten på det valda urvalet är begreppet "representativitetsfel". Vad är det? Dessa är vissa skillnader mellan indikatorerna för selektiv och kontinuerlig observation. När det gäller felindikatorer är representativiteten uppdelad i tillförlitlig, normal och ungefärlig. Med andra ord är avvikelser på upp till 3 %, från 3 till 10 % respektive från 10 till 20 % tillåtna. Även om det i statistiken är önskvärt att felet inte överstiger 5-6%. Annars finns det anledning att tala om otillräcklig representativitet för urvalet. Många faktorer tas i beaktande för att beräkna representativitetens bias och hur den påverkar ett urval eller en allmän population:

  1. Sannolikheten med vilken du vill få ett korrekt resultat.
  2. Antalet enheter i urvalet. Som tidigare nämnts, ju färre enheter urvalet gör, desto större blir representativitetsfelet och vice versa.
  3. Homogeniteten hos den studerade populationen. Ju mer heterogen befolkningen är, desto större blir felet i representativitet. Ett aggregats förmåga att vara representativt beror på homogeniteten hos alla dess ingående enheter.
  4. Metoden för att välja enheter för provet.

I specifika studier bestäms vanligtvis medelvärdets felprocent av forskaren själv utifrån observationsprogrammet och enligt tidigare studier. Som regel anses det acceptabla marginella urvalsfelet (representativitetsfelet) ligga inom 3-5 %.


Större är inte alltid bättre

Det är också värt att komma ihåg att det viktigaste med att organisera selektiv observation är att få volymen till ett acceptabelt minimum. Samtidigt bör man inte eftersträva en alltför stor minskning av urvalsfelsgränserna, eftersom detta kan leda till en omotiverad ökning av urvalsstorleken och följaktligen till en ökning av kostnaden för att genomföra en selektiv undersökning.

Samtidigt är det omöjligt att överdrivet öka storleken på representativitetsfelet. Faktum är att i det här fallet, även om det kommer att bli en minskning av storleken på urvalspopulationen, kommer detta att leda till en försämring av tillförlitligheten hos de erhållna resultaten.

Vilka frågor brukar ställas inför forskaren

All forskning, om den utförs, har något syfte och för att få resultat. När man genomför en urvalsundersökning ställs som regel de första frågorna:

  1. Definition önskat belopp provtagningsenheter, det vill säga hur många enheter som kommer att studeras. Dessutom måste befolkningen vara representativ för korrekt forskning.
  2. Beräkning av representativitetsfelet med en specificerad sannolikhetsnivå. Det bör genast noteras att det inte finns några provstudier med en 100% sannolikhetsnivå. Om myndigheten som genomförde studien av ett visst segment hävdar att deras resultat är korrekta med en sannolikhet på 100%, så är detta en lögn. Långvarig praxis har redan fastställt procentandelen av sannolikheten för en korrekt utförd provstudie. Denna siffra är lika med 95,4%.

Metoder för att välja forskningsenheter i urvalet

Inte alla prov är representativa. Ibland uttrycks samma tecken olika i helheten och i sin del. För att uppnå kraven på representativitet är det lämpligt att använda olika provtagningstekniker. Dessutom beror användningen av en eller annan metod på de specifika omständigheterna. Dessa provtagningstekniker inkluderar:

  • slumpmässigt urval;
  • mekaniskt val;
  • typiskt urval;
  • seriellt (kapslat) urval.

Slumpmässigt urval är ett måttsystem som syftar till slumpmässigt urval av enheter i populationen, när sannolikheten att komma in i urvalet är lika för alla enheter i den allmänna populationen. Det är tillrådligt att använda denna teknik endast i fallet med homogenitet och ett litet antal inneboende egenskaper. Annars riskerar vissa egenskaper att inte återspeglas i urvalet. Slumpmässigt urval är kärnan i alla andra provtagningsmetoder.

Med mekaniskt val av enheter utförs det med ett visst intervall. Om det är nödvändigt att göra ett urval av specifika brott kan vart femte, tionde eller femtonde kort tas bort från alla statistiska register över registrerade brott, beroende på deras totala antal och tillgängliga urvalsstorlekar. Nackdelen med denna metod är att innan provtagning är det nödvändigt att ha en fullständig redogörelse för befolkningens enheter, då är det nödvändigt att göra en rangordning, och först efter det är det möjligt att utföra en provtagning med ett visst intervall . Denna metod är tidskrävande och används därför inte ofta.


Typiskt (zonat) urval är en typ av provtagning där den allmänna befolkningen delas in i homogena grupper enligt en viss egenskap. Ibland använder forskare andra termer istället för "grupper": "områden" och "zoner". Sedan väljs ett visst antal enheter slumpmässigt ut från varje grupp i proportion till gruppens specifika vikt i den totala populationen. Vanligt urval görs ofta i flera steg.

Serieprovtagning är en metod där urvalet av enheter görs i grupper (serier) och alla enheter i den valda gruppen (serierna) är föremål för granskning. Fördelen med denna metod är att det ibland är svårare att välja enskilda enheter än serier, till exempel när man studerar en person som avtjänar ett straff. Inom de utvalda distrikten, zonerna, tillämpas studien av alla enheter utan undantag, till exempel studien av alla personer som avtjänar ett straff i en viss institution.


Planen

  • Introduktion
  • 1. Provtagningens roll
  • Slutsats
  • Bibliografi

Introduktion

Statistik är en analytisk vetenskap som är väsentlig för alla moderna specialister. Modern specialist kan inte vara läskunnig om han inte kan den statistiska metodiken. Statistik är det viktigaste verktyget för kommunikation mellan ett företag och samhället. Statistik är en av de viktigaste disciplinerna i läroplanen för alla specialiteter, eftersom statistisk läskunnighet är en integrerad del högre utbildning, och sett till antalet tilldelade timmar i läroplanen tar den en av de första platserna. Genom att arbeta med siffror måste varje specialist veta hur vissa uppgifter erhölls, vad är deras beräkningstyp, hur fullständiga och tillförlitliga de är.

1. Provtagningens roll

Uppsättningen av alla enheter i befolkningen, som har en viss egenskap och föremål för studier, kallas den allmänna befolkningen i statistik.

I praktiken är det av en eller annan anledning inte alltid möjligt eller opraktiskt att ta hänsyn till hela befolkningen i allmänhet. Sedan begränsar de sig till att endast studera en viss del av den, vars yttersta mål är att utvidga de resultat som erhålls till hela den allmänna befolkningen, d.v.s. tillämpa provtagningsmetoden.

För detta väljs några av elementen, det så kallade urvalet, från den allmänna populationen på ett speciellt sätt, och resultaten av bearbetningen av urvalsdata (till exempel aritmetiska medelvärden) generaliseras till hela populationen.

Den teoretiska grunden för urvalsmetoden är lagen stora nummer... Med stöd av denna lag, med en begränsad spridning av en egenskap i den allmänna befolkningen och ett tillräckligt stort urval med en sannolikhet nära fullständig tillförlitlighet, kan urvalsmedelvärdet vara godtyckligt nära det allmänna genomsnittet. Denna lag, som inkluderar en grupp satser, har bevisats strikt matematiskt. Således kan det aritmetiska medelvärdet som beräknats för urvalet rimligen betraktas som en indikator som karakteriserar den allmänna populationen som helhet.

2. Metoder för probabilistiskt urval för att säkerställa representativitet

För att kunna dra en slutsats om den allmänna befolkningens egenskaper från urvalet måste urvalet vara representativt (representativt), d.v.s. den måste fullt ut och adekvat representera den allmänna befolkningens egenskaper. Urvalets representativitet kan endast säkerställas om urvalet av data är objektivt.

Provuppsättningen är utformad enligt principen om massprobabilistiska processer utan några undantag från det antagna urvalsschemat; det är nödvändigt att säkerställa den relativa homogeniteten hos urvalspopulationen eller dess indelning i homogena grupper av enheter. Vid bildandet av provtagningsramen måste en tydlig definition av provtagningsenheten ges. Ungefär samma storlek på provtagningsenheter är önskvärt, och ju mindre provtagningsenhet desto mer exakta resultat.

Det finns tre möjliga urvalsmetoder: slumpmässigt urval, urval av enheter enligt ett visst schema, en kombination av den första och andra metoden.

Om urvalet i enlighet med det antagna schemat utförs från den allmänna befolkningen, tidigare indelat i typer (lager eller strata), kallas ett sådant urval typiskt (eller stratifierat, eller stratifierat eller zonerat). En annan uppdelning av provet efter art bestäms av vad som är provtagningsenheten: en observationsenhet eller en serie enheter (ibland används termen "bo"). I det senare fallet kallas provet seriellt eller kapslat. I praktiken används ofta en kombination av typisk provtagning med satsvis provtagning. I matematisk statistik, när man diskuterar problemet med dataurval, införs nödvändigtvis uppdelningen av urvalet i upprepade och icke-upprepade. Det första motsvarar det reversibla bollschemat, det andra - det oåterkalleliga (när man överväger dataurvalsprocessen med exemplet med val av bollar annan färg från urnan). I socioekonomisk statistik är det ingen mening att använda upprepade provtagningar, därför menar vi som regel icke-upprepade provtagningar.

Eftersom socioekonomiska objekt har en komplex struktur kan urvalet vara ganska svårt att organisera. Till exempel att välja hushåll när man studerar befolkningskonsumtion storstad, är det lättare att först välja territoriella celler, bostadshus, sedan lägenheter eller hushåll, sedan respondenten. Ett sådant prov kallas flersteg. Varje steg använder olika enheter urval: större - i de inledande stadierna, i det sista steget, sammanfaller urvalsenheten med observationsenheten.

En annan typ av provtagning är flerfasprovtagning. Ett sådant prov innehåller ett visst antal faser, som var och en kännetecknas av detaljerna i observationsprogrammet. Till exempel undersöks 25 % av hela den allmänna befolkningen enl kort program, var 4:e enhet från detta urval undersöks enligt ett mer komplett program osv.

För alla typer av provtagning görs valet av enheter på tre markerade sätt. Överväg ett slumpmässigt urvalsprocedur. Först och främst upprättas en lista över befolkningens enheter, där varje enhet tilldelas en digital kod (nummer eller etikett). Sedan görs dragning. Bollar med motsvarande nummer stoppas i trumman, de blandas och bollarna väljs ut. De ritade siffrorna motsvarar enheterna i provet; antalet rum är lika med den planerade provstorleken.

Urval genom lott kan vara föremål för partiskhet på grund av tekniska brister (kvalitet på bollar, trumma) och andra skäl. Urval enligt tabellen med slumptal är mer tillförlitligt ur objektivitetssynpunkt. En sådan tabell innehåller en serie slumpmässigt alternerande siffror, valda av elektroniska signaler. Eftersom vi använder det decimala numeriska systemet 0, 1, 2,., 9, är sannolikheten för att någon siffra visas 1/10. Därför, om det var nödvändigt att skapa en tabell med slumpmässiga tal, inklusive 500 tecken, skulle cirka 50 av dem vara 0, samma mängd skulle vara 1, etc.

Provtagning enligt något schema (den så kallade riktade provtagningen) används ofta. Urvalsschemat har antagits på ett sådant sätt att det återspeglar den allmänna befolkningens grundläggande egenskaper och proportioner. Det enklaste sättet: enligt den allmänna befolkningens enhetsförteckningar, sammanställda så att ordningen av enheter inte skulle förknippas med de studerade egenskaperna, utförs ett mekaniskt urval av enheter med ett steg lika med N: n. Vanligtvis börjar urvalet inte med den första enheten, utan att dra sig tillbaka ett halvt steg för att minska möjligheten till provtagningsbias ... Frekvensen av uppkomsten av enheter med vissa egenskaper, till exempel studenter med en viss nivå av akademisk prestation, som bor på ett vandrarhem, etc. kommer att bestämmas av den struktur som har utvecklats i den allmänna befolkningen.

För att vara mer säker på att urvalet kommer att återspegla strukturen hos den allmänna befolkningen, delas den senare in i typer (strata eller regioner), och slumpmässigt eller mekaniskt urval görs från varje typ. Det totala antalet enheter som valts från olika typer, bör motsvara provstorleken.

Särskilda svårigheter uppstår när det inte finns någon enhetslista, och urvalet måste göras antingen på plats eller från produktprover på det färdiga varulagret. I dessa fall är det viktigt att i detalj utveckla terrängorienteringsschemat och urvalsschemat och följa det för att undvika avvikelser. Till exempel instrueras mätaren att förflytta sig från en viss busshållplats norrut längs den jämna sidan av gatan och, räknat två hus från första hörnet, gå in i det tredje och göra en undersökning i var 5:e bostad. Strikt efterlevnad av det antagna systemet säkerställer uppfyllandet av huvudvillkoret för bildandet av ett representativt urval - objektiviteten i valet av enheter.

Kvoturval bör särskiljas från slumpmässigt urval, när urvalet är konstruerat från enheter av vissa kategorier (kvoter), som ska presenteras i specificerade proportioner. Till exempel, i en undersökning av varuhusköpare, kan det vara planerat att välja ut 150 svarande, inklusive 90 kvinnor, varav 25 är flickor, 20 är unga kvinnor med små barn, 35 är medelålders kvinnor klädda i kostym, 10 är kvinnor 50 år och äldre; dessutom planerades en undersökning av 70 män, varav 25 var ungdomar och pojkar, 20 var unga män med barn, 15 var män klädda i kostym, 10 var män klädda i sportkläder. För att bestämma konsumentinriktningar och preferenser kan ett sådant urval vara bra, men om vi vill använda det för att fastställa den genomsnittliga mängden inköp och deras struktur kommer vi att få oprepresentativa resultat. Det beror på att kvoturvalet syftar till att välja ut vissa kategorier.

Urvalet kan vara icke-representativt, även om det bildas i enlighet med de kända proportionerna av den allmänna befolkningen, men urvalet görs utan något schema - enheter rekryteras som du vill, bara för att säkerställa förhållandet mellan deras kategorier i samma proportioner som i den allmänna befolkningen (till exempel förhållandet mellan män och kvinnor, respondenter som är yngre och äldre än arbetsföra och arbetsföra, etc.).

Dessa anteckningar bör varna dig för sådana provtagningsmetoder och åter betona behovet av objektiv provtagning.

3. Organisatoriska och metodologiska egenskaper hos slumpmässig, mekanisk, typisk och seriell provtagning

Beroende på hur befolkningens inslag väljs i urvalet urskiljs flera typer av urvalsundersökningar. Urvalet kan vara slumpmässigt, mekaniskt, typiskt och seriellt.

Slumpmässigt urval är ett sådant urval där alla delar av den allmänna befolkningen har lika möjligheter att bli valda. Med andra ord säkerställs för varje del av befolkningen en lika stor sannolikhet att ingå i urvalet.

prov statistisk probabilistisk slumpmässig

Kravet på slumpmässigt urval uppnås i praktiken genom att använda ett parti eller en tabell med slumptal.

När man väljer genom lottning är alla delar av den allmänna befolkningen förnumrerade och deras nummer appliceras på korten. Efter noggrann blandning väljs det erforderliga antalet kort från paketet på något sätt (i rad eller i någon annan ordning), motsvarande provstorleken. I det här fallet kan du antingen lägga de valda korten åt sidan (därmed utförs det så kallade icke-upprepningsvalet) eller, efter att ha dragit ut kortet, skriva ner dess nummer och lämna tillbaka det till förpackningen, och därmed ge det möjligheten att dyka upp i provet igen (upprepat urval). Vid omval, varje gång kortet returneras, måste paketet blandas om försiktigt.

Metoden för lottdragning används i de fall där antalet element i hela den studerade populationen är litet. Med en stor befolkning blir slumpmässigt urval genom lottning svårt. Mer tillförlitlig och mindre mödosam när det gäller en stor mängd bearbetad data är metoden att använda en tabell med slumptal.

Mekaniskt val utförs enligt följande. Om ett 10 % prov bildas, d.v.s. av var tionde element måste ett väljas, sedan delas hela uppsättningen villkorligt upp i lika delar om 10 element. Sedan väljs ett objekt slumpmässigt bland de tio bästa. Till exempel indikerade dragningen den nionde siffran. Valet av de återstående elementen i provet bestäms helt av den specificerade andelen av urvalet N av numret på det första valda elementet. I det här fallet kommer provet att bestå av element 9, 19, 29, etc.

Mekaniskt urval bör användas med försiktighet, eftersom det finns en reell risk för så kallade systematiska fel. Därför, innan du gör ett mekaniskt prov, är det nödvändigt att analysera den studerade populationen. Om dess element är slumpmässigt arrangerade, kommer provet som erhålls mekaniskt att vara slumpmässigt. Ofta är dock elementen i originaluppsättningen delvis eller till och med helt ordnade. Det är högst oönskat för mekaniskt val att beställa elementen med korrekt repeterbarhet, vars period kan sammanfalla med perioden för mekaniskt val.

Ofta är elementen i en uppsättning ordnade efter storleken på egenskapen som studeras i minskande eller ökande ordning och har inte periodicitet. Mekaniskt urval från en sådan population får karaktären av riktat urval, eftersom enskilda delar av populationen är representerade i urvalet i proportion till deras antal i hela populationen, d.v.s. urvalet syftar till att göra urvalet representativt.

En annan typ av riktat urval är typiskt urval. Typiskt urval bör särskiljas från typiskt urval. Urvalet av typiska objekt användes i zemstvo-statistik, såväl som i budgetundersökningar. Samtidigt genomfördes urvalet av "typiska byar" eller "typiska gårdar" enligt vissa ekonomiska egenskaper, till exempel efter storleken på markägandet per gård, efter invånarnas ockupation etc. Urval av detta slag kan inte ligga till grund för tillämpningen av urvalsmetoden, eftersom dess huvudkrav, urvalets slumpmässighet, inte har uppfyllts.

Vid ett typiskt urval i urvalsmetoden delas populationen in i grupper som är kvalitativt homogena och sedan görs slumpmässigt urval inom varje grupp. Typiskt urval är svårare att organisera än slumpmässigt urval i sig, eftersom det krävs viss kunskap om den allmänna befolkningens sammansättning och egenskaper, men det ger mer exakta resultat.

Vid serieval delas hela populationen in i grupper (serier). Sedan, genom slumpmässigt eller mekaniskt urval, isoleras en viss del av dessa serier och deras kontinuerliga bearbetning utförs. I själva verket är serieval ett slumpmässigt eller mekaniskt urval som utförs för de förstorade delarna av den ursprungliga populationen.

I teoretiska termer är serieprovet det mest ofullkomliga av de övervägda. För att bearbeta materialet används det som regel inte, men det ger viss bekvämlighet när du organiserar en undersökning, särskilt när du studerar Lantbruk... Till exempel genomfördes årliga urvalsundersökningar av bondgårdar under åren före kollektiviseringen med metoden för serieval. Det är användbart för historikern att vara medveten om serieprovtagning eftersom han kan komma över resultaten av sådana undersökningar.

Utöver de ovan beskrivna klassiska urvalsmetoderna används andra metoder vid utövandet av provtagningsmetoden. Låt oss överväga två av dem.

Den studerade populationen kan ha en flerstegsstruktur, den kan bestå av enheter på den första nivån, som i sin tur består av enheter på den andra nivån, etc. Till exempel inkluderar provinser grevskap, grevskap kan ses som en samling av volosts, volosts består av byar och byar - av gårdar.

Flerstegsselektion kan tillämpas på sådana populationer, dvs. sekventiellt utföra urvalet i varje steg. Så från aggregatet av provinser, genom en mekanisk, typisk eller slumpmässig metod, kan du välja län (första steget), sedan välja volosts på ett av de angivna sätten (andra steget), sedan välja byar (tredje steget) och slutligen , hushåll (fjärde steget).

Det långa praktiserade urvalet av arbetarbudgetar är ett exempel på mekaniskt urval i två steg. I det första steget väljs företag ut mekaniskt, i det andra, arbetare vars budgetar granskas.

Variabiliteten av egenskaperna hos de föremål som studeras kan vara olika. Till exempel tillhandahållandet av bondegårdar med sina egna arbetskraften fluktuerar mindre än, säg, storleken på deras skördar. I detta avseende kommer ett mindre urval i termer av arbetsutbud att vara lika representativt som ett stort urval av uppgifter om storleken på grödorna i termer av antalet element. I det här fallet, från det urval som grödors storlek bestäms av, är det möjligt att göra ett prov som är tillräckligt representativt för att bestämma utbudet av arbetskraft och därigenom genomföra ett tvåfasval. V allmänt fall du kan lägga till följande faser, dvs. gör ytterligare ett delprov från det resulterande delprovet, och så vidare. Samma urvalsmetod används i de fall forskningsmålen kräver olika noggrannhet vid beräkning av olika indikatorer.

Uppgift 1. Beskrivande statistik

På tentamen fick 20 elever följande betyg (på en 100-gradig skala):

1) Konstruera en serie frekvensfördelningar, relativa och ackumulerade frekvenser för 5 intervaller;

2) Bygg polygon, histogram och kumulativ polygon;

3) Hitta det aritmetiska medelvärdet, mode, median, första och tredje kvartil, inter-kvartsintervall, standardavvikelse och variationskoefficienter. Analysera data med dessa egenskaper och ange ett intervall som inkluderar 50% av de centrala värdena för de angivna kvantiteterna.

1) x (min) = 53, x (max) = 98

R = x (max) - x (min) = 98-53 = 45

h = R / 1 + 3,32lgn, där n är provstorleken, n = 20

h = 45/1 + 3,32 * lg20 = 9

a (i) - nedre gräns för intervallet, b (i) - övre gräns för intervallet.

a (1) = x (min) - h / 2, b (1) = a (1) + h, då om b (i) är den övre gränsen för det i:te intervallet (desutom, a (i + 1) = b (i)), sedan b (2) = a (2) + h, b (3) = a (3) + h, etc. Konstruktionen av intervall fortsätter tills början av nästa i intervallets ordning är lika med eller större än x (max).

a (1) = 47,5 b (1) = 56,5

a (2) = 56,5 b (2) = 65,5

a (3) = 65,5 b (3) = 74,5

a (4) = 74,5 b (4) = 83,5

a (5) = 83,5 b (5) = 92,5

a (6) = 92,5 b (6) = 101,5

Intervaller, a (i) - b (i)

Frekvensräkning

Frekvens, n (i)

Ackumulerad frekvens, n (hi)

2) För att konstruera grafer skriver vi ner variationsserien för fördelningen (intervall och diskret) av de relativa frekvenserna W (i) = n (i) / n, de ackumulerade relativa frekvenserna W (hi) och hittar förhållandet W ( i) / h genom att fylla i tabellen.

x (i) = a (i) + b (i) / 2; W (hi) = n (hi) / n

Statistisk serie av fördelningen av skattningar:

Intervaller, a (i) - b (i)

För att bygga ett histogram av relativa frekvenser längs abskissan, skjuter vi upp partiella intervall, på vilka vi bygger en rektangel vars area är lika med den relativa frekvensen W(i) för detta i:te intervall. Då ska höjden på en elementär rektangel vara lika med W (i) / h.

Från histogrammet kan du få en polygon med samma fördelning om mittpunkterna övre baser koppla rektanglar med raka linjesegment.

För att plotta kumulaten för en diskret serie plottar vi attributvärdena längs abskissaxeln och de relativa ackumulerade frekvenserna W (hi) längs ordinataaxeln. Vi förbinder de resulterande punkterna med raka linjesegment. För intervallserien längs abskissan avsätter vi de övre gränserna för grupperingen.

3) Det aritmetiska medelvärdet hittas av formeln:

Mode beräknas med formeln:

Modalintervallets nedre kant; h är bredden på grupperingsintervallet; - frekvensen av det modala intervallet; - frekvensen av intervallet som föregår modalen; är frekvensen för intervallet efter modalen. = 23,125.

Hitta medianen:

n = 20: 53.58.59.59.63.67.68.69.71.73.78.79.85.86.87.89.91.91.98.98

Om vi ​​ersätter värdena får vi: Q1 = 65;

Värdet på den andra kvartilen sammanfaller med värdet på medianen, därför Q2 = 75,5; Q3 = 88.

Inter-kvartalsintervallet är:

Rot-medelkvadrat-avvikelsen (standard) hittas av formeln:

Variationskoefficienten:

Det kan ses från dessa beräkningar att 50% av de centrala värdena av de angivna värdena inkluderar intervallet 74,5 - 83,5.

Uppgift 2. Statistisk hypotesprövning.

Sportpreferenserna för män, kvinnor och ungdomar är följande:

Testa hypotesen om preferensoberoende från kön och ålder b = 0,05.

1) Testa hypotesen om oberoende av preferenser inom idrott.

Pearsen koefficient:

Tabellvärdet för chi-kvadrattestet med en frihetsgrad på 4 vid b = 0,05 är lika med h 2 tabl = 9,488.

Eftersom hypotesen förkastas. Skillnaderna i preferenser är betydande.

2. Överensstämmelsehypotes.

Volleyboll som sport ligger närmast basket. Låt oss kontrollera korrespondensen i preferenser för män, kvinnor och ungdomar.

Ф 2 = 0,1896 + 0,1531 + 0,1624 + 0,1786 + 0,1415 + 0,1533 = 0,979.

Med en signifikansnivå på b = 0,05 och en frihetsgrad k = 2, är tabellvärdet för h 2 tabl = 9,210.

Eftersom Ф 2> är skillnaderna i preferenser betydande.

Uppgift 3. Korrelations-regressionsanalys.

En analys av vägtrafikolyckor gav följande statistik för andelen förare under 21 år och antalet allvarliga olyckor per 1000 förare:

Genomför grafisk och korrelations-regressionsanalys av data, förutsäg antalet olyckor med allvarliga konsekvenser för en stad där antalet förare under 21 år är lika med 20 % av det totala antalet förare.

Vi får ett urval av storlek n = 10.

x är procentandelen förare under 21 år,

y är antalet olyckor per 1000 förare.

Den linjära regressionsekvationen är:

Vi beräknar sekventiellt:

På samma sätt finner vi

Exempel på regressionskoefficient

Sambandet mellan x, y är starkt.

Den linjära regressionsekvationen har formen:

figur presenteras fält spridning och schema linjär regressioner . Vi genomför prognos för x n =20 .

Vi får y n =0 .2 9*20-1 .4 6 = 4 .3 4 .

Prognos menande hände Mer av allt värden, lämnats v Originalet tabell . den Följd Togo, Vad korrelation missbruk hetero och koefficient är lika med 0,29 tillräckligt stor . varje enhet steg Dx han ger ökning Dy =0 .3

Träning 4 . Analys temporär led och prognoser .

Förutspå indexvärden för nästa vecka med:

a) metoden med glidande medelvärde, val av treveckorsdata för sin beräkning;

b) ett exponentiellt vägt medelvärde, med b = 0,1.

Från tabellen med slumptal hittar vi siffrorna 41, 51, 69, 135, 124, 93, 91, 144, 10, 24.

Vi arrangerar dem i stigande ordning: 10, 24, 41, 51, 69, 91, 93, 124, 135, 144.

Vi utför en ny numrering från 1 till 10. Vi får de första uppgifterna för tio veckor:

Exponentiell utjämning vid b = 0,1 ger bara ett värde.

För mitten av hela perioden får vi tre prognoser: 12.855; 1309; 12.895.

Det råder överensstämmelse mellan dessa prognoser.

Träning 5 . Index analys.

Bolaget sysslar med transport av varor. Det finns uppgifter för ett antal år om transportvolymen för 4 typer av last och kostnaden för transport av en lastenhet.

Bestäm enkla pris-, kvantitets- och värdeindex för varje produkttyp, samt Laspeyres- och Pasche-index och ett värdeindex. Kommentera resultaten på ett meningsfullt sätt.

Lösning. Låt oss beräkna enkla index:

Laspeyres Index:

Pasche Index:

Kalkoner kostar:

Individuella index indikerar en diskrepans i förändringen i priser och kvantiteter för varor A, B, C, D. Aggregata index indikerar allmänna förändringstrender. Generellt minskade kostnaden för transporterade varor med 13 %. Anledningen är att den dyraste lasten minskade med 42% i termer av kvantitet, och dess tariff förblev nästan oförändrad.

År 16-20 är numrerade i ordning från 1 till 5. De initiala uppgifterna har formen:

Först undersöker vi dynamiken i mängden last A.

Index

Absoluta vinster

Tillväxttakt, %

Tillväxthastighet,%

detta takten tillväxt i genomsnitt formler :

, .

För takt v några fall T NS = T R -1 .

Nu överväga frakt D .

Index

Absoluta vinster

Tillväxttakt, %

Tillväxthastighet,%

Slutsats

Medelvärden och deras varianter spelar en viktig roll i statistiken. Genomsnittliga indikatorer används ofta i analys, eftersom det är i dem som mönstren för massfenomen och processer både i tid och i rymden finner sin manifestation. Så till exempel uttrycks regelbundenheten i en ökning av arbetsproduktiviteten i de statistiska indikatorerna för tillväxten av den genomsnittliga produktionen per arbetare i industrin, regelbundenheten i en stadig tillväxt i befolkningens välbefinnande manifesteras i de statistiska indikatorerna på en ökning av medelinkomsten för arbetare och anställda m.m.

Sådana beskrivande egenskaper för fördelningen av en variabel egenskap som mod och median används ofta. De är specifika egenskaper, deras betydelse ges till någon speciell variant i variationsserien.

Så, för att karakterisera det vanligaste värdet av en egenskap, används ett mode, och för att visa den kvantitativa gränsen för värdet av en variabel egenskap, som hälften av medlemmarna i befolkningen har nått, medianen.

Genomsnitt hjälper alltså till att studera utvecklingsmönstren för industrin, en specifik bransch, samhället och landet som helhet.

Bibliografi

1. Statistikteori: Lärobok / R.А. Shmoilova, V.G. Minashkin, N.A. Sadovnikova, E.B. Shuvalov; Redigerad av R.A. Shmoilova. - 4:e upplagan, Rev. och lägg till. - M .: Finans och statistik, 2005. - 656s.

2. Gusarov V.M. Statistik: Handledning för universiteten. - M .: UNITY-DANA, 2001.

4. Samling av problem i statistikteori: Lärobok / Ed. Prof. V. V. Glinsky och Ph.D. D., docent L.K. Serga. Ed. Z-e. - M .: INFRA-M; Novosibirsk: Siberian Agreement, 2002.

5. Statistik: Lärobok / Kharchenko L-P., Dolzhenkova V.G., Ionin V.G. och andra, Ed. V.G. Ionina. - 2:a uppl., Rev. och lägg till. - M .: INFRA-M. 2003.

Liknande dokument

    Beskrivande statistik och statistisk slutledning. Urvalsmetoder för att säkerställa att urvalet är representativt. Typens inverkan på felets storlek. Uppgifter vid tillämpning av provtagningsmetoden. Spridning av observationsdata till den allmänna befolkningen.

    test, tillagt 2011-02-27

    Den selektiva metoden och dess roll. Utveckling av den moderna teorin om selektiv observation. Typologi för urvalsmetoder. Praktisk implementering av enkel stickprovstagning. Organisation av ett typiskt (stratifierat) urval. Provstorlek för kvotval.

    Rapport tillagd 2011-03-09

    Syfte med provtagning och provtagning. Funktioner i organisationen olika typer selektiv observation. Urvalsfel och metoder för deras beräkning. Tillämpning av provtagningsmetoden för analys av företag i bränsle- och energikomplexet.

    Terminuppsats tillagd 2014-06-10

    Selektiv observation som metod statistisk forskning, dess funktioner. Slumpmässiga, mekaniska, typiska och seriella typer av urval vid bildandet av provuppsättningar. Konceptet och orsakerna till provtagningsfel, metoder för dess bestämning.

    abstrakt, tillagt 2010-04-06

    Statistikens koncept och roll i mekanismen för modern ekonomistyrning. Kontinuerlig och icke-kontinuerlig statistisk observation, beskrivning av provtagningsmetoden. Typer av urval för selektiv observation, urvalsfel. Produktions- och finansiella indikatorer.

    terminsuppsats, tillagd 2011-03-17

    Studie av genomförandet av planen. En 10 % slumpmässig icke-upprepad urvalsundersökning. Produktionskostnaden för anläggningen. Marginalt urvalsfel. Dynamik i genomsnittspriser och produktförsäljning. Variabel sammansättning prisindex.

    test, tillagt 2009-09-02

    Erhålla ett urval av storleken på n-normalfördelningen av en slumpvariabel. Hitta de numeriska egenskaperna för provet. Datagruppering och variationsserier. Frekvenshistogram. Empirisk distributionsfunktion. Statistisk uppskattning av parametrar.

    laboratoriearbete, tillagt 2013-03-31

    Kärnan i begreppen provtagning och selektiv observation, huvudtyperna och kategorierna av urval. Bestämning av provets storlek och storlek. Praktisk användning statistisk analys av provobservation. Beräkning av fel i samplingsfrekvens och urvalsmedelvärde.

    Terminuppsats tillagd 2015-02-17

    Begreppet selektiv observation. Representativitetsfel, mätning av urvalsfel. Bestämning av den erforderliga provstorleken. Användningen av en provtagningsmetod istället för en solid. Spridning i befolkningen och jämförelse av indikatorer.

    test, tillagt 2009-07-23

    Urvals- och observationsfel. Metoder för att välja enheter i urvalet. Egenskaper för företagets kommersiella verksamhet. Provundersökning av konsumenter av produkter. Fördelning av urvalsegenskaper till den allmänna befolkningen.

Planen:

1. Problem med matematisk statistik.

2. Typer av prover.

3. Urvalsmetoder.

4. Den statistiska fördelningen av urvalet.

5. Empirisk distributionsfunktion.

6. Polygon och histogram.

7. Variationsseriens numeriska egenskaper.

8. Statistiska uppskattningar av fördelningsparametrar.

9. Intervalluppskattningar av distributionsparametrar.

1. Problem och metoder för matematisk statistik

Matematik statistik är ett avsnitt av matematik som ägnas åt metoder för att samla in, analysera och bearbeta resultaten av statistiska observationsdata för vetenskapliga och praktiska ändamål.

Antag att det krävs att man studerar en uppsättning homogena objekt i relation till något kvalitativt eller kvantitativt attribut som kännetecknar dessa objekt. Till exempel, om det finns en sats av delar, kan standarden på delen fungera som en kvalitativ indikator, och den kontrollerade storleken på delen kan fungera som en kvantitativ indikator.

Ibland genomförs en kontinuerlig studie, d.v.s. inspektera varje objekt för önskat attribut. I praktiken används en fullständig undersökning sällan. Till exempel, om en population innehåller ett mycket stort antal objekt, är det fysiskt omöjligt att genomföra en fullständig undersökning. Om undersökningen av ett objekt är förknippad med dess förstörelse eller kräver stora materialkostnader, är det ingen mening att genomföra en fullständig undersökning. I sådana fall väljs ett begränsat antal objekt (provpopulation) slumpmässigt ut från hela populationen och utsätts för studier.

Den matematiska statistikens huvuduppgift är att studera hela populationen med hjälp av urvalsdata, beroende på målet, d.v.s. studie av befolkningens probabilistiska egenskaper: fördelningslagen, numeriska egenskaper, etc. för att fatta ledningsbeslut under förhållanden av osäkerhet.

2. Provtyper

Allmän befolkning Är en samling objekt från vilka ett urval görs.

Urvalspopulation (prov) Är en samling slumpmässigt valda objekt.

Befolkningsvolym Är antalet objekt i denna population. Volymen av den allmänna befolkningen anges N, selektiv - n.

Exempel:

Om av 1000 delar 100 delar väljs ut för inspektion, är volymen av den allmänna befolkningen N = 1000 och provstorleken n = 100.

Urvalet kan göras på två sätt: efter att objektet har valts och observerats över det, kan det returneras eller inte returneras till den allmänna befolkningen. Den där. prover delas in i upprepade och icke-upprepade.

Upprepadkallas provtagning, där det valda objektet (innan du väljer nästa) returneras till den allmänna populationen.

Ej repeterbarkallas provtagning, där det valda objektet inte returneras till den allmänna befolkningen.

I praktiken används vanligen upprepat slumpmässigt urval.

För att urvalsdata ska vara tillräckligt säkra för att bedöma egenskapen av intresse i den allmänna befolkningen, är det nödvändigt att urvalsobjekten representerar det korrekt. Urvalet ska korrekt representera populationens andelar. Provet bör vara representant (representant).

I kraft av stora tallagen kan man hävda att urvalet blir representativt om det tas slumpmässigt.

Om storleken på den allmänna populationen är tillräckligt stor, och urvalet bara är en obetydlig del av denna population, så raderas distinktionen mellan upprepade och icke-upprepade prover; i det begränsande fallet, när en oändlig allmän population beaktas, och urvalet har en ändlig storlek, försvinner denna skillnad.

Exempel:

I den amerikanska tidskriften "Literary Review" genomfördes med statistiska metoder en studie av prognoser angående utgången av det kommande presidentvalet i USA 1936. Utmanare till denna post var F.D. Roosevelt och A.M. Landon. Telefonprenumeranters referensböcker togs som en källa för den allmänna befolkningen av de undersökta amerikanerna. Av dessa valdes 4 miljoner adresser ut slumpmässigt, till vilka tidningens redaktion skickade ut vykort och bad dem uttrycka sin inställning till presidentkandidaterna. Efter att ha bearbetat resultatet av omröstningen publicerade tidningen en sociologisk prognos om att Landon kommer att vinna med stor marginal i det kommande valet. Och ... jag hade fel: Roosevelt vann.
Detta exempel kan ses som ett exempel på ett icke-representativt urval. Faktum är att i USA under första hälften av 1900-talet var det bara den rika delen av befolkningen som hade telefoner, vilket stödde Landons åsikter.

3. Urvalsmetoder

I praktiken tillämpas olika sätt urval, som kan delas in i 2 typer:

1. Urval kräver inte uppdelning av den allmänna befolkningen i delar(er) enkel slumpmässig icke-repeterbar; b) enkel slumpmässig upprepning).

2. Urval, där befolkningen är indelad i delar. (a) typiskt urval; b) mekaniskt val; v) serie- urval).

Enkel avslappnad kalla detta urval, där objekt hämtas ett i taget från hela populationen (slumpmässigt).

Typiskkallas urval, där objekt väljs inte från hela befolkningen, utan från var och en av dess "typiska" delar. Till exempel, om en del tillverkas på flera maskiner, görs valet inte från hela uppsättningen delar som produceras av alla maskiner, utan från produkterna från varje maskin separat. Sådant urval används när ämnet som undersöks fluktuerar märkbart i olika "typiska" delar av den allmänna befolkningen.

Mekaniskkallas urval, där den allmänna populationen är "mekaniskt" indelad i lika många grupper som antalet objekt ska ingå i urvalet, och ett objekt väljs från varje grupp. Till exempel, om du behöver välja 20 % av maskintillverkade delar, väljs var 5:e del; om du behöver välja 5% av delarna, var 20:e osv. Ibland säkerställer inte ett sådant urval provets representativitet (om var 20:e pärla som ska vändas väljs och skäraren byts ut omedelbart efter valet, kommer alla pärlor, svarvade med trubbiga skärare, att väljas).

Seriekallas urval, där objekt väljs från den allmänna befolkningen, inte ett i taget, utan i "serier", som utsätts för en kontinuerlig undersökning. Till exempel, om produkter tillverkas av en stor grupp automatiska maskiner, är det bara ett fåtal maskiner som genomgår en fullständig kontroll.

I praktiken används ofta kombinerat urval, där ovanstående metoder kombineras.

4. Statistisk fördelning av urvalet

Låt ett urval extraheras från den allmänna populationen och värdet x 1- observerade gånger, x 2 -n 2 gånger,... x k - n k gånger. n = n 1 + n 2 + ... + n k är provstorleken. Observerade värdenkallas alternativ, och sekvensen av varianter, skrivna i stigande ordning- variationsserie... Observationsnummerkallas frekvenser (absoluta frekvenser) och deras förhållande till urvalsstorleken- relativa frekvenser eller statistiska sannolikheter.

Om antalet varianter är stort eller om urvalet är gjort från en kontinuerlig allmän population, sammanställs variationsserien inte av individuella poängvärden, utan av värdeintervaller för den allmänna populationen. En sådan variationsserie kallas intervall. I detta fall måste längden på intervallen vara lika.

Statistisk fördelning av urvalet kallas en lista över alternativ och deras motsvarande frekvenser eller relativa frekvenser.

Statistisk fördelning kan också specificeras i form av en sekvens av intervall och motsvarande frekvenser (summan av frekvenser som faller inom detta värdeintervall)

Punktvariationsintervallet för frekvenser kan representeras av tabellen:

x i
x 1
x 2

x k
n i
n 1
n 2

n k

På liknande sätt kan du representera punktvariationsserien av relativa frekvenser.

Dessutom:

Exempel:

Antalet bokstäver i viss text X visade sig vara 1000. Den första var bokstaven "I", den andra var bokstaven "i", den tredje var bokstaven "a" och den fjärde var "u". Sedan kom bokstäverna "o", "e", "y", "e", "s".

Låt oss skriva ut platserna som de upptar i alfabetet, respektive, vi har: 33, 10, 1, 32, 16, 6, 21, 31, 29.

Efter att ha beställt dessa nummer i stigande ordning får vi variationsserien: 1, 6, 10, 16, 21, 29, 31, 32, 33.

Frekvenser för bokstäver i texten: "a" - 75, "e" - 87, "i" - 75, "o" - 110, "y" - 25, "s" - 8, "e" - 3, " u" "- 7", jag "- 22.

Låt oss komponera en punktvariationsserie av frekvenser:

Exempel:

Fördelningen av volymens samplingsfrekvenser anges n = 20.

Gör en punktvariationsserie av relativa frekvenser.

x i

2

6

12

n i

3

10

7

Lösning:

Låt oss hitta de relativa frekvenserna:


x i

2

6

12

w i

0,15

0,5

0,35

När man konstruerar en intervallfördelning finns det regler för att välja antalet intervall eller värdet för varje intervall. Kriteriet här är det optimala förhållandet: med en ökning av antalet intervaller förbättras representativiteten, men datavolymen och tiden för deras bearbetning ökar. Skillnad x max - x min mellan det största och det minsta värdet kallas varianten sopa provtagning.

För att räkna antalet intervaller k Strojess empiriska formel används vanligtvis (förutsatt avrundning till närmaste lämpliga heltal): k = 1 + 3,322 lg n.

Följaktligen värdet av varje intervall h kan beräknas med formeln:

5. Empirisk distributionsfunktion

Låt oss överväga ett urval från den allmänna befolkningen. Låt den statistiska fördelningen av frekvenserna för det kvantitativa attributet X vara känd. Låt oss introducera notationen: n x- Antalet observationer där värdet av egenskapen observerades, mindre än x; n - Det totala antalet observationer (provstorlek). Relativ frekvens av händelse X<х равна n x / n. Om x ändras så ändras också den relativa frekvensen, d.v.s. relativ frekvensn x / n- det finns en funktion av x. Eftersom det finns empiriskt, sedan kallas det empiriskt.

Empirisk distributionsfunktion (provfördelningsfunktion) anropa funktionen, som bestämmer för varje x den relativa frekvensen av händelsen X<х.


där är antalet alternativ mindre än x,

n är provstorleken.

I motsats till urvalets empiriska fördelningsfunktion kallas fördelningsfunktionen F (x) för den allmänna populationen teoretisk fördelningsfunktion.

Skillnaden mellan empiriska och teoretiska fördelningsfunktioner är att den teoretiska funktionen F (x) bestämmer sannolikheten för händelse X F * (x) tenderar i sannolikhet till sannolikheten F (x) för denna händelse. Det vill säga för stort n F * (x) och F (x) skiljer sig lite från varandra.

Den där. det är tillrådligt att använda urvalets empiriska fördelningsfunktion för en ungefärlig representation av den teoretiska (integral) fördelningsfunktionen för den allmänna populationen.

F * (x) har alla egenskaper F (x).

1. Värderingar F * (x) hör till intervallet.

2. F * (x) är en icke-minskande funktion.

3. Om är det minsta alternativet, då F * (x) = 0, för x < x 1; om x k ​​är det största alternativet, då F * (x) = 1, för x> x k.

De där. F * (x) tjänar till att uppskatta F(x).

Om provet ges av variationsserien, har den empiriska funktionen formen:

Den empiriska funktionsgrafen kallas den kumulativa.

Exempel:

Rita en empirisk funktion för den givna fördelningen av urvalet.


Lösning:

Provstorlek n = 12 + 18 +30 = 60. Det minsta alternativet 2, dvs. vid x < 2. Händelse X<6, (x 1 = 2) наблюдалось 12 раз, т.е. F * (x) = 12/60 = 0,2 vid 2 < x < 6. Händelse X<10, (x 1 =2, x 2 = 6) наблюдалось 12 + 18 = 30 раз, т.е.F*(x)=30/60=0,5 при 6 < x < 10. Eftersom x = 10 är det största alternativet F * (x) = 1 för x> 10. Den eftersträvade empiriska funktionen är:

Cumulat:


Kumuleringen gör det möjligt att förstå den grafiskt presenterade informationen, till exempel för att besvara frågorna: ”Bestämma antalet observationer för vilka värdet på objektet var mindre än 6 eller inte mindre än 6. F * (6) = 0,2 »Då är antalet observationer där värdet på det observerade särdraget var mindre än 6 lika med 0,2 * n = 0,2 * 60 = 12. Antalet observationer där värdet på det observerade objektet var minst 6 är lika med (1-0,2) * n = 0,8 * 60 = 48.

Om en intervallvariationsserie specificeras, för att komponera en empirisk fördelningsfunktion, hittas intervallens mittpunkter och från dem erhålls en empirisk fördelningsfunktion liknande en punktvariationsserie.

6. Polygon och histogram

För tydlighetens skull byggs olika grafer över den statistiska fördelningen: polynom och histogram

Frekvenspolygon detta är en streckad linje, vars segment förbinder punkterna (x 1; n 1), (x 2; n 2),..., (x k; nk), där finns alternativen, är motsvarande frekvenser.

Polygon av relativa frekvenser detta är en streckad linje, vars segment förbinder punkterna (x 1; w 1), (x 2; w 2),..., (xk; wk), där xi är alternativen, wi är de relativa frekvenserna som motsvarar dem.

Exempel:

Plotta ett polynom av relativa frekvenser över en given sampelfördelning:

Lösning:

I fallet med en kontinuerlig funktion är det tillrådligt att bygga ett histogram, för vilket intervallet i vilket alla observerade värden för funktionen är inneslutna är uppdelat i flera delintervall med längden h och för varje delintervall ni hittas - summan av frekvenserna för varianten som föll i det i:te intervallet. (Till exempel när vi mäter en persons längd eller vikt har vi att göra med ett kontinuerligt tecken).

Frekvenshistogram det är en stegvis figur, bestående av rektanglar, vars baser är delintervaller med längden h, och höjderna är lika med förhållandet (frekvensdensitet).

Fyrkant av den i-te partiella rektangeln är lika med summan av frekvenserna, varianten av det i-te intervallet, dvs. arean av frekvenshistogrammet är lika med summan av alla frekvenser, dvs. provstorlek.

Exempel:

Resultaten av spänningsförändringar (i volt) i elnätet anges. Gör en variationsserie, rita polygonen och histogrammet av frekvenser om spänningsvärdena är som följer: 227, 215, 230, 232, 223, 220, 228, 222, 221, 226, 226, 215, 2018, 22 216, 220, 225, 212, 217, 220.

Lösning:

Låt oss komponera en variantserie. Vi har n = 20, x min = 212, x max = 232.

Låt oss använda Strojess-formeln för att räkna antalet papperskorgar.

Intervallvariationsserien av frekvenser är som följer:


Frekvensdensitet

212-21 6

0,75

21 6-22 0

0,75

220-224

1,75

224-228

228-232

0,75

Låt oss bygga ett histogram av frekvenser:

Låt oss konstruera en frekvenspolygon genom att först hitta intervallens mittpunkter:


Histogram över relativa frekvenser kallas en stegvis figur som består av rektanglar, vars baser är delintervall med längden h, och höjderna är lika med förhållandet w i/ h (relativ frekvensdensitet).

Fyrkant Den i:te partiella rektangeln är lika med den relativa frekvensen för varianten som faller in i det i:te intervallet. De där. arean av histogrammet av relativa frekvenser är lika med summan av alla relativa frekvenser, dvs. enhet.

7. Variationsseriens numeriska egenskaper

Låt oss överväga de viktigaste egenskaperna hos den allmänna populationen och urvalspopulationerna.

Allmän mitt kallas det aritmetiska medelvärdet av värdena för attributet för den allmänna befolkningen.

För olika värden x 1, x 2, x 3,..., x n. av den allmänna befolkningen i volymen N har vi:

Om attributvärdena har motsvarande frekvenser N 1 + N 2 +... + N k = N, då


Exempel medelvärde kallas det aritmetiska medelvärdet av värdena för attributet i urvalspopulationen.

Om attributvärdena har motsvarande frekvenser n 1 + n 2 + ... + n k = n, då


Exempel:

Beräkna provmedelvärdet för provet: x 1 = 51,12; x 2 = 51,07, x 3 = 52,95; x 4 = 52,93, x 5 = 51,1, x 6 = 52,98; x 7 = 52,29; x 8 = 51,23; x 9 = 51,07; x 10 = 51,04.

Lösning:

Allmän avvikelseär det aritmetiska medelvärdet av kvadraterna av avvikelserna av värdena för attributet X för den allmänna befolkningen från det allmänna genomsnittet.

För olika värden x 1, x 2, x 3, ..., x N av attributet för den allmänna populationen av volym N, har vi:

Om attributvärdena har motsvarande frekvenser N 1 + N 2 +... + N k = N, då

Generell rot-medelkvadratavvikelse (standard) kallas kvadratroten av den allmänna variansen

Selektiv varians kallas det aritmetiska medelvärdet av kvadraterna av avvikelserna för funktionens observerade värden från medelvärdet.

För olika värden x 1, x 2, x 3, ..., x n av attributet för provpopulationen av volym n har vi:


Om attributvärdena har motsvarande frekvenser n 1 + n 2 + ... + n k = n, då


Vald standardavvikelse (standard) kallas kvadratroten av urvalsvariansen.


Exempel:

Urvalspopulationen specificeras av fördelningstabellen. Hitta provvariansen.


Lösning:

Sats: Variansen är lika med skillnaden mellan medelkvaddraterna för funktionsvärdena och kvadraten på det totala medelvärdet.

Exempel:

Hitta variansen för den givna fördelningen.



Lösning:

8. Statistiska uppskattningar av fördelningsparametrar

Låt den allmänna befolkningen undersökas för ett visst urval. I detta fall är det möjligt att erhålla endast ett ungefärligt värde på den okända parametern Q, som fungerar som dess uppskattning. Självklart kan uppskattningar ändras från ett urval till ett annat.

Statistisk bedömningQ * den okända parametern för den teoretiska fördelningen kallas funktionen f, som beror på de observerade värdena för provet. Uppgiften med statistisk uppskattning av okända parametrar från ett prov är att konstruera en sådan funktion från tillgängliga statistiska observationsdata, vilket skulle ge de mest exakta ungefärliga värdena av de verkliga, okända för forskaren, värden för dessa parametrar.

Statistiska uppskattningar är uppdelade i punkt och intervall, beroende på hur de presenteras (antal eller intervall).

En punkt kallas en statistisk uppskattning. parameter Q för den teoretiska fördelningen bestäms av ett värde av parametern Q * = f (x 1, x 2, ..., x n), därx 1, x 2, ..., x n- Resultaten av empiriska observationer av den kvantitativa egenskapen X för ett visst urval.

Sådana parameteruppskattningar som erhålls från olika prover skiljer sig oftast från varandra. Den absoluta skillnaden / Q * -Q / kallas provtagning (uppskattning) fel.

För att statistiska bedömningar ska ge tillförlitliga resultat om de parametrar som bedöms, är det nödvändigt att de är opartiska, effektiva och konsekventa.

Poänguppskattning, vars matematiska förväntan är lika (inte lika med) den uppskattade parametern, kallas opartisk (partisk)... M (Q *) = Q.

Skillnad M ( Q *) - Q kallas partiskhet eller partiskhet... För opartiska uppskattningar är biasen 0.

Effektiv värdering Q *, som för en given urvalsstorlek n har minsta möjliga varians: D min (n = konst). Den effektiva uppskattningen har den minsta variationen jämfört med andra opartiska och konsekventa uppskattningar.

Rikkalla detta statistik värdering Q *, som för ntenderar i sannolikhet till den uppskattade parametern F , dvs. med ökande urvalsstorlek n uppskattningen tenderar sannolikt till det sanna värdet av parametern F.

Kravet på överensstämmelse är förenligt med lagen om stora siffror: ju mer initial information om föremålet som studeras, desto mer exakt blir resultatet. Om urvalsstorleken är liten, kan punktuppskattningen av parametern leda till allvarliga fel.

Några prov (volymn) kan ses som ett beställt setx 1, x 2, ..., x n oberoende identiskt fördelade stokastiska variabler.

Prov betyder för olika provstorlekar n från samma allmänna befolkning kommer att vara olika. Det vill säga att urvalsmedelvärdet kan betraktas som en slumpmässig variabel, vilket betyder att vi kan prata om fördelningen av urvalsmedelvärdet och dess numeriska egenskaper.

Urvalsmedelvärdet uppfyller alla krav som ställs på statistiska uppskattningar, d.v.s. ger en opartisk, effektiv och konsekvent uppskattning av det allmänna medelvärdet.

Det kan bevisas... Således är urvalsvariansen en partisk uppskattning av den allmänna variansen, vilket ger den ett underskattat värde. Det vill säga, med en liten urvalsstorlek kommer det att ge ett systematiskt fel. För en opartisk, konsekvent uppskattning räcker det att ta värdet, som kallas varianskorrigerad. Dvs.

I praktiken, för att uppskatta den allmänna variansen, används den korrigerade variansen vid n < 30. I andra fall ( n> 30) avvikelse från knappt märkbar. Därför för stora värden n offsetfelet är försumbart.

Du kan också bevisa att den relativa frekvensenn i / n är en opartisk och konsekvent uppskattning av sannolikheten P (X = x i ). Empirisk distributionsfunktion F * (x ) är en opartisk och konsekvent uppskattning av den teoretiska fördelningsfunktionen F (x) = P (X< x ).

Exempel:

Hitta de opartiska uppskattningarna av medelvärdet och variansen från provtabellen.

x i
n i

Lösning:

Provstorlek n = 20.

Den opartiska uppskattningen av den matematiska förväntningen är provmedelvärdet.


För att beräkna den opartiska variansuppskattningen hittar vi först urvalsvariansen:

Låt oss nu hitta den opartiska uppskattningen:

9. Intervalluppskattningar av fördelningsparametrar

Intervall är en statistisk uppskattning som bestäms av två numeriska värden, ändarna på intervallet som studeras.

siffra> 0 för vilken | Q - Q * |< , kännetecknar intervalluppskattningens noggrannhet.

Förvaltarekallad intervall , som med en given sannolikhettäcker det okända värdet för parametern F ... Utöka konfidensintervallet till uppsättningen av alla möjliga parametervärden F kallad kritiskt område... Om det kritiska området endast är beläget på ena sidan av konfidensintervallet kallas konfidensintervallet ensidig: vänsterhänt om den kritiska regionen endast finns till vänster, och högerhänt om så bara till höger. Annars kallas konfidensintervallet bilateral.

Tillförlitlighet, eller konfidensnivå, uppskattar Q (med Q *) är sannolikheten med vilken följande olikhet gäller: | Q - Q * |< .

Oftast sätts konfidensnivån i förväg (0,95; 0,99; 0,999) och kravet ställs på att den ska vara nära enhet.

Sannolikhetkallas sannolikheten för fel eller signifikansnivån.

Låt | Q - Q * |< , då... Det betyder att med sannolikhetdet kan hävdas att det sanna värdet av parametern F hör till intervallet... Ju mindre avvikelse, desto mer exakt är uppskattningen.

Gränserna (ändarna) för konfidensintervallet kallas konfidensgränser eller kritiska gränser.

Värdena för gränserna för konfidensintervallet beror på fördelningslagen för parametern Q *.

Mängden avvikelselika med halva bredden av konfidensintervallet, kallas bedömningens riktighet.

Metoder för att konstruera konfidensintervall utvecklades först av den amerikanske statistikern J. Neumann. Uppskattningens noggrannhet, förtroendesannolikhet och provstorlek n relaterad. Därför, genom att känna till de specifika värdena för två kvantiteter, kan du alltid beräkna den tredje.

Att hitta konfidensintervallet för att uppskatta den matematiska förväntan av en normalfördelning, om standardavvikelsen är känd.

Låt urvalet göras från den allmänna populationen, med förbehåll för lagen om normalfördelning. Låt den allmänna standardavvikelsen vara känd, men den matematiska förväntningen på den teoretiska fördelningen är okänd en ().

Följande formel är giltig:

De där. vid ett givet avvikelsevärdeman kan hitta sannolikheten med vilken det okända allmänna medelvärdet hör till intervallet... Och vice versa. Det kan ses från formeln att med en ökning av urvalsstorleken och ett fast värde på konfidenssannolikheten, värdet- minskar, d.v.s. uppskattningens noggrannhet ökas. Med ökande tillförlitlighet (konfidensnivå), värdet-ökar, d.v.s. uppskattningens noggrannhet minskar.

Exempel:

Som ett resultat av testerna erhölls följande värden -25, 34, -20, 10, 21. Det är känt att de följer lagen om normalfördelning med en standardavvikelse på 2. Hitta skattningen a * för den matematiska förväntningen a. Rita ett 90 % konfidensintervall för det.

Lösning:

Hitta den opartiska uppskattningen

Sedan


Konfidensintervallet för a är: 4 - 1,47< a< 4+ 1,47 или 2,53 < a < 5, 47

Att hitta konfidensintervallet för att uppskatta den matematiska förväntan av en normalfördelning om standardavvikelsen är okänd.

Låt det vara känt att den allmänna befolkningen är föremål för lagen om normalfördelning, där a och... Noggrannhet av konfidensintervallet täcker med tillförlitlighetdet sanna värdet av parametern a, i detta fall beräknas med formeln:

, där n är urvalsstorleken, , - Elevens koefficient (den ska hittas enligt de givna värdena n och från tabellen "Kritiska punkter för elevens fördelning").

Exempel:

Som ett resultat av testerna erhölls följande värden -35, -32, -26, -35, -30, -17. Det är känt att de följer lagen om normalfördelning. Hitta konfidensintervallet för den matematiska förväntan i den allmänna befolkningen med en konfidensnivå på 0,9.

Lösning:

Hitta den opartiska uppskattningen.

Hitta.

Sedan

Konfidensintervallet blir(-29,2 - 5,62; -29,2 + 5,62) eller (-34,82; -23,58).

Hitta konfidensintervallet för variansen och standardavvikelsen för normalfördelningen

Låt ett slumpmässigt urval av volym tas från någon allmän population av värden fördelade enligt normallagenn < 30, för vilka urvalsvarianserna beräknas: partiskoch korrigerade s 2... För att sedan hitta intervalluppskattningar med en given tillförlitlighetför allmän variansDallmän standardavvikelseföljande formler används.


eller,

Värdena- hitta med hjälp av en tabell med kritiska poängvärdenPearson-distributionen.

Konfidensintervallet för variansen hittas från dessa ojämlikheter genom att kvadrera alla delar av ojämlikheten.

Exempel:

Kvaliteten på 15 bultar kontrollerades. Förutsatt att felet i deras tillverkning är föremål för normalfördelningslagen och provets standardavvikelselika med 5 mm, bestäm med tillförlitlighetkonfidensintervall för okänd parameter

Vi representerar intervallets gränser som en dubbel olikhet:

Ändarna av det tvåsidiga konfidensintervallet för varians kan bestämmas utan att utföra aritmetiska operationer för en given konfidensnivå och urvalsstorlek med hjälp av lämplig tabell (gränser för konfidensintervall för varians beroende på antalet frihetsgrader och tillförlitlighet). För att göra detta multipliceras ändarna av intervallet som erhålls från tabellen med den korrigerade variansen s 2.

Exempel:

Låt oss lösa det tidigare problemet på ett annat sätt.

Lösning:

Låt oss hitta den korrigerade variansen:

Med hjälp av tabellen "Konfidensintervall för varians, beroende på antalet frihetsgrader och tillförlitlighet", hittar vi gränserna för konfidensintervallet för varians vidk= 14 och: den nedre gränsen är 0,513 och den övre gränsen är 2,354.

Multiplicera de resulterande gränserna meds 2 och extrahera roten (eftersom vi behöver konfidensintervallet inte för variansen, utan för standardavvikelsen).

Som framgår av exemplen beror värdet på konfidensintervallet på metoden för dess konstruktion och ger liknande men olika resultat.

Med tillräckligt stora prover (n> 30) gränserna för konfidensintervallet för den allmänna standardavvikelsen kan bestämmas med formeln: - något nummer som tabelleras och anges i motsvarande referenstabell.

Om 1- q<1, то формула имеет вид:

Exempel:

Låt oss lösa det tidigare problemet på det tredje sättet.

Lösning:

Tidigare hittats= 5,17. q(0,95; 15) = 0,46 - vi hittar det från tabellen.

Sedan: