Pravděpodobnostní statistické metody výzkumu stručně. Pravděpodobnostní a statistické metody. Statistická analýza konkrétních dat

Životní jevy, jako vůbec všechny jevy hmotného světa, mají dvě neoddělitelně spojené stránky: kvalitativní, vnímanou přímo smysly, a kvantitativní, vyjádřenou čísly za pomoci počítání a měření.

Při studiu různých přírodních jevů se současně využívají jak kvalitativní, tak kvantitativní ukazatele. Nepochybně pouze v jednotě kvalitativní a kvantitativní stránky se nejplněji odhaluje podstata zkoumaných jevů. Ve skutečnosti je však nutné použít jeden nebo druhý ukazatel.

Nepochybně kvantitativní metody jak objektivnější a přesnější mají výhodu oproti kvalitativním charakteristikám objektů.

Samotné výsledky měření, ač mají známou hodnotu, jsou stále nedostatečné k tomu, abychom z nich mohli vyvodit potřebné závěry. Digitální data shromážděná v procesu hromadného testování jsou pouze surovým faktografickým materiálem, který vyžaduje vhodné matematické zpracování. Bez zpracování - řazení a systematizace digitálních dat není možné extrahovat informace v nich obsažené, vyhodnocovat spolehlivost jednotlivých souhrnných ukazatelů a ověřovat spolehlivost pozorovaných rozdílů mezi nimi. Tato práce vyžaduje, aby specialisté měli určité znalosti, schopnost správně zobecňovat a analyzovat data shromážděná v experimentu. Systém těchto poznatků je obsahem statistiky - vědy, která se zabývá především analýzou výsledků výzkumu v teoretické i aplikované oblasti vědy.

Je třeba mít na paměti, že matematická statistika a teorie pravděpodobnosti jsou čistě teoretické, abstraktní vědy; studují statistické agregáty bez ohledu na specifika jejich základních prvků. Metody matematické statistiky a teorie pravděpodobnosti, z nichž vychází, jsou použitelné v nejrůznějších oblastech vědění, včetně humanitních věd.

Studium jevů se neprovádí na jednotlivých pozorováních, která se mohou ukázat jako nahodilá, atypická, neúplně vyjadřující podstatu tohoto jevu, ale na souboru homogenních pozorování, který poskytuje úplnější informace o zkoumaném objektu. Určitý soubor relativně homogenních předmětů, kombinovaných podle toho či onoho atributu pro společné studium, se nazývá statistický

agregát. Sada kombinuje určitý počet homogenních pozorování nebo registrací.

Prvky, které tvoří množinu, se nazývají její členy nebo varianty. . Možnosti jsou jednotlivá pozorování nebo číselné hodnoty objektu. Pokud tedy prvek označíme jako X (velký), pak jeho hodnoty nebo varianty budou označeny x (malé), tzn. x 1, x 2 atd.

Celkový počet opcí, které tvoří tuto množinu, se nazývá její objem a označuje se písmenem n (malý).

Pokud je zjišťováním podrobena celá populace homogenních objektů jako celek, nazývá se všeobecná, obecná, populace Příkladem takového souvislého popisu populace mohou být celostátní sčítání lidu, obecný statistický účet zvířat v země. Nejúplnější informace o jeho stavu a vlastnostech poskytuje samozřejmě kompletní průzkum běžné populace. Proto je přirozené, že se výzkumníci snaží spojit co nejvíce pozorování v souhrnu.

Ve skutečnosti je však jen zřídka nutné uchýlit se k průzkumu všech členů běžné populace. Zaprvé proto, že tato práce vyžaduje mnoho času a práce, a zadruhé není vždy z mnoha důvodů a různých okolností proveditelná. Namísto kontinuálního průzkumu obecné populace je tedy obvykle zkoumána nějaká její část, nazývaná výběrová populace nebo vzorek. Je to model, podle kterého je posuzována celá obecná populace jako celek. Například pro zjištění průměrného přírůstku tažného obyvatelstva určitého kraje či okresu není vůbec nutné měřit všechny rekruty žijící v dané oblasti, ale stačí změřit nějakou jejich část.

1. Vzorek musí být zcela reprezentativní, nebo typický, tzn. tak, aby se skládala především z těch možností, které co nejúplněji odrážejí obecnou populaci. Proto, aby bylo možné začít zpracovávat vzorová data, jsou pečlivě přezkoumána a jasně atypické možnosti jsou odstraněny. Například při analýze nákladů na produkty vyrobené podnikem by měly být vyloučeny náklady v těch obdobích, kdy podnik nebyl plně vybaven součástmi nebo surovinami.

2. Vzorek musí být objektivní. Při vytváření vzorku nelze jednat svévolně, zahrnout do jeho složení pouze ty možnosti, které se zdají typické, a všechny ostatní odmítnout. Benigní vzorek se dělá bez předsudků, metodou loterie nebo loterie, kdy žádná z možností v běžné populaci nemá žádné výhody oproti ostatním – spadat či nespadnout do výběrové populace. Jinými slovy, vzorek by měl být proveden podle principu náhodného výběru, aniž by to ovlivnilo jeho složení.

3. Vzorek musí být kvalitativně homogenní. Do stejného vzorku nemůžete zahrnout data získaná za různých podmínek, například náklady na produkty získané s různým počtem zaměstnanců.

6.2. seskupení pozorování

Obvykle se výsledky experimentů a pozorování zapisují ve formě čísel do registračních karet nebo deníku a někdy jednoduše na listy papíru - získá se výpis nebo registr. Takové počáteční dokumenty zpravidla obsahují informace ne o jednom, ale o několika znacích, podle kterých byla pozorována. Tyto dokumenty slouží jako hlavní zdroj tvorby vzorků. Obvykle se to provádí takto: na samostatném listu papíru od primárního dokumentu, tzn. kartotéka, deník nebo výpis, jsou vypsány číselné hodnoty atributu, na kterém je populace tvořena. Varianty v takovém souboru jsou obvykle prezentovány ve formě náhodného množství čísel. Prvním krokem ke zpracování takového materiálu je proto jeho řazení, jeho systematizace – seskupení varianty do statistických tabulek nebo řad.

Jednou z nejběžnějších forem seskupování výběrových dat jsou statistické tabulky. Mají ilustrativní hodnotu, ukazují některé obecné výsledky, postavení jednotlivých prvků v celkové řadě pozorování.

Další formou primárního seskupování vzorových dat je metoda řazení, tzn. umístění možnosti v určitém pořadí - zvýšením nebo snížením hodnot atributu. V důsledku toho je získána tzv. ranked series, která ukazuje, do jaké míry a jakým způsobem se daný rys liší. Existuje například ukázka následujícího složení:

5,2,1,5,7,9,3,5,4,10,4,5,7,3,5, 9,4,12,7,7

Je vidět, že znaménko se u některých jednotek mění od 1 do 12. Seřazeno vzestupně:

1,2,3,3,4,4,4,5,5,5,5,7,7,7,7,9,9,10,12.,

V důsledku toho byla získána řada hodnot proměnné funkce.

Je zřejmé, že způsob klasifikace, jak je zde uveden, je použitelný pouze pro malé vzorky. S velkým počtem pozorování se hodnocení stává obtížnějším, protože série je tak dlouhá, že ztrácí smysl.

Při velkém počtu pozorování je zvykem řadit vzorek ve formě dvojřádku, tzn. udávající četnost či četnost jednotlivých variant řazené řady. Taková dvojitá řada hodnot seřazených vlastností se nazývá variační řada nebo v blízkosti distribuce. Nejjednodušším příkladem variační řady mohou být výše uvedená data, pokud jsou uspořádána takto:

Hodnoty funkcí

(možnosti) 1 2 3 4 5 7 9 10 12

opakovatelnost

(volitelně) frekvence 1 1 2 3 5 4 2 1 1

Variační řada ukazuje četnost, s jakou se jednotlivé varianty vyskytují v dané populaci, jak jsou distribuovány, což je velmi důležité, což umožňuje posoudit variační vzorce a rozsah variací kvantitativních charakteristik. Konstrukce variačních řad usnadňuje výpočet celkových ukazatelů - aritmetického průměru a rozptylu nebo rozptylu kolem jejich průměrné hodnoty - ukazatelů, které charakterizují jakýkoli statistický soubor.

Variační řady jsou dvou typů: přerušované a spojité. Nespojitá variační řada se získá rozdělením diskrétních veličin, které zahrnují znaménka počítání. Pokud se znaménko plynule mění, tzn. může nabývat libovolných hodnot od minimální po maximální variantu populace, poté je tato distribuována v nepřetržité sérii variací.

K sestavení variační řady diskrétně se měnícího znaku stačí uspořádat celý soubor pozorování ve formě seřazené řady s uvedením četností jednotlivých variant. Jako příklad uvádíme data ukazující rozložení velikosti 267 dílů (tabulka 5.4)

Tabulka 6.1. Rozdělení dílů podle velikosti.

Chcete-li sestavit řadu variací neustále se měnících funkcí, musíte rozdělit celou variaci od minimální po maximální variantu do samostatných skupin nebo intervalů (od-do), nazývaných třídy, a poté rozdělit všechny varianty populace mezi tyto třídy. . Díky tomu bude získána dvojitá variační řada, ve které se četnosti již nevztahují na jednotlivé konkrétní možnosti, ale na celý interval, tzn. Ukázalo se, že frekvence nejsou variantou, ale třídami.

Rozdělení obecné odchylky do tříd se provádí na stupnici třídního intervalu, která by měla být stejná pro všechny třídy variační řady. Hodnotu třídního intervalu označujeme i (od slova intervalum - interval, vzdálenost); určuje se podle následujícího vzorce

, (6.1)

kde: i – interval třídy, který se bere jako celé číslo;

- možnosti maximálního a minimálního vzorku;

lg.n je logaritmus počtu tříd, do kterých je vzorek rozdělen.

Počet tříd je stanoven libovolně, ale s přihlédnutím k faktu, že počet tříd je do jisté míry závislý na velikosti vzorku: čím větší je velikost vzorku, tím více tříd by mělo být a naopak - s menší velikostí vzorku menší počet tříd je třeba absolvovat. Zkušenosti ukazují, že i v malých vzorcích, kdy musíte seskupit možnosti ve formě variační série, byste neměli nastavit méně než 5-6 tříd. Pokud existuje 100-150 možností, lze počet tříd zvýšit na 12-15. Pokud se populace skládá z 200-300 možností, pak je rozdělena do 15-18 tříd atd. Tato doporučení jsou samozřejmě velmi podmíněná a nelze je přijmout jako zavedené pravidlo.

Při dělení do tříd je v každém konkrétním případě nutné vzít v úvahu řadu různých okolností, aby bylo zajištěno, že zpracování statistického materiálu poskytne co nejpřesnější výsledky.

Po nastavení intervalu tříd a rozdělení vzorku do tříd se varianta rozdělí do tříd a určí se počet variací (četností) každé třídy. V důsledku toho se získá variační řada, ve které se četnosti nevztahují na jednotlivé možnosti, ale na určité třídy. Součet všech četností variační řady by se měl rovnat velikosti vzorku, tzn

(6.2)

kde:
- znak součtu;

p je frekvence.

n je velikost vzorku.

Pokud taková rovnost neexistuje, pak při zaúčtování varianty podle třídy došlo k chybě, kterou je nutné odstranit.

Obvykle se pro zaúčtování varianty podle třídy sestaví pomocná tabulka, ve které jsou čtyři sloupce: 1) třídy podle tohoto atributu (od - do); 2) - průměrná hodnota tříd, 3) zaúčtování opce podle tříd, 4) četnost tříd (viz tabulka 6.2.)

Zveřejnění možnosti podle třídy vyžaduje hodně pozornosti. Stejná možnost nesmí být označena dvakrát nebo stejné možnosti spadají do různých tříd. Aby se předešlo chybám v rozdělení možností podle tříd, doporučuje se nehledat stejné možnosti v souhrnu, ale rozložit je mezi třídy, což není totéž. Ignorování tohoto pravidla, ke kterému dochází v práci nezkušených badatelů, zabere při zveřejňování varianty spoustu času a hlavně vede k chybám.

Tabulka 6.2. Možnost odeslání podle třídy

Hranice třídy

Třída znamená (x)

Frekvence tříd (p), %

absolutní

relativní

Po dokončení zaúčtování opce a sečtení jejich počtu pro každou třídu dostaneme souvislou řadu variací. Musí se změnit na nespojitou variační řadu. K tomu, jak již bylo uvedeno, bereme poloviční součty extrémních hodnot tříd. Takže například střední hodnota první třídy, která se rovná 8,8, se získá takto:

(8,6+9,0):2=8,8.

Druhá hodnota (9,3) tohoto sloupce se vypočítá podobným způsobem:

(9,01+9,59):2=9,3 atd.

Výsledkem je nespojitá variační řada ukazující distribuci podle studovaného znaku (tabulka 6.3.)

Tabulka 6.3. Variační série

Seskupování výběrových dat ve formě variačních řad má dvojí účel: zaprvé jako pomocná operace je nezbytná při výpočtu celkových ukazatelů a zadruhé distribuční řady ukazují vzor variací znaků, což je velmi důležité. Pro jasnější vyjádření tohoto vzoru je zvykem znázorňovat variační řady graficky ve formě histogramu (obr. 6.1.)


Obrázek 6.1 Rozdělení podniků podle počtu zaměstnanců

sloupcový graf znázorňuje distribuci varianty se spojitou variací prvku. Obdélníky odpovídají třídám a jejich výška je počet možností obsažených v každé třídě. Pokud snížíme kolmice k ose úsečky ze středů vrcholů obdélníků histogramu a poté tyto body spojíme dohromady, dostaneme graf spojité variace, nazývaný polygon nebo hustota rozložení.

Jak se používá pravděpodobnost a matematická statistika? Tyto disciplíny jsou základem pravděpodobnostně-statistických metod rozhodování. Pro využití jejich matematického aparátu je nutné vyjádřit rozhodovací problémy pomocí pravděpodobnostně-statistických modelů. Aplikace konkrétní pravděpodobnostně-statistické metody rozhodování se skládá ze tří fází:

Přechod od ekonomické, manažerské, technologické reality k abstraktnímu matematickému a statistickému schématu, tzn. sestavení pravděpodobnostního modelu řídicího systému, technologického procesu, rozhodovacího postupu, zejména na základě výsledků statistické kontroly apod.

Provádění výpočtů a získávání závěrů čistě matematickými prostředky v rámci pravděpodobnostního modelu;

Interpretace matematických a statistických závěrů ve vztahu k reálné situaci a přijetí vhodného rozhodnutí (například o shodě či nesouladu jakosti výrobku se stanovenými požadavky, nutnosti úpravy technologického postupu apod.), zejména, závěry (o podílu vadných jednotek výrobků v dávce, o konkrétní podobě zákonitostí rozdělení řízených parametrů technologického procesu apod.).

Matematická statistika využívá pojmy, metody a výsledky teorie pravděpodobnosti. Podívejme se na hlavní otázky budování pravděpodobnostních modelů rozhodování v ekonomických, manažerských, technologických a jiných situacích. Pro aktivní a správné používání normativně-technických a poučně-metodických dokumentů o pravděpodobnostně-statistických metodách rozhodování jsou zapotřebí předběžné znalosti. Je tedy nutné vědět, za jakých podmínek by měl být ten či onen dokument aplikován, jaké prvotní informace je nutné mít pro jeho výběr a aplikaci, jaká rozhodnutí by měla být učiněna na základě výsledků zpracování dat atd.

Příklady aplikací teorie pravděpodobnosti a matematická statistika. Uveďme několik příkladů, kdy jsou pravděpodobnostně-statistické modely dobrým nástrojem pro řešení manažerských, průmyslových, ekonomických a národohospodářských problémů. Takže například v románu A.N.Tolstého „Procházka mukami“ (1. díl) se píše: „dílna dává dvacet tři procent manželství, vy se držíte tohoto čísla,“ řekl Strukov Ivanu Iljiči.

Nabízí se otázka, jak tato slova chápat v rozhovoru manažerů továren, vždyť jedna jednotka produkce nemůže být vadná z 23 %. Může být buď dobrý, nebo vadný. Snad měl Strukov na mysli, že velká šarže obsahuje přibližně 23 % vadných jednotek. Pak vyvstává otázka, co znamená „asi“? Ať se ukáže 30 ze 100 testovaných kusů výrobků vadných, nebo z 1000 - 300, nebo ze 100 000 - 30 000 atd., měl by být Strukov obviněn ze lži?

Nebo jiný příklad. Mince, která se použije jako lot, musí být "symetrická", tzn. když je hozen, v průměru v polovině případů by měl erb vypadnout a v polovině případů - mříž (ocasy, číslo). Co ale znamená „průměrný“? Pokud v každé sérii strávíte mnoho sérií po 10 hodech, pak se často objeví série, ve kterých mince vypadne 4krát s erbem. U symetrické mince k tomu dojde u 20,5 % série. A pokud je na 100 000 hodů 40 000 erbů, lze minci považovat za symetrickou? Postup rozhodování vychází z teorie pravděpodobnosti a matematické statistiky.

Uvažovaný příklad se nemusí zdát dostatečně vážný. Nicméně není. Remíza je široce používána při organizování experimentů průmyslové proveditelnosti, například při zpracování výsledků měření indexu kvality (třecího momentu) ložisek v závislosti na různých technologických faktorech (vliv konzervačního prostředí, způsoby přípravy ložisek před měřením, vliv zatížení ložiska v procesu měření atd.).P.). Předpokládejme, že je nutné porovnat kvalitu ložisek v závislosti na výsledcích jejich uložení v různých konzervačních olejích, tzn. ve směsných olejích ALE a V. Při plánování takového experimentu vyvstává otázka, která ložiska by měla být umístěna ve složení oleje ALE, a které - ve složení olej V, avšak tak, aby nedošlo k subjektivitě a byla zajištěna objektivita rozhodnutí.

Odpověď na tuto otázku lze získat losováním. Podobný příklad lze uvést s kontrolou kvality jakéhokoli produktu. K rozhodnutí, zda kontrolovaná šarže výrobků splňuje stanovené požadavky, je z ní odebrán vzorek. Na základě výsledků kontroly vzorku je učiněn závěr o celé šarži. V tomto případě je velmi důležité vyhnout se subjektivitě při vytváření vzorku, tj. je nutné, aby každá jednotka produktu v kontrolované šarži měla stejnou pravděpodobnost, že bude vybrána do vzorku. Ve výrobních podmínkách se výběr jednotek produkce ve vzorku obvykle neprovádí losováním, ale speciálními tabulkami náhodných čísel nebo pomocí počítačových generátorů náhodných čísel.

Obdobné problémy se zajištěním objektivity srovnávání vznikají při porovnávání různých schémat organizace výroby, odměňování, při pořádání výběrových řízení a soutěží, výběru kandidátů na volná místa atp. Všude potřebujete loterii nebo podobné postupy. Vysvětleme na příkladu identifikace nejsilnějšího a druhého nejsilnějšího týmu při pořádání turnaje podle olympijského systému (poražený je vyřazen). Ať vždy vyhraje silnější tým nad slabším. Je jasné, že šampionem se určitě stane nejsilnější tým. Druhý nejsilnější tým se dostane do finále pouze tehdy, pokud před finále neuhraje žádné hry s budoucím mistrem. Pokud se taková hra plánuje, pak druhý nejsilnější tým do finále nedosáhne. Ten, kdo turnaj plánuje, může buď „vyřadit“ druhý nejsilnější tým z turnaje s předstihem, sesadit ho na prvním setkání s lídrem, nebo mu zajistit druhé místo a zajistit setkání se slabšími týmy až do finále. Abyste se vyhnuli subjektivitě, losujte. U turnaje 8 týmů je pravděpodobnost, že se dva nejsilnější týmy střetnou ve finále, 4/7. V souladu s tím, s pravděpodobností 3/7, druhý nejsilnější tým opustí turnaj s předstihem.

Při jakémkoli měření jednotek součinu (pomocí posuvného měřítka, mikrometru, ampérmetru atd.) dochází k chybám. Pro zjištění, zda existují systematické chyby, je nutné provést opakovaná měření jednotky výroby, jejíž vlastnosti jsou známé (například standardní vzorek). Je třeba si uvědomit, že kromě systematické chyby existuje také chyba náhodná.

Nabízí se tedy otázka, jak z výsledků měření zjistit, zda nedochází k systematické chybě. Pokud zaznamenáme pouze to, zda je chyba získaná při dalším měření kladná nebo záporná, lze tento problém zredukovat na předchozí. Skutečně srovnejme měření s hodem mince, kladná chyba - se ztrátou erbu, záporná - s mřížkou (nulová chyba při dostatečném počtu dílků stupnice se téměř nikdy nevyskytuje). Pak je kontrola nepřítomnosti systematické chyby ekvivalentní kontrole symetrie mince.

Účelem těchto úvah je zredukovat problém kontroly nepřítomnosti systematické chyby na problém kontroly symetrie mince. Výše uvedená úvaha vede v matematické statistice k tzv. „kritériu znaků“.

Ve statistické regulaci technologických procesů na základě metod matematické statistiky jsou vypracována pravidla a plány pro statistické řízení procesů, zaměřené na včasné odhalení poruchy technologických procesů a přijetí opatření k jejich úpravě a zamezení uvolňování produktů, které nesplňují stanovené požadavky. Tato opatření mají za cíl snížit výrobní náklady a ztráty z dodávek nekvalitních výrobků. Se statistickou akceptační kontrolou, založenou na metodách matematické statistiky, jsou vyvíjeny plány kontroly kvality analýzou vzorků z produktových šarží. Potíž spočívá ve schopnosti správně sestavit pravděpodobnostně-statistické modely rozhodování, na jejichž základě je možné odpovědět na výše položené otázky. V matematické statistice byly k tomu vyvinuty pravděpodobnostní modely a metody testování hypotéz, zejména hypotézy, že podíl vadných jednotek výroby se rovná určitému počtu R 0 , například, R 0 = 0,23 (vzpomeňte si na slova Strukova z románu A.N. Tolstého).

Hodnotící úkoly. V řadě manažerských, průmyslových, ekonomických, národohospodářských situací vyvstávají problémy jiného typu - problémy odhadu charakteristik a parametrů rozdělení pravděpodobnosti.

Zvažte příklad. Nechte večírek od N elektrické lampy Z této šarže, ukázka n elektrické lampy Vyvstává řada přirozených otázek. Jak lze z výsledků testování prvků vzorku určit průměrnou životnost elektrických žárovek a s jakou přesností lze tuto charakteristiku odhadnout? Jak se změní přesnost, když je odebrán větší vzorek? V jakém počtu hodin T je možné zaručit, že minimálně 90 % elektrických lamp vydrží T nebo více hodin?

Předpokládejme, že při testování vzorku s objemem nžárovky jsou vadné X elektrické lampy Pak vyvstávají následující otázky. Jaké limity lze zadat pro číslo D vadné elektrické žárovky v dávce, pro úroveň vad D/ N atd.?

Nebo je při statistické analýze přesnosti a stability technologických procesů nutné vyhodnotit takové ukazatele kvality, jako je průměrná hodnota řízeného parametru a stupeň jeho rozšíření v uvažovaném procesu. Podle teorie pravděpodobnosti je vhodné použít její matematické očekávání jako střední hodnotu náhodné veličiny a rozptyl, směrodatnou odchylku nebo variační koeficient jako statistickou charakteristiku spreadu. To vyvolává otázku: jak odhadnout tyto statistické charakteristiky ze vzorků dat as jakou přesností to lze provést? Podobných příkladů je mnoho. Zde bylo důležité ukázat, jak lze teorii pravděpodobnosti a matematickou statistiku využít v řízení výroby při rozhodování v oblasti statistického řízení kvality výrobků.

Co je to "matematická statistika"? Matematická statistika je chápána jako „část matematiky věnovaná matematickým metodám pro sběr, systematizaci, zpracování a interpretaci statistických dat, jakož i jejich využití pro vědecké nebo praktické závěry. Pravidla a postupy matematické statistiky jsou založeny na teorii pravděpodobnosti, která umožňuje na základě dostupného statistického materiálu vyhodnotit přesnost a spolehlivost závěrů získaných v každém problému. Statistickými údaji se přitom rozumí informace o počtu objektů v jakékoli více či méně rozsáhlé sbírce, které mají určité charakteristiky.

Podle typu řešených problémů se matematická statistika obvykle dělí do tří částí: popis dat, odhad a testování hypotéz.

Podle typu zpracovávaných statistických dat se matematická statistika dělí do čtyř oblastí:

Jednorozměrná statistika (statistika náhodné proměnné), ve kterém je výsledek pozorování popsán reálným číslem;

Vícerozměrná statistická analýza, kde je výsledek pozorování objektu popsán několika čísly (vektorem);

Statistika náhodných procesů a časových řad, kde výsledkem pozorování je funkce;

Statistika objektů nenumerického charakteru, ve kterých je výsledek pozorování nenumerického charakteru, např. je to množina (geometrický útvar), uspořádání nebo získané jako výsledek měření kvalitativní atribut.

Historicky se jako první objevily některé oblasti statistiky objektů nenumerického charakteru (zejména problémy s odhadem procenta vadných výrobků a testování hypotéz o tom) a jednorozměrné statistiky. Matematický aparát je pro ně jednodušší, proto na svém příkladu obvykle demonstrují hlavní myšlenky matematické statistiky.

Pouze ty způsoby zpracování dat, tzn. matematické statistiky jsou založeny na důkazech, které jsou založeny na pravděpodobnostních modelech relevantních reálných jevů a procesů. Hovoříme o modelech spotřebitelského chování, výskytu rizik, fungování technologických zařízení, získávání výsledků experimentu, průběhu nemoci atd. Pravděpodobnostní model reálného jevu by měl být považován za sestrojený, pokud uvažované veličiny a vztahy mezi nimi jsou vyjádřeny pomocí teorie pravděpodobnosti. Korespondence s pravděpodobnostním modelem reality, tzn. jeho přiměřenost je doložena zejména pomocí statistických metod pro testování hypotéz.

Neuvěřitelné metody zpracování dat jsou průzkumné, lze je použít pouze v předběžné analýze dat, protože neumožňují posoudit přesnost a spolehlivost závěrů získaných na základě omezeného statistického materiálu.

Pravděpodobnostní a statistické metody jsou použitelné všude tam, kde je možné sestrojit a doložit pravděpodobnostní model jevu nebo procesu. Jejich použití je povinné, když se závěry vyvozené z údajů o vzorku přenášejí na celý soubor (například ze vzorku na celou šarži výrobků).

Ve specifických oblastech použití se používají jak pravděpodobnostně-statistické metody široké aplikace, tak specifické. Například v části řízení výroby věnované statistickým metodám řízení kvality výrobků se využívá aplikovaná matematická statistika (včetně návrhu experimentů). Pomocí jejích metod se provádí statistická analýza přesnosti a stability technologických procesů a statistické hodnocení kvality. Mezi specifické metody patří metody statistické přejímací kontroly kvality výrobků, statistické regulace technologických procesů, posuzování a kontroly spolehlivosti atd.

Široce se používají takové aplikované pravděpodobnostně-statistické disciplíny jako teorie spolehlivosti a teorie hromadné obsluhy. Obsah prvního z nich je zřejmý z názvu, druhý se zabývá studiem systémů jako je telefonní ústředna, která přijímá hovory v náhodných časech – požadavky účastníků vytáčejících čísla na svých telefonech. Doba trvání služby těchto požadavků, tzn. trvání konverzací je také modelováno náhodnými proměnnými. Velký přínos k rozvoji těchto oborů učinil člen korespondent Akademie věd SSSR A.Ya. Khinchin (1894-1959), akademik Akademie věd Ukrajinské SSR B.V. Gnedenko (1912-1995) a další domácí vědci.

Krátce o historii matematické statistiky. Matematická statistika jako věda začíná pracemi slavného německého matematika Carla Friedricha Gausse (1777-1855), který na základě teorie pravděpodobnosti prozkoumal a doložil metodu nejmenších čtverců, kterou vytvořil v roce 1795 a aplikoval ji na zpracování astronomických dat (za účelem objasnění dráhy malé planety Ceres). Často je po něm pojmenováno jedno z nejpopulárnějších rozdělení pravděpodobnosti, normální, a v teorii náhodných procesů jsou hlavním předmětem studia Gaussovy procesy.

Na konci XIX století. - začátek dvacátého století. velký příspěvek k matematické statistice přinesli angličtí badatelé, především K. Pearson (1857-1936) a R. A. Fisher (1890-1962). Konkrétně Pearson vyvinul test chí-kvadrát pro testování statistických hypotéz a Fisher vyvinul analýzu rozptylu, teorii návrhu experimentu a metodu maximální věrohodnosti pro odhad parametrů.

Ve 30. letech dvacátého století. Polák Jerzy Neumann (1894-1977) a Angličan E. Pearson vypracovali obecnou teorii testování statistických hypotéz a sovětští matematici akademik A.N. Kolmogorov (1903-1987) a člen korespondent Akademie věd SSSR N. V. Smirnov (1900-1966) položili základy neparametrické statistiky. Ve čtyřicátých letech dvacátého století. Rumun A. Wald (1902-1950) vybudoval teorii konzistentní statistické analýzy.

Matematická statistika se v současné době rychle rozvíjí. Takže za posledních 40 let lze rozlišit čtyři zásadně nové oblasti výzkumu:

Vývoj a implementace matematických metod pro plánování experimentů;

Rozvoj statistiky objektů nenumerické povahy jako samostatný směr v aplikované matematické statistice;

Vývoj statistických metod odolných vůči malým odchylkám od použitého pravděpodobnostního modelu;

Rozsáhlý rozvoj prací na tvorbě počítačových softwarových balíků určených pro statistickou analýzu dat.

Pravděpodobnostně-statistické metody a optimalizace. Myšlenka optimalizace prostupuje moderní aplikovanou matematickou statistiku a další statistické metody. A to metody plánování experimentů, statistická přejímací kontrola, statistická kontrola technologických procesů atd. Na druhé straně optimalizační formulace v teorii rozhodování, např. aplikovaná teorie optimalizace kvality výrobků a standardních požadavků, umožňují široké využití pravděpodobnostně-statistické metody, především aplikovaná matematická statistika.

V řízení výroby, zejména při optimalizaci kvality výrobků a standardních požadavků, je zvláště důležité uplatňovat statistické metody v počáteční fázi životního cyklu výrobku, tzn. ve fázi výzkumné přípravy vývojů experimentálního designu (vývoj slibných požadavků na produkty, předběžný návrh, zadání pro vývoj experimentálního designu). To je způsobeno omezenými informacemi dostupnými v počáteční fázi. životní cyklus produktů a potřeba předvídat technické možnosti a ekonomickou situaci do budoucna. Statistické metody by měly být aplikovány ve všech fázích řešení optimalizačního problému - při škálování proměnných, vývoji matematických modelů pro fungování produktů a systémů, provádění technických a ekonomických experimentů atd.

V optimalizačních problémech, včetně optimalizace kvality produktů a standardních požadavků, jsou využívány všechny oblasti statistiky. Konkrétně statistika náhodných veličin, vícerozměrná statistická analýza, statistika náhodných procesů a časových řad, statistika objektů nenumerické povahy. Výběr statistické metody pro analýzu konkrétních údajů by měl být proveden podle doporučení.

Ve vědeckém poznání existuje komplexní, dynamický, integrální, podřízený systém různorodých metod používaných na různých stupních a úrovních poznání. Ano, probíhá vědecký výzkum jsou využívány různé obecně vědecké metody a prostředky poznání jak v rovině empirické, tak teoretické. Obecné vědecké metody, jak již bylo řečeno, zahrnují systém empirických, obecných logických a teoretických metod a prostředků poznání reality.

1. Obecné logické metody vědeckého bádání

Obecné logické metody se používají především na teoretické úrovni vědeckého výzkumu, i když některé z nich lze aplikovat i na empirické úrovni. Jaké jsou tyto metody a jaká je jejich podstata?

Jedním z nich, široce používaným ve vědeckém výzkumu, je analytická metoda (z řec. analýza - rozklad, rozkouskování) - metoda vědeckého poznání, která je mentálním rozdělením zkoumaného předmětu na jednotlivé prvky za účelem studia jeho struktury, jednotlivých znaků, vlastností, vnitřních souvislostí, vztahů.

Analýza umožňuje výzkumníkovi proniknout do podstaty zkoumaného jevu tím, že jej rozdělí na jednotlivé prvky a identifikovat hlavní, podstatné. Analýza jako logická operace je nedílnou součástí každého vědeckého bádání a obvykle tvoří jeho první fázi, kdy badatel přechází od nerozděleného popisu studovaného objektu k odhalení jeho struktury, složení, ale i vlastností a vztahů. Analýza je přítomna již na smyslové úrovni poznání, je zahrnuta do procesu pociťování a vnímání. Na teoretické úrovni poznání začíná fungovat nejvyšší forma analýzy - mentální neboli abstraktně-logická analýza, která vzniká spolu s dovednostmi materiálního a praktického rozřezávání předmětů v pracovním procesu. Postupně si člověk osvojil schopnost předvídat materiálně-praktickou analýzu v mentální analýze.

Je třeba zdůraznit, že jako nezbytná metoda poznání je analýza pouze jedním z momentů procesu vědeckého bádání. Je nemožné poznat podstatu předmětu pouze jeho rozdělením na prvky, z nichž se skládá. Například chemik podle Hegela vloží do retorty kus masa, podrobí ho různým operacím a pak prohlásí: Zjistil jsem, že maso se skládá z kyslíku, uhlíku, vodíku atd. Ale tyto látky - prvky nejsou žádné delší esence masa .

V každé oblasti vědění je jakoby vlastní hranice dělení předmětu, za kterou přecházíme k jiné povaze vlastností a vzorů. Když jsou jednotlivosti studovány analýzou, začíná další fáze poznání – syntéza.

Syntéza (z řeckého syntéza - spojení, kombinace, kompozice) je metoda vědeckého poznání, která je mentálním spojením jednotlivých částí, prvků, vlastností, vztahů zkoumaného objektu, pitvaných v důsledku analýzy a studia. tohoto objektu jako celku.

Syntéza není libovolné, eklektické spojení částí, prvků celku, ale dialektický celek s extrakcí podstaty. Výsledkem syntézy je zcela nový útvar, jehož vlastnostmi jsou nejen vnější spojení těchto složek, ale také výsledek jejich vnitřního propojení a vzájemné závislosti.

Analýza opravuje především tu konkrétní věc, která jednotlivé části od sebe odlišuje. Syntéza na druhé straně odhaluje tu zásadní společnou věc, která spojuje části do jediného celku.

Badatel myšlenkově rozdělí předmět na jednotlivé části, aby tyto části nejprve sám objevil, zjistil, z čeho se celek skládá, a pak jej považoval za sestávající z těchto částí, již samostatně zkoumaných. Analýza a syntéza jsou v dialektické jednotě: naše myšlení je stejně analytické jako syntetické.

Analýza a syntéza mají původ v praktických činnostech. Neustálým rozdělováním různých předmětů na jejich součásti ve své praktické činnosti se člověk postupně naučil oddělovat předměty i duševně. Praktická činnost spočívala nejen v rozřezávání předmětů, ale také ve sjednocování částí do jednoho celku. Na tomto základě postupně vznikala mentální analýza a syntéza.

V závislosti na povaze studia objektu a hloubce průniku do jeho podstaty se používají různé typy rozborů a syntéz.

1. Přímá nebo empirická analýza a syntéza - používá se zpravidla ve fázi povrchního seznamování se s předmětem. Tento typ analýzy a syntézy umožňuje poznávat jevy zkoumaného objektu.

2. Elementární teoretická analýza a syntéza – je široce používána jako mocný nástroj pro pochopení podstaty zkoumaného jevu. Výsledkem aplikace takové analýzy a syntézy je ustavení vztahů příčina-následek, identifikace různých vzorců.

3. Strukturálně-genetická analýza a syntéza - umožňuje nejhlouběji proniknout do podstaty studovaného objektu. Tento typ analýzy a syntézy vyžaduje izolaci takových prvků v komplexním fenoménu, které jsou nejdůležitější, zásadní a mají rozhodující vliv na všechny ostatní aspekty zkoumaného objektu.

Metody analýzy a syntézy v procesu vědeckého výzkumu jsou neoddělitelně spjaty s metodou abstrakce.

abstrakce (z lat. abstractio - rozptýlení) je obecná logická metoda vědeckého poznání, která je mentální abstrakcí od nepodstatných vlastností, souvislostí, vztahů zkoumaných objektů se současným mentálním výběrem podstatných aspektů zájmu badatele, mentální abstrakcí od nepodstatných vlastností, souvislostí, vztahů zkoumaných objektů, současnou mentální selekcí podstatných aspektů, které badatele zajímají. vlastnosti, souvislosti těchto objektů. Jeho podstata spočívá v tom, že věc, vlastnost nebo vztah je mentálně vyčleňován a současně abstrahován od jiných věcí, vlastností, vztahů a je považován jakoby v „čisté formě“.

Abstrakce v lidské duševní činnosti má univerzální charakter, protože každý myšlenkový krok je spojen s tímto procesem, respektive s využitím jeho výsledků. Podstata této metody spočívá v tom, že umožňuje mentálně abstrahovat od nepodstatných, sekundárních vlastností, souvislostí, vztahů objektů a zároveň mentálně vyzdvihovat, fixovat aspekty, vlastnosti, souvislosti těchto objektů, které jsou zájem o výzkum.

Rozlišujte mezi procesem abstrakce a výsledkem tohoto procesu, který se nazývá abstrakce. Obvykle se výsledek abstrakce chápe jako znalost některých aspektů zkoumaných objektů. Proces abstrakce je soubor logických operací vedoucích k takovému výsledku (abstrakce). Příkladem abstrakcí je nespočet pojmů, které člověk provozuje nejen ve vědě, ale i v běžném životě.

Otázka, co se v objektivní realitě vyznačuje abstrahující prací myšlení a od čeho je myšlení rozptýleno, se v každém konkrétním případě rozhoduje v závislosti na povaze studovaného objektu a také na úkolech studie. Věda v průběhu svého historického vývoje stoupá z jedné úrovně abstrakce do druhé, vyšší. Rozvoj vědy v tomto aspektu je slovy W. Heisenberga „rozmístěním abstraktních struktur“. Rozhodující krok do sféry abstrakce byl učiněn, když lidé zvládli počítání (číslo), čímž se otevřela cesta vedoucí k matematice a matematické vědě. W. Heisenberg v tomto ohledu poznamenává: "Koncepty, získané zpočátku abstrahováním od konkrétní zkušenosti, žijí svým vlastním životem. Ukazují se jako smysluplnější a produktivnější, než by se na první pohled dalo očekávat. V dalším vývoji odhalují jejich vlastní konstruktivní možnosti: přispívají ke konstrukci nových forem a konceptů, umožňují mezi nimi navazovat souvislosti a lze je v určitých mezích uplatnit při našich pokusech o pochopení světa jevů.

Stručná analýza naznačuje, že abstrakce je jednou z nejzákladnějších kognitivních logických operací. Proto je nejdůležitější metodou vědeckého výzkumu. Metoda zobecnění úzce souvisí s metodou abstrakce.

Zobecnění - logický proces a výsledek mentálního přechodu od individuálního k obecnému, od méně obecného k obecnějšímu.

Vědecké zobecnění není jen mentálním výběrem a syntézou podobných rysů, ale pronikáním do podstaty věci: vnímání jediného v rozmanitém, obecného v jednotném čísle, pravidelného v náhodném, jakož i sjednocení objektů podle podobných vlastností nebo vztahů do homogenních skupin, tříd.

V procesu zobecňování se přechází od jednotlivých pojmů k obecným, od méně obecných pojmů k obecnějším, od jednotlivých soudů k obecným, od soudů menší obecnosti k soudům větší obecnosti. Příklady takového zobecnění mohou být: mentální přechod od pojmu „mechanická forma pohybu hmoty“ k pojmu „forma pohybu hmoty“ a obecně „pohyb“; od pojmu "smrk" k pojmu "jehličnatá rostlina" a obecně "rostlina"; od rozsudku „tento kov je elektricky vodivý“ k rozsudku „všechny kovy jsou elektricky vodivé“.

Ve vědeckém bádání se nejčastěji používají tyto typy zobecnění: induktivní, kdy badatel přechází od jednotlivých (jednotlivých) faktů, událostí k jejich obecnému vyjádření v myšlenkách; logické, když badatel přechází od jedné, méně obecné, myšlenky k druhé, obecnější. Limitem zobecnění jsou filozofické kategorie, které nelze zobecnit, protože nemají generický pojem.

Logický přechod od obecnější myšlenky k méně obecné je procesem omezení. Jinými slovy, je to logická operace, opak zobecnění.

Nutno zdůraznit, že schopnost člověka abstrahovat a zobecňovat se formovala a rozvíjela na základě společenské praxe a vzájemné komunikace mezi lidmi. Má velký význam jak v kognitivní činnosti lidí, tak v celkovém pokroku materiální a duchovní kultury společnosti.

Indukce (z lat. i nductio - vedení) - metoda vědeckého poznání, ve které jsou obecným závěrem poznatky o celé třídě předmětů, získané jako výsledek studia jednotlivých prvků této třídy. Při indukci jde badatelovo myšlení od konkrétního, singulárního přes konkrétní k obecnému a univerzálnímu. Indukce jako logická metoda zkoumání je spojena se zobecňováním výsledků pozorování a experimentů, s pohybem myšlení od jedince k obecnému. Protože zkušenost je vždy nekonečná a neúplná, mají induktivní závěry vždy problematický (pravděpodobnostní) charakter. Na induktivní zobecnění se obvykle pohlíží jako na empirické pravdy nebo empirické zákony. Bezprostředním základem indukce je opakování jevů reality a jejich znaků. Když nalezneme podobné rysy v mnoha objektech určité třídy, dojdeme k závěru, že tyto rysy jsou vlastní všem objektům této třídy.

Podle povahy závěru se rozlišují následující hlavní skupiny induktivního uvažování:

1. Úplná indukce - takový závěr, ve kterém se na základě studia všech objektů této třídy udělá obecný závěr o třídě objektů. Plná indukce poskytuje spolehlivé závěry, a proto je široce používána jako důkaz ve vědeckém výzkumu.

2. Neúplná indukce - takový závěr, ve kterém je obecný závěr získán z premis, které nepokrývají všechny objekty dané třídy. Existují dva typy neúplné indukce: populární nebo indukce pomocí jednoduchého výčtu. Je to závěr, ve kterém je učiněn obecný závěr o třídě objektů na základě toho, že mezi pozorovanými skutečnostmi nebylo jediné, které by odporovalo zobecnění; vědecký, t. j. závěr, ve kterém je učiněn obecný závěr o všech předmětech třídy na základě znalosti potřebných znaků popř. kauzální vztahy některé položky v této třídě. Vědecká indukce může poskytnout nejen pravděpodobnostní, ale i spolehlivé závěry. Vědecká indukce má své vlastní metody poznání. Faktem je, že je velmi obtížné stanovit kauzální vztah jevů. V některých případech však může být tento vztah stanoven pomocí logických technik, nazývaných metody stanovení vztahu příčina-následek nebo metody vědecké indukce. Existuje pět takových metod:

1. Metoda jediné podobnosti: mají-li dva nebo více případů zkoumaného jevu společnou pouze jednu okolnost a všechny ostatní okolnosti jsou odlišné, pak je příčinou tohoto jevu tato jediná podobná okolnost:

Proto -+ A je příčinou a.

Jinými slovy, jestliže předchozí okolnosti ABC způsobují jevy abc a okolnosti ADE způsobují jevy ade, pak se usuzuje, že A je příčinou a (nebo že jevy A a a spolu kauzálně souvisí).

2. Metoda jediné diference: jestliže se případy, ve kterých se jev vyskytuje nebo nevyskytuje, liší pouze v jedné: - předchozí okolnost, a všechny ostatní okolnosti jsou totožné, pak je tato jedna okolnost příčinou tohoto jevu:

Jinými slovy, pokud předchozí okolnosti ABC způsobí jev abs a okolnosti BC (jev A je v průběhu experimentu eliminován) způsobí jev slunce, pak se usuzuje, že A je příčinou a. Základem pro tento závěr je vymizení a, když je A eliminováno.

3. Kombinovaná metoda podobnosti a rozdílu je kombinací prvních dvou metod.

4. Způsob souběžných změn: jestliže výskyt nebo změna jednoho jevu pokaždé nutně způsobí určitou změnu v jiném jevu, pak jsou oba tyto jevy ve vzájemném kauzálním vztahu:

Změna Změna a

Beze změny B, C

Proto je A příčinou a.

Jinými slovy, jestliže změna předchozího jevu A také změní pozorovaný jev a, zatímco zbývající předchozí jevy zůstanou nezměněny, pak můžeme dojít k závěru, že A je příčinou a.

5. Metoda reziduí: je-li známo, že příčinou zkoumaného jevu nejsou okolnosti pro to nutné, kromě jedné, pak je pravděpodobně příčinou tohoto jevu tato jedna okolnost. Francouzský astronom Neverier pomocí metody reziduí předpověděl existenci planety Neptun, kterou brzy objevil německý astronom Halle.

Uvažované metody vědecké indukce k navázání kauzálních vztahů se nejčastěji používají nikoli izolovaně, ale ve vzájemném propojení, vzájemně se doplňující. Jejich hodnota závisí především na míře pravděpodobnosti závěru, který ta či ona metoda dává. Předpokládá se, že nejúčinnější metodou je metoda rozdílu a nejslabší je metoda podobnosti. Další tři metody jsou střední. Tento rozdíl v hodnotě metod vychází především z toho, že metoda podobnosti je spojena především s pozorováním a metoda rozdílu s experimentem.

I stručný popis metody indukce umožňuje zjistit její hodnotu a důležitost. Význam této metody spočívá především v těsném propojení s fakty, experimentem a praxí. V tomto ohledu F. Bacon napsal: „Chceme-li proniknout do podstaty věcí, pak se všude obracíme k indukci a téměř splyneme s praxí.

V moderní logice je indukce považována za teorii pravděpodobnostního závěru. Probíhají pokusy formalizovat induktivní metodu založenou na myšlenkách teorie pravděpodobnosti, což pomůže jasněji porozumět logickým problémům této metody a také určit její heuristickou hodnotu.

Dedukce (z lat. deductio - inference) - myšlenkový proces, při kterém se znalosti o prvku třídy odvozují ze znalosti obecných vlastností celé třídy. Jinými slovy, myšlení výzkumníka v dedukci jde od obecného ke konkrétnímu (jednotnému). Například: „Všechny planety Sluneční Soustava pohybovat se kolem Slunce"; "Planeta Země"; tedy: "Země se pohybuje kolem Slunce". V tomto příkladu se myšlenka pohybuje od obecného (první premisa) ke konkrétnímu (závěr). Deduktivní uvažování vám tedy umožňuje lépe poznat jedince, neboť s jeho pomocí získáváme nové poznatky (inferenční), že daný předmět má vlastnost, která je vlastní celé třídě.

Objektivní základ dedukce spočívá v tom, že každý předmět spojuje jednotu obecného a individuálního. Toto spojení je nerozlučné, dialektické, které umožňuje poznávat jedince na základě znalostí obecného. Pokud jsou navíc premisy deduktivní úvahy pravdivé a správně propojené, pak závěr – závěr bude jistě pravdivý. Tento rys dedukce se příznivě srovnává s jinými metodami poznání. Obecné principy a zákonitosti totiž neumožňují badateli sejít v procesu deduktivního poznávání, pomáhají správně pochopit jednotlivé jevy reality. Na tomto základě by však bylo nesprávné přeceňovat vědecký význam deduktivní metody. K tomu, aby se formální síla uvažování prosadila, je totiž zapotřebí počátečních znalostí, obecných premis, které se používají v procesu dedukce, a jejich získání ve vědě je úkol velmi složitý.

Důležitý kognitivní význam dedukce se projevuje, když obecným předpokladem není jen induktivní zobecnění, ale jakýsi hypotetický předpoklad, například nová vědecká myšlenka. V tomto případě je dedukce výchozím bodem pro zrod nového teoretického systému. Takto vytvořené teoretické poznatky předurčují konstrukci nových induktivních zobecnění.

To vše vytváří skutečné předpoklady pro neustálé zvyšování role dedukce ve vědeckém výzkumu. Věda je stále častěji konfrontována s takovými objekty, které jsou smyslovému vnímání nepřístupné (například mikrokosmos, Vesmír, minulost lidstva atd.). Při poznávání předmětů tohoto druhu je mnohem častěji nutné obrátit se k síle myšlenky než k síle pozorování a experimentu. Dedukce je nepostradatelná ve všech oblastech znalostí, kde jsou teoretické pozice formulovány tak, aby popisovaly spíše formální než reálné systémy, například v matematice. Vzhledem k tomu, že formalizace v moderní vědě je používána stále více a více, role dedukce ve vědeckém poznání se odpovídajícím způsobem zvyšuje.

Role dedukce ve vědeckém bádání však nemůže být absolutní, a tím spíše - nelze ji stavět proti indukci a jiným metodám vědeckého poznání. Extrémy jak metafyzické, tak racionalistické povahy jsou nepřijatelné. Naopak dedukce a indukce spolu úzce souvisí a doplňují se. Induktivní výzkum zahrnuje použití obecné teorie, zákony, zásady, tj. zahrnuje okamžik srážky, a srážka je nemožná bez obecných ustanovení získaných indukcí. Jinými slovy, indukce a dedukce jsou stejně nutně spojeny jako analýza a syntéza. Musíme se snažit uplatnit každý z nich na svém místě, a toho lze dosáhnout pouze tehdy, neztratíme-li ze zřetele jejich vzájemné propojení, jejich vzájemné doplňování. „Velké objevy,“ poznamenává L. de Broglie, „skoky vpřed ve vědeckém myšlení jsou vytvářeny indukcí, riskantní, ale skutečně kreativní metodou... Samozřejmě bychom neměli usuzovat, že přísnost deduktivního uvažování nemá žádnou hodnotu. fakt, jen ona zabraňuje upadnutí představivosti do omylu, jen to umožňuje po ustavení nových východisek indukcí vyvozovat důsledky a porovnávat závěry se skutečností Pouze jedna dedukce může poskytnout test hypotéz a sloužit jako cenná protijed proti přehnaně hrané fantazii“. S takovým dialektickým přístupem bude moci každá z výše uvedených i dalších metod vědeckého poznání naplno projevit všechny své přednosti.

Analogie. Studiem vlastností, znaků, souvislostí předmětů a jevů skutečné reality je nemůžeme poznávat najednou, v jejich úplnosti, v úplnosti, ale studujeme je postupně a odhalujeme další a další vlastnosti krok za krokem. Po prostudování některých vlastností předmětu můžeme zjistit, že se shodují s vlastnostmi jiného, ​​již dobře prozkoumaného předmětu. Po zjištění takové podobnosti a nalezení mnoha shodných znaků lze předpokládat, že se shodují i ​​další vlastnosti těchto objektů. Průběh takového uvažování tvoří základ analogie.

Analogie je taková metoda vědeckého výzkumu, s jejíž pomocí se z podobnosti objektů dané třídy v některých rysech vyvozuje závěr o jejich podobnosti v jiných rysech. Podstatu přirovnání lze vyjádřit pomocí vzorce:

A má známky aecd

B má známky ABC

Zdá se tedy, že B má rys d.

Jinými slovy, analogicky, myšlení výzkumníka postupuje od znalosti známé obecnosti k poznání téže obecnosti, nebo jinými slovy od konkrétního k konkrétnímu.

Pokud jde o konkrétní objekty, závěry získané analogií jsou zpravidla pouze věrohodné povahy: jsou jedním ze zdrojů vědeckých hypotéz, induktivních úvah a hrají důležitou roli ve vědeckých objevech. Například chemické složení Slunce je v mnoha ohledech podobné chemickému složení Země. Když byl tedy na Slunci objeven prvek helium, který na Zemi dosud nebyl znám, analogicky se dospělo k závěru, že podobný prvek by měl být také na Zemi. Správnost tohoto závěru byla potvrzena a později potvrzena. Podobným způsobem L. de Broglie, předpokládaje jistou podobnost mezi částicemi hmoty a polem, dospěl k závěru o vlnové povaze částic hmoty.

Aby se analogicky zvýšila pravděpodobnost závěrů, je nutné usilovat o to, aby:

    byly odhaleny nejen vnější vlastnosti porovnávaných objektů, ale hlavně vnitřní;

    tyto předměty byly podobné v nejdůležitějších a nejpodstatnějších rysech, a ne v náhodných a vedlejších;

    kruh odpovídajících znaků byl co nejširší;

    byly zohledněny nejen podobnosti, ale také rozdíly - aby nebylo možné přenést na jiný objekt.

Analogická metoda dává nejcennější výsledky, když je vytvořen organický vztah nejen mezi podobnými rysy, ale také s rysem, který se přenáší na zkoumaný objekt.

Pravdivost závěrů lze analogicky porovnat s pravdivostí závěrů metodou neúplné indukce. V obou případech lze dospět ke spolehlivým závěrům, ale pouze tehdy, když je každá z těchto metod aplikována nikoli izolovaně od ostatních metod vědeckého poznání, ale v neoddělitelném dialektickém spojení s nimi.

Analogická metoda, chápaná extrémně široce, jako přenos informací o některých objektech do jiných, je epistemologickým základem modelování.

Modelování - metoda vědeckého poznání, s jejíž pomocí se provádí studium předmětu (originálu) vytvořením jeho kopie (modelu), nahrazujícího originál, který se pak učí z určitých aspektů, které badatele zajímají.

Podstatou metody modelování je reprodukovat vlastnosti předmětu poznání na speciálně vytvořeném analogovém modelu. co je to model?

Model (z lat. modul - míra, obraz, norma) je podmíněný obraz předmětu (originálu), určitý způsob vyjádření vlastností, vztahů předmětů a jevů reality na základě analogie, stanovení podobností mezi nimi a , na tomto základě je reprodukovat na hmotnou nebo ideální objektovou podobu. Jinými slovy, model je obdobou, „náhradou“ původního objektu, která v poznání a praxi slouží k získávání a rozšiřování znalostí (informací) o originálu za účelem zkonstruování originálu, jeho transformace nebo ovládání.

Mezi modelem a originálem musí existovat určitá podobnost (relace podobnosti): fyzikální vlastnosti, funkce, chování zkoumaného objektu, jeho struktura atd. Právě tato podobnost umožňuje přenášet informace získané v důsledku studování modelu k originálu.

Vzhledem k tomu, že modelování je velmi podobné metodě analogie, je logická struktura odvození z analogie jakoby organizačním faktorem, který spojuje všechny aspekty modelování do jediného, ​​účelného procesu. Dalo by se dokonce říci, že v jistém smyslu je modeling jakousi obdobou. Analogická metoda takříkajíc slouží jako logický základ pro závěry, ke kterým dochází během modelování. Například na základě příslušnosti k modelu A vlastností abcd a příslušnosti k původnímu A vlastností abc se usuzuje, že vlastnost d nalezená v modelu A patří také k původnímu A.

Použití modelování je diktováno potřebou odhalit takové aspekty objektů, které jsou buď nemožné pochopit přímým studiem, nebo je nerentabilní studovat z čistě ekonomických důvodů. Člověk například nemůže přímo pozorovat proces přirozeného vzniku diamantů, vznik a vývoj života na Zemi, celou řadu jevů mikro- a megasvěta. Proto se musíme uchýlit k umělé reprodukci takových jevů ve formě vhodné pro pozorování a studium. V některých případech je mnohem výnosnější a ekonomičtější postavit a studovat jeho model místo přímého experimentování s objektem.

Modelování se široce používá k výpočtu trajektorií balistických střel, ke studiu způsobu provozu strojů a dokonce celých podniků, jakož i při řízení podniků, při distribuci materiálních zdrojů, při studiu životních procesů v těle. , ve společnosti.

Modely používané v každodenním a vědeckém poznání jsou rozděleny do dvou velkých tříd: reálné, neboli materiální, a logické (mentální), neboli ideální. První jsou přírodní objekty, které se ve svém fungování řídí přírodními zákony. Materiálově reprodukují předmět zkoumání ve více či méně vizuální podobě. Logické modely jsou ideální útvary zafixované v příslušné symbolické podobě a fungující podle zákonů logiky a matematiky. Význam ikonických modelů spočívá v tom, že pomocí symbolů umožňují odhalit takové souvislosti a vztahy reality, které jsou jinými prostředky téměř nemožné odhalit.

V současné fázi vědeckého a technologického pokroku se počítačové modelování rozšířilo ve vědě a v různých oblastech praxe. Počítač běžící na speciálním programu je schopen simulovat širokou škálu procesů, například kolísání tržních cen, růst populace, vzlet a vstup na oběžnou dráhu umělé družice Země, chemické reakce atd. každý takový proces se provádí pomocí vhodného počítačového modelu.

Systémová metoda . Moderní etapa vědeckého poznání se vyznačuje stále rostoucím významem teoretického myšlení a teoretických věd. Významné místo mezi vědami zaujímá teorie systémů, která analyzuje metody systémového výzkumu. Dialektika vývoje předmětů a jevů reality nachází nejadekvátnější vyjádření v systémové metodě poznání.

Systémová metoda je soubor obecných vědeckých metodologických principů a metod výzkumu, které jsou založeny na orientaci na odhalování integrity objektu jako systému.

Základem systémové metody je systém a struktura, které lze definovat následovně.

Systém (z řeckého systema - celek složený z částí; spojení) je obecný vědecký postoj, který vyjadřuje soubor prvků, které jsou propojeny jak mezi sebou, tak s prostředím a tvoří určitou celistvost, jednotu objektu. ve studiu. Typy systémů jsou velmi rozmanité: materiální a duchovní, anorganické a živé, mechanické a organické, biologické a sociální, statické a dynamické atd. Každý systém je navíc kombinací různých prvků, které tvoří jeho specifickou strukturu. Co je struktura?

Struktura ( z lat. structura - struktura, uspořádání, řád) je relativně stabilní způsob (zákon) spojování prvků objektu, který zajišťuje integritu konkrétního komplexního systému.

Specifičnost systémového přístupu je dána skutečností, že studium zaměřuje na odhalení integrity objektu a mechanismů, které ji zajišťují, na identifikaci různorodých typů spojení komplexního objektu a jejich redukci do jediného teoretický obrázek.

Hlavním principem obecné teorie systémů je princip systémové integrity, což znamená zohlednění přírody včetně společnosti jako velkého a složitého systému, rozkládajícího se na subsystémy, působícího za určitých podmínek jako relativně nezávislé systémy.

Veškerou rozmanitost pojmů a přístupů v obecné teorii systémů lze s jistou mírou abstrakce rozdělit do dvou velkých tříd teorií: empiricko-intuitivní a abstraktně-deduktivní.

1. V empiricko-intuitivních koncepcích jsou za primární objekt zkoumání považovány konkrétní, skutečně existující objekty. V procesu vzestupu od konkrétního-singulárního k obecnému se formulují koncepty systému a systémové principy výzkumu na různých úrovních. Tato metoda má vnější podobnost s přechodem od individuálního k obecnému v empirickém poznání, ale za vnější podobností se skrývá určitá odlišnost. Spočívá v tom, že pokud empirická metoda vychází z uznání prvenství prvků, pak systematický přístup vychází z uznání prvenství systémů. V systémovém přístupu jsou na začátku studia systémy brány jako celistvý útvar, skládající se z mnoha prvků, spolu s jejich vazbami a vztahy, podléhajícími určitým zákonitostem; empirická metoda se omezuje na formulaci zákonitostí vyjadřujících vztah mezi prvky daného předmětu nebo dané úrovně jevů. A ačkoliv je v těchto zákonech moment obecnosti, tato obecnost však z větší části patří do úzké třídy stejnojmenných objektů.

2. V abstraktně-deduktivních koncepcích jsou abstraktní objekty – systémy charakterizované extrémně obecnými vlastnostmi a vztahy – brány jako výchozí bod výzkumu. Další sestup od extrémně obecných systémů ke stále specifičtějším je současně doprovázen formulací takových systémových principů, které platí pro konkrétně definované třídy systémů.

Empiricko-intuitivní a abstraktně-deduktivní přístupy jsou stejně legitimní, nestojí proti sobě, ale naopak jejich společné používání otevírá mimořádně velké kognitivní možnosti.

Systémová metoda umožňuje vědecky interpretovat principy organizace systémů. Objektivně existující svět působí jako svět určitých systémů. Takový systém se vyznačuje nejen přítomností vzájemně propojených složek a prvků, ale také jejich určitou uspořádaností, organizací na základě určitého souboru zákonitostí. Systémy proto nejsou chaotické, ale určitým způsobem uspořádané a organizované.

V procesu výzkumu lze samozřejmě „vzestupovat“ od prvků k integrálním systémům, stejně jako naopak – od integrálních systémů k prvkům. Ale za všech okolností nelze výzkum izolovat od systémových souvislostí a vztahů. Ignorování takových souvislostí nevyhnutelně vede k jednostranným nebo chybným závěrům. Není náhodou, že v dějinách poznání přímočarý a jednostranný mechanismus vysvětlování biologických a společenských jevů sklouzl do poloh rozpoznání prvního impulsu a duchovní podstaty.

Na základě výše uvedeného lze rozlišit následující hlavní požadavky systémové metody:

Identifikace závislosti každého prvku na jeho místě a funkcích v systému s přihlédnutím ke skutečnosti, že vlastnosti celku nejsou redukovatelné na součet vlastností jeho prvků;

Analýza, do jaké míry je chování systému dáno jak vlastnostmi jeho jednotlivých prvků, tak vlastnostmi jeho struktury;

Studium mechanismu vzájemné závislosti, interakce mezi systémem a prostředím;

Studium povahy hierarchie vlastní tomuto systému;

Zajištění množství popisů pro účely vícerozměrného pokrytí systému;

Zohlednění dynamiky systému, jeho prezentace jako rozvíjející se integrity.

Důležitým konceptem systémového přístupu je koncept „sebeorganizace“. Charakterizuje proces vytváření, reprodukce nebo zlepšování organizace komplexního, otevřeného, ​​dynamického, seberozvíjejícího se systému, jehož vazby mezi prvky nejsou rigidní, ale pravděpodobnostní. Vlastnosti sebeorganizace jsou vlastní objektům velmi odlišné povahy: živá buňka, organismus, biologická populace, lidské kolektivy.

Třída systémů schopných samoorganizace jsou otevřené a nelineární systémy. Otevřenost systému znamená přítomnost zdrojů a propadů v něm, výměnu hmoty a energie s životní prostředí. Ne každý otevřený systém se však organizuje, staví struktury, protože vše závisí na poměru dvou principů – na základě, který vytváří strukturu, a na základě, který tento princip rozptyluje, stírá.

Samoorganizující se systémy jsou v moderní vědě speciálním předmětem studia synergetiky - obecné vědecké teorie sebeorganizace, zaměřené na hledání zákonitostí evoluce otevřených nerovnovážných systémů jakéhokoli základního základu - přírodního, sociálního, kognitivní (poznávací).

V současné době nabývá systémová metoda stále většího metodologického významu při řešení přírodovědných, společensko-historických, psychologických a dalších problémů. Je široce používán téměř všemi vědami, což je způsobeno naléhavými epistemologickými a praktickými potřebami rozvoje vědy v současné fázi.

Pravděpodobnostní (statistické) metody - jedná se o metody, kterými se studuje působení souboru náhodných faktorů, vyznačujících se stabilní frekvencí, která umožňuje odhalit potřebu, která "prorazí" kumulativním působením souboru šancí.

Pravděpodobnostní metody jsou tvořeny na základě teorie pravděpodobnosti, která je často nazývána vědou o náhodnosti, a podle názoru mnoha vědců jsou pravděpodobnost a náhodnost prakticky nerozlučné. Kategorie nutnosti a nahodilosti nejsou v žádném případě zastaralé, naopak jejich role v moderní vědě nezměrně vzrostla. Jak ukázaly dějiny poznání, „teprve nyní začínáme doceňovat význam celé řady problémů spojených s nutností a náhodou“.

Pro pochopení podstaty pravděpodobnostních metod je nutné zvážit jejich základní pojmy: „dynamické vzorce“, „statistické vzorce“ a „pravděpodobnost“. Výše uvedené dva typy zákonitostí se liší povahou předpovědí, které z nich vyplývají.

V zákonech dynamického typu jsou předpovědi jednoznačné. Dynamické zákony charakterizují chování relativně izolovaných objektů, skládajících se z ne velký počet prvky, ve kterých je možné abstrahovat od řady náhodných faktorů, což umožňuje přesněji předpovídat např. v klasické mechanice.

Ve statistických zákonech nejsou předpovědi spolehlivé, ale pouze pravděpodobnostní. Tato povaha předpovědí je způsobena působením mnoha náhodných faktorů, které se odehrávají ve statistických jevech nebo hromadných událostech, například velký počet molekul v plynu, počet jedinců v populaci, počet lidí ve velkých skupinách, atd.

Statistická pravidelnost vzniká jako výsledek interakce velkého množství prvků, které tvoří objekt - systém, a proto charakterizuje ani tak chování jednotlivého prvku, jako objektu jako celku. Nutnost, která se projevuje ve statistických zákonitostech, vzniká v důsledku vzájemné kompenzace a vyvažování mnoha náhodných faktorů. „I když statistické zákonitosti mohou vést k tvrzením, jejichž míra pravděpodobnosti je tak vysoká, že hraničí s jistotou, přesto jsou výjimky v zásadě vždy možné“ .

Statistické zákony, i když nedávají jednoznačné a spolehlivé předpovědi, jsou přesto jediné možné při studiu hromadných jevů náhodné povahy. Za kombinovaným působením různých faktorů nahodilého charakteru, které prakticky nelze zachytit, odhalují statistické zákony něco stabilního, nutného, ​​opakujícího se. Slouží jako potvrzení dialektiky přechodu akcidentálního v nutné. Dynamické zákony se ukazují jako limitující případ statistických, kdy se pravděpodobnost stává prakticky jistotou.

Pravděpodobnost je pojem, který charakterizuje kvantitativní míru (stupeň) možnosti výskytu nějaké náhodné události za určitých podmínek, které se mohou mnohokrát opakovat. Jedním z hlavních úkolů teorie pravděpodobnosti je objasnění zákonitostí vznikajících při interakci velkého množství náhodných faktorů.

Pravděpodobně-statistické metody jsou široce používány při studiu hromadných jevů, zejména v takových vědních disciplínách, jako je matematická statistika, statistická fyzika, kvantová mechanika, kybernetika a synergetika.

3. Podstata pravděpodobnostně-statistických metod

Jak se využívají přístupy, myšlenky a výsledky teorie pravděpodobnosti a matematické statistiky při zpracování dat - výsledků pozorování, měření, testů, rozborů, experimentů za účelem činit prakticky důležitá rozhodnutí?

Základem je pravděpodobnostní model reálného jevu nebo procesu, tzn. matematický model, ve kterém jsou objektivní vztahy vyjádřeny pomocí teorie pravděpodobnosti. Pravděpodobnosti slouží především k popisu nejistot, které je třeba vzít v úvahu při rozhodování. To se týká jak nežádoucích příležitostí (rizik), tak atraktivních příležitostí (“šťastná šance”). Někdy je do situace záměrně vnášena náhodnost, například při losování, náhodném výběru jednotek ke kontrole, provádění loterií nebo spotřebitelských průzkumů.

Teorie pravděpodobnosti umožňuje vypočítat další pravděpodobnosti, které jsou pro výzkumníka zajímavé. Například podle pravděpodobnosti vypadnutí erbu můžete vypočítat pravděpodobnost, že při 10 hodech mincí vypadnou alespoň 3 erby. Takový výpočet je založen na pravděpodobnostním modelu, podle kterého jsou házení mincí popsány schématem nezávislých pokusů, navíc erb a mřížka jsou stejně pravděpodobné, a proto je pravděpodobnost každé z těchto událostí ½. Složitější je model, který počítá s kontrolou kvality jednotky výstupu namísto hodu mincí. Odpovídající pravděpodobnostní model je založen na předpokladu, že řízení kvality různých jednotek výroby je popsáno schématem nezávislých testů. Oproti modelu házení mincí je nutné zavést nový parametr – pravděpodobnost Rže je výrobek vadný. Model bude plně popsán, pokud se předpokládá, že všechny výrobní jednotky mají stejnou pravděpodobnost, že budou vadné. Pokud je poslední předpoklad nepravdivý, pak se počet parametrů modelu zvyšuje. Můžeme například předpokládat, že každá výrobní jednotka má svou vlastní pravděpodobnost, že bude vadná.

Pojďme diskutovat o modelu řízení kvality se společnou pravděpodobností závady pro všechny jednotky produktu R. Aby bylo možné při analýze modelu „dosáhnout čísla“, je nutné jej vyměnit R na nějakou konkrétní hodnotu. K tomu je nutné překročit rámec pravděpodobnostního modelu a obrátit se na data získaná při kontrole kvality. Matematická statistika řeší inverzní problém s ohledem na teorii pravděpodobnosti. Jeho účelem je na základě výsledků pozorování (měření, analýzy, testy, experimenty) vyvozovat závěry o pravděpodobnostech, na kterých je založen pravděpodobnostní model. Například na základě četnosti výskytu vadných výrobků během inspekce lze vyvodit závěry o pravděpodobnosti vady (viz diskuse výše s použitím Bernoulliho věty). Na základě Čebyševovy nerovnosti byly vyvozeny závěry o souladu četnosti výskytu vadných výrobků s hypotézou, že pravděpodobnost vady nabývá určité hodnoty.

Aplikace matematické statistiky je tedy založena na pravděpodobnostním modelu jevu nebo procesu. Používají se dvě paralelní řady pojmů – pojmy související s teorií (pravděpodobnostní model) a pojmy související s praxí (vzorek výsledků pozorování). Například teoretická pravděpodobnost odpovídá četnosti zjištěné ze vzorku. Matematické očekávání (teoretická řada) odpovídá výběrovému aritmetickému průměru (praktická řada). Vzorové charakteristiky jsou zpravidla odhady teoretických. Veličiny vztahující se k teoretické řadě přitom „jsou v myslích badatelů“, odkazují na svět idejí (podle starověkého řeckého filozofa Platóna) a nejsou k dispozici pro přímé měření. Výzkumníci mají k dispozici pouze selektivní data, s jejichž pomocí se snaží stanovit vlastnosti teoretického pravděpodobnostního modelu, které je zajímají.

Proč potřebujeme pravděpodobnostní model? Faktem je, že pouze s jeho pomocí je možné přenést vlastnosti zjištěné výsledky analýzy konkrétního vzorku na jiné vzorky i na celou tzv. obecnou populaci. Termín "populace" se používá k označení velké, ale konečné populace studovaných jednotek. Například o totalitě všech obyvatel Ruska nebo totalitě všech konzumentů instantní kávy v Moskvě. Účelem marketingových či sociologických průzkumů je přenést výpovědi obdržené od vzorku stovek nebo tisíců lidí na obecnou populaci několika milionů lidí. Při kontrole kvality se šarže produktů chová jako běžná populace.

Aby bylo možné přenést závěry ze vzorku na větší populaci, jsou potřeba určité předpoklady o vztahu charakteristik vzorku s charakteristikami této větší populace. Tyto předpoklady jsou založeny na vhodném pravděpodobnostním modelu.

Samozřejmě je možné zpracovávat vzorová data bez použití jednoho či druhého pravděpodobnostního modelu. Můžete například vypočítat vzorový aritmetický průměr, vypočítat frekvenci plnění určitých podmínek atd. Výsledky výpočtů se však budou vztahovat pouze na konkrétní vzorek, přenášet s jejich pomocí získané závěry do jakéhokoli jiného souboru je nesprávné. Tato činnost se někdy nazývá „analýza dat“. Ve srovnání s pravděpodobnostně-statistickými metodami má analýza dat omezenou kognitivní hodnotu.

Podstatou pravděpodobnostně-statistických metod rozhodování je tedy použití pravděpodobnostních modelů založených na odhadu a testování hypotéz pomocí výběrových charakteristik.

Zdůrazňujeme, že logika použití vzorových charakteristik pro rozhodování na základě teoretických modelů zahrnuje současné použití dvou paralelních řad konceptů, z nichž jeden odpovídá pravděpodobnostním modelům a druhý vzorovým datům. V řadě literárních zdrojů, obvykle zastaralých nebo psaných v předpisovém duchu, se bohužel nerozlišuje mezi selektivními a teoretickými charakteristikami, což vede čtenáře k zmatení a chybám při praktickém použití statistických metod.

Předchozí

Uvažovaná skupina metod je v sociologickém výzkumu nejdůležitější, tyto metody se používají téměř v každém sociologickém výzkumu, který lze považovat za skutečně vědecký. Jsou zaměřeny především na identifikaci statistických vzorců v empirických informacích, tzn. zákonitosti, které se plní „průměrně“. Ve skutečnosti je sociologie studiem „průměrného člověka“. Dalším důležitým cílem aplikace pravděpodobnostních a statistických metod v sociologii je navíc posouzení spolehlivosti vzorku. Jak velká je jistota, že vzorek dává více či méně přesné výsledky a jaká je chyba statistických závěrů?

Hlavním předmětem studia v aplikaci pravděpodobnostních a statistických metod je náhodné proměnné. Za předpokladu, že náhodná hodnota nějaké hodnoty je náhodná událost- událost, která za splnění těchto podmínek může, ale nemusí nastat. Pokud například sociolog provádí průzkumy v oblasti politických preferencí v městské ulici, pak je událost „další respondent se ukázal jako příznivec vládnoucí strany“ náhodná, pokud nic v respondentovi předem nezradilo jeho politické preference. Pokud sociolog dotazoval respondenta v blízkosti budovy Krajské dumy, pak již událost není náhodná. Charakterizuje se náhodná událost pravděpodobnost jeho nástup. Na rozdíl od klasických kombinací kostek a karet studovaných v rámci teorie pravděpodobnosti není v sociologických výzkumech tak snadné pravděpodobnost vypočítat.

Nejdůležitějším základem pro empirický odhad pravděpodobnosti je tendence frekvence k pravděpodobnosti, jestliže frekvencí rozumíme poměr, kolikrát se událost stala a kolikrát se teoreticky mohla stát. Pokud se například z 500 respondentů náhodně vybraných v ulicích města ukázalo, že 220 jsou příznivci vládnoucí strany, pak je frekvence výskytu takových respondentů 0,44. Když reprezentativní vzorek dostatečně velké velikosti dostaneme přibližnou pravděpodobnost události nebo přibližný podíl lidí, kteří mají danou vlastnost. V našem příkladu na dobře zvoleném vzorku dostáváme, že přibližně 44 % obyvatel města jsou příznivci strany u moci. Vzhledem k tomu, že nebyli dotazováni všichni občané a někteří z nich mohli během průzkumu lhát, je zde samozřejmě určitá chyba.

Podívejme se na některé problémy, které vznikají při statistické analýze empirických dat.

Odhad distribuce množství

Pokud lze určitý atribut vyjádřit kvantitativně (např. politická aktivita občana jako hodnota ukazující, kolikrát se za posledních pět let zúčastnil voleb na různých úrovních), pak může být úkolem zhodnotit zákon distribuce tohoto atributu jako náhodné veličiny. Jinými slovy, distribuční zákon ukazuje, které hodnoty hodnota nabývá častěji a které méně často a jak často / méně často. Nejčastěji se vyskytuje jak v technice a přírodě, tak ve společnosti zákon normální distribuce. Jeho vzorec a vlastnosti jsou uvedeny v jakékoli učebnici statistiky a na Obr. 10.1 ukazuje pohled na graf – jedná se o „zvonovitou“ křivku, která může být více „protažená“ směrem nahoru nebo více „rozmazaná“ podél osy hodnot náhodné veličiny. Podstatou normálního zákona je, že nejčastěji náhodná veličina nabývá hodnot blízkých nějaké „centrální“ hodnotě, tzv matematické očekávání, a čím dále od něj, tím méně často se tam hodnota "dostane".

Existuje mnoho příkladů distribucí, které lze s malou chybou brát jako normální. Zpátky v 19. století belgický vědec A. Quetelet a Angličan F. Galton dokázali, že frekvenční rozložení jakéhokoli demografického nebo antropometrického ukazatele (očekávaná délka života, výška, sňatek atd.) je charakterizováno „zvonovitým“ rozložením. Tentýž F. Galton a jeho následovníci dokázali, že psychologické rysy, například schopnosti, se také řídí normálním zákonem.

Rýže. 10.1.

Příklad

Nejvýraznější příklad normálního rozdělení v sociologii se týká sociální aktivita lidí. Podle zákona normálního rozdělení se ukazuje, že ve společnosti je obvykle asi 5–7 % sociálně aktivních lidí. Všichni tito společensky aktivní lidé chodí na shromáždění, konference, semináře atd. Přibližně stejný počet je obecně vyloučen z účasti na společenském životě. Zdá se, že většina lidí (80-90 %) je vůči politice a veřejnému životu lhostejná, ale sledují procesy, které je zajímají, ačkoliv jsou obecně politice a společnosti vzdáleni a nevykazují výraznější aktivitu . Takovým lidem chybí většina politických událostí, ale čas od času se podívají na zprávy v televizi nebo na internetu. Chodí volit i v nejdůležitějších volbách, zvláště pokud jim „hrozí bičem“ nebo „odměňují mrkví“. Členové těchto 80-90% jsou jednotlivě ze sociálně-politického hlediska téměř nepoužitelní, ale centra sociologických výzkumů mají o tyto lidi docela zájem, protože jich je hodně a jejich preference nelze ignorovat. Totéž platí pro pseudovědecké organizace, které provádějí výzkum na objednávku politiků nebo obchodních korporací. A názor „šedých mas“ na klíčové otázky spojené s předpovídáním chování mnoha tisíců a milionů lidí ve volbách, stejně jako během akutních politických událostí, s rozkolem ve společnosti a konflikty různých politických sil, není lhostejný do těchto center.

Samozřejmě ne všechny veličiny jsou rozděleny podle normálního rozdělení. Kromě toho jsou nejdůležitější v matematické statistice binomické a exponenciální rozdělení, Fisherovo-Snedekorovo, Chí-kvadrát, Studentovo rozdělení.

Hodnocení vztahu rysů

Nejjednodušší případ je, když potřebujete pouze navázat přítomnost / nepřítomnost připojení. Nejoblíbenější v této věci je metoda Chí-kvadrát. Tato metoda zaměřené na práci s kategorickými daty. Například pohlaví, rodinný stav jsou jednoznačně takové. Některá data se na první pohled zdají být číselná, ale lze je „přeměnit“ na kategorická data rozdělením rozsahu hodnot do několika menších intervalů. Například pracovní zkušenosti v továrně lze kategorizovat jako „méně než jeden rok“, „jeden až tři roky“, „tři až šest let“ a „více než šest let“.

Nechte parametr X dostupný P možné hodnoty: (x1,..., X d1), zatímco parametr Y–t možné hodnoty: (y1,..., v t) , q ij je pozorovaná frekvence výskytu páru ( X já, v j), tj. počet zjištěných výskytů takového páru. Vypočítáme teoretické četnosti, tzn. kolikrát se každá dvojice hodnot měla objevit pro absolutně ns související veličiny:

Na základě pozorovaných a teoretických četností vypočítáme hodnotu

Je také nutné vypočítat počet stupně svobody podle vzorce

kde m, n– počet kategorií shrnutých v tabulce. Navíc vybíráme úroveň významnosti. Ten vyšší spolehlivost chceme získat, tím nižší hladinu významnosti bychom měli brát. Zpravidla se volí hodnota 0,05, což znamená, že výsledkům můžeme věřit s pravděpodobností 0,95. Dále v referenčních tabulkách zjistíme kritickou hodnotu počtem stupňů volnosti a hladinou významnosti. Pokud , pak parametry X a Y považovány za nezávislé. Pokud , pak parametry X a Y- závislý. Pokud, pak je nebezpečné usuzovat, že parametry jsou závislé nebo nezávislé. V druhém případě je vhodné provést další studie.

Všimněte si také, že Chí-kvadrát test lze použít s velmi vysokou spolehlivostí pouze tehdy, když všechny teoretické frekvence nejsou pod danou prahovou hodnotou, která se obvykle považuje za rovnou 5. Nechť v je minimální teoretická frekvence. Pro v > 5 lze s jistotou použít test "Chí-kvadrát". Pro v< 5 использование критерия становится нежелательным. При v ≥ 5 вопрос остается открытым, требуется дополнительное исследование о применимости критерия "Хи-квадрат".

Uveďme příklad aplikace metody „Chí-kvadrát“. Nechť například v určitém městě proběhl průzkum mezi mladými fanoušky místních fotbalových týmů a byly získány následující výsledky (tabulka 10.1).

Předložme hypotézu o nezávislosti fotbalových preferencí mládeže města N od pohlaví respondenta na standardní hladině významnosti 0,05. Vypočítáme teoretické četnosti (tabulka 10.2).

Tabulka 10.1

Výsledky hlasování fanoušků

Tabulka 10.2

Teoretické preferenční frekvence

Například teoretická frekvence pro mladé fanoušky hvězdy je získána jako

podobně - další teoretické četnosti. Dále vypočítáme hodnotu "Chí-kvadrát":

Určíme počet stupňů volnosti. Pro a hladinu významnosti 0,05 hledáme kritickou hodnotu:

Vzhledem k tomu, a převaha je významná, je téměř jistě možné říci, že fotbalové preference chlapců a dívek města N se značně liší, s výjimkou nereprezentativního vzorku, například pokud výzkumník nezačal dostávat vzorek z různých oblastí města a omezil se na dotazování respondentů ve své čtvrti.

Obtížnější situace je, když potřebujete kvantifikovat sílu spojení. V tomto případě se často používají metody korelační analýza. Tyto metody jsou obvykle zahrnuty v pokročilých kurzech matematické statistiky.

Aproximace závislostí na bodových datech

Nechť existuje množina bodů - empirická data ( X já, Yi), i = 1, ..., P. Je potřeba aproximovat skutečnou závislost parametru v z parametru X, a také vyvinout pravidlo pro výpočet hodnoty y, když X umístěný mezi dvěma "uzly" Xi.

Existují dva zásadně odlišné přístupy k řešení problému. První je, že mezi funkcemi dané rodiny (například polynomy) je vybrána funkce, jejíž graf prochází dostupnými body. Druhý přístup „nenutí“ graf funkce procházet body. Nejoblíbenější metodou v sociologii a řadě dalších věd je metoda nejmenších čtverců patří do druhé skupiny metod.

Podstata metody nejmenších čtverců je následující. Vzhledem k rodině funkcí v(x, a 1, ..., A t) s m nedefinované poměry. Je požadováno vybrat nejisté koeficienty řešením optimalizačního problému

Minimální hodnota funkce d může sloužit jako měřítko přesnosti aproximace. Pokud je tato hodnota příliš vysoká, měla by být vybrána jiná funkční třída. v nebo rozšířit použitou třídu. Pokud například třída "polynomy stupně nejvýše 3" nedává přijatelnou přesnost, vezmeme třídu "polynomy stupně nejvýše 4" nebo dokonce "polynomy stupně nejvýše 5".

Nejčastěji se metoda používá pro rodinu „polynomy stupně ne vyššího než N":

Například kdy N= 1 je rodina lineárních funkcí s N = 2 - rodina lineárních a kvadratických funkcí, s N = 3 - rodina lineárních, kvadratických a kubických funkcí. Nechat

Pak koeficienty lineární funkce ( N= 1) jsou hledány jako řešení soustavy lineárních rovnic

Zobrazit funkční koeficienty A 0 + a 1x + a 2X 2 (N= 2) jsou hledány jako řešení systému

Ti, kteří chtějí použít tuto metodu na libovolnou hodnotu N může to udělat tím, že uvidí vzorec, podle kterého jsou redukované soustavy rovnic složeny.

Uveďme příklad aplikace metody nejmenších čtverců. Ať se číslo některé politické strany změní takto:

Je vidět, že změny velikosti strany pro různé roky se příliš neliší, což nám umožňuje aproximovat závislost lineární funkcí. Pro snazší výpočet místo proměnné X- roky - zadejte proměnnou t = x - 2010 tj. první rok počítání bude číslo považováno za "nulu". Vypočítat M 1; M 2:

Nyní vypočítáme M", M*:

Kurzy A 0, A 1 funkce y = a 0t + A 1 jsou vypočteny jako řešení soustavy rovnic

Řešením tohoto systému například podle Cramerova pravidla nebo substituční metodou získáme: A 0 = 11,12; A 1 = 3,03. Dostáváme tedy aproximaci

což umožňuje nejen operovat s jednou funkcí místo množiny empirických bodů, ale také vypočítat hodnoty funkce, které přesahují hranice výchozích dat – „předpovídat budoucnost“.

Všimněte si také, že metodu nejmenších čtverců lze použít nejen pro polynomy, ale také pro další rodiny funkcí, například pro logaritmy a exponenciály:

Stupeň spolehlivosti modelu postaveného na základě metody nejmenších čtverců lze určit na základě míry „R-squared“, neboli koeficientu determinace. Počítá se jako

Tady . Blíže R 2 až 1, tím je model adekvátnější.

Identifikace odlehlých hodnot

Odlehlá hodnota v řadě dat je anomální hodnota, která ostře vyniká v celkovém vzorku nebo celkové řadě. Například procento občanů země, kteří mají kladný vztah k určitému politikovi, nechť je v letech 2008-2013. respektive 15, 16, 12, 30, 14 a 12 %. Je snadné vidět, že jedna z hodnot se výrazně liší od všech ostatních. Rating politika v roce 2011 z nějakého důvodu prudce překročil obvyklé hodnoty, které se držely v rozmezí 12-16 %. Přítomnost odlehlých hodnot může být způsobena různými důvody:

  • 1)chyby měření;
  • 2) neobvyklý charakter vstupu(např. při analýze průměrného procenta získaných hlasů politikem; tato hodnota ve volební místnosti vojenského útvaru se může výrazně lišit od průměrné hodnoty ve městě);
  • 3) důsledek zákona(hodnoty, které se výrazně liší od ostatních, mohou být způsobeny matematickým zákonem - například v případě normálního rozdělení se do vzorku může dostat objekt s hodnotou výrazně odlišnou od průměru);
  • 4) kataklyzmata(např. během období krátké, ale akutní politické konfrontace se může úroveň politické aktivity obyvatelstva dramaticky změnit, jak se to stalo během „barevných revolucí“ v letech 2000–2005 a „arabského jara“ v roce 2011);
  • 5) kontrolní akce(pokud například politik učinil velmi oblíbené rozhodnutí v roce před studiem, tak letos může být jeho hodnocení výrazně vyšší než v jiných letech).

Mnoho metod analýzy dat je vůči odlehlým hodnotám nestabilních, takže pro jejich efektivní aplikaci je třeba data od odlehlých hodnot vyčistit. Pozoruhodným příkladem nestabilní metody je výše zmíněná metoda nejmenších čtverců. Nejjednodušší metoda pro nalezení odlehlých hodnot je založena na tzv mezikvartilní vzdálenost. Určete rozsah

kde Q m význam t- kvartil. Pokud některý člen řady nespadá do rozsahu, pak je považován za odlehlou hodnotu.

Vysvětlíme si to na příkladu. Význam kvartilů spočívá v tom, že rozdělují řadu na čtyři stejné nebo přibližně stejné skupiny: první kvartil "odděluje" levou čtvrtinu řady, seřazenou vzestupně, třetí kvartil - pravá čtvrtina řady, druhý kvartil běží uprostřed. Vysvětlete, jak hledat Q 1, a Q 3. Nechte v číselné řadě seřadit vzestupně P hodnoty. Pokud n+ 1 je tedy dělitelná 4 beze zbytku Q k esence k(P+ 1)/4. člen série. Například při dané sérii: 1, 2, 5, 6, 7, 8, 10, 11, 13, 15, 20, zde počet členů n = 11. Potom ( P+ 1)/4 = 3, tj. první kvartil Q 1 \u003d 5 - třetí člen série; 3( n+ 1)/4 = 9, tj. třetí kvartil Q:i= 13 je devátým členem řady.

Trochu obtížnější případ je kdy n+ 1 není násobkem 4. Pokud je například daná řada 2, 3, 5, 6, 7, 8, 9, 30, 32, 100, kde počet členů P= 10. Potom ( P + 1)/4 = 2,75 -

pozice mezi druhým členem řady (v2 = 3) a třetím členem řady (v3= 5). Pak vezmeme hodnotu 0,75v2 + 0,25v3 = 0,75 3 + 0,25 5 = 3,5 - to bude Q 1. 3(P+ 1)/4 = 8,25 - pozice mezi osmým členem řady (v8= 30) a devátým členem řady (v9=32). Vezmeme hodnotu 0,25v8 + 0,75v9 = 0,25 30 + + 0,75 32 = 31,5 - to bude Q 3. Existují další možnosti výpočtu Q 1 a Q 3, ale doporučuje se použít zde uvedenou možnost.

  • Přísně vzato, v praxi obvykle platí "přibližně" normální zákon - jelikož normální zákon je definován pro spojitou veličinu na celé reálné ose, mnoho reálných veličin nemůže striktně splňovat vlastnosti normálně rozdělených veličin.
  • Následov A.D. Matematické metody psychologického výzkumu. Analýza a interpretace dat: učebnice, příručka. Petrohrad: Rech, 2004, s. 49–51.
  • Pro nejdůležitější rozdělení náhodných veličin, viz například: Orlov A.I. Případová matematika: pravděpodobnost a statistika - základní fakta: učebnice. příspěvek. M.: MZ-Press, 2004.