Wnioskowanie statystyczne opiera się na rachunku
prawdopodobieństwa, a reguły tego wnioskowania określają metody wchodzące w
skład statystyki matematycznej, w tym metody estymacji (szacowania) nieznanych
parametrów strukturalnych oraz metody weryfikacji (sprawdzania) hipotez
statystycznych. Estymację przedziałową oraz weryfikację hipotez statystycznych
poprzedzono krótkim wprowadzeniem do rachunku prawdopodobieństwa, jak również
omówiono wybrane skokowe i ciągłe rozkłady prawdopodobieństwa. Rozkłady te w
większości przypadków znajdują bowiem zastosowanie w metodach wnioskowania
statystycznego.
Wybrane zagadnienia
z rachunku prawdopodobieństwa
Na wstępie należałoby zdefiniować pojęcie
prawdopodobieństwa. Prawdopodobieństwo
to „numeryczne wyrażenie szansy wystąpienia jakiegoś
zdarzenia”
[21, s. 166]. Jest to miara unormowana, tj. należąca do
przedziału
[0-1]. Jeżeli prawdopodobieństwo jest równe zeru, to wówczas
dane zdarzenie
nie wystąpi, gdy jest równe 1 – to zdarzenie jest pewne.
Natomiast
zdarzenia, dla których wartości prawdopodobieństwa należą do
zbioru (0,1)
nie są ani pewne, ani niemożliwe – przypisane im ułamki są
prawdopodobieństwem
zajścia danego zdarzenia.
Zgodnie z klasyczną definicją prawdopodobieństwa:
prawdopodobieństwo
zdarzenia losowego A – przy założeniu, że wszystkie zdarzenia
elementarne
są jednakowo możliwe – jest ilorazem liczby zdarzeń
elementarnych
sprzyjających temu zdarzeniu i liczby wszystkich zdarzeń
elementarnych Klasyczną definicję prawdopodobieństwa zdarzenia A można
wyrazić wzorem:
Oto dwa proste przykłady ilustrujące sposób obliczania
prawdopodobieństwa
zgodnie z klasyczną definicją:
Przykład 1. Gra „szczęśliwy numerek” polega na wylosowaniu
jednej liczby
spośród 49. W tej sytuacji liczba zdarzeń elementarnych
wynosi n = 49
(może zostać wylosowana liczba od 1 do 49). Tylko jedna z
nich okaże się
wygrywającą, stąd k = 1. Prawdopodobieństwo wygranej to:
Przykład 2. Wśród 200 złożonych w pewnej miejscowości
wniosków
o dotacje unijne 25 okazało się źle wypełnionych. Należy
obliczyć prawdopodobieństwo
błędnego wypełnienia wniosku. Dane:
n = 200 wniosków,
k = 25 wniosków źle wypełnionych.
Prawdopodobieństwo zdarzenia A, polegającego na wylosowaniu
wniosku
posiadającego wady, wynosi:
Rozwinięciem klasycznej definicji prawdopodobieństwa jest definicja
Rozwinięciem klasycznej definicji prawdopodobieństwa jest definicja
graficzna:
Obszar całkowity to przestrzeń zdarzeń elementarnych o
określonej jednostce
miary (długość, pole, objętość). Obszar A spełnia warunki
określone
zdarzeniem A. Przedstawiona definicja znajduje zastosowanie
np. w roz -
kładach ciągłych, gdzie pole pod tzw. funkcją gęstości
wynosi 1. W przypadku
cech ciągłych skorzystanie z klasycznej definicji
prawdopodobieństwa
jest bezzasadne, ponieważ w tej sytuacji prawdopodobieństwo
przyjęcia
określonej wartości przez zmienną losową jest równe zeru.
Trzecia, statystyczna definicja prawdopodobieństwa – zwana
też częstościową
lub frekwencyjną – mówi, że prawdopodobieństwo zdarzenia A
jest
granicą częstości tego zdarzenia, gdy liczba doświadczeń n
rośnie nieograniczenie
[19, s. 81]. Można to zapisać następująco:
Statystyczna definicja prawdopodobieństwa pozwala
przypuszczać, że
wraz ze wzrostem próby losowej frakcja (zob. wskaźnik
struktury) wyznaczona
na jej podstawie jest coraz bliższa wartości
prawdopodobieństwa
określonej według definicji częstościowej. Można tu posłużyć
się prostym
przykładem:
Przykład. Funkcja los() programu MS Excel generuje liczby z
przedziału
[0,1]. Jako nA można określić wartości mniejsze bądź równe
0,5. Im więcej
prób, tym wartości empiryczne (frakcje) będą bliższe
teoretycznej wartości
0,5 (zob. Przykłady – zbieżność prawdopodobieństwa).
Rysunek 3.1. Zbieżność prawdopodobieństwa do teoretycznej
wartości 0,5.
Źródło: Opracowanie własne.
Symulację przeprowadzono dla 10, 50 i 100 prób. Im więcej
prób, tym
różnice pomiędzy frakcjami a wartością teoretyczną 50 proc.
są coraz
mniejsze. Jest to zgodne z przedstawioną statystyczną
definicją prawdopodobieństwa.
Mając już zdefiniowane prawdopodobieństwo, możemy
sprecyzować,
czym jest zdarzenie losowe A – jest to podzbiór przestrzeni
zdarzeń elementarnych
(W), zawierający wyróżnione ze względu na daną cechę
zdarzenia
elementarne, czyli wyniki doświadczenia losowego (por. [21,
s.
167]). Nawiązując do powyższego przykładu: interesującymi
nas zdarzeniami
elementarnymi były wygenerowane za pomocą funkcji los()
liczby
nieprzekraczające 0,5. Kolejną kwestią jest algebra zdarzeń.
Na szczególną uwagę zasługuje tu
prawdopodobieństwo dopełnienia zdarzenia A (zwanego też
zdarzeniem
przeciwnym do A). Prawdopodobieństwo dopełnienia można
zapisać następująco
[1, s. 79]:
Powyższa reguła będzie stosowana przy omawianiu rozkładów
prawdopodobieństwa
(zob. Charakterystyka wybranych rozkładów prawdopodobień -
stwa).
Przykład. Należy obliczyć prawdopodobieństwo tego, że losowo
wybrany
wniosek o dotację UE został prawidłowo wypełniony, wiedząc,
że co ósmy
zawiera błędy. Oznaczamy:
P(A) – prawdopodobieństwo tego, że wniosek został źle
wypełniony.
Podstawiamy do wzoru:
Zatem prawdopodobieństwo prawidłowego wypełnienia wniosku
wynosi
7/8.
Następną ważną regułą w algebrze zdarzeń jest tzw. reguła
sumowania.
Prawdopodobieństwo sumy dwóch zdarzeń można przedstawić
następująco
[1, s. 79]:
Copyright by
Warto tu wskazać na przypadek szczególny, jakim są zdarzenia
wykluczające
się wzajemnie. W tej sytuacji brak jest części wspólnej:
stąd:
W rachunku prawdopodobieństwa istotny jest podział zdarzeń
losowych
na:
1. Zdarzenia niezależne – zajście jednego z tych zdarzeń nie
ma wpływu
na prawdopodobieństwo zajścia drugiego z nich. Oto warunek
niezależności
zdarzeń:
2. Zdarzenia zależne – prawdopodobieństwo zajścia zdarzenia
A zależy
od zajścia zdarzenia B. Można tu mówić o tzw.
prawdopodobieństwie
warunkowym zdarzenia A przy założeniu, że zaszło zdarzenie
B:
Z powyższego równania można wyprowadzić wzór na iloczyn
zdarzeń A
i B:
W przypadku gdy zdarzenia są zależne – warto posłużyć się
tzw. drzewem
stochastycznym:
Rysunek 3.2. Drzewo stochastyczne.
Źródło: Opracowanie własne.
Zdarzenia na poszczególnych „gałęziach” drzewa są parami
przeciwstawne,
stąd np.:
P(B1) + P(B2) + … + P(Bn) = 1
Na podstawie powyższego schematu można wyprowadzić ogólny
wzór na
prawdopodobieństwo całkowite:
Mając obliczone prawdopodobieństwo zajścia zdarzenia X –
można skorzystać
z tzw. wzoru Bayesa:
Wzór ten pozwala na wyznaczenie prawdopodobieństw zdarzeń
Bi, gdy
wiemy, że zaszło zdarzenie X.
Przykład. Prawdopodobieństwo zdania egzaminu ze statystyki w
pierwszym
terminie uzależnione jest od tego, czy student korzysta z
dodatkowych
form nauczania. Z badań przeprowadzonych wśród wybranej
grupy
studentów wynika, iż czterech na dziesięciu studentów
skorzystało z dodatkowych
form nauczania. Wśród tej grupy osób aż 70 proc. zdało
egzamin
w pierwszym terminie. Natomiast egzamin w pierwszym terminie
zdał tylko
co drugi student niekorzystający z dodatkowych form
nauczania. Należy
obliczyć:
a) prawdopodobieństwo zdania egzaminu ze statystyki w
pierwszym terminie,
b) prawdopodobieństwo, że losowo wybrany student, który zdał
egzamin
w pierwszym terminie korzystał z dodatkowych form nauczania.
Wprowadzamy następujące oznaczenia:
P(X) – prawdopodobieństwo zdania egzaminu ze statystyki w
pierwszym
terminie,
P(B1) – prawdopodobieństwo, że student korzystał z
dodatkowych form
nauczania,
P(B2) – prawdopodobieństwo, że student nie korzystał z
dodatkowych form
nauczania.
Dane przedstawiono na drzewie stochastycznym:
Rysunek 3.3. Drzewo stochastyczne – przykład liczbowy.
Źródło: Dane umowne.
a) obliczamy prawdopodobieństwo całkowite:
b) korzystamy ze wzoru Bayesa:
Prawdopodobieństwo zdania egzaminu w pierwszym terminie
wynosi 58
proc. Prawdopodobieństwo, że losowo wybrany student, który
zdał egzamin
w pierwszym terminie, korzystał z dodatkowych form nauczania
wynosi
48,3 proc.
To, czy zdarzenia są od siebie zależne, czy też nie, będzie
miało wpływ na
wybór rozkładu prawdopodobieństwa, a także na dobór
niektórych testów
statystycznych.
Opis struktury zbiorowości dotyczył empirycznych rozkładów
cech jakościowych
i ilościowych. W przypadku teoretycznych rozkładów
prawdopodobieństwa
można mówić o tzw. zmiennej losowej. Mianem zmiennej losowej
określa się „każdą jednoznacznie określoną funkcję
rzeczywistą wy znaczoną na zbiorze zdarzeń
elementarnych” [9, s. 88]. Zmienne losowe
dzielą się na (por. [8, s. 30]):
1. Skokowe (por. cecha skokowa) – w przypadku zmiennych
losowych
skokowych (dyskretnych) można mówić o rozkładzie masy
prawdopodobieństwa:
2. Ciągłe (por. cecha ciągła i quasi -ciągła ) – w przypadku
zmiennych losowych
ciągłych mówimy o tzw. rozkładzie gęstości
prawdopodobieństwa:
Teoretyczne rozkłady prawdopodobieństwa posiadają
syntetyczne charakterystyki
(por. [8, s. 35]):
– wartość oczekiwana (por. średnia arytmetyczna),
– wariancja bądź odchylenie standardowe (pierwiastek
kwadratowy z wariancji).
Sposób obliczania wymienionych charakterystyk zawiera
tabela:
Tabela 3.1. Podstawowe charakterystyki rozkładów zmiennych
losowych.
Zmienne losowe skokowe Zmienne losowe ciągłe
Wartość
oczekiwana
Wariancja
Źródło: Opracowanie własne na podstawie: [8, s. 35].
Copyright by Wydawnictwo Złote Myśli & Paweł Tatarzycki
( ) i i P X = x = p
( < < ) = ò ( ) =
b
a
i P a X b f x dx p
( ) å=
= =
k
i
i i E X m x p
1
( ) ò ( )
+¥
-¥
E X = m = x × f x dx
( ) ( ) å=
= = - ×
k
i
i i D X x m p
1
2 s 2 2
( ) ò( ) ( )
+¥
-¥
D2 X =s 2 = x - m 2 × f x dx
W kolejnym podrozdziale omówiono wybrane rozkłady skokowe i
ciągłe.
Należy zaznaczyć, iż charakterystyki są obliczane nie ze
wzorów prezentowanych
w tabeli 3.1, lecz ze wzorów uproszczonych.