poniedziałek, 28 września 2015

Wybrane zagadnienia z rachunku prawdopodobieństwa

Wnioskowanie statystyczne opiera się na rachunku prawdopodobieństwa, a reguły tego wnioskowania określają metody wchodzące w skład statystyki matematycznej, w tym metody estymacji (szacowania) nieznanych parametrów strukturalnych oraz metody weryfikacji (sprawdzania) hipotez statystycznych. Estymację przedziałową oraz weryfikację hipotez statystycznych poprzedzono krótkim wprowadzeniem do rachunku prawdopodobieństwa, jak również omówiono wybrane skokowe i ciągłe rozkłady prawdopodobieństwa. Rozkłady te w większości przypadków znajdują bowiem zastosowanie w metodach wnioskowania statystycznego.



Wybrane zagadnienia
z rachunku prawdopodobieństwa
Na wstępie należałoby zdefiniować pojęcie prawdopodobieństwa. Prawdopodobieństwo
to „numeryczne wyrażenie szansy wystąpienia jakiegoś zdarzenia”
[21, s. 166]. Jest to miara unormowana, tj. należąca do przedziału
[0-1]. Jeżeli prawdopodobieństwo jest równe zeru, to wówczas dane zdarzenie
nie wystąpi, gdy jest równe 1 – to zdarzenie jest pewne. Natomiast
zdarzenia, dla których wartości prawdopodobieństwa należą do zbioru (0,1)
nie są ani pewne, ani niemożliwe – przypisane im ułamki są prawdopodobieństwem
zajścia danego zdarzenia.
Zgodnie z klasyczną definicją prawdopodobieństwa: prawdopodobieństwo
zdarzenia losowego A – przy założeniu, że wszystkie zdarzenia elementarne
są jednakowo możliwe – jest ilorazem liczby zdarzeń elementarnych
sprzyjających temu zdarzeniu i liczby wszystkich zdarzeń elementarnych Klasyczną definicję prawdopodobieństwa zdarzenia A można
wyrazić wzorem:
Oto dwa proste przykłady ilustrujące sposób obliczania prawdopodobieństwa
zgodnie z klasyczną definicją:
Przykład 1. Gra „szczęśliwy numerek” polega na wylosowaniu jednej liczby
spośród 49. W tej sytuacji liczba zdarzeń elementarnych wynosi n = 49
(może zostać wylosowana liczba od 1 do 49). Tylko jedna z nich okaże się
wygrywającą, stąd k = 1. Prawdopodobieństwo wygranej to:
Przykład 2. Wśród 200 złożonych w pewnej miejscowości wniosków
o dotacje unijne 25 okazało się źle wypełnionych. Należy obliczyć prawdopodobieństwo
błędnego wypełnienia wniosku. Dane:
n = 200 wniosków,
k = 25 wniosków źle wypełnionych.
Prawdopodobieństwo zdarzenia A, polegającego na wylosowaniu wniosku
posiadającego wady, wynosi:
Rozwinięciem klasycznej definicji prawdopodobieństwa jest definicja
graficzna:
Obszar całkowity to przestrzeń zdarzeń elementarnych o określonej jednostce
miary (długość, pole, objętość). Obszar A spełnia warunki określone
zdarzeniem A. Przedstawiona definicja znajduje zastosowanie np. w roz -
kładach ciągłych, gdzie pole pod tzw. funkcją gęstości wynosi 1. W przypadku
cech ciągłych skorzystanie z klasycznej definicji prawdopodobieństwa
jest bezzasadne, ponieważ w tej sytuacji prawdopodobieństwo przyjęcia
określonej wartości przez zmienną losową jest równe zeru.
Trzecia, statystyczna definicja prawdopodobieństwa – zwana też częstościową
lub frekwencyjną – mówi, że prawdopodobieństwo zdarzenia A jest
granicą częstości tego zdarzenia, gdy liczba doświadczeń n rośnie nieograniczenie
[19, s. 81]. Można to zapisać następująco:
Statystyczna definicja prawdopodobieństwa pozwala przypuszczać, że
wraz ze wzrostem próby losowej frakcja (zob. wskaźnik struktury) wyznaczona
na jej podstawie jest coraz bliższa wartości prawdopodobieństwa
określonej według definicji częstościowej. Można tu posłużyć się prostym
przykładem:
Przykład. Funkcja los() programu MS Excel generuje liczby z przedziału
[0,1]. Jako nA można określić wartości mniejsze bądź równe 0,5. Im więcej
prób, tym wartości empiryczne (frakcje) będą bliższe teoretycznej wartości
0,5 (zob. Przykłady – zbieżność prawdopodobieństwa).
Rysunek 3.1. Zbieżność prawdopodobieństwa do teoretycznej wartości 0,5.
Źródło: Opracowanie własne.
Symulację przeprowadzono dla 10, 50 i 100 prób. Im więcej prób, tym
różnice pomiędzy frakcjami a wartością teoretyczną 50 proc. są coraz
mniejsze. Jest to zgodne z przedstawioną statystyczną definicją prawdopodobieństwa.
Mając już zdefiniowane prawdopodobieństwo, możemy sprecyzować,
czym jest zdarzenie losowe A – jest to podzbiór przestrzeni zdarzeń elementarnych
(W), zawierający wyróżnione ze względu na daną cechę zdarzenia
elementarne, czyli wyniki doświadczenia losowego (por. [21, s.
167]). Nawiązując do powyższego przykładu: interesującymi nas zdarzeniami
elementarnymi były wygenerowane za pomocą funkcji los() liczby
nieprzekraczające 0,5. Kolejną kwestią jest algebra zdarzeń. Na szczególną uwagę zasługuje tu
prawdopodobieństwo dopełnienia zdarzenia A (zwanego też zdarzeniem
przeciwnym do A). Prawdopodobieństwo dopełnienia można zapisać następująco
[1, s. 79]:
Powyższa reguła będzie stosowana przy omawianiu rozkładów prawdopodobieństwa
(zob. Charakterystyka wybranych rozkładów prawdopodobień -
stwa).
Przykład. Należy obliczyć prawdopodobieństwo tego, że losowo wybrany
wniosek o dotację UE został prawidłowo wypełniony, wiedząc, że co ósmy
zawiera błędy. Oznaczamy:
P(A) – prawdopodobieństwo tego, że wniosek został źle wypełniony.
Podstawiamy do wzoru:
Zatem prawdopodobieństwo prawidłowego wypełnienia wniosku wynosi
7/8.
Następną ważną regułą w algebrze zdarzeń jest tzw. reguła sumowania.
Prawdopodobieństwo sumy dwóch zdarzeń można przedstawić następująco
[1, s. 79]:
Copyright by
Warto tu wskazać na przypadek szczególny, jakim są zdarzenia wykluczające
się wzajemnie. W tej sytuacji brak jest części wspólnej:
stąd:
W rachunku prawdopodobieństwa istotny jest podział zdarzeń losowych
na:
1. Zdarzenia niezależne – zajście jednego z tych zdarzeń nie ma wpływu
na prawdopodobieństwo zajścia drugiego z nich. Oto warunek niezależności
zdarzeń:
2. Zdarzenia zależne – prawdopodobieństwo zajścia zdarzenia A zależy
od zajścia zdarzenia B. Można tu mówić o tzw. prawdopodobieństwie
warunkowym zdarzenia A przy założeniu, że zaszło zdarzenie B:
Z powyższego równania można wyprowadzić wzór na iloczyn zdarzeń A
i B:
W przypadku gdy zdarzenia są zależne – warto posłużyć się tzw. drzewem
stochastycznym:
Rysunek 3.2. Drzewo stochastyczne.
Źródło: Opracowanie własne.
Zdarzenia na poszczególnych „gałęziach” drzewa są parami przeciwstawne,
stąd np.:
P(B1) + P(B2) + … + P(Bn) = 1
Na podstawie powyższego schematu można wyprowadzić ogólny wzór na
prawdopodobieństwo całkowite:
Mając obliczone prawdopodobieństwo zajścia zdarzenia X – można skorzystać
z tzw. wzoru Bayesa:
Wzór ten pozwala na wyznaczenie prawdopodobieństw zdarzeń Bi, gdy
wiemy, że zaszło zdarzenie X.
Przykład. Prawdopodobieństwo zdania egzaminu ze statystyki w pierwszym
terminie uzależnione jest od tego, czy student korzysta z dodatkowych
form nauczania. Z badań przeprowadzonych wśród wybranej grupy
studentów wynika, iż czterech na dziesięciu studentów skorzystało z dodatkowych
form nauczania. Wśród tej grupy osób aż 70 proc. zdało egzamin
w pierwszym terminie. Natomiast egzamin w pierwszym terminie zdał tylko
co drugi student niekorzystający z dodatkowych form nauczania. Należy
obliczyć:
a) prawdopodobieństwo zdania egzaminu ze statystyki w pierwszym terminie,
b) prawdopodobieństwo, że losowo wybrany student, który zdał egzamin
w pierwszym terminie korzystał z dodatkowych form nauczania.
Wprowadzamy następujące oznaczenia:
P(X) – prawdopodobieństwo zdania egzaminu ze statystyki w pierwszym
terminie,
P(B1) – prawdopodobieństwo, że student korzystał z dodatkowych form
nauczania,
P(B2) – prawdopodobieństwo, że student nie korzystał z dodatkowych form
nauczania.
Dane przedstawiono na drzewie stochastycznym:
Rysunek 3.3. Drzewo stochastyczne – przykład liczbowy.
Źródło: Dane umowne.
a) obliczamy prawdopodobieństwo całkowite:
b) korzystamy ze wzoru Bayesa:
Prawdopodobieństwo zdania egzaminu w pierwszym terminie wynosi 58
proc. Prawdopodobieństwo, że losowo wybrany student, który zdał egzamin
w pierwszym terminie, korzystał z dodatkowych form nauczania wynosi
48,3 proc.
To, czy zdarzenia są od siebie zależne, czy też nie, będzie miało wpływ na
wybór rozkładu prawdopodobieństwa, a także na dobór niektórych testów
statystycznych.
Opis struktury zbiorowości dotyczył empirycznych rozkładów cech jakościowych
i ilościowych. W przypadku teoretycznych rozkładów prawdopodobieństwa
można mówić o tzw. zmiennej losowej. Mianem zmiennej losowej
określa się „każdą jednoznacznie określoną funkcję rzeczywistą wy znaczoną na zbiorze zdarzeń elementarnych” [9, s. 88]. Zmienne losowe
dzielą się na (por. [8, s. 30]):
1. Skokowe (por. cecha skokowa) – w przypadku zmiennych losowych
skokowych (dyskretnych) można mówić o rozkładzie masy prawdopodobieństwa:
2. Ciągłe (por. cecha ciągła i quasi -ciągła ) – w przypadku zmiennych losowych
ciągłych mówimy o tzw. rozkładzie gęstości prawdopodobieństwa:
Teoretyczne rozkłady prawdopodobieństwa posiadają syntetyczne charakterystyki
(por. [8, s. 35]):
– wartość oczekiwana (por. średnia arytmetyczna),
– wariancja bądź odchylenie standardowe (pierwiastek kwadratowy z wariancji).
Sposób obliczania wymienionych charakterystyk zawiera tabela:
Tabela 3.1. Podstawowe charakterystyki rozkładów zmiennych losowych.
Zmienne losowe skokowe Zmienne losowe ciągłe
Wartość
oczekiwana
Wariancja
Źródło: Opracowanie własne na podstawie: [8, s. 35].
Copyright by Wydawnictwo Złote Myśli & Paweł Tatarzycki
( ) i i P X = x = p
( < < ) = ò ( ) =
b
a
i P a X b f x dx p
( ) å=
= =
k
i
i i E X m x p
1
( ) ò ( )
E X = m = x × f x dx
( ) ( ) å=
= = - ×
k
i
i i D X x m p
1
2 s 2 2
( ) ò( ) ( )
D2 X =s 2 = x - m 2 × f x dx
W kolejnym podrozdziale omówiono wybrane rozkłady skokowe i ciągłe.
Należy zaznaczyć, iż charakterystyki są obliczane nie ze wzorów prezentowanych

w tabeli 3.1, lecz ze wzorów uproszczonych.