statystyka: Wybrane zagadnienia z rachunku prawdopodobieństwa

Wnioskowanie statystyczne opiera się na rachunku prawdopodobieństwa, a reguły tego wnioskowania określają metody wchodzące w skład statystyki matematycznej, w tym metody estymacji (szacowania) nieznanych parametrów strukturalnych oraz metody weryfikacji (sprawdzania) hipotez statystycznych. Estymację przedziałową oraz weryfikację hipotez statystycznych poprzedzono krótkim wprowadzeniem do rachunku prawdopodobieństwa, jak również omówiono wybrane skokowe i ciągłe rozkłady prawdopodobieństwa. Rozkłady te w większości przypadków znajdują bowiem zastosowanie w metodach wnioskowania statystycznego.

Wybrane zagadnienia

z rachunku prawdopodobieństwa

Na wstępie należałoby zdefiniować pojęcie prawdopodobieństwa. Prawdopodobieństwo

to „numeryczne wyrażenie szansy wystąpienia jakiegoś zdarzenia”

[21, s. 166]. Jest to miara unormowana, tj. należąca do przedziału

[0-1]. Jeżeli prawdopodobieństwo jest równe zeru, to wówczas dane zdarzenie

nie wystąpi, gdy jest równe 1 – to zdarzenie jest pewne. Natomiast

zdarzenia, dla których wartości prawdopodobieństwa należą do zbioru (0,1)

nie są ani pewne, ani niemożliwe – przypisane im ułamki są prawdopodobieństwem

zajścia danego zdarzenia.

Zgodnie z klasyczną definicją prawdopodobieństwa: prawdopodobieństwo

zdarzenia losowego A – przy założeniu, że wszystkie zdarzenia elementarne

są jednakowo możliwe – jest ilorazem liczby zdarzeń elementarnych

sprzyjających temu zdarzeniu i liczby wszystkich zdarzeń elementarnych Klasyczną definicję prawdopodobieństwa zdarzenia A można

wyrazić wzorem:

Oto dwa proste przykłady ilustrujące sposób obliczania prawdopodobieństwa

zgodnie z klasyczną definicją:

Przykład 1. Gra „szczęśliwy numerek” polega na wylosowaniu jednej liczby

spośród 49. W tej sytuacji liczba zdarzeń elementarnych wynosi n = 49

(może zostać wylosowana liczba od 1 do 49). Tylko jedna z nich okaże się

wygrywającą, stąd k = 1. Prawdopodobieństwo wygranej to:

Przykład 2. Wśród 200 złożonych w pewnej miejscowości wniosków

o dotacje unijne 25 okazało się źle wypełnionych. Należy obliczyć prawdopodobieństwo

błędnego wypełnienia wniosku. Dane:

n = 200 wniosków,

k = 25 wniosków źle wypełnionych.

Prawdopodobieństwo zdarzenia A, polegającego na wylosowaniu wniosku

posiadającego wady, wynosi:
Rozwinięciem klasycznej definicji prawdopodobieństwa jest definicja

graficzna:

Obszar całkowity to przestrzeń zdarzeń elementarnych o określonej jednostce

miary (długość, pole, objętość). Obszar A spełnia warunki określone

zdarzeniem A. Przedstawiona definicja znajduje zastosowanie np. w roz -

kładach ciągłych, gdzie pole pod tzw. funkcją gęstości wynosi 1. W przypadku

cech ciągłych skorzystanie z klasycznej definicji prawdopodobieństwa

jest bezzasadne, ponieważ w tej sytuacji prawdopodobieństwo przyjęcia

określonej wartości przez zmienną losową jest równe zeru.

Trzecia, statystyczna definicja prawdopodobieństwa – zwana też częstościową

lub frekwencyjną – mówi, że prawdopodobieństwo zdarzenia A jest

granicą częstości tego zdarzenia, gdy liczba doświadczeń n rośnie nieograniczenie

[19, s. 81]. Można to zapisać następująco:

Statystyczna definicja prawdopodobieństwa pozwala przypuszczać, że

wraz ze wzrostem próby losowej frakcja (zob. wskaźnik struktury) wyznaczona

na jej podstawie jest coraz bliższa wartości prawdopodobieństwa

określonej według definicji częstościowej. Można tu posłużyć się prostym

przykładem:

Przykład. Funkcja los() programu MS Excel generuje liczby z przedziału

[0,1]. Jako nA można określić wartości mniejsze bądź równe 0,5. Im więcej

prób, tym wartości empiryczne (frakcje) będą bliższe teoretycznej wartości

0,5 (zob. Przykłady – zbieżność prawdopodobieństwa).

Rysunek 3.1. Zbieżność prawdopodobieństwa do teoretycznej wartości 0,5.

Źródło: Opracowanie własne.

Symulację przeprowadzono dla 10, 50 i 100 prób. Im więcej prób, tym

różnice pomiędzy frakcjami a wartością teoretyczną 50 proc. są coraz

mniejsze. Jest to zgodne z przedstawioną statystyczną definicją prawdopodobieństwa.

Mając już zdefiniowane prawdopodobieństwo, możemy sprecyzować,

czym jest zdarzenie losowe A – jest to podzbiór przestrzeni zdarzeń elementarnych

(W), zawierający wyróżnione ze względu na daną cechę zdarzenia

elementarne, czyli wyniki doświadczenia losowego (por. [21, s.

167]). Nawiązując do powyższego przykładu: interesującymi nas zdarzeniami

elementarnymi były wygenerowane za pomocą funkcji los() liczby

nieprzekraczające 0,5. Kolejną kwestią jest algebra zdarzeń. Na szczególną uwagę zasługuje tu

prawdopodobieństwo dopełnienia zdarzenia A (zwanego też zdarzeniem

przeciwnym do A). Prawdopodobieństwo dopełnienia można zapisać następująco

[1, s. 79]:

Powyższa reguła będzie stosowana przy omawianiu rozkładów prawdopodobieństwa

(zob. Charakterystyka wybranych rozkładów prawdopodobień -

stwa).

Przykład. Należy obliczyć prawdopodobieństwo tego, że losowo wybrany

wniosek o dotację UE został prawidłowo wypełniony, wiedząc, że co ósmy

zawiera błędy. Oznaczamy:

P(A) – prawdopodobieństwo tego, że wniosek został źle wypełniony.

Podstawiamy do wzoru:

Zatem prawdopodobieństwo prawidłowego wypełnienia wniosku wynosi

7/8.

Następną ważną regułą w algebrze zdarzeń jest tzw. reguła sumowania.

Prawdopodobieństwo sumy dwóch zdarzeń można przedstawić następująco

[1, s. 79]:

Warto tu wskazać na przypadek szczególny, jakim są zdarzenia wykluczające

się wzajemnie. W tej sytuacji brak jest części wspólnej:

stąd:

W rachunku prawdopodobieństwa istotny jest podział zdarzeń losowych

na:

1. Zdarzenia niezależne – zajście jednego z tych zdarzeń nie ma wpływu

na prawdopodobieństwo zajścia drugiego z nich. Oto warunek niezależności

zdarzeń:

2. Zdarzenia zależne – prawdopodobieństwo zajścia zdarzenia A zależy

od zajścia zdarzenia B. Można tu mówić o tzw. prawdopodobieństwie

warunkowym zdarzenia A przy założeniu, że zaszło zdarzenie B:

Z powyższego równania można wyprowadzić wzór na iloczyn zdarzeń A

i B:

W przypadku gdy zdarzenia są zależne – warto posłużyć się tzw. drzewem

stochastycznym:

Rysunek 3.2. Drzewo stochastyczne.

Źródło: Opracowanie własne.

Zdarzenia na poszczególnych „gałęziach” drzewa są parami przeciwstawne,

stąd np.:

P(B1) + P(B2) + … + P(Bn) = 1

Na podstawie powyższego schematu można wyprowadzić ogólny wzór na

prawdopodobieństwo całkowite:

Mając obliczone prawdopodobieństwo zajścia zdarzenia X – można skorzystać

z tzw. wzoru Bayesa:

Wzór ten pozwala na wyznaczenie prawdopodobieństw zdarzeń Bi, gdy

wiemy, że zaszło zdarzenie X.

Przykład. Prawdopodobieństwo zdania egzaminu ze statystyki w pierwszym

terminie uzależnione jest od tego, czy student korzysta z dodatkowych

form nauczania. Z badań przeprowadzonych wśród wybranej grupy

studentów wynika, iż czterech na dziesięciu studentów skorzystało z dodatkowych

form nauczania. Wśród tej grupy osób aż 70 proc. zdało egzamin

w pierwszym terminie. Natomiast egzamin w pierwszym terminie zdał tylko

co drugi student niekorzystający z dodatkowych form nauczania. Należy

obliczyć:

a) prawdopodobieństwo zdania egzaminu ze statystyki w pierwszym terminie,

b) prawdopodobieństwo, że losowo wybrany student, który zdał egzamin

w pierwszym terminie korzystał z dodatkowych form nauczania.

Wprowadzamy następujące oznaczenia:

P(X) – prawdopodobieństwo zdania egzaminu ze statystyki w pierwszym

terminie,

P(B1) – prawdopodobieństwo, że student korzystał z dodatkowych form

nauczania,

P(B2) – prawdopodobieństwo, że student nie korzystał z dodatkowych form

nauczania.

Dane przedstawiono na drzewie stochastycznym:

Rysunek 3.3. Drzewo stochastyczne – przykład liczbowy.

Źródło: Dane umowne.

a) obliczamy prawdopodobieństwo całkowite:

b) korzystamy ze wzoru Bayesa:

Prawdopodobieństwo zdania egzaminu w pierwszym terminie wynosi 58

proc. Prawdopodobieństwo, że losowo wybrany student, który zdał egzamin

w pierwszym terminie, korzystał z dodatkowych form nauczania wynosi

48,3 proc.

To, czy zdarzenia są od siebie zależne, czy też nie, będzie miało wpływ na

wybór rozkładu prawdopodobieństwa, a także na dobór niektórych testów

statystycznych.

Opis struktury zbiorowości dotyczył empirycznych rozkładów cech jakościowych

i ilościowych. W przypadku teoretycznych rozkładów prawdopodobieństwa

można mówić o tzw. zmiennej losowej. Mianem zmiennej losowej

określa się „każdą jednoznacznie określoną funkcję rzeczywistą wy znaczoną na zbiorze zdarzeń elementarnych” [9, s. 88]. Zmienne losowe

dzielą się na (por. [8, s. 30]):

1. Skokowe (por. cecha skokowa) – w przypadku zmiennych losowych

skokowych (dyskretnych) można mówić o rozkładzie masy prawdopodobieństwa:

2. Ciągłe (por. cecha ciągła i quasi -ciągła ) – w przypadku zmiennych losowych

ciągłych mówimy o tzw. rozkładzie gęstości prawdopodobieństwa:

Teoretyczne rozkłady prawdopodobieństwa posiadają syntetyczne charakterystyki

(por. [8, s. 35]):

– wartość oczekiwana (por. średnia arytmetyczna),

– wariancja bądź odchylenie standardowe (pierwiastek kwadratowy z wariancji).

Sposób obliczania wymienionych charakterystyk zawiera tabela:

Tabela 3.1. Podstawowe charakterystyki rozkładów zmiennych losowych.

Zmienne losowe skokowe Zmienne losowe ciągłe

Wartość

oczekiwana

Wariancja

Źródło: Opracowanie własne na podstawie: [8, s. 35].

( ) i i P X = x = p

( < < ) = ò ( ) =

i P a X b f x dx p

( ) å=

= =

i i E X m x p

( ) ò ( )

+¥

-¥

E X = m = x × f x dx

( ) ( ) å=

= = - ×

i i D X x m p

2 s 2 2

( ) ò( ) ( )

+¥

-¥

D2 X =s 2 = x - m 2 × f x dx

W kolejnym podrozdziale omówiono wybrane rozkłady skokowe i ciągłe.

Należy zaznaczyć, iż charakterystyki są obliczane nie ze wzorów prezentowanych

w tabeli 3.1, lecz ze wzorów uproszczonych.

poniedziałek, 28 września 2015

Wybrane zagadnienia z rachunku prawdopodobieństwa