WIĘCEJ
INFORMACJI W: Statystyka po ludzku
Miary położenia (średnie, tendencji centralnej) w
syntetyczny sposob charakteryzują
badaną zbiorowość statystyczną. Z uwagi na swoj syntetyczny
charakter nadają się one do porownań zbiorowości w czasie i
przestrzeni.
Głowną zaletą tych miar – w odrożnieniu od wskaźnikow
struktury – jest
wyrażanie ich wielkości w liczbach mianowanych, tj. w takich
jednostkach
miary, w jakich wyrażona jest wartość danej cechy
statystycznej Klasyczną miarą położenia jest średnia arytmetyczna. Należy zaznaczyć,
iż miara ta jest dostępna tylko dla cech
mierzonych za pomocą skali prze -
działowej bądź ilorazowej. W statystyce matematycznej (zob. Wnioskowa -
nie statystyczne) istotne jest rozrożnienie średniej arytmetycznej dla proby
od średniej arytmetycznej dla populacji
generalnej m (por. [3, s. 99]).
To, z jakiego wzoru należy obliczyć średnią
arytmetyczną, zależy od tego,
czy dane zostały pogrupowane w szereg
rozdzielczy czy też nie. I tak, dla
danych niepogrupowanych średnią arytmetyczną
wyznacza się ze wzoru:
Oto przykład obliczania średniej arytmetycznej
według powyższego wzoru:
Przykład. W ankiecie dla Czytelnikow (zob. rys. 1.6) w pytaniu nr 6 poproszono
respondentow m.in. o ocenę jakości treści
niniejszego opracowania
na pięciostopniowej skali Stapela. Oto oceny
uzyskane na podstawie
piętnastu ankiet internetowych (dane umowne):
5, 4, 4, 5, 3, 4, 2, 4, 3, 5, -1, -4, 1, -2, -5
W rozbudowanym przykładzie zamieszczonym w
rozdziale pierwszym
(Trening i ewaluacja) powyższe dane uśredniono za pomocą Raportu
tabeli przestawnej (zob. aplikacja MS Excel: Przykłady – grupowanie
danych). Ponadto w programie MS Excel wśrod funkcji statystycznych
(Wstaw…, Funkcja…, a następnie określenie funkcji statystycznych)
dostępna jest wbudowana funkcja obliczająca
średnią arytmetyczną dla
danych niepogrupowanych:
ŚREDNIA(zakres_danych) Aby
tradycyjnie obliczyć średnią arytmetyczną, należy zsumować uzyskane
punkty, a następnie podzielić je przez liczbę
obserwacji, tj. n = 15 (liczba
otrzymanych ankiet):
Przeciętna liczba punktow wskazuje na pozytywną
ocenę prezentowanych
treści.
Dla danych pogrupowanych w szereg rozdzielczy punktowy oblicza się
ważoną średnią arytmetyczną według poniższego wzoru:
Przykład. Pewna szkoła prywatna ocenia swoją ofertę
edukacyjną według
sporządzonej listy kryteriow. W ankiecie
przeprowadzonej na reprezentatywnej
grupie 200 studentow zadano pytanie: Który z wymienionych czynników
jest dla Pana/Pani najistotniejszy? (tylko jedna opcja odpowiedzi):
a) cena kursu,
b) zrożnicowanie oferty edukacyjnej,
c) wiedza i umiejętności kadry dydaktycznej,
d) możliwość nauki przez Internet,
e) dogodna lokalizacja,
f) materiały dydaktyczne wliczone w cenę kursu.
Ocena oferty według każdego z powyższych
kryteriow została dokonana
przez właściciela szkoły w skali od 0 do 10. Aby
obliczyć średnią arytmetyczną
ważoną, konieczne jest wprowadzenie dodatkowej
kolumny xi ni.
Oto niezbędne obliczenia:
Na podstawie sporządzonej tabeli pomocniczej
można stosunkowo łatwo
obliczyć niezbędne sumy xi ni, a następnie
podstawić do wzoru na średnią
ważoną:
Z uwagi na dysjunktywny charakter pytania
ankiety (wymagane wskazanie
tylko jednego czynnika) liczba wskazań jest
równa liczbie respondentów
(n = 200). Uzyskana ważona ocena punktowa –
gdzie wagami ni są liczby
wskazań – sugeruje, iż oferta szkoły jest
przeciętna. W związku z tym należałoby
podjąć pewne działania zmierzające do
uczynienia tej oferty bardziej
atrakcyjną (np. poszerzenie oferty o dodatkowe
kursy).
Podstawowym błędem jest niestosowanie
odpowiedniego wzoru dla danych
pogrupowanych, tj. nieuwzględnianie wag, czyli
liczebności cząstkowych
ni. W związku z tym – zamiast dzielenia przez
liczbę wszystkich obserwacji
n (w powyższym przykładzie liczbę wskazań),
niektórzy studenci
dzielą przez liczbę wariantów k (na zasadzie
analogii do wzoru na tradycyjną
średnią). Należy więc pamiętać o uwzględnianiu
wag w przypadku danych
pogrupowanych w szereg punktowy bądź z
przedziałami klasowymi.
Dla danych pogrupowanych w szereg rozdzielczy
z przedziałami klasowy -
mi średnią arytmetyczną ważoną oblicza się wśrednią
dla szeregu punktowego, przy czym zamiast wartości xi zastosowanie
znajdują środki przedziałów klasowych:
Środki przedziałów klasowych były już wyznaczane
przy prezentacji materiału
statystycznego (zob. diagram). Stanowią one
średnią arytmetyczną
dolnej i górnej granicy przedziału klasowego.
Przykład. Inwestor rozważa zakup akcji spółki
Żywiec. W związku z tym
interesuje go przeciętna wartość tygodniowych
stóp zwrotu tych akcji, uzyskanych
w pierwszym półroczu 2006 r. (zob.
Dane_do_analizy.xls, zakładka:
Akcje). Dane pogrupowaneow szereg rozdzielczy
z przedziałami klasowymi
(zob. Przykłady – grupowanie danych). Na
podstawie pogrupowanych
danych należy wyznaczyć ważoną średnią
arytmetyczną tygodniowych
stóp zwrotu akcji spółki Żywiec. W tabeli
poniżej znajdują się niezbędne
obliczenia:
Tabela 2.6. Oczekiwana stopa zwrotu z
inwestycji w akcje spółki Żywiec (proc. tygodniowo).
I
Stopy zwrotu Liczba tygodni Środki klas
Obliczenia pomocnicze
1 –10,00 – –7,51 1 –8,75 1 ´ (–8,75) = –8,75
2 –7,50 – –5,01 1 –6,25 –6,25
3 –5,00 – –2,51 1 –3,75 –3,75
4 –2,50 – –0,01 9 –1,25 –11,25
5 0,00 – 2,49 11 1,25 13,75
6 2,50 – 4,99 1 3,75 3,75
7 5,00 – 7,50 1 6,25 6,25
S 25 –6,25
Źródło: Obliczenia własne na podstawie danych
pochodzących z Serwisu Internetowego
Gazety Parkiet,
http://www.parkiet.com/dane/dane_atxt.jsp analogiczny sposób jak
Należy wyjaśnić, iż wartość gornego przedziału klasowego
odpowiada
wartości dolnego przedziału następnej klasy (rożnice z
dokładnością do
0,01 informują, że przedziały są lewostronnie domknięte).
Przykładowo,
środek pierwszego przedziału klasowego obliczono
następująco:
Wartość średnią obliczono w oparciu o wyznaczone sumy w
powyższej tabeli:
Przeciętna tygodniowa stopa zwrotu akcji społki Żywiec
wyniosła –0,25
proc., stąd w pierwszym połroczu 2006 r. inwestycje w te
walory nie przyniosły
zyskow w dłuższym horyzoncie czasu (niewielka strata).
Wagami we wzorach na średnie ważone – oprocz liczebności ni –
mogą też
być wskaźniki struktury (frakcje – fi).
Wowczas wzory będą miały postać:
a) szereg punktowy:
b) szereg klasowy:
Przykład. Praktycznym
przykładem zastosowania pierwszego z zaprezentowanych
powyżej wzorow na średnią ważoną (szereg punktowy) jest
określenie
oczekiwanej stopy zwrotu portfela akcji. Wagami są udziały poszczegolnych
walorow. Oto sposob obliczeń:
Średnia stopa zwrotu portfela wyniosła 25,78
proc. rocznie. Jak widać,
wartość średniej została odczytana bezpośrednio
z tabeli, bez konieczności
dodatkowych obliczeń.
Ponieważ miary klasyczne dla danych
pogrupowanych w szereg rozdzielczy
punktowy oraz dla danych pogrupowanych w szereg
z przedziałami
klasowymi wyznacza się w sposob analogiczny,
stąd w dalszej części
teoretycznej będą pojawiać się przykłady
obliczeń tego typu miar dla
szeregu z przedziałami klasowymi (kontynuacja
przykładu z tygodniowymi
stopami zwrotu akcji społki Żywiec).
Jeżeli dane występują w postaci wskaźnikow natężenia, to do wyznaczenia
ich wartości przeciętnej – jak już
zasygnalizowano – stosuje się średnią
harmoniczną. Rozrożnia się średnią harmoniczną prostą oraz
ważoną (por.
[21, s. 54]):
a) średnia harmoniczna prosta:
b) średnia harmoniczna ważona:
Przykład 1. Student
postanowił przeznaczyć 300 zł na korepetycje ze statystyki.
Wybrał losowo trzech korepetytorow (n =
3), oferujących odpowiednio
ceny za godzinę korepetycji: 25 zł, 40 zł i 50 zł. U każdego
z nich
postanowił zakupić lekcje za kwotę 100 zł. Przeznaczone
kwoty pozwoliły
odpowiednio na zakup 4 godzin u pierwszego korepetytora, 2,5
godziny
u drugiego oraz 2 godzin u trzeciego (w sumie 8,5 godziny).
Ponieważ poszczegolne
kwoty są sobie rowne (po 100 zł), stąd przeciętną cenę
jednej
godziny korepetycji można obliczyć ze wzoru na prostą
średnią harmoniczną:
Przeciętna cena korepetycji to 35,29 zł/godz. Wartość tę
można uzyskać,
dzieląc łączne wydatki na korepetycje (300 zł) przez
zakupioną liczbę godzin
ogołem (8,5 godz.). Średnią harmoniczną prostą można
wyznaczyć
w Excelu, posługując się funkcją:
ŚREDNIA.HARMONICZNA(25; 40; 50)
Możliwe jest oczywiście podanie zakresu komorek, do ktorych
wpisano ceny
korepetycji (w trzech sąsiadujących wierszach lub
kolumnach).
Przykład 2. Wracając
do przykładu dotyczącego wydajności pracy (wartość
przychodow na 1 zatrudnionego): można stwierdzić, że mamy tu
do
czynienia ze średnią harmoniczną ważoną. Jako wagi ni cechy
będącej relacją
dwoch wielkości należy przyjąć wartości jej licznika – w tym
przykładzie
będą to przychody wyrażone w zł (w mianowniku występuje
liczba zatrudnionych).
Oto sposob obliczenia średniej harmonicznej ważonej:
Na podstawie obliczeń pomocniczych zawartych w
powyższej tabeli można
wyznaczyć w prosty sposob średnią harmoniczną
ważoną:
Suma wag stanowi ogolną wartość przychodow
przedsiębiorstwa (n = 70
000). Wartość średniej harmonicznej informuje,
że przeciętna wydajność
pracy w badanym przedsiębiorstwie to 1000 zł na
1 zatrudnionego.
Kolejną grupę – obok klasycznych – stanowią pozycyjne miary średnie. Ich
niewątpliwą zaletą jest to, że mogą być one – w
przeciwieństwie do średniej
arytmetycznej – wyznaczone rownież dla cech
mierzonych za pomocą
skal słabszych (zob. skala nominalna i skala porządkowa), przy czym dominantę
można określić nawet dla cechy mierzonej na
skali nominalnej. Inną
zaletą jest to, że miary te można obliczyć w
oparciu o ograniczony zbior
danych (ma to znaczenie, gdy np. skrajne
przedziały klasowe nie są domknięte).
Dominantą (modalną, modą) w zbiorze danych jakościowych
jest występujący
najczęściej i-ty wariant cechy (por. [3, s. 116-117]):
Copyright byPrzykład. Właściciel
szkoły prywatnej chce określić najistotniejszy czynnik
decydujący o atrakcyjności oferty edukacyjnej. W
tym celu poproszono
grupę losowo wybranych studentow o określenie
jednego z sześciu
sugerowanych czynnikow. Po zliczeniu odpowiedzi
okazało się, że aż 92
respondentow (wielkość proby to n = 200
studentow) wskazało na cenę
(zob. tabela 2.5). Zatem cena okazała się
czynnikiem najważniejszym.
W przypadku danych ilościowych dominantę można
wyznaczyć przy założeniu,
że rozkład cechy jest jedno- lub wielomodalny,
nie zaś amodalny
(zob. rys. 2.1). Sposob obliczania
dominanty zależy od tego czy dane pogrupowano
w szereg rozdzielczy punktowy czy też z
przedziałami klasowymi
(dominanty nie można obliczyć dla danych
niepogrupowanych).
W szeregu rozdzielczym punktowym wartość
dominanty można wskazać
od razu, tak jak w przypadku danych
jakościowych.
Przykład. Rozkład liczby kont e-mail (zob. rys. 1.18) jest rozkładem jednomodalnym
prawostronnie asymetrycznym (zob. rys. 1.18). Na podstawie
sporządzonego histogramu łatwo zauważyć, iż
najwięcej ankietowanych
internautow posiadało jedno konto e-mail.
W tym miejscu warto podkreślić, iż dominanta to
wartość cechy, a nie odpowiadająca
jej liczebność. Niejednokrotnie zamiast podania
wartości dominanty
(w tym przypadku jedno konto e-mail) zdarza się, że student podaje
liczebność (w tym przykładzie liczba
internautow).
W szeregu rozdzielczym z przedziałami klasowymi
wyznaczenie wartości
dominanty wymaga zastosowania wzoru
interpolacyjnego (zob. szacunek
statystyczny). Bardzo pomocne jest graficzne wyznaczenie dominanty.
W tym celu należy sporządzić histogram (dla rownych przedziałow klasowych
jest to histogram liczebności lub histogram częstości
względnych),
Copyright bya następnie ustalić punkt przecięcia się linii, tak jak pokazano
to na rys.
2.2:
Rysunek 2.2. Rozkład tygodniowych stóp
zwrotu akcji spółki Żywiec w I półroczu
2006 r.
Źródło: Opracowanie na podstawie danych
pochodzących z Serwisu Internetowego Gazety
Parkiet, http://www.parkiet.com/dane/dane_atxt.jsp
Po zrzutowaniu argumentow punktu, w ktorym
przecięły się wyznaczone
linie, na oś OX otrzymano wartość dominanty
(por. [3, s. 119]). Analitycznie
wielkość tę można wyznaczyć ze wzoru dla danych
pogrupowanych
w szereg rozdzielczy z rownymi przedziałami
klasowymi:
Przykład. Na podstawie danych dotyczących tygodniowych
stop zwrotu
akcji społki Żywiec należy obliczyć dominantę,
czyli najczęstszą tygodniową
stopę zwrotu. W oparciu o sporządzony histogram
(zob. rys. 2.2) nietrudno
stwierdzić, iż przedziałem dominanty jest
przedział: [0-2,5 proc.).
Do obliczenia dominanty niezbędne są następujące
informacje (zob. tabela
2.6):
Copyright by Wydawnictwo Złote Myśli &
Paweł Tatarzycki
0
2
4
6
8
10
12
-12,5 -10 -7,5 -5 -2,5 0 2,5 5 7,5 10
tygodniowe stopy zwrotu (proc.)
liczba
a) dolna granica przedziału dominanty: x0 = 0,
b) liczebność przedziału dominanty: nd = 11,
c) liczebność przedziału sąsiedniego
poprzedzającego: nd-1 = 9,
d) liczebność przedziału sąsiedniego następnego:
nd+1 = 1,
e) rozpiętość przedziału klasowego (wszystkie
przedziały są sobie rowne):
h = 2,5.
Po podstawieniu do wzoru należy pamiętać, że
otrzymaną liczbę na końcu
dodajemy do dolnej granicy (w tym przykładzie
nie ma to znaczenia, bo
wartość ta jest rowna zeru):
Zatem w pierwszym połroczu 2006 r. najczęstsza
tygodniowa stopa zysku
z akcji społki Żywiec była wielkością dodatnią
(0,42 proc.), tj. ok. 1,7 proc.
miesięcznie.
Szczegolną ostrożność przy wyznaczaniu miar
pozycyjnych, w tym dominanty,
należy zachować w przypadku szeregu
rozdzielczego z nierownymi
przedziałami klasowymi. Zwrocono już na ten fakt
uwagę przy omawianiu
wykresow statystycznych. Wracając do przykładu z
rozkładem wieku budynkow
mieszkalnych w Polsce (stan na 2002 r.): w tym
wypadku można
obliczyć dominantę na podstawie rys. 1.20. Jak stwierdzono, dominanta zawiera
się w przedziale 1971-1979 (zob. tabela 1.18). Znajduje tu zastosowanie
wzor analogiczny do wzoru na dominantę w szeregu
rozdzielczym
z rownymi przedziałami klasowymi, przy czym
pojawią się tu wskaźniki
natężenia liczebności li:
CopyrightPodstawiamy do wzoru następujące wartości:
a) dolna granica przedziału dominanty: x0 = 1971,
b) natężenie liczebności przedziału dominanty: ld = 3493,
c) natężenie liczebności przedziału sąsiedniego
poprzedzającego:
ld-1 = 1582,
d) natężenie liczebności przedziału sąsiedniego
następnego: ld+1 = 2857,
e) rozpiętość przedziału dominanty: hd = 8.
Jak wynika z obliczeń przeprowadzonych na
podstawie danych Narodowego
Spisu Powszechnego z 2002 r. – najwięcej
mieszkań w Polsce wybudowano
w 1977 r. Są to na ogoł piętrowe budynki,
wznoszone z betonowych
płyt.
W szeregach rozdzielczych z nierownymi przedziałami
klasowymi wyznaczenie
dominanty niejednokrotnie może okazać się sprawą
trudną. Podstawowy
błąd polega na nieodpowiednim sporządzeniu
histogramu (dla liczebności
zwykłych zamiast dla natężenia liczebności) i co
się z tym wiąże
niestosowaniu wzoru uwzględniającego wskaźniki
natężenia liczebności –
stąd kluczowe znaczenie ma prawidłowe
sporządzenie histogramu.
Dla danych opartych minimum na skali porządkowej
można – obok dominanty
– obliczyć kwantyle. Kwantyle to „wartości cechy badanej w zbiorowości,
ktore dzielą ją na określone części pod względem
liczby jednostek.
Części te mogą być rowne lub pozostawać do
siebie w określonych proporcjach”
[19, s. 43]. W szczegolności wśrod kwantyli wyrożnia się
percentyle (dzielące zbiorowość na 100 części), decyle (10 części) i
kwartyle (4 części). W przypadku danych indywidualnych
(niepogrupowanych) istotne jest to,
aby warianty cechy były uporządkowane rosnąco.
Ogolnie k-tym percentylem
w uporządkowanym zbiorze wartości cechy jest
taka wartość, poniżej
ktorej znajduje się k-ty procent wartości z tego
zbioru (por. [13, s. 29]):
Przykładowo, 28 percentyl (k = 0,28) dzieli
zbiorowość w ten sposob, że
28 proc. jednostek statystycznych posiada
wartości nie większe niż wartość
tego kwantyla.
W wielu sytuacjach wartość danego percentyla nie
pokrywa się z wartością
danego wyrazu w uporządkowanym rosnąco szeregu
statystycznym, lecz
z wielkością znajdującą się pomiędzy dwoma
wyrazami:
W tej sytuacji należy skorzystać z bardziej
zaawansowanego wzoru interpolacyjnego:
Pozycję percentyla ustala się analogicznie jak
numer obserwacji w pierwszym
prezentowanym wzorze na k-ty percentyl:
Jedynie w przypadku szczegolnym, gdzie pozycja
percentyla jest liczbą
całkowitą, jej wartość można wyznaczyć od razu: Pk = xi.
Medianę, będącą
drugim kwartylem (5 decylem, 50 percentylem), można
obliczyć z następujących (uproszczonych) wzorow:
a) liczba obserwacji nieparzysta:
b) liczba obserwacji parzysta:
Wielkość ta dzieli populację na dwie części. Dla parzystej
liczby obserwacji
jest to wyraz środkowy uporządkowanego ciągu (szereg
szczegołowy),
zaś dla nieparzystej liczby obserwacji – średnia
arytmetyczna z dwoch
środkowych wartości tego ciągu. Oto przykłady:
Przykład 1. Wyznaczyć
medianę i pozostałe kwartyle przeciętnej ceny jednego
metra kwadratowego mieszkania 1-pokojowego na rynku wtornym
w większych miastach Polski (zob. Dane_do_analizy.xls;
zakładka: Mieszkania).
Punktem wyjścia jest uporządkowanie danych rosnąco:
1. Poznań: 3606 zł/m2.
2. Gdańsk: 3630 zł/m2.
3. Wrocław: 4500 zł/m2.
4. Krakow: 5843 zł/m2.
5. Warszawa: 5993 zł/m2.
Z uwagi na nieparzystą liczbę danych (n = 5) – medianę
wyznacza się według
wzoru:
Wartością środkową, czyli medianą, okazała się przeciętna
cena 1 metra
kw. mieszkania 1-pokojowego we Wrocławiu. W dwoch porownywanych
miastach ceny w analogicznym okresie okazały się niższe
(Poznań,
Gdańsk), a w pozostałych dwoch – wyższe (Krakow, Warszawa).
Pozostałe kwartyle, tj. kwartyl pierwszy (dolny)
i trzeci (gorny) można wyznaczyć
z ogolnego wzoru na k-ty percentyl:
a) kwartyl pierwszy (25 percentyl):
b) kwartyl trzeci (75 percentyl):
W przypadku jednej czwartej miast objętych
analizą cena 1 metra kw. kawalerki
nie przekroczyła 3630 zł (Poznań) – w
pozostałych miastach ceny
w badanym okresie były wyższe. Analogicznie
interpretuje się kwartyl
trzeci: ceny 1 metra kw. kawalerki w 75 proc.
analizowanej zbiorowości
nie przekroczyły 5843 zł – w pozostałych 25
proc. porownywanych miast
były one wyższe (Warszawa). Analizę tę można
uogolnić na większą liczbę
miast.
Przykład 2. W pierwszym pytaniu kwestionariusza ankiety dla
Czytelnikow
(wzor kwestionariusza zaprezentowano na rys. 1.6) respondenci mieli
określić czy niniejsza publikacja pomogła im w
przygotowaniu się do egzaminu.
Dane umowne zawiera arkusz Dane_do_analizy.xls (zakładka Ankiety).
Przyjęto następujący sposob kodowania danych:
–2 – zdecydowanie nie,
–1 – raczej nie,
0 – trudno powiedzieć,
+1 – raczej tak,
+2 – zdecydowanie tak.
Należy obliczyć medianę i pierwszy kwartyl na
podstawie wybranych ankiet.
Tak jak w przykładzie poprzednim, najpierw
należy posortować odpowiedzi
rosnąco:
Copyright byNumer obserwacji i 1 2 3 4 5 6 7 8 9 10 11 12
Wartości wyrazow xi -2 -1 -1 0 0 0 1 1 1 1 2 2
Z uwagi na parzystą liczbę objętych analizą
formularzy (n = 12) – do obliczenia
mediany znajduje zastosowanie drugi z
prezentowanych wyżej wzorow:
Zatem połowa respondentow nie miała zdania (0)
lub stwierdziła, że e-book
nie był pomocny w przygotowaniu się do egzaminu
ze statystyki (-2,
-1). Jednocześnie co drugi
ankietowany przyznał, że publikacja okazała się
przydatna w zdaniu egzaminu (+1, +2). Jeśli
chodzi o kwartyl pierwszy, to
w tym przykładzie szukana wartość znajduje się
pomiędzy trzecim (i = 3)
a czwartym wyrazem uporządkowanego rosnąco ciągu
liczb:
W tej sytuacji należy posłużyć się wzorem
interpolacyjnym.
Zdaniem co czwartego Czytelnika publikacja nie
była lub raczej nie była
mu pomocna w przygotowaniu się do egzaminu.
Dane w postaci szeregu punktowego należy tak
traktować, jak dane w postaci
omowionego szeregu szczegołowego (analogiczny
sposob wyznaczania
percentyli). W programie MS Excel wbudowana jest
funkcja, ktorą
można stosować do wyznaczania wartości k-tego
percentyla dla danych
niepogrupowanych:
PERCENTYL(zakres_danych; k)
Dla danych pogrupowanych w szereg rozdzielczy z
przedziałami klasowymi
– jak już zasygnalizowano – kwartyle można
wyznaczyć graficznie poprzez
narysowanie wykresu kumulanty (zob. rys. 1.23). Poniżej przedstawiono
sposob graficznego wyznaczania wartości kwartyli (analogicznie
można wyznaczyć dowolny percentyl) dla danych
będących kontynuacją
przykładu dotyczącego tygodniowych stop zysku
cen akcji społki Żywiec:
Rysunek 2.3. Wykres kumulanty
tygodniowych stóp zwrotu akcji spółki Żywiec w I
półroczu 2006 r.
Źródło: Opracowanie na podstawie danych
pochodzących z Serwisu Internetowego Gazety
Parkiet, http://www.parkiet.com/dane/dane_atxt.jsp.
Po zrzutowaniu punktow przecięcia się pozycji
kwartyli (poziome linie
przerywane) z kumulantą – otrzyma się wartości
kwartyli (odczyt z osi
OX). Wielkości te można obliczyć, stosując wzor
interpolacyjny dla danych
pogrupowanych w szereg rozdzielczy z
przedziałami klasowymi
(uogolnienie interpolacyjnego wzoru dla danych
niepogrupowanych):
Pozycję percentyla wyznacza się natomiast ze
wzoru:
Copyright
Przy obliczaniu kwartyli najpierw należy ustalić
ich pozycje:
1. Pierwszy kwartyl to wartość cechy, dzieląca daną zbiorowość w ten sposob,
że 25 proc. jednostek przyjmuje wartości
mniejsze lub rowne tej
wartości, a pozostałe – większe; stąd pozycja
tego kwartyla wynosi
0,25×n.
2. Drugi kwartyl (mediana)
to wartość cechy, dzieląca populację na połowę
– stąd pozycja 0,5×n.
3. Trzeci kwartyl to wartość cechy, dzieląca populację w proporcji: 75
proc. jednostek przyjmuje wartości nie większe
od trzeciego kwartylu,
a pozostałe 25 proc. wartości większe – dlatego
pozycja tego kwartyla
to 0,75×n.
Następnie należy określić przedziały klasowe, w
ktorych znajdują się poszczegolne
kwartyle. Pomocne jest tu graficzne wyznaczenie
kwartyli (zob.
rys. 2.3). Niemniej jednak
przedział kwartyla można wyznaczyć bezpośrednio
z tabeli danych (zob. tabela 2.9). Jeśli suma liczebności przekroczy poziom
pozycji kwartyla, to w danym przedziale zawiera
się kwartyl, ktorego
szukamy. Oto określenie przedziału mediany
(pozycja mediany to 12,5):
Mając już określone przedziały kwartyli, w
kolejnym kroku należy określić
dolną granicę, liczebność i rozpiętość
przedziału danego kwartyla (zakładamy
tu rowne klasy). Potrzebne są także liczebności
skumulowane – do
przedziału poprzedzającego włącznie. Oto
zestawienie danych niezbędnych
do obliczenia pierwszego kwartyla:
a) pozycja pierwszego kwartyla: 6,25
b) dolna granica przedziału pierwszego kwartyla:
–2,5
c) liczebność przedziału pierwszego kwartyla: 9
d) suma liczebności trzech klas poprzedzających
przedział pierwszego
kwartyla: 3
e) rozpiętość przedziału pierwszego kwartyla:
2,5
Podstawiamy do wzoru:
Jedna czwarta tygodniowych stop zwrotu to spadki
na poziomie minimum
1,6 proc.
Copyright byA oto analogiczne dane niezbędne do wyznaczenia mediany:
a) pozycja mediany: 12,5
b) dolna granica przedziału mediany: 0
c) liczebność przedziału mediany: 11
d) suma liczebności czterech klas
poprzedzających przedział mediany: 12
e) rozpiętość przedziału mediany: 2,5
Połowa osiągniętych tygodniowych stop zysku
przekroczyła poziom 1,1
proc.
W przedziale czwartym znajduje się także trzeci
kwartyl, stąd w porownaniu
z medianą zmieni się tu tylko pozycja kwartyla:
W przypadku 25 proc. tygodni miały miejsce stopy
zysku przekraczające
1,5 proc.
Pomiędzy wyznaczonymi miarami tendencji
centralnej mogą zachodzić następujące
zależności (por. [7, s. 121]):
a) rozkład symetryczny:
b) rozkład lewostronnie asymetryczny:
c) rozkład prawostronnie asymetryczny:
Copyright
Z powyższego porownania wynika, że miary
pozycyjne są znacznie mniej
„czułe” na obserwacje nietypowe, stąd jest
postulowane ich zastosowanie
w przypadku rozkładow cechy o znacznej
asymetrii. Ponadto – jak już
wspomniano – zastosowanie tych miar nie wymaga
zaangażowania do obliczeń
wszystkich obserwacji, co jest ważne w przypadku
niedomkniętych
skrajnych przedziałow klasowych.
Średnią arytmetyczną można zastosować w
przypadku, gdy rozkład cechy
nie jest skrajnie asymetryczny czy wielomodalny.
Dużym atutem tej miary
jest jej stosunkowo proste obliczanie. Poza tym
stanowi ona podstawę do
wyznaczania innych miar klasycznych.