czwartek, 25 czerwca 2015

Miary położenia


WIĘCEJ INFORMACJI W: Statystyka po ludzku
Miary położenia (średnie, tendencji centralnej) w syntetyczny sposob charakteryzują
badaną zbiorowość statystyczną. Z uwagi na swoj syntetyczny
charakter nadają się one do porownań zbiorowości w czasie i przestrzeni.
Głowną zaletą tych miar – w odrożnieniu od wskaźnikow struktury – jest
wyrażanie ich wielkości w liczbach mianowanych, tj. w takich jednostkach
miary, w jakich wyrażona jest wartość danej cechy statystycznej Klasyczną miarą położenia jest średnia arytmetyczna. Należy zaznaczyć,
iż miara ta jest dostępna tylko dla cech mierzonych za pomocą skali prze -
działowej bądź ilorazowej. W statystyce matematycznej (zob. Wnioskowa -
nie statystyczne) istotne jest rozrożnienie średniej arytmetycznej dla proby
od średniej arytmetycznej dla populacji generalnej m (por. [3, s. 99]).
To, z jakiego wzoru należy obliczyć średnią arytmetyczną, zależy od tego,
czy dane zostały pogrupowane w szereg rozdzielczy czy też nie. I tak, dla
danych niepogrupowanych średnią arytmetyczną wyznacza się ze wzoru:
Oto przykład obliczania średniej arytmetycznej według powyższego wzoru:
Przykład. W ankiecie dla Czytelnikow (zob. rys. 1.6) w pytaniu nr 6 poproszono
respondentow m.in. o ocenę jakości treści niniejszego opracowania
na pięciostopniowej skali Stapela. Oto oceny uzyskane na podstawie
piętnastu ankiet internetowych (dane umowne):
5, 4, 4, 5, 3, 4, 2, 4, 3, 5, -1, -4, 1, -2, -5
W rozbudowanym przykładzie zamieszczonym w rozdziale pierwszym
(Trening i ewaluacja) powyższe dane uśredniono za pomocą Raportu
tabeli przestawnej (zob. aplikacja MS Excel: Przykłady – grupowanie
danych). Ponadto w programie MS Excel wśrod funkcji statystycznych
(Wstaw…, Funkcja…, a następnie określenie funkcji statystycznych)
dostępna jest wbudowana funkcja obliczająca średnią arytmetyczną dla
danych niepogrupowanych:
ŚREDNIA(zakres_danych) Aby tradycyjnie obliczyć średnią arytmetyczną, należy zsumować uzyskane
punkty, a następnie podzielić je przez liczbę obserwacji, tj. n = 15 (liczba
otrzymanych ankiet):
Przeciętna liczba punktow wskazuje na pozytywną ocenę prezentowanych
treści.
Dla danych pogrupowanych w szereg rozdzielczy punktowy oblicza się
ważoną średnią arytmetyczną według poniższego wzoru:
Przykład. Pewna szkoła prywatna ocenia swoją ofertę edukacyjną według
sporządzonej listy kryteriow. W ankiecie przeprowadzonej na reprezentatywnej
grupie 200 studentow zadano pytanie: Który z wymienionych czynników
jest dla Pana/Pani najistotniejszy? (tylko jedna opcja odpowiedzi):
a) cena kursu,
b) zrożnicowanie oferty edukacyjnej,
c) wiedza i umiejętności kadry dydaktycznej,
d) możliwość nauki przez Internet,
e) dogodna lokalizacja,
f) materiały dydaktyczne wliczone w cenę kursu.
Ocena oferty według każdego z powyższych kryteriow została dokonana
przez właściciela szkoły w skali od 0 do 10. Aby obliczyć średnią arytmetyczną
ważoną, konieczne jest wprowadzenie dodatkowej kolumny xi ni.
Oto niezbędne obliczenia:
Na podstawie sporządzonej tabeli pomocniczej można stosunkowo łatwo
obliczyć niezbędne sumy xi ni, a następnie podstawić do wzoru na średnią
ważoną:
Z uwagi na dysjunktywny charakter pytania ankiety (wymagane wskazanie
tylko jednego czynnika) liczba wskazań jest równa liczbie respondentów
(n = 200). Uzyskana ważona ocena punktowa – gdzie wagami ni są liczby
wskazań – sugeruje, iż oferta szkoły jest przeciętna. W związku z tym należałoby
podjąć pewne działania zmierzające do uczynienia tej oferty bardziej
atrakcyjną (np. poszerzenie oferty o dodatkowe kursy).
Podstawowym błędem jest niestosowanie odpowiedniego wzoru dla danych
pogrupowanych, tj. nieuwzględnianie wag, czyli liczebności cząstkowych
ni. W związku z tym – zamiast dzielenia przez liczbę wszystkich obserwacji
n (w powyższym przykładzie liczbę wskazań), niektórzy studenci
dzielą przez liczbę wariantów k (na zasadzie analogii do wzoru na tradycyjną
średnią). Należy więc pamiętać o uwzględnianiu wag w przypadku danych
pogrupowanych w szereg punktowy bądź z przedziałami klasowymi.
Dla danych pogrupowanych w szereg rozdzielczy z przedziałami klasowy -
mi średnią arytmetyczną ważoną oblicza się wśrednią dla szeregu punktowego, przy czym zamiast wartości xi zastosowanie
znajdują środki przedziałów klasowych:
Środki przedziałów klasowych były już wyznaczane przy prezentacji materiału
statystycznego (zob. diagram). Stanowią one średnią arytmetyczną
dolnej i górnej granicy przedziału klasowego.
Przykład. Inwestor rozważa zakup akcji spółki Żywiec. W związku z tym
interesuje go przeciętna wartość tygodniowych stóp zwrotu tych akcji, uzyskanych
w pierwszym półroczu 2006 r. (zob. Dane_do_analizy.xls, zakładka:
Akcje). Dane pogrupowaneow szereg rozdzielczy z przedziałami klasowymi
(zob. Przykłady – grupowanie danych). Na podstawie pogrupowanych
danych należy wyznaczyć ważoną średnią arytmetyczną tygodniowych
stóp zwrotu akcji spółki Żywiec. W tabeli poniżej znajdują się niezbędne
obliczenia:
Tabela 2.6. Oczekiwana stopa zwrotu z inwestycji w akcje spółki Żywiec (proc. tygodniowo).
I
Stopy zwrotu Liczba tygodni Środki klas Obliczenia pomocnicze
1 –10,00 – –7,51 1 –8,75 1 ´ (–8,75) = –8,75
2 –7,50 – –5,01 1 –6,25 –6,25
3 –5,00 – –2,51 1 –3,75 –3,75
4 –2,50 – –0,01 9 –1,25 –11,25
5 0,00 – 2,49 11 1,25 13,75
6 2,50 – 4,99 1 3,75 3,75
7 5,00 – 7,50 1 6,25 6,25
S 25 –6,25
Źródło: Obliczenia własne na podstawie danych pochodzących z Serwisu Internetowego
Gazety Parkiet, http://www.parkiet.com/dane/dane_atxt.jsp analogiczny sposób jak
Należy wyjaśnić, iż wartość gornego przedziału klasowego odpowiada
wartości dolnego przedziału następnej klasy (rożnice z dokładnością do
0,01 informują, że przedziały są lewostronnie domknięte). Przykładowo,
środek pierwszego przedziału klasowego obliczono następująco:
Wartość średnią obliczono w oparciu o wyznaczone sumy w powyższej tabeli:
Przeciętna tygodniowa stopa zwrotu akcji społki Żywiec wyniosła –0,25
proc., stąd w pierwszym połroczu 2006 r. inwestycje w te walory nie przyniosły
zyskow w dłuższym horyzoncie czasu (niewielka strata).
Wagami we wzorach na średnie ważone – oprocz liczebności ni – mogą też
być wskaźniki struktury (frakcje – fi). Wowczas wzory będą miały postać:
a) szereg punktowy:
b) szereg klasowy:
Przykład. Praktycznym przykładem zastosowania pierwszego z zaprezentowanych
powyżej wzorow na średnią ważoną (szereg punktowy) jest określenie
oczekiwanej stopy zwrotu portfela akcji. Wagami są udziały poszczegolnych
walorow. Oto sposob obliczeń:
Średnia stopa zwrotu portfela wyniosła 25,78 proc. rocznie. Jak widać,
wartość średniej została odczytana bezpośrednio z tabeli, bez konieczności
dodatkowych obliczeń.
Ponieważ miary klasyczne dla danych pogrupowanych w szereg rozdzielczy
punktowy oraz dla danych pogrupowanych w szereg z przedziałami
klasowymi wyznacza się w sposob analogiczny, stąd w dalszej części
teoretycznej będą pojawiać się przykłady obliczeń tego typu miar dla
szeregu z przedziałami klasowymi (kontynuacja przykładu z tygodniowymi
stopami zwrotu akcji społki Żywiec).
Jeżeli dane występują w postaci wskaźnikow natężenia, to do wyznaczenia
ich wartości przeciętnej – jak już zasygnalizowano – stosuje się średnią
harmoniczną. Rozrożnia się średnią harmoniczną prostą oraz ważoną (por.
[21, s. 54]):
a) średnia harmoniczna prosta:
b) średnia harmoniczna ważona:
Przykład 1. Student postanowił przeznaczyć 300 zł na korepetycje ze statystyki.
Wybrał losowo trzech korepetytorow (n = 3), oferujących odpowiednio
ceny za godzinę korepetycji: 25 zł, 40 zł i 50 zł. U każdego z nich
postanowił zakupić lekcje za kwotę 100 zł. Przeznaczone kwoty pozwoliły
odpowiednio na zakup 4 godzin u pierwszego korepetytora, 2,5 godziny
u drugiego oraz 2 godzin u trzeciego (w sumie 8,5 godziny). Ponieważ poszczegolne
kwoty są sobie rowne (po 100 zł), stąd przeciętną cenę jednej
godziny korepetycji można obliczyć ze wzoru na prostą średnią harmoniczną:
Przeciętna cena korepetycji to 35,29 zł/godz. Wartość tę można uzyskać,
dzieląc łączne wydatki na korepetycje (300 zł) przez zakupioną liczbę godzin
ogołem (8,5 godz.). Średnią harmoniczną prostą można wyznaczyć
w Excelu, posługując się funkcją:
ŚREDNIA.HARMONICZNA(25; 40; 50)
Możliwe jest oczywiście podanie zakresu komorek, do ktorych wpisano ceny
korepetycji (w trzech sąsiadujących wierszach lub kolumnach).
Przykład 2. Wracając do przykładu dotyczącego wydajności pracy (wartość
przychodow na 1 zatrudnionego): można stwierdzić, że mamy tu do
czynienia ze średnią harmoniczną ważoną. Jako wagi ni cechy będącej relacją
dwoch wielkości należy przyjąć wartości jej licznika – w tym przykładzie
będą to przychody wyrażone w zł (w mianowniku występuje liczba zatrudnionych).
Oto sposob obliczenia średniej harmonicznej ważonej:
Na podstawie obliczeń pomocniczych zawartych w powyższej tabeli można
wyznaczyć w prosty sposob średnią harmoniczną ważoną:
Suma wag stanowi ogolną wartość przychodow przedsiębiorstwa (n = 70
000). Wartość średniej harmonicznej informuje, że przeciętna wydajność
pracy w badanym przedsiębiorstwie to 1000 zł na 1 zatrudnionego.
Kolejną grupę – obok klasycznych – stanowią pozycyjne miary średnie. Ich
niewątpliwą zaletą jest to, że mogą być one – w przeciwieństwie do średniej
arytmetycznej – wyznaczone rownież dla cech mierzonych za pomocą
skal słabszych (zob. skala nominalna i skala porządkowa), przy czym dominantę
można określić nawet dla cechy mierzonej na skali nominalnej. Inną
zaletą jest to, że miary te można obliczyć w oparciu o ograniczony zbior
danych (ma to znaczenie, gdy np. skrajne przedziały klasowe nie są domknięte).
Dominantą (modalną, modą) w zbiorze danych jakościowych jest występujący
najczęściej i-ty wariant cechy (por. [3, s. 116-117]):
Copyright byPrzykład. Właściciel szkoły prywatnej chce określić najistotniejszy czynnik
decydujący o atrakcyjności oferty edukacyjnej. W tym celu poproszono
grupę losowo wybranych studentow o określenie jednego z sześciu
sugerowanych czynnikow. Po zliczeniu odpowiedzi okazało się, że aż 92
respondentow (wielkość proby to n = 200 studentow) wskazało na cenę
(zob. tabela 2.5). Zatem cena okazała się czynnikiem najważniejszym.
W przypadku danych ilościowych dominantę można wyznaczyć przy założeniu,
że rozkład cechy jest jedno- lub wielomodalny, nie zaś amodalny
(zob. rys. 2.1). Sposob obliczania dominanty zależy od tego czy dane pogrupowano
w szereg rozdzielczy punktowy czy też z przedziałami klasowymi
(dominanty nie można obliczyć dla danych niepogrupowanych).
W szeregu rozdzielczym punktowym wartość dominanty można wskazać
od razu, tak jak w przypadku danych jakościowych.
Przykład. Rozkład liczby kont e-mail (zob. rys. 1.18) jest rozkładem jednomodalnym
prawostronnie asymetrycznym (zob. rys. 1.18). Na podstawie
sporządzonego histogramu łatwo zauważyć, iż najwięcej ankietowanych
internautow posiadało jedno konto e-mail.
W tym miejscu warto podkreślić, iż dominanta to wartość cechy, a nie odpowiadająca
jej liczebność. Niejednokrotnie zamiast podania wartości dominanty
(w tym przypadku jedno konto e-mail) zdarza się, że student podaje
liczebność (w tym przykładzie liczba internautow).
W szeregu rozdzielczym z przedziałami klasowymi wyznaczenie wartości
dominanty wymaga zastosowania wzoru interpolacyjnego (zob. szacunek
statystyczny). Bardzo pomocne jest graficzne wyznaczenie dominanty.
W tym celu należy sporządzić histogram (dla rownych przedziałow klasowych
jest to histogram liczebności lub histogram częstości względnych),
Copyright bya następnie ustalić punkt przecięcia się linii, tak jak pokazano to na rys.
2.2:
Rysunek 2.2. Rozkład tygodniowych stóp zwrotu akcji spółki Żywiec w I półroczu
2006 r.
Źródło: Opracowanie na podstawie danych pochodzących z Serwisu Internetowego Gazety
Parkiet, http://www.parkiet.com/dane/dane_atxt.jsp
Po zrzutowaniu argumentow punktu, w ktorym przecięły się wyznaczone
linie, na oś OX otrzymano wartość dominanty (por. [3, s. 119]). Analitycznie
wielkość tę można wyznaczyć ze wzoru dla danych pogrupowanych
w szereg rozdzielczy z rownymi przedziałami klasowymi:
Przykład. Na podstawie danych dotyczących tygodniowych stop zwrotu
akcji społki Żywiec należy obliczyć dominantę, czyli najczęstszą tygodniową
stopę zwrotu. W oparciu o sporządzony histogram (zob. rys. 2.2) nietrudno
stwierdzić, iż przedziałem dominanty jest przedział: [0-2,5 proc.).
Do obliczenia dominanty niezbędne są następujące informacje (zob. tabela
2.6):
Copyright by Wydawnictwo Złote Myśli & Paweł Tatarzycki
0
2
4
6
8
10
12
-12,5 -10 -7,5 -5 -2,5 0 2,5 5 7,5 10
tygodniowe stopy zwrotu (proc.)
liczba
a) dolna granica przedziału dominanty: x0 = 0,
b) liczebność przedziału dominanty: nd = 11,
c) liczebność przedziału sąsiedniego poprzedzającego: nd-1 = 9,
d) liczebność przedziału sąsiedniego następnego: nd+1 = 1,
e) rozpiętość przedziału klasowego (wszystkie przedziały są sobie rowne):
h = 2,5.
Po podstawieniu do wzoru należy pamiętać, że otrzymaną liczbę na końcu
dodajemy do dolnej granicy (w tym przykładzie nie ma to znaczenia, bo
wartość ta jest rowna zeru):
Zatem w pierwszym połroczu 2006 r. najczęstsza tygodniowa stopa zysku
z akcji społki Żywiec była wielkością dodatnią (0,42 proc.), tj. ok. 1,7 proc.
miesięcznie.
Szczegolną ostrożność przy wyznaczaniu miar pozycyjnych, w tym dominanty,
należy zachować w przypadku szeregu rozdzielczego z nierownymi
przedziałami klasowymi. Zwrocono już na ten fakt uwagę przy omawianiu
wykresow statystycznych. Wracając do przykładu z rozkładem wieku budynkow
mieszkalnych w Polsce (stan na 2002 r.): w tym wypadku można
obliczyć dominantę na podstawie rys. 1.20. Jak stwierdzono, dominanta zawiera
się w przedziale 1971-1979 (zob. tabela 1.18). Znajduje tu zastosowanie
wzor analogiczny do wzoru na dominantę w szeregu rozdzielczym
z rownymi przedziałami klasowymi, przy czym pojawią się tu wskaźniki
natężenia liczebności li:
CopyrightPodstawiamy do wzoru następujące wartości:
a) dolna granica przedziału dominanty: x0 = 1971,
b) natężenie liczebności przedziału dominanty: ld = 3493,
c) natężenie liczebności przedziału sąsiedniego poprzedzającego:
ld-1 = 1582,
d) natężenie liczebności przedziału sąsiedniego następnego: ld+1 = 2857,
e) rozpiętość przedziału dominanty: hd = 8.
Jak wynika z obliczeń przeprowadzonych na podstawie danych Narodowego
Spisu Powszechnego z 2002 r. – najwięcej mieszkań w Polsce wybudowano
w 1977 r. Są to na ogoł piętrowe budynki, wznoszone z betonowych
płyt.
W szeregach rozdzielczych z nierownymi przedziałami klasowymi wyznaczenie
dominanty niejednokrotnie może okazać się sprawą trudną. Podstawowy
błąd polega na nieodpowiednim sporządzeniu histogramu (dla liczebności
zwykłych zamiast dla natężenia liczebności) i co się z tym wiąże
niestosowaniu wzoru uwzględniającego wskaźniki natężenia liczebności –
stąd kluczowe znaczenie ma prawidłowe sporządzenie histogramu.
Dla danych opartych minimum na skali porządkowej można – obok dominanty
– obliczyć kwantyle. Kwantyle to „wartości cechy badanej w zbiorowości,
ktore dzielą ją na określone części pod względem liczby jednostek.
Części te mogą być rowne lub pozostawać do siebie w określonych proporcjach”
[19, s. 43]. W szczegolności wśrod kwantyli wyrożnia się
percentyle (dzielące zbiorowość na 100 części), decyle (10 części) i
kwartyle (4 części). W przypadku danych indywidualnych (niepogrupowanych) istotne jest to,
aby warianty cechy były uporządkowane rosnąco. Ogolnie k-tym percentylem
w uporządkowanym zbiorze wartości cechy jest taka wartość, poniżej
ktorej znajduje się k-ty procent wartości z tego zbioru (por. [13, s. 29]):
Przykładowo, 28 percentyl (k = 0,28) dzieli zbiorowość w ten sposob, że
28 proc. jednostek statystycznych posiada wartości nie większe niż wartość
tego kwantyla.
W wielu sytuacjach wartość danego percentyla nie pokrywa się z wartością
danego wyrazu w uporządkowanym rosnąco szeregu statystycznym, lecz
z wielkością znajdującą się pomiędzy dwoma wyrazami:
W tej sytuacji należy skorzystać z bardziej zaawansowanego wzoru interpolacyjnego:
Pozycję percentyla ustala się analogicznie jak numer obserwacji w pierwszym
prezentowanym wzorze na k-ty percentyl:
Jedynie w przypadku szczegolnym, gdzie pozycja percentyla jest liczbą
całkowitą, jej wartość można wyznaczyć od razu: Pk = xi.
Medianę, będącą drugim kwartylem (5 decylem, 50 percentylem), można
obliczyć z następujących (uproszczonych) wzorow:
a) liczba obserwacji nieparzysta:
b) liczba obserwacji parzysta:
Wielkość ta dzieli populację na dwie części. Dla parzystej liczby obserwacji
jest to wyraz środkowy uporządkowanego ciągu (szereg szczegołowy),
zaś dla nieparzystej liczby obserwacji – średnia arytmetyczna z dwoch
środkowych wartości tego ciągu. Oto przykłady:
Przykład 1. Wyznaczyć medianę i pozostałe kwartyle przeciętnej ceny jednego
metra kwadratowego mieszkania 1-pokojowego na rynku wtornym
w większych miastach Polski (zob. Dane_do_analizy.xls; zakładka: Mieszkania).
Punktem wyjścia jest uporządkowanie danych rosnąco:
1. Poznań: 3606 zł/m2.
2. Gdańsk: 3630 zł/m2.
3. Wrocław: 4500 zł/m2.
4. Krakow: 5843 zł/m2.
5. Warszawa: 5993 zł/m2.
Z uwagi na nieparzystą liczbę danych (n = 5) – medianę wyznacza się według
wzoru:
Wartością środkową, czyli medianą, okazała się przeciętna cena 1 metra
kw. mieszkania 1-pokojowego we Wrocławiu. W dwoch porownywanych
miastach ceny w analogicznym okresie okazały się niższe (Poznań,
Gdańsk), a w pozostałych dwoch – wyższe (Krakow, Warszawa).
Pozostałe kwartyle, tj. kwartyl pierwszy (dolny) i trzeci (gorny) można wyznaczyć
z ogolnego wzoru na k-ty percentyl:
a) kwartyl pierwszy (25 percentyl):
b) kwartyl trzeci (75 percentyl):
W przypadku jednej czwartej miast objętych analizą cena 1 metra kw. kawalerki
nie przekroczyła 3630 zł (Poznań) – w pozostałych miastach ceny
w badanym okresie były wyższe. Analogicznie interpretuje się kwartyl
trzeci: ceny 1 metra kw. kawalerki w 75 proc. analizowanej zbiorowości
nie przekroczyły 5843 zł – w pozostałych 25 proc. porownywanych miast
były one wyższe (Warszawa). Analizę tę można uogolnić na większą liczbę
miast.
Przykład 2. W pierwszym pytaniu kwestionariusza ankiety dla Czytelnikow
(wzor kwestionariusza zaprezentowano na rys. 1.6) respondenci mieli
określić czy niniejsza publikacja pomogła im w przygotowaniu się do egzaminu.
Dane umowne zawiera arkusz Dane_do_analizy.xls (zakładka Ankiety).
Przyjęto następujący sposob kodowania danych:
–2 – zdecydowanie nie,
–1 – raczej nie,
0 – trudno powiedzieć,
+1 – raczej tak,
+2 – zdecydowanie tak.
Należy obliczyć medianę i pierwszy kwartyl na podstawie wybranych ankiet.
Tak jak w przykładzie poprzednim, najpierw należy posortować odpowiedzi
rosnąco:
Copyright byNumer obserwacji i 1 2 3 4 5 6 7 8 9 10 11 12
Wartości wyrazow xi -2 -1 -1 0 0 0 1 1 1 1 2 2
Z uwagi na parzystą liczbę objętych analizą formularzy (n = 12) – do obliczenia
mediany znajduje zastosowanie drugi z prezentowanych wyżej wzorow:
Zatem połowa respondentow nie miała zdania (0) lub stwierdziła, że e-book
nie był pomocny w przygotowaniu się do egzaminu ze statystyki (-2,
-1). Jednocześnie co drugi ankietowany przyznał, że publikacja okazała się
przydatna w zdaniu egzaminu (+1, +2). Jeśli chodzi o kwartyl pierwszy, to
w tym przykładzie szukana wartość znajduje się pomiędzy trzecim (i = 3)
a czwartym wyrazem uporządkowanego rosnąco ciągu liczb:
W tej sytuacji należy posłużyć się wzorem interpolacyjnym.
Zdaniem co czwartego Czytelnika publikacja nie była lub raczej nie była
mu pomocna w przygotowaniu się do egzaminu.
Dane w postaci szeregu punktowego należy tak traktować, jak dane w postaci
omowionego szeregu szczegołowego (analogiczny sposob wyznaczania
percentyli). W programie MS Excel wbudowana jest funkcja, ktorą
można stosować do wyznaczania wartości k-tego percentyla dla danych
niepogrupowanych:
PERCENTYL(zakres_danych; k)
Dla danych pogrupowanych w szereg rozdzielczy z przedziałami klasowymi
– jak już zasygnalizowano – kwartyle można wyznaczyć graficznie poprzez
narysowanie wykresu kumulanty (zob. rys. 1.23). Poniżej przedstawiono sposob graficznego wyznaczania wartości kwartyli (analogicznie
można wyznaczyć dowolny percentyl) dla danych będących kontynuacją
przykładu dotyczącego tygodniowych stop zysku cen akcji społki Żywiec:
Rysunek 2.3. Wykres kumulanty tygodniowych stóp zwrotu akcji spółki Żywiec w I
półroczu 2006 r.
Źródło: Opracowanie na podstawie danych pochodzących z Serwisu Internetowego Gazety
Parkiet, http://www.parkiet.com/dane/dane_atxt.jsp.
Po zrzutowaniu punktow przecięcia się pozycji kwartyli (poziome linie
przerywane) z kumulantą – otrzyma się wartości kwartyli (odczyt z osi
OX). Wielkości te można obliczyć, stosując wzor interpolacyjny dla danych
pogrupowanych w szereg rozdzielczy z przedziałami klasowymi
(uogolnienie interpolacyjnego wzoru dla danych niepogrupowanych):
Pozycję percentyla wyznacza się natomiast ze wzoru:
Copyright
Przy obliczaniu kwartyli najpierw należy ustalić ich pozycje:
1. Pierwszy kwartyl to wartość cechy, dzieląca daną zbiorowość w ten sposob,
że 25 proc. jednostek przyjmuje wartości mniejsze lub rowne tej
wartości, a pozostałe – większe; stąd pozycja tego kwartyla wynosi
0,25×n.
2. Drugi kwartyl (mediana) to wartość cechy, dzieląca populację na połowę
– stąd pozycja 0,5×n.
3. Trzeci kwartyl to wartość cechy, dzieląca populację w proporcji: 75
proc. jednostek przyjmuje wartości nie większe od trzeciego kwartylu,
a pozostałe 25 proc. wartości większe – dlatego pozycja tego kwartyla
to 0,75×n.
Następnie należy określić przedziały klasowe, w ktorych znajdują się poszczegolne
kwartyle. Pomocne jest tu graficzne wyznaczenie kwartyli (zob.
rys. 2.3). Niemniej jednak przedział kwartyla można wyznaczyć bezpośrednio
z tabeli danych (zob. tabela 2.9). Jeśli suma liczebności przekroczy poziom
pozycji kwartyla, to w danym przedziale zawiera się kwartyl, ktorego
szukamy. Oto określenie przedziału mediany (pozycja mediany to 12,5):
Mając już określone przedziały kwartyli, w kolejnym kroku należy określić
dolną granicę, liczebność i rozpiętość przedziału danego kwartyla (zakładamy
tu rowne klasy). Potrzebne są także liczebności skumulowane – do
przedziału poprzedzającego włącznie. Oto zestawienie danych niezbędnych
do obliczenia pierwszego kwartyla:
a) pozycja pierwszego kwartyla: 6,25
b) dolna granica przedziału pierwszego kwartyla: –2,5
c) liczebność przedziału pierwszego kwartyla: 9
d) suma liczebności trzech klas poprzedzających przedział pierwszego
kwartyla: 3
e) rozpiętość przedziału pierwszego kwartyla: 2,5
Podstawiamy do wzoru:
Jedna czwarta tygodniowych stop zwrotu to spadki na poziomie minimum
1,6 proc.
Copyright byA oto analogiczne dane niezbędne do wyznaczenia mediany:
a) pozycja mediany: 12,5
b) dolna granica przedziału mediany: 0
c) liczebność przedziału mediany: 11
d) suma liczebności czterech klas poprzedzających przedział mediany: 12
e) rozpiętość przedziału mediany: 2,5
Połowa osiągniętych tygodniowych stop zysku przekroczyła poziom 1,1
proc.
W przedziale czwartym znajduje się także trzeci kwartyl, stąd w porownaniu
z medianą zmieni się tu tylko pozycja kwartyla:
W przypadku 25 proc. tygodni miały miejsce stopy zysku przekraczające
1,5 proc.
Pomiędzy wyznaczonymi miarami tendencji centralnej mogą zachodzić następujące
zależności (por. [7, s. 121]):
a) rozkład symetryczny:
b) rozkład lewostronnie asymetryczny:
c) rozkład prawostronnie asymetryczny:
Copyright


Z powyższego porownania wynika, że miary pozycyjne są znacznie mniej
„czułe” na obserwacje nietypowe, stąd jest postulowane ich zastosowanie
w przypadku rozkładow cechy o znacznej asymetrii. Ponadto – jak już
wspomniano – zastosowanie tych miar nie wymaga zaangażowania do obliczeń
wszystkich obserwacji, co jest ważne w przypadku niedomkniętych
skrajnych przedziałow klasowych.
Średnią arytmetyczną można zastosować w przypadku, gdy rozkład cechy
nie jest skrajnie asymetryczny czy wielomodalny. Dużym atutem tej miary
jest jej stosunkowo proste obliczanie. Poza tym stanowi ona podstawę do

wyznaczania innych miar klasycznych.
WIĘCEJ INFORMACJI W: Statystyka po ludzku