Dystrybuanta Empiryczna: Odwrotna Definicja i Zastosowania
- Szczegóły
Zmienna losowa to taka zmienna, która przyjmuje pewną konkretną wartość w wyniku przeprowadzenia pomiaru lub eksperymentu. Na przykład, zmienną losową jest liczba oczek, która wypada na kostce do gry. Dopóki trzymamy kostkę w ręce, nie wiemy jaką wartość ta zmienna przyjmie; konkretną wartość zmienna ta przyjmuje po rzucie.
Niech [math](\Omega, F,P)[/math] będzie przestrzenią probabilistyczną, gdzie [math]F[/math] jest [math]\sigma[/math]-ciałem podzbiorów zbioru [math]\Omega[/math]. Zmienną losową nazywamy dowolną funkcję [math]X[/math], określoną na przestrzeni zdarzeń elementarnych [math]\Omega[/math], o wartościach ze zbioru liczb rzeczywistych i mierzalną względem przestrzeni [math](\Omega, F,P)[/math]. Dla zmiennej losowej ciągłej zamiast funkcji prawdopodobieństwa wprowadzamy funkcję gęstości prawdopodobieństwa.
Momenty Zmiennej Losowej
Dla zmiennej losowej można obliczyć momenty zwykłe lub centralne. Moment rzędu [math]k[/math] zmiennej losowej [math]X[/math] to wartość oczekiwana [math]k[/math]-tej potęgi tej zmiennej. Moment centralny rzędu [math]k[/math] zmiennej losowej [math]X[/math] to wartość oczekiwana [math]k[/math]-tej potęgi funkcji [math][x_i - E(x_i)][/math]. Drugi moment centralny ma swoją nazwę, wariancja. Trzeci moment centralny przydaje się do badania symetrii rozkładu. Czwarty moment centralny jest przydatny do konstrukcji miary spłaszczenia rozkładu zmiennej losowej, kurtozy.
Kwantyle
Kwantyle to wartości, które dzielą zbiór danych na równe części. Kwantyle rzędu 1/4, 2/4, 3/4 są inaczej nazywane kwartylami. Kwantyle rzędu 1/5, 2/5, 3/5, 4/5 to inaczej kwintyle. Kwantyle rzędu 1/10, 2/10, ..., 9/10 to inaczej decyle. Kwantyle rzędu 1/100, 2/100, ..., 99/100 to inaczej percentyle.
Generatory Liczb Losowych
W obliczeniach numerycznych często korzystamy z liczb „losowych”, tzn. są one wytwarzane w deterministyczny (algorytmiczny) sposób, ale sekwencja generowanych wartości ma pewne cechy losowości. W idealnym przypadku cechą tą jest nieprzewidywalność: na podstawie obserwacji dotychczasowych wartości sekwencji niemożliwe jest podanie kolejnych wartości.
Przeczytaj także: Sterowniki i usterki ASUS K52J
Stan generatora przechowywany jest na zmiennych o skończonej precyzji. Jeśli stan jest przechowywany na [math]n[/math] bitach to górną granicą na długość unikalnego ciągu liczb jest [math]2^n[/math]. Zazwyczaj unikalna sekwencja jest jednak krótsza. Wynika stąd, że generatory liczb pseudolosowych mają okres, po którym sekwencja liczb powtarza się. Istnieją generatory „prawdziwych” liczb losowych, które są osobnymi urządzeniami. Liczy przez nie dostarczane są pewnymi parametrami jakichś procesów fizycznych, przebiegających w tych urządzeniach (zależnie od producenta).
Zakładamy, że argumentami funkcji [math]f[/math] są liczby całkowite ze zbioru [math]{0, 1, ...,M-1}[/math]. Liczby m, a, c są parametrami generatora liniowego. Liczba x, od której startuje generator nazywana jest ziarnem generatora (ang. seed).
Zmienne Losowe w SciPy
Zmienne losowe w module scipy.stats są zaimplementowane jako dwie klasy: stats.rv_continuous (bazuje na niej ponad 80 typów rozkładów ciągłych zmiennych losowych) i stats.rv_discrete (bazuje na niej 10 typów rozkładów dyskretnych zmiennych losowych). Aktualną listę dostępnych rozkładów można uzyskać np.
- cdf: dystrybuanta (ang. cumulative distribution function)
- ppf: funkcja odwrotna do dystrybuanty (ang. percent point function)
- pdf: funkcja gęstości prawdopodobieństwa (ang. probability density function)
- pmf: dla rozkładów dyskretnych pdf jest zamienione na funkcję prawdopodobieństwa (ang. probability mass function)
- sf: funkcja przeżycia (ang. survival function)
- isf: funkcja odwrotna do funkcji przetrwania (ang. inverse survival function)
Zmienne losowe mogą być używane na jeden z dwóch sposobów: można podawać wszystkie parametry opisujące rozkład w każdym wywołaniu metody, albo wytworzyć obiekt reprezentujący rozkład o konkretnych parametrach (w dokumentacji scipy jest to nazywane zamrażaniem parametrów rozkładu, ang. freezing).
Pełną dokumentację każdego rozkładu mamy dostępną w postaci docstringów. Na przykład, możemy wypisać pomoc dla (centralnego) rozkładu t i sprawdzić jakie parametry on przyjmuje.
Przeczytaj także: Zastosowanie wężyków do filtra osmozy
Estymatory
Estymator jest statystyką służącą do szacowania pewnej wielkości (np. parametru) na podstawie próby losowej (np. danych eksperymentalnych). Na wykładzie poznaliśmy m.in. takie statystki jak wartość oczekiwana, wariancja i mediana, z których ostatnia jest szczególnym przypadkiem kwantylu.
Podstawowe typy generatorów liczb losowych wytwarzają liczby losowe podlegające rozkładowi jednostajnemu.
Przykłady Rozkładów
- Z oszacowań agencji wynika, że średnio 2 z 3 reklam spotyka się z pozytywnym odzewem. Akcja marketingowa obejmuje 12 reklam. Niech [math]X[/math] oznacza liczbę reklam skutecznych.
- Na egzaminie testowym jest 30 pytań. Na każde pytanie są podane cztery możliwe odpowiedzi, z czego tylko jedna jest prawdziwa. Za prawidłową odpowiedź student otrzymuje 1 punkt a za fałszywą −0,5 punktu. Próg zaliczenia wynosi 15 punktów.
- Rozkładowi Poissona podlegają zmienne losowe zliczające w jednostce czasu liczbę zdarzeń o niskim prawdopodobieństwie zajścia. Np. Lekarz pełniący dyżur w szpitalu jest wzywany do pacjentów średnio 3 razy w ciągu nocy. Załóżmy, że liczba wezwań na noc podlega rozkładowi Poissona.
Centralne Twierdzenie Graniczne
W granicy dużych [math]N[/math] rozkład zmiennej [math]X[/math] dąży do rozkładu normalnego [math]N(0,1)[/math]. Rozkład o średniej 0 i wariancji 1 (notacja [math]N(0,1)[/math]) jest nazywany rozkładem standardowym i często jest oznaczany literą [math]Z[/math]. Dokonując odpowiedniej transformacji można z rozkładu [math]Z[/math] uzyskać dowolny inny rozkład normalny.
Producent silników twierdzi, że jego silniki mają średnią moc 220 KM, a odchylenie standardowe wynosi 15 KM. Potencjalny klient testuje 100 silników. Przypomnijmy, że z CTG dla dużych liczebności próby [math]n[/math] [math]\bar x \sim N(\mu,\sigma^2/n)[/math].
Znajdźmy prawdopodobieństwo, że Z < −2,47. Wtedy rozkład [math]Y=\frac{\bar X -\mu}{\frac{s}{\sqrt{n}}}[/math] nie podlega rozkładowi normalnemu. Zobaczmy na symulacji co to zmienia.
Przeczytaj także: Odwrócona osmoza: Twój przewodnik
Dział kontroli jakości producenta silników testuje 10 egzemplarzy silnika nowego typu. Uzyskano wartość średnią 220 KM oraz odchylenie standardowe równe 15 KM. Jakie jest prawdopodobieństwo, że klient, który zamówi 100 silników, otrzyma partię, w której średnia będzie mniejsza niż 217 KM? Wykonaj obliczenia oraz symulację.
Niech [math]\xi[/math] będzie zmienną losową o rozkładzie jednostajnym na przedziale [math][0,1)[/math]. oraz niech [math]F[/math] będzie dystrybuantą interesującego nas rozkładu. Własność tę łatwo sprawdzić. Test generowanego rozkładu robimy przez porównanie dystrybuanty teoretycznej i empirycznej. Zauważmy, że nie zawsze jest łatwo wyznaczyć efektywnie [math]F^{-1}[/math] - jest tak na przykład w przypadku rozkładu normalnego.
Metoda Monte Carlo
Jeśli oznacza liczbę sukcesów w schemacie Bernoulliego prób, a prawdopodobieństwo sukcesu w pojedynczej próbie jest równe , metoda Monte Carlo obliczania całek jest szczególnie przydatna do obliczania całek wielokrotnych (w analizie matematycznej), rozwiązywania równań różniczkowych i całkowych.
Prawa Markowa i Prawo Wielkich Liczb
Zgodnie z prawem wielkich liczb wnioski o konkretnej grupie można wyciągnąć tylko na podstawie odpowiednio dużej próby. Prawa Markowa są jednym z kluczowych narzędzi w teorii procesów stochastycznych i mają głębokie związki z prawami wielkich liczb. Pozwalają one na opis zachowania procesów stochastycznych, których przyszłe wartości zależą tylko od ich bieżącego stanu, a nie od całej historii zdarzeń, które miały miejsce wcześniej.
Prawo Markowa jest oparte na założeniu, że przyszłe wartości procesu stochastycznego zależą tylko od jego bieżącego stanu i nie są zależne od stanów przeszłych. Innymi słowy, jeśli znamy bieżący stan procesu, nie jest konieczne analizowanie całej historii zdarzeń, aby przewidzieć jego przyszłe wartości. Jeśli proces stochastyczny spełnia warunek Markowa, to istnieje wiele ważnych wyników dotyczących jego zachowania. Jednym z najważniejszych jest Prawo Wielkich Liczb, które mówi, że średnia próbka z procesu Markowa zbiega się prawie na pewno do wartości oczekiwanej. Oznacza to, że jeśli mamy długi ciąg próbek z procesu Markowa, to średnia tych próbek będzie coraz bliższa wartości oczekiwanej im więcej próbek będziemy brać pod uwagę.
Prawa Markowa są również związane z pojęciem zbieżności ciągów zmiennych losowych. Zbieżność ciągu zmiennych losowych oznacza, że dla dostatecznie dużych próbek z tego ciągu ich wartości są bliskie pewnej konkretnej wartości. Jednym z najważniejszych wyników z teorii praw Markowa jest Centralne Twierdzenie Graniczne. Mówi ono, że suma dużej liczby niezależnych i identycznie rozkładających się zmiennych losowych, które spełniają warunek Markowa, zbiega do rozkładu normalnego, niezależnie od rozkładu tych zmiennych. To odkrycie ma duże znaczenie w praktyce, ponieważ rozkład normalny jest powszechnie stosowany do modelowania wielu zjawisk w ekonomii i finansach.
Prawa Markowa mają szerokie zastosowanie w praktyce zarządzania i ekonomii. Jednym z przykładów jest analiza portfeli inwestycyjnych. Procesy stochastyczne opisane przez prawa Markowa mogą być wykorzystane do modelowania ruchów cen na rynku finansowym i do konstrukcji optymalnych portfeli inwestycyjnych. Innym przykładem zastosowania Praw Markowa jest analiza procesów produkcyjnych. Procesy Markowa mogą pomóc w modelowaniu i optymalizacji procesów produkcyjnych, takich jak zarządzanie zapasami, planowanie produkcji czy prognozowanie popytu.
Ważne jest zrozumienie, że Prawa Markowa nie są jedynie abstrakcyjnymi pojęciami matematycznymi, ale mają realne zastosowanie w różnych dziedzinach zarządzania i ekonomii.
Dystrybuanta Empiryczna i Prawo Wielkich Liczb
Metoda Monte Carlo to technika używana do symulacji zjawisk probabilistycznych. Polega ona na generowaniu dużej liczby losowych próbek, na podstawie których można oszacować różne parametry i rozkłady prawdopodobieństwa. Dzięki prawu wielkich liczb możemy być pewni, że jeśli generujemy wystarczającą liczbę próbek, to średnia wartość próbek będzie bliska wartości oczekiwanej.
Dystrybuanta empiryczna to funkcja, która opisuje rozkład prawdopodobieństwa na podstawie danych empirycznych. Prawo wielkich liczb jest kluczowe przy obliczaniu dystrybuanty empirycznej. Im większa liczba próbek, tym bardziej dokładna będzie nasza estymacja rozkładu prawdopodobieństwa.
Twierdzenia teorii liczb są jednym z najważniejszych obszarów matematyki, które zajmują się badaniem własności liczb całkowitych. Dzięki prawu wielkich liczb możemy udowodnić, że pewne zależności liczb są prawdziwe w nieskończoności. Na przykład, możemy udowodnić, że średnia liczba dzielników liczby całkowitej zbliża się do nieskończoności, gdy liczba ta rośnie.
Prawo wielkich liczb jest jednym z podstawowych założeń w statystyce. Dzięki prawu wielkich liczb możemy ocenić, jak dobrze nasze estymacje odpowiadają rzeczywistości. Im większa liczba próbek, tym bardziej dokładne będą nasze szacunki.
tags: #dystrybuanta #empiryczna #odwrocona #definicja

