Rozkład prawdopodobieństwa

Rozkład prawdopodobieństwa – miara probabilistyczna określona na zbiorze wartości pewnej zmiennej losowej (wektora losowego), przypisująca prawdopodobieństwa wartościom tej zmiennej^[1]. Formalnie rozkład prawdopodobieństwa można rozpatrywać bez odwołania się do zmiennych losowych.

Definicja formalna

Rozkład prawdopodobieństwa – to miara probabilistyczna $P$ określona na σ-ciele podzbiorów borelowskich pewnej przestrzeni polskiej $Y.$ Dla rozkładów ciągłych jako przestrzeń polską wybiera się:

zbiór liczb rzeczywistych $\mathbb {R}$ (dla 1-wymiarowej zmiennej losowej),
przestrzeń euklidesowa $\mathbb {R} ^{n}$ (dla n-wymiarowej zmiennej losowej).

Rozkład prawdopodobieństwa nazywamy jednowymiarowym, jeżeli zmienna losowa jest 1-wymiarowa, a wielowymiarowym, jeżeli zmienna losowa jest n-wymiarowa.

Zastosowanie zmiennych losowych

Przestrzenią probabilistyczną nazywa się trójkę uporządkowaną, złożoną z: a) przestrzeni zdarzeń elementarnych $\Omega ,$ b) określonego na niej σ-ciała ${\mathcal {F}},$ którego elementy są nazywane zdarzeniami losowymi, c) miary probabilistycznej $P,$ przyporządkowującej zdarzeniom liczby zwane prawdopodobieństwami.

Tak określone prawdopodobieństwo jest jednak niewygodne do badania, gdy $\Omega$ jest zbiorem bez zadanych jakichkolwiek relacji między jego elementami. Dlatego definiuje się funkcję zwaną zmienną losową, która przyporządkowuje elementom przestrzeni $\Omega$ elementy jakiejś przestrzeni mierzalnej $Y$ o pożądanych właściwościach^[a]. Najczęściej jako przestrzeń mierzalną wykorzystuje się przestrzeń euklidesową, tj. $Y=\mathbb {R} ^{n},n\in \mathbb {N} _{+}.$ Wtedy zmienną losową nazywa się wektorem losowym.

Przeciwobraz każdego zbioru mierzalnego w $Y$ jest zdarzeniem losowym. Podzbiory mierzalne przestrzeni $Y$ tworzą σ-ciało, które oznaczać będziemy symbolem ${\mathcal {B}}(Y).$ Ponieważ zmienna losowa nie musi być funkcją różnowartościową, więc ten sam zbiór mierzalny $A\in {\mathcal {B}}(Y)$ można w ogólnym przypadku otrzymać z wielu różnych zdarzeń o różnych prawdopodobieństwach. Aksjomaty σ-ciała zapewniają, że wśród tych zdarzeń jest także ich suma i do niej jest przypisane największe prawdopodobieństwo. Suma ta jest równa przeciwobrazowi zbioru $A,$ czyli $X^{-1}(A).$

Rozkład zmiennej losowej $X$ – to funkcja $P_{X}$ określona na sigma ciele ${\mathcal {B}}(Y)$ taka że prawdopodobieństwo zdarzenia $A\in {\mathcal {B}}(Y)$ jest równe prawdopodobieństwu przypisanemu przeciwobrazowi $X^{-1}(A)$ zdarzenia $A{:}$

P_{X}(A)=P(X^{-1}(A)).

Rozkład $P_{X}$ jest nową miarą probabilistyczną. Jest on w przestrzeni stanów $Y$ odpowiednikiem miary probabilistycznej $P.$

Uwaga 1:

Zapis $P_{X}$ gdzie $X$ jest zdarzeniem, a nie zmienną losową jest stosowany na oznaczenie prawdopodobieństwa warunkowego.

Uwaga 2:

Niżej omówiono rozkłady ciągłe i dyskretne. Oprócz nich istnieją także rozkłady nie mieszczące się w żadnej z tych kategorii – na przykład rozkład o dystrybuancie Cantora.

Rozkład ciągły

Osobne artykuły: ciągły rozkład prawdopodobieństwa i funkcja gęstości prawdopodobieństwa.

Jeżeli istnieje funkcja $f\colon Y\to [0,\infty ),$ taka że

P(A)=\int \limits _{A}~f(x)dx

(całka Lebesgue’a) dla dowolnego zbioru borelowskiego $A\in {\mathcal {B}}(Y),$ to funkcję tę nazywa się gęstością rozkładu prawdopodobieństwa (funkcją gęstości prawdopodobieństwa).

Nazwa pochodzi od intuicji fizycznych (zob. gęstość masy). O rozkładzie $P$ mającym gęstość mówi się, że jest ciągły (lub typu ciągłego).

Powyższa definicja jest poprawna dla dowolnych rozkładów prawdopodobieństwa, także wielowymiarowych – wówczas $x$ jest wektorem.

Rozkład $P_{X}$ zmiennej losowej $X$ spełniający powyższe warunki definiuje się analogicznie. O zmiennej losowej również mówi się wówczas, iż jest ciągła (lub typu ciągłego).

Rozkład dyskretny

Osobne artykuły: dyskretny rozkład prawdopodobieństwa i funkcja masy prawdopodobieństwa.

Rozkład $P$ nazywa się dyskretnym, jeśli jest skupiony na zbiorze przeliczalnym, tzn. istnieje zbiór (co najwyżej) przeliczalny $S\subseteq Y$ dla którego $P(S)=1.$ Jeżeli

S=\{s_{i}\colon i\in I\}

oraz

p_{i}=P(\{s_{i}\})

dla każdego

i\in I,

to dla dowolnego zbioru borelowskiego $A$

P(A)=P(A\cap S)=\sum _{i\in I}~p_{i}{\boldsymbol {1}}_{A}(s_{i}),

gdzie ${\boldsymbol {1}}_{A}$ to indykator (funkcja charakterystyczna) zbioru $A.$

Zatem zbiór par $\{(s_{i},p_{i})\colon i\in I\}$ jednoznacznie wyznacza rozkład $P.$ Stąd dowolny zbiór tej postaci, gdzie $p_{i}>0$ oraz $\sum p_{i}=1$ (co wynika z własności rozkładu), nazywa się czasami rozkładem (dyskretnym). Odwzorowanie $s_{i}\mapsto p_{i},$ oznaczane $\operatorname {pmf} (s_{i})=p_{i},$ nosi nazwę funkcji masy prawdopodobieństwa i jest ono dyskretnym odpowiednikiem gęstości prawdopodobieństwa.

Dyskretna zmienna losowa $X$ to zmienna losowa o rozkładzie dyskretnym. Wówczas można go zdefiniować podobnie jak wyżej równością

P_{X}(\{x_{i}\})=P(X^{-1}(A)),

jednakże w tym wypadku zachodzi dodatkowo

P(X^{-1}(A))=P(\{\omega \in \Omega \colon X(\omega )=x_{i}\}){\overset {\underset {\mathrm {ozn} }{\ }}{=}}P(X=x_{i}){\overset {\underset {\mathrm {ozn} }{\ }}{=}}\operatorname {pmf} _{X}(x_{i}),

gdzie $\left\{x_{i}\right\}_{i\in I}$ jest zbiorem wszystkich wartości przyjmowanych przez zmienną $X.$

Dystrybuanta rozkładu jednowymiarowego

Osobny artykuł: dystrybuanta.

Dystrybuantą jednowymiarowego rozkładu prawdopodobieństwa $P$ nazywa się funkcję $F_{P}\colon \mathbb {R} \to \mathbb {R} ,$ zdefiniowana wzorem:

F_{P}(t)=P((-\infty ,t]).

Dystrybuanta rozkładu zmiennej losowej $X,$ to dystrybuanta $F_{P_{X}},$ oznaczana zwykle symbolem $F_{X},$ otrzymana z rozkładu tej zmiennej losowej:

F_{X}(t)=P_{X}(\{x\colon x\leqslant t\})

Jeśli rozkład $P$ ma gęstość $f,$ jego dystrubuanta $F_{P}$ wyraża się wzorem:

F_{P}(t)=\int \limits _{-\infty }^{t}~f(x)dx.

Dystrybuanta w pełni wyznacza rozkład, tzn. dwie zmienne o tej samej dystrybuancie muszą mieć ten sam rozkład; obrazuje to poniższy przykład.

Przykłady

1) Niech $\Omega _{1}=\{\mathrm {O} ,\mathrm {R} \}$ będzie przestrzenią zdarzeń elementarnych doświadczenia polegającego na rzucie monetą, które może z jednakowym prawdopodobieństwem dać dwa wyniki: orła i reszkę, tj.

P(\mathrm {O} )={\tfrac {1}{2}}

oraz

P(\mathrm {R} )={\tfrac {1}{2}}.

Jeżeli zmienna $X\colon \Omega _{1}\to \mathbb {R}$ jest określona równościami

X(\mathrm {O} )=-1

oraz

X(\mathrm {R} )=1,

to jej rozkład $P_{X}$ jest określony następująco:

P(X\in A)={\begin{cases}0,&{\mbox{dla }}A=\mathbb {R} \setminus \{-1,1\},\\{\tfrac {1}{2}},&{\mbox{dla }}A=\{-1\}{\mbox{ lub }}A=\{1\},\\1,&{\mbox{dla }}A=\{-1,1\},\end{cases}}

a funkcja masy prawdopodobieństwa ma postać:

P(X=x)={\begin{cases}0,&{\mbox{dla }}x\neq -1\ {\mbox{ i }}\ \ x\neq 1,\\{\tfrac {1}{2}},&{\mbox{dla }}x=-1{\mbox{ lub }}x=1.\end{cases}}

Oznacza to, że zmienna losowa $X$ odwzorowuje zdarzenia

\Omega _{1}\ni \mathrm {O} \mapsto -1\in \mathbb {R} \iff X(\mathrm {O} )=-1,

\Omega _{1}\ni \mathrm {R} \mapsto \,\ \ 1\in \mathbb {R} \iff X(\mathrm {R} )=\,\ \ 1

oraz zachowuje prawdopodobieństwo określone na $(\Omega _{1},{\mathcal {F}})$ przekształcając je w rozkład określony na $(\mathbb {R} ,{\mathcal {B}}(\mathbb {R} )).$

Z definicji dystrybuanty wynika, iż prawdopodobieństwo zdarzenia

A=\{\omega \in \Omega \colon a<X(\omega )\leqslant b\}{\overset {\underset {\mathrm {ozn} }{\ }}{=}}\{a<X\leqslant b\}

dane jest wzorem

P(X\in A)=P(a<X\leqslant b)=F_{X}(b)-F_{X}(a).

Dystrybuanta zmiennej $X$ to funkcja $F_{X}\colon \mathbb {R} \to [0,1]$ określona wzorem

F_{X}(t)={\begin{cases}0,&{\mbox{dla }}t\leqslant -1,\\{\tfrac {1}{2}},&{\mbox{dla }}-1<t\leqslant 1,\\1,&{\mbox{dla }}t>1.\end{cases}}

2) Niech $\Omega _{2}=\{\mathrm {O} ,\mathrm {R} ,\mathrm {K} \}$ będzie przestrzenią zdarzeń elementarnych rzutu monetą, wyżej opisanego, przy czym dodatkowo uwzględnimy upadek na kant, który prawie na pewno się nie zdarzy. Jeżeli

P(\mathrm {O} )=P(\mathrm {R} )={\tfrac {1}{2}}

oraz

P(\mathrm {K} )=0,

to zmienna losowa $Y\colon \Omega _{2}\to \mathbb {R}$ określona równościami

Y(\mathrm {O} )=-1,Y(\mathrm {R} )=1

oraz

Y(\mathrm {K} )=7,

ma taki sam rozkład $P_{Y}$ (oraz funkcję masy) co zmienna $X$ określona wyżej, mimo iż są one różne.

Także dystrybuanta $F_{Y}$ zmiennej $Y$ dana jest tym samym wzorem co dystrybuanta $F_{X}$ zmiennej $X.$

Dystrybuanta rozkładu wielowymiarowego

Osobny artykuł: dystrybuanta.

Jeśli $X$ jest wektorem losowym, tzn. $X\colon \Omega \to \mathbb {R} ^{n},$ to rozważa się wówczas przedziały wielowymiarowe, tzn. zbiory będące iloczynami kartezjańskimi przedziałów, mające postać

(-\infty ,t_{1}]\times (-\infty ,t_{2}]\times \ldots \times (-\infty ,t_{n}].

Dystrybuanta $F_{P}\colon \mathbb {R} ^{n}\to \mathbb {R}$ ma postać

F_{P}(t_{1},t_{2},\dots ,t_{n})=P((-\infty ,t_{1}]\times (-\infty ,t_{2}]\times \ldots \times (-\infty ,t_{n}]).

Stosuje się następujący zapis dystrybuanty rozkładu zmiennej losowej:

F_{X}(t_{1},t_{2},\dots ,t_{n})=P(\{X\colon X_{1}\leqslant t_{1}\wedge X_{2}\leqslant t_{2}\wedge \ldots \wedge X_{n}\leqslant t_{n}\}),

gdzie $X=(X_{1},X_{2},\dots ,X_{n}).$

Oznaczając $t=(t_{1},t_{2},\dots ,t_{n})$ powyższy wzór można zapisać w skrócie

F_{X}(t)=P(X\leqslant t).

Jeśli rozkład wielowymiarowy $P$ ma gęstość $f,$ jego dystrybuanta $F_{P}$ wyraża się za pomocą całki Lebesgue’a:

F_{P}(t)\qquad \,=\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\int \limits _{(-\infty ,t_{1}]\times (-\infty ,t_{2}]\times \ldots \times (-\infty ,t_{n}]}\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!f(t)dt,

co można zapisać w prostszej wersji (ale tylko wtedy, gdy całkę Lebesgue’a da się rozbić w poniższy sposób):

F_{P}(t)=\int \limits _{-\infty }^{t_{1}}\int \limits _{-\infty }^{t_{2}}\ldots \int \limits _{-\infty }^{t_{n}}f(t_{1},t_{2},\dots ,t_{n})dt_{n}\ldots dt_{2}dt_{1}.

Rozkład osobliwy

Df. Zmienna losowa $X$ ma rozkład osobliwy (singularny), jeśli ma ciągłą dystrybuantę oraz istnieje zbiór $A\subseteq \mathbb {R} ,$ taki że ma on zerową miarę Lebesgue’a $\lambda (A)$ i jednostkowy rozkład prawdopodobieństwa $P(A),$ tzn.

\lambda (A)=0

oraz

P(A)=1.

Rozkład arytmetyczny

Df. Rozkładami arytmetycznymi nazywa się rozkłady skoncentrowane na zbiorze punktów postaci $kc,$ gdzie $k\in \mathbb {Z} .$

Tw. To, iż rozkład $P$ jest skupiony na zbiorze $\left\{{\tfrac {2\pi k}{t}}\colon k\in \mathbb {Z} \right\}$ jest równoważne temu, iż jego funkcja charakterystyczna $\varphi$ ma okres równy $t$ bądź $\varphi (t)=1$ dla pewnego $t\neq 0.$

Analizując funkcje charakterystyczne można stwierdzić, że arytmetyczne są rozkłady:

geometryczny, Bernoulliego i Poissona.

Rozkłady jedno- i dwupunktowe są przesuniętymi rozkładami arytmetycznymi.

Popularne rozkłady

Rozkłady ciągłe

Wybrane rozkłady gęstości prawdopodobieństwa:
$f_{N}(x)$ – rozkład normalny,
$f_{E}(x)$ – rozkład wykładniczy,
$f_{R}(x)$ – rozkład jednostajny,
$f_{T}(x)$ – rozkład trójkątny,
$f_{D}(x)$ – rozkład delty Diraca dla zmiennej pewnej.

Osobny artykuł: ciągły rozkład prawdopodobieństwa.

rozkład beta,
rozkład χ²,
rozkład Cauchy’ego,
rozkład chi,
rozkład Erlanga,
rozkład F Snedecora,
rozkład gamma,
Rozkład Fishera-Tippetta,
rozkład Weibulla,
rozkład jednostajny ciągły (prostokątny),
rozkład Laplace’a,
rozkład Leviego,
rozkład logarytmicznie normalny,
rozkład normalny (Gaussa),
wielowymiarowy rozkład normalny,
rozkład trójkątny,
rozkład Studenta,
rozkład wykładniczy.

Rozkłady dyskretne

Osobny artykuł: dyskretny rozkład prawdopodobieństwa.

rozkład Boltzmanna,
rozkład dwupunktowy (Bernoulliego u anglojęzycznych autorów),
rozkład dwumianowy (Bernoulliego u większości polskich autorów),
rozkład jednopunktowy (typu delta Diraca),
rozkład jednostajny dyskretny,
rozkład geometryczny,
rozkład hipergeometryczny,
rozkład Poissona,
rozkład zero-jedynkowy,
rozkład ujemny dwumianowy (Pascala).

Pozostałe

wspólny rozkład prawdopodobieństwa

Statystyka

Jeśli mamy na myśli rzeczywiste prawdopodobieństwa wystąpienia danej wartości cechy w populacji, to mówimy o rozkładzie w populacji. Jeśli mamy na myśli prawdopodobieństwa wystąpienia danej cechy wyznaczone podczas badania statystycznego, to mówimy o rozkładzie empirycznym.

Zobacz też

Uwagi

↑ Ściślej musi to być funkcja ${\mathcal {F}}/{\mathcal {B}}(Y)$ -mierzalna, gdzie ${\mathcal {B}}(Y)$ jest rodziną podzbiorów borelowskich przestrzeni $Y.$ Jako $Y$ zwykle wybiera się jedną z tzw. przestrzeni polskich, do których zaliczają się w szczególności przestrzenie euklidesowe.

Przypisy

↑ Rozkład zmiennej losowej, [w:] Encyklopedia PWN [online], Wydawnictwo Naukowe PWN [dostęp 2021-07-22] .

[2] Ściślej musi to być funkcja ${\mathcal {F}}/{\mathcal {B}}(Y)$ -mierzalna, gdzie ${\mathcal {B}}(Y)$ jest rodziną podzbiorów borelowskich przestrzeni $Y.$ Jako $Y$ zwykle wybiera się jedną z tzw. przestrzeni polskich, do których zaliczają się w szczególności przestrzenie euklidesowe.

[1] Rozkład zmiennej losowej, [w:] Encyklopedia PWN [online], Wydawnictwo Naukowe PWN [dostęp 2021-07-22] .

[1]

[a]