# 1 - Bootstrap módszer példa: medián és 0.9 kvantilis becslése

In [None]:
import numpy as np
from matplotlib import pyplot

%matplotlib inline

## 1.1 - Elemzendő minta előállítása

In [None]:
# Véletlenszám generáló algoritmus inicializálása
np.random.seed(0)

# Kezdeti minta előállítása
sample = np.random.uniform(low=0, high=20, size=50)

## 1.2 - Bootstrap

In [None]:
# Bootstrap minták generálása
num_bootstrap_samples = 5000
bootstrap_samples = np.random.choice(sample, size=(num_bootstrap_samples, len(sample)), replace=True)

In [None]:
# Medián kiszámítása minden bootstrap mintában
bootstrapped_medians = np.apply_along_axis(np.median, axis=1, arr=bootstrap_samples)

In [None]:
# 0.9 kvantilis kiszámítása minden bootstrap mintában
bootstrapped_quantiles = np.apply_along_axis(np.percentile, axis=1, arr=bootstrap_samples, q=90)

## 1.3 - Inferencia

In [None]:
# Az igazi medián 10, a 0.9 kvantilis pedig 18 kellene legyen az elmélet
# szerint, de ezt most azért tudjuk, mert ismerjük az eloszlást, amiből a
# minta származik

In [None]:
# A medián eloszlása
pyplot.hist(bootstrapped_medians, bins=10)

In [None]:
# A 0.9 kvantilis eloszlása
pyplot.hist(bootstrapped_quantiles, bins=10)

In [None]:
# A bootstrap alapján az igazi medián 90% bizonyossággal az alábbi két érték
# között található:
print np.percentile(bootstrapped_medians, 5.0)
print np.percentile(bootstrapped_medians, 95.0)

In [None]:
# A bootstrap alapján az igazi 0.9 kvantilis 90% bizonyossággal az alábbi két
# érték között található:
print np.percentile(bootstrapped_quantiles, 5.0)
print np.percentile(bootstrapped_quantiles, 95.0)

# 2 - Trimming és winsorization

In [None]:
from scipy.stats.mstats import trim, winsorize

## 2.1 - Elemzendő minta előállítása

In [None]:
# generáljunk 200 mintát egy 100 várható értékű, 20 szórású normális eloszlásból
sample = np.random.normal(loc=100.0, scale=20.0, size=200)

# rakjunk bele néhány outlier értéket
sample[0] = 170.0
sample[100] = 200.0
sample[-1] = 190.0

In [None]:
# nézzük meg, hogy milyen lett a minta eloszlása
pyplot.hist(sample)

## 2.2 - Outlier adatok kezelése

### 2.2.1 - Trimming

In [None]:
# az adat alsó és fölső 5%-át tekintjük outlier-nek
masked_array = trim(a=sample, relative=True, limits=(0.05, 0.05))

In [None]:
# tartsuk meg csak azokat az elemeket, amiket nem kell kimaszkolni az adatból (azaz amik nem outlier-ek)
trimmed_sample = sample[~masked_array.mask]

In [None]:
# vizsgáljuk meg, hogy valóban az adat 10%-át trimmeltük le
print trimmed_sample.size

In [None]:
# vizsgáljuk meg a trimmelt adat eloszlását
pyplot.hist(trimmed_sample)

### 2.2.2 - Winsorization

In [None]:
# az adat alsó és fölső 5%-át tekintjük outlier-nek
masked_array = winsorize(a=sample, limits=(0.05, 0.05))

In [None]:
# winsorization esetén nem kidobjuk az adatokat, azok automatikusan le lettek cserélve
winsorized_sample = masked_array.data

In [None]:
# vizsgáljuk meg, hogy valóban megmaradt-e az adat
print winsorized_sample.size

In [None]:
# vizsgáljuk meg a winsorizált minta eloszlását
pyplot.hist(winsorized_sample)

## 2.3 - Az átlag robusztus becslése

In [None]:
# az eredeti minta átlag
print np.mean(sample)

In [None]:
# trimmelt átlag
print np.mean(trimmed_sample)

In [None]:
# winsorizált átlag
print np.mean(winsorized_sample)