Leren a.d.h.v. een simpel leermodel : K-NN¶

K. Verbeeck, T. Vermeulen, J. Maervoet¶

Data Science (Theory) -- OGI02i

Supervised Machine Learning¶

Classification & Regression¶

k-NN : k-Nearest Neighbors¶

Waarschijnlijk het simpelste leermodel : er wordt niet echt een model opgebouwd, het enige wat er gedaan wordt is de dataset van trainingspunten bijhouden. Wanneer een voorspelling moet gebeuren voor een nieuw datapunt wordt in de dataset de dichtste buur gezocht (wanneer $N=1$ ), of de k-dichtste buren (waneer $N=k$ ).

De voorspelling van het nieuwe datapunt zal afhangen van de waarden van zijn buren.

Visualisatie van k-NN (regressie)¶

$k=1$

In [19]:

Een model bouwen a.d.h.v. k-Nearest Neighbors¶

In [27]:

from sklearn.neighbors import KNeighborsClassifier

knn = KNeighborsClassifier(n_neighbors=1)
#knn is een object waarop de verdere fit/predict/score operaties zullen gebeuren

In [26]:

knn.fit(X_train, y_train)
#het model wordt gebouwd

Out[26]:

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=None, n_neighbors=1, p=2,
           weights='uniform')

minkowski afstandsmaat : veralgemening van de Manhattan (p = 1) en Euclidische afstand (p = 2)

d (x_{1}, x_{2}) = (\sum_{i = 1}^{d} | x_{1 i} - x_{2 i} |^{1 / p})^{p}

$\begin{equation} d(\bf{x_1},\bf{x_2}) = (\sum_{i=1}^{d} |x_{1i} - x_{2i}|^{1/p})^{p} \end{equation}$

Parameters van K-NN¶

2 belangrijke parameters :

het aantal buren k
hoe afstanden meten tussen 2 elementen uit de data set (Euclidische afstand (zie ook $L^2$ norm) Minkowski afstand (zie $L^p$ norm)

Hoe K kiezen ?¶

k noemt men een hyperparameter : deze moet je vooraf instellen (tijdens de fase model building) en kan het resultaat van het voorspellen serieus beïnvloeden.
er bestaat geen algemene optimale keuze voor k. Deze is datset afhankelijk.
wanneer k klein is (weinig buren worden gebruikt) dan heeft ruis in de data meer effect op het resultaat dan wanneer k groot is
wanneer k groot is (veel buren mee laten beslissen) dan wordt het effect van ruis wel geminimaliseerd, maar dan vergt het voorspellen veel rekenkracht.
een kleine k heeft weinig last van bias maar geeft een hoge variantie, terwijl een grote k minder variantie geeft maar gevoeliger is aan bias
Meestal wordt een oneven getal gebruikt als de waarde voor k als het aantal te voorspellen klassen even is - (dit om gelijkstand te vermijden bij voting)
Vaak gekozen voor : $\sqrt(n)$ met $n$ het aantal datapunten
Andere methoden gebaseerd op parameter tuning : trial-and-error in combinatie met berekenen van errors, Elbow-methode

Age	Nr cars	owns house	nr children	status	owns dog	bought a boat
66	1	yes	2	widowed	no	yes
52	2	yes	3	married	no	yes
22	0	no	0	married	yes	no
25	1	no	1	single	no	no
44	0	no	2	divorced	yes	no
39	1	yes	2	married	yes	no
26	1	no	2	single	no	no
40	3	yes	1	married	yes	no
53	2	yes	2	divorced	no	yes
64	2	yes	3	divorced	no	no
58	2	yes	2	married	yes	yes
33	1	no	1	single	no	no

Leren a.d.h.v. een simpel leermodel : K-NN¶

K. Verbeeck, T. Vermeulen, J. Maervoet¶

Supervised Machine Learning¶

Classification & Regression¶

Generalizatie, Overfitting, en Underfitting¶

overfitting : een voorbeeld¶

k-NN : k-Nearest Neighbors¶

Visualisatie van k-nn (classificatie) :¶

Visualisatie van k-NN (regressie)¶

Uitgewerkt Voorbeeld k-NN classificatie¶

ML learning module in Python :¶

Training versus Testing¶

Wat zegt de data ?¶

Een model bouwen a.d.h.v. k-Nearest Neighbors¶

Populaire afstandsmaten in python :¶

Voorspellingen maken¶

Hoe goed is het model?¶

Parameters van K-NN¶

Pro's and Cons van K-NN¶

Hoe K kiezen ?¶

Elbow method :¶

Bias - Variance tradeoff¶

Bias - Variance tradeoff¶

Curse of dimensionality¶

Curse of dimensionality¶

Goede tutorials :¶