Modellen evalueren en verbeteren¶

K. Verbeeck, T. Vermeulen, J. Maervoet¶

Data Science (Theory) -- OGI02i

Cross-validation¶

De typische manier totnogtoe om een model te evalueren is door gebruik te maken van de train_test_split methode, daarna met de trainingsdata een model op te stellen via de fit methode, vervolgens de predict methode te gebruiken op de test set en tenslotte via de score methode na te gaan wat de accuracy is op de test set.

In [19]:

from sklearn.datasets import make_blobs
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

# create a synthetic dataset
X, y = make_blobs(random_state=0)

# split data and labels into a training and a test set
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

# instantiate a model and fit it to the training set
logreg = LogisticRegression(solver='liblinear', multi_class='auto').fit(X_train, y_train)

# evaluate the model on the test set
print("Test set score: {:.2f}".format(logreg.score(X_test, y_test)))

Test set score: 0.88

Het doel is om te achterhalen hoe goed we data kunnnen voorspellen die niet aanwezig is in de trainingsdata. De fit op de trainingsdata zelf is dus eigenlijk niet zo belangrijk. Wel het generalizatie vermogen van het model. We kunnen dit op 2 verschillende manieren verbeteren :

Cross-validatie : de test set wordt op een meer robuuste manier gekozen

Grid-search : een effectieve methode om parameters goed te leren instellen

dont-use-the-test-samples-to-choose-the-model-you-have-cross-validation-for-that.jpg

Cross-validatie¶

Tijdens cross-validatie wordt de data meerdere keren gesplit en worden er dus ook meerdere modellen getrained. Typisch wordt k-fold cross-validatie gebruikt waarbij $\bf{k}$ de parameters is die aangeeft in hoeveel gelijke delen (folds genaamd) de data wordt opgesplitst. Vervolgens worden $\bf{k}$ modellen getraind : het eerste model gebruikt de eerste fold als test-set en al de rest als trainingsset, het tweede model gebruikt de tweede fold als testset en de rest als trainingsset enz..

In [24]:

import pandas as pd
res_df = pd.DataFrame(res)
display(res_df)
print("Mean times and scores:\n", res_df.mean())

	fit_time	score_time	test_score	train_score
0	0.001999	0.000000	1.000000	0.950000
1	0.000983	0.001006	0.966667	0.966667
2	0.002000	0.000000	0.933333	0.966667
3	0.002000	0.001013	0.900000	0.975000
4	0.000998	0.000999	1.000000	0.958333

Mean times and scores:
 fit_time       0.001596
score_time     0.000604
test_score     0.960000
train_score    0.963333
dtype: float64

Er is een variantie in accuracy tussen de verschillende folds : sommige folds halen $100%$ , andere $90%$ . Dit kan 2 dingen betekenen:

    - het model is sterk afhankelijk van de geselecteerde fold
    - dit voorbeeld bevat te weinig data

Overzicht Cross-validatie :¶

elk datapunt komt exact 1 keer in een test set terecht, waardoor je het model oplegt om te generalizeren over elk datapunt ! Wanneer je randomness gebruikt om een testset samen te stellen, kan het zijn dat net je moeilijke voorbeelden in de testset terecht komen waardoor de accuracy waarschijnlijk te laag ingeschat wordt. In het omgekeerde geval, kunnen alle makkelijke datapunten in de testset terecht komen, je accuracy wordt waarschijnlijk veel te hoog ingeschat!

door de verschillende accuracies op de verschillende folds te zien kan je inschatten wat je best-case prestatie zou kunnen zijn en wat je worst-case scenario is.

Door meerdere folds te kiezen kan typisch ook meer data gebruikt worden om het model op te stellen.
- Stel : gewone split $25%$ versus $70%$ -> $70%$ van de data wordt gebruikt om het model te bouwen.
- Stel $k=5$ -> $\frac{4}{5}$ de = $80%$ van de data kan gebruikt worden om het model te bouwen.
- Stel $k=10$ -> $\frac{9}{10}$ de = $90%$ van de data kan gebruikt worden om het model te bouwen.

Natuurlijk, meer modellen trainen vraagt meer rekenkracht !

Merk op : Cross-validatie dient om een model beter/realistischer te evalueren, de techniek op zich geeft geen model als resultaat terug !

Grid Search¶

Doel : Zoek de betere waarden van de parameters van een model zodat ze optimaal generalizeren.

Voorbeeld : Elbow methode, evalueer de waarde van parameter $k$ op de test-set

Gevaar : Als de testset gebruikt wordt om de parameters te leren instellen, kunnen we diezelfde set dan nog gebruiken om te evalueren hoe goed het model generalizeert? (want de parameters zijn al getuned voor deze set en er bestaat gevaar op overfitting op de testset)

Oplossing : We hebben nog een derde onafhankelijke set van data nodig eentje die specifiek gebruikt kan worden om de parameter tuning te doen : deze set noemen we de validatie set

Metrieken voor binaire classificatie¶

We spreken hier meestal over een $positieve$ versus een $negatieve$ klasse.

Zijn we alleen geïnteresseerd in het aantal fouten (= accuracy) dat het geleerd model maakt?

Sommige fouten kunnen erger zijn dan andere :¶

Bvb. een zieke patiënt die toch als gezond geclassificeerd wordt is een grotere fout dan een gezonde patiënt die doorverwezen wordt naar extra testen omdat hij foutief als ziek geclassificeerd wordt. M.a.w de vals positieven zijn minder erg dan de vals negatieven in dit geval !

Een reële (business) targetfunctie zou kunnen zijn : minimaliseer het aantal overlijdens. Het meten van de accuracy zal hier dan geen goede evaluator zijn voor deze target. Eerder moet het aantal vals negatieven geminimaliseerd worden. Wat in dit geval veel specifieker is.

Metrieken voor binaire classificatie¶

In realiteit zijn de meeste datasets niet gebalanceerd :¶

Dit wil zeggen dat er veel meer data voorhanden is van de ene klasse dan van de andere klasse. Stel dat ik heel veel voorbeelden heb van de negatieve klasse, dan zal mijn model : Klassificeer steeds als "NO" best een goede score behalen !

Dus als iemand beweert dat zijn model een test accuracy van $90%$ haalt wil dat eigenlijk helemaal niet zo veel zeggen als je de eigenschappen van de dataset niet kent!

Relatie met accuracy¶

Accuracy = \frac{TP + TN}{TP + TN + FP + FN}

$\begin{equation} \text{Accuracy} = \frac{\text{TP} + \text{TN}}{\text{TP} + \text{TN} + \text{FP} + \text{FN}} \end{equation}$

Precision, recall en f-score¶

beperk het aantal valse positieven : verhoog precision

Precision = \frac{TP}{TP + FP}

$\begin{equation} \text{Precision} = \frac{\text{TP}}{\text{TP} + \text{FP}} \end{equation}$

beperk het aantal valse negatieven : verhoog recall (ook sensitivity genoemd)

Recall = \frac{TP}{TP + FN}

$\begin{equation} \text{Recall} = \frac{\text{TP}}{\text{TP} + \text{FN}} \end{equation}$

balanceer de trade-off tussen precision en recall:

F-score = 2 \cdot \frac{precision \cdot recall}{precision + recall}

$\begin{equation} \text{F-score} = 2 \cdot \frac{\text{precision} \cdot \text{recall}}{\text{precision} + \text{recall}} \end{equation}$

Al deze scores zijn terug te vinden in sklearn.metrics

Een model dat een classificatieprobleem geleerd heeft zal voor elk datapunt steeds een threshold uitrekenen waarmee het kan beslissen of een datapunt positief of negatief is. We kunnen deze probabiliteiten testen op een validatieset en voor alle datapunten plotten we de voorspelde kans (x-as) (getal tussen 0 en 1) met de juiste kleur volgens positief of negatief. De y-as bevat een aantal (histogram). Op deze manier verkrijgen we de verdeling van de echte negatieve gevallen en de verdeling van de echte positieve gevallen in de validatieset. In onderstaande situatie blijkt dat alles boven $0.5$ werkelijk positief is. Het model kan dus perfect de 2 klassen onderscheiden.

meestal overlappen die verdelingen echter: in onderstaande bijvoorbeeld zijn er behoorlijk wat datapunten waarvoor het model een probabiliteit van 0.5 berekende, maar de helft daarvan bleek positief en de andere helft negatief. Door de threshold op een positive klassificatie te verhogen naar 0.7 verkleint het aantal FP, maar vergroot het aantal FN en omgekeerd wanneer we de threshold zouden verlagen naar $0.3$ . De ROC curve ontstaat door elke threshold te bekijken en telkens de TPR uit te zetten t.o.v. de FPR. Merk op een accuracy wordt steeds berekend voor 1 threshold waarde ( $0.5$ )

Modellen evalueren en verbeterenK. Verbeeck, T. Vermeulen, J. MaervoetData Science (Theory) -- OGI02i

Modellen evalueren en verbeteren¶

K. Verbeeck, T. Vermeulen, J. Maervoet¶

Cross-validation¶

Cross-validatie¶

Cross-Validatie in scikit-learn¶

Overzicht Cross-validatie :¶

Stratified Cross-validatie¶

Stratified Cross-validation¶

Leave-one-out cross validation¶

GroupKFold¶

Grid Search¶

Grid search in combinatie met Cross-validatie¶

Overzicht :¶

Visualisatie van de GridSearchCV aan de hand van een heat map¶

Metrieken om beter te evalueren¶

Metrieken voor binaire classificatie¶

Sommige fouten kunnen erger zijn dan andere :¶

Metrieken voor binaire classificatie¶

In realiteit zijn de meeste datasets niet gebalanceerd :¶

Confusion matrices¶

Modellen vergelijken a.h.v. hun confusion matrix¶

Relatie met accuracy¶

Precision, recall en f-score¶

De AUC-ROC curve¶

Samengevat :¶

Samengevat :¶

Tutorials :¶