Training, testing en representativiteit

Risico

Als trainings-, validatie- en testdata door elkaar lopen ("data leakage"), kan dit leiden tot overfitting, waardoor het model beter lijkt te presteren dan in werkelijkheid het geval is.

Onderzoeksvraag

Is de kwaliteit gewaarborgd met betrekking tot keuzes die zijn gemaakt bij training- en testdata? Zijn training-, test- en validatiedata gescheiden verwerkt? Is de hoeveelheid data toereikend voor deze scheidingsmethode?

Beheersmaatregelen

Scheid de datasets voor training, validatie en testen en leg vast welke datasets voor welk doel gebruikt zijn. Let in het bijzonder op wanneer het model geüpdatet wordt aan de hand van (deels) eerder gebruikte data.

Inspectiestappen

Opzet

  1. Stel vast dat beschreven is op welke wijze test/train/validatiedata gescheiden worden opgeslagen en gebruikt.
    Mogelijke bronnen: beheerinstructies.

Bestaan

  1. Stel vast dat de test/train/validatiedata gescheiden zijn opgeslagen en gebruikt.
    Mogelijke bronnen: printscreens van opslaglocaties, model code, GitLab, GitHub.

Ethische principes

Verantwoording procedures