Elastic
Bij data denk je al snel aan cijfers die keurig in tabellen staan opgeslagen. Maar voor ons onderzoek maken we daarnaast veel gebruik van ongestructureerde data. Dit zijn tekst en getallen in gespreksverslagen, beleidsdocumenten, overzichten in Excel sheets, etc. Voor rekenkameronderzoekers is het van belang om deze documenten voor en tijdens het onderzoek snel en volledig te kunnen doorzoeken.
De Algemene Rekenkamer heeft de interne tool Elastic ontwikkeld om aan deze behoefte te voldoen. De applicatie maakt het voor onderzoekers mogelijk om accuraat over meerdere publieke en niet-publieke bronnen te zoeken. Data analisten kunnen daarnaast de verwerkte documenten in grote getale systematisch analyseren.
Bronnen
Veel van de gebruikte informatie in het onderzoek komt van publieke bronnen. Denk aan de kamerstukken die via de website van de Tweede Kamer openbaar beschikbaar komen. Maar ook onze eigen rapporten en brieven. Het is voor een onderzoeker omslachtig werk om al deze bronnen los te bevragen. Met Elastic zoekt de onderzoeker direct over meerdere bronnen. De publieke bronnen worden dagelijks bijgewerkt voor een actueel beeld.
Naast publiek beschikbare documenten, gebruikt de Algemene Rekenkamer ook niet-publieke documenten voor haar onderzoek. Bijvoorbeeld, documenten die wij van departementen en uitvoeringsorganisaties in vertrouwen ontvangen en onze gespreksverslagen van interviews. Elastic kan ook deze documenten doorzoeken terwijl we de informatie veilig intern opgeslagen houden. Fijnmazige autorisatie zorgt ervoor dat informatie alleen beschikbaar is voor wie daar recht op heeft.
Tekstanalyse in audit
De toenemende mate van digitalisering van de overheid zorgt ervoor dat er steeds meer informatie digitaal beschikbaar is. Een deel van deze data zit in eerder genoemde ongestructureerde data. De data zit verstopt in onder andere PDF-, Word- en Powerpoint bestanden. Als onderdeel van de voorverwerking zet Elastic deze documenten om in platte tekst, verrijkt met meta data zoals aanmaakdatum van een bestand.
Deze omzetting naar platte tekst is ook mogelijk voor (veel) foto’s en scans die anders helemaal niet doorzoekbaar waren.
De platte tekst kan vervolgens met tekstanalyse omgezet worden in nieuwe inzichten voor het onderzoek. Een onderzoeker kan bijvoorbeeld veel voorkomende onderwerpen vinden of hoe documenten zich te elkaar verhouden.
Technologie
De applicatie maakt als basis gebruik van Elasticsearch voor het zoekalgoritme. Ook de overige gebruikte componenten zijn op basis van open source software. De eigen broncode is (voornamelijk) geschreven in Python en Typescript en de applicatie draait in een Kubernetes omgeving. Hierdoor kunnen we gebruik maken van recente ontwikkelingen op het gebied van zoekalgoritmes terwijl we onze informatie in eigen beheer van de rekenkamer houden.