Kulttuurin valtionavustuspäätösten luokittelu tekstianalytiikan avulla

Diaarinumero
VK/60306/05.01.02/2023
Valmistumisvuosi
2023
Hallinnonala
Opetus- ja kulttuuriministeriö

Mitä ongelmaa ratkaistiin ja miksi?

Opetus- ja kulttuuriministeriön kulttuuripolitiikan hallinnonalalle on tavoitteena kehittää valtionavustuspäätöksiä varten luokittelukehikko, mikä noudattaa soveltavasti Eurostatin suositusta. Luokituskehikko on tarkoitus ottaa käyttöön uudessa VA-digi-järjestelmässä, jotta avustusten kohdentumisesta saataisiin jatkossa parempi hallinnonalakohtainen kokonaiskuva ja seurantatietoa.

Mitä tehtiin?

Hyväksyttyjen kulttuurin valtionavustushakemuspäätösten tekstidatalla lähdettiin luokittelemaan avustuksia toiminnoittain ja kulttuurinaloittain hyödyntäen tekstianalytiikkaa sekä luokkakohtaisia kuvauksia. Tekstianalytiikkaa hyödynnettiin etsimällä päätösteksteistä yleisimmin toistuvia sanoja ja sanapareja sekä tarkastelemalla sanojen tai sanaparien toistuvuutta dokumenteittain. Tekstianalytiikan tuottamien tulosten sekä luokkakohtaisten kuvausten perusteella generoitiin luokkakohtaiset hakutermit, joiden avulla päätöstekstit luokiteltiin toiminnoittain ja kulttuurinaloittain.

Mitä saavutettiin?

Lopputuotoksena syntyi toiminnoittain ja kulttuurinaloittain luokiteltu valtionavustuspäätösten aineisto, joka toimii manuaalisen luokittelun tukena. Lisäksi luokitelluista päätöksistä satunnaistettiin otos suunnitteilla olevaa menetelmällistä jatkoluokittelua varten.

Mitä seuraavaksi?

Tuotetun valtionavustusten luokittelun hyödynnettävyyttä arvioidaan opetus- ja kulttuuriministeriön toimesta. Lisäksi suunnitteilla on testata luokittelun toteuttamista koneoppimismallilla, jota varten tuotetaan harjoitusaineisto nyt luokitellusta aineistosta satunnaistetun otoksen avulla.