Tekstin luokittelua

Tekstin luokitteleminen on eräs laskennallisen kielitieteen sovelluksista. Se soveltuu hyvin esimerkiksi sosiaalisen median sisältöjen luokittelemiseen vaikkapa niiden tunnesävyn perusteella.

Vaiheet:

Kerätään data (esimerkiksi Twitterin REST-rajapinnan avulla)
Tuotetaan opetusaineisto (Big Classifier tai vaikka joukkoistaen) tai hyödynnetään olemassa olevaa aineistoa
Jalostetaan dataa. Ensimmäinen vaihe on sanojen palauttaminen perusmuotoon
Tuotetaan yksittäisiä sisältöjä edustavat sanapussit (bag-of-words)
Suodatetaan pois merkityksettömät sanat (stopwords)
Painotetaan sanojen merkittävyyttä niiden informaatioarvon perusteella - avuksi esimerkiksi TD-IDF
Datasta voidaan erottaa myös muita kuin tekstuaalisia piirteitä - emojit, meemikuvat, …, vrt. esimerkiksi twiittiin liittyvät metatiedot
Opetetaan luokittelija
Arvioidaan luokittelijan suorituskykyä ja hienosäädetään parametrejä kunnes suorituskyky on riittävä
Luokitellaan aineisto kokonaisuudessaan luokittelijan avulla

Aineistoa:

Twitter-keskustelu suomenkielisen aineiston käsittelystä
Machine Learning, NLP: Text Classification using scikit-learn, python and NLTK. (Shaikh, 2017)
A journey to Dockerize Voikko & Python App (Karhunen, 2017)
Tiedoksi Sukija-sovellus: Puheenvuorot.kansanmuisti.fi (ja hiukan sanoja) (Salo, 2011)