Tekstin luokitteleminen on eräs laskennallisen kielitieteen sovelluksista. Se soveltuu hyvin esimerkiksi sosiaalisen median sisältöjen luokittelemiseen vaikkapa niiden tunnesävyn perusteella.
Vaiheet:
- Kerätään data (esimerkiksi Twitterin REST-rajapinnan avulla)
- Tuotetaan opetusaineisto (Big Classifier tai vaikka joukkoistaen) tai hyödynnetään olemassa olevaa aineistoa
- Jalostetaan dataa. Ensimmäinen vaihe on sanojen palauttaminen perusmuotoon
- Tuotetaan yksittäisiä sisältöjä edustavat sanapussit (bag-of-words)
- Suodatetaan pois merkityksettömät sanat (stopwords)
- Painotetaan sanojen merkittävyyttä niiden informaatioarvon perusteella - avuksi esimerkiksi TD-IDF
- Datasta voidaan erottaa myös muita kuin tekstuaalisia piirteitä - emojit, meemikuvat, …, vrt. esimerkiksi twiittiin liittyvät metatiedot
- Opetetaan luokittelija
- Arvioidaan luokittelijan suorituskykyä ja hienosäädetään parametrejä kunnes suorituskyky on riittävä
- Luokitellaan aineisto kokonaisuudessaan luokittelijan avulla
Aineistoa:
- Twitter-keskustelu suomenkielisen aineiston käsittelystä
- Machine Learning, NLP: Text Classification using scikit-learn, python and NLTK. (Shaikh, 2017)
- A journey to Dockerize Voikko & Python App (Karhunen, 2017)
- Tiedoksi Sukija-sovellus: Puheenvuorot.kansanmuisti.fi (ja hiukan sanoja) (Salo, 2011)