Tekstin luokitteleminen on eräs laskennallisen kielitieteen sovelluksista. Se soveltuu hyvin esimerkiksi sosiaalisen median sisältöjen luokittelemiseen vaikkapa niiden tunnesävyn perusteella.

Vaiheet:

  1. Kerätään data (esimerkiksi Twitterin REST-rajapinnan avulla)
  2. Tuotetaan opetusaineisto (Big Classifier tai vaikka joukkoistaen) tai hyödynnetään olemassa olevaa aineistoa
  3. Jalostetaan dataa. Ensimmäinen vaihe on sanojen palauttaminen perusmuotoon
  4. Tuotetaan yksittäisiä sisältöjä edustavat sanapussit (bag-of-words)
  5. Suodatetaan pois merkityksettömät sanat (stopwords)
  6. Painotetaan sanojen merkittävyyttä niiden informaatioarvon perusteella - avuksi esimerkiksi TD-IDF
  7. Datasta voidaan erottaa myös muita kuin tekstuaalisia piirteitä - emojit, meemikuvat, …, vrt. esimerkiksi twiittiin liittyvät metatiedot
  8. Opetetaan luokittelija
  9. Arvioidaan luokittelijan suorituskykyä ja hienosäädetään parametrejä kunnes suorituskyky on riittävä
  10. Luokitellaan aineisto kokonaisuudessaan luokittelijan avulla

Aineistoa: