Tiedon koostaminen ja hallinta
Raapijat ja ryömijät:
- Web crawler
- Scraping for journalists
- =IMPORTHTML(“http://www.tut.fi/wwwoppaat/opas2015-2016/perus/laitokset/index.html”; “list”; 3)
- Raapijalla representaatiosta resurssiksi - Mechanize ja Beautiful Soup
- Scrapy
- Python hoitaa, eli kuinka Plus-deski kokeili screen scrapingia
- Ghost in the Web - poistettu
Datan siivoaminen ja käsittely
- Open Refine
- Data Wrangler - Trifactalla menee hyvin!
- pandas
APIen käsittely ja hallinta
- jQuery.ajax()
- Requests
- Postman
- Swagger
- APInf
- Vierailuluento tulossa!
Demoja:
Tutkimusdatan kerääminen
Pohditaan:
- Opinto-opasdatan kerääminen - miten toteutetaan?
- CasperJS ja sivukokoelman ryömiminen
- Ryömijän ensimmäiset rivit
Twitter-rajapinta (Twitter REST API) - käydään Koodiklinikalla läpi laajempi
Twitter-esimerkki
- updata source data
- collect connections
- create network
- collect tweets
- MongoDB & mLabin käyttö?