Tietolähteet ja datan esikäsittelyLaajuus (5 op)
Tunnus: TT00CD99
Laajuus
5 op
Opetuskieli
- suomi
- englanti
Vastuuhenkilö
- Antti Häkkinen
Osaamistavoitteet
Datan esikäsittely on oleellinen osa data-analytiikka- ja koneoppimisprojekteja. Osana esikäsittelyä tutustut datan keräämiseen eri lähteistä ja niiden yhdistämiseen tavoitteiden mukaiseksi kokonaisuudeksi. Lisäksi tutustut kerätylle datalle sovellettaviin datan esikäsittelyn menetelmiin.
EUR-ACE Tieto ja ymmärrys
Ymmärrät erilaisia tietolähteitä sekä niiden erityispiirteitä ja rajoituksia.
EUR-ACE Tekniikan soveltaminen käytäntöön
Osaat suunnitella ja toteuttaa datan esikäsittelyprosesseja ottaen huomioon tietolähteiden erityispiirteet. Kykenet tunnistamaan, analysoimaan ja korjaamaan datan laatuongelmia sekä soveltamaan tietoa ja tekniikkaa uusiin ongelmiin datan esikäsittelyn alueella.
Sisältö
Tällä opintojaksolla opit datan esikäsittelyn merkityksen data-analytiikka- ja koneoppimisprojekteissa. Tutustut datan keräämiseen eri lähteistä ja niiden yhdistämiseen tavoitteiden mukaiseksi kokonaisuudeksi. Lisäksi opit soveltamaan erilaisia datan esikäsittelyn menetelmiä kerätylle datalle. Kurssin jälkeen osaat suunnitella ja toteuttaa datan esikäsittelyprosesseja, tunnistaa ja korjata datan laatuongelmia sekä soveltaa tietoa ja tekniikkaa uusiin ongelmiin.
Datalähteet
Datan tutkiminen ja rikastaminen
Puuttuvien arvojen käsittely
Datan siistiminen ja muunnokset
Datan skaalaaminen
Esitietovaatimukset
Ohjelmoinnin perusteet
Arviointikriteerit, tyydyttävä (1)
Välttävä (1)
Ymmärrät perusasiat tietolähteistä ja datan esikäsittelystä. Tunnistat eri tietolähteiden keskeisimmät rakenteelliset ominaisuudet. Tunnistat yleisimmät datan laatuongelmat, mutta ratkaisukeinot voivat olla puutteellisia.
Tyydyttävä (2)
Tunnistat eri tietolähteiden keskeisimmät rakenteelliset ominaisuudet ja datan esikäsittelyn perusmenetelmät. Osaat ratkaista yksinkertaisia datan laatuongelmia ja käyttää perustyökaluja datan esikäsittelyyn.
Arviointikriteerit, hyvä (3)
Hyvä (3)
Ymmärrät tietolähteiden monimuotoisuuden ja datan esikäsittelyn haasteet. Kykenet soveltamaan itsenäisesti opittua tietoa ja käyttämään monipuolisesti erilaisia työkaluja datan esikäsittelyyn. Osaat tunnistaa ja käsitellä myös puutteellista dataa sisältäviä tietolähteitä.
Kiitettävä (4)
Osaat kriittisesti arvioida eri tietolähteitä ja niiden soveltuvuutta erilaisiin tarkoituksiin. Osaat itsenäisesti ja luovasti ratkaista monimutkaisia datan esikäsittelyn ongelmia ja integroida eri tietolähteitä. Kykenet yhdistämään oleelliset tiedot valituista tietolähteistä ja muotoilemaan puutteelliset tiedot osittain tavoitteiden mukaisesti.
Arviointikriteerit, kiitettävä (5)
Erinomainen (5)
Hallitset eri tietolähteet ja datan esikäsittelyn osa-alueet laaja-alaisesti ja syvällisesti. Kykenet soveltamaan opittua tietoa osana vaativampia ratkaisuja datan esikäsittelyssä. Osaat yhdistellä eri menetelmiä ja työkaluja vaativampien ratkaisujen saavuttamiseksi. Kykenet yhdistämään oleelliset tiedot valituista tietolähteistä ja muotoilemaan puutteelliset tiedot tavoitteiden mukaisesti.