GettyImages 609179193 5a4676eb842b170037c6e8a5

Luokitus on kaivostekniikka, joka määrittää luokat tietojoukolle tarkempien ennusteiden ja analyysien helpottamiseksi. Luokittelu on yksi monista menetelmistä, joiden tarkoituksena on tehdä erittäin suurten tietokokonaisuuksien analysoinnista tehokasta.

Miksi luokittelu?

Erittäin suurista tietokannoista on tulossa normi nykymaailmassa Suuri data. Kuvittele tietokanta, jossa on teratavuja tietoa – teratavu on yksi biljoonaa tavua dataa. Pelkästään Facebook käsittelee 600 teratavua uutta dataa joka päivä (vuodesta 2014, viimeksi, kun se raportoi nämä tiedot). Big datan suurin haaste on ymmärtää se. Eikä vain volyymi ole ainoa ongelma: big data on myös usein monipuolista, jäsentämätöntä ja nopeasti muuttuvaa. Ajattele ääni- ja videodataa, sosiaalisen median viestejä, 3D-tietoja tai paikkatietoa. Tällaista dataa ei ole helppo luokitella tai järjestää. Tähän haasteeseen vastaamiseksi on kehitetty sarja automaattisia menetelmiä hyödyllisen tiedon poimimiseksi, mukaan lukien: luokitus.

Miten luokittelu toimii

Analyytikon tavoitteena on luoda joukko luokitussääntöjä, jotka vastaavat kysymykseen, tekevät päätöksen tai ennustavat käyttäytymistä. Aluksi kehitetään joukko harjoitustietoja, jotka sisältävät tietyn attribuuttijoukon ja todennäköisen tuloksen. Luokittelualgoritmin tehtävänä on selvittää, kuinka tämä attribuuttijoukko päätyy johtopäätökseensä. Harkitse luottokorttiyhtiötä, joka yrittää määrittää, ketkä mahdolliset asiakkaat saavat luottokorttitarjouksen. Yrityksen koulutustiedot voivat sisältää:

Nimi Ikä Seksiä Vuositulot Luottokorttitarjous
John Doe 25 m 39 500 dollaria ei
Jane Doe 56 f 125 000 dollaria Joo
Koulutuspäivät
Ennustesarakkeet Ikä, Seksiäja Vuositulot määrittää «predictor-attribuutin» arvo Luottokorttitarjous. Harjoittelujoukossa ennustaja-attribuutti tunnetaan. Luokittelualgoritmi yrittää sitten määrittää, kuinka ennustajaattribuutin arvo saavutettiin: mitä suhteita ennustajien ja päätöksen välillä on? Se kehittää joukon ennustussääntöjä, yleensä IF/THEN-lauseen. Ilmeisesti tämä on yksinkertainen esimerkki, ja algoritmi vaatisi paljon suuremman datanäytteen kuin tässä esitetyt kaksi tietuetta. Lisäksi ennustussäännöt ovat luultavasti paljon monimutkaisempia, mukaan lukien alisäännöt määritteiden yksityiskohtien tallentamiseksi. Sitten algoritmi saa «ennustejoukon» dataa analysoitavaksi, mutta tästä joukosta puuttuu ennusteattribuutti (tai päätös):

Nimi Ikä Seksiä Vuositulot Luottokorttitarjous
Jack Frost 42 m 88 000 dollaria
Mary Murray 16 f 0 dollaria
Ennustetiedot
Tämä ennustedata auttaa arvioimaan ennustesääntöjen tarkkuuden, ja sääntöjä säädetään sitten, kunnes kehittäjä pitää ennusteita tehokkaina ja hyödyllisinä.

Päivittäisiä luokitusesimerkkejä

Luokittelu ja muut kaivostekniikat ovat perustana suurelle osalle jokapäiväistä kokemustamme kuluttajina. Sääennusteet käyttävät luokitustekniikoita ilmoittamaan, tuleeko päivästä sateinen, aurinkoinen vai pilvinen. Lääkäri analysoi terveydentilaa todennäköisten lääketieteellisten tulosten ennustamiseksi. Eräs luokitusmenetelmä, Naive Bayesian, käyttää ehdollista todennäköisyyttä roskapostin luokitteluun.

Por Markus