Luokitus on kaivostekniikka, joka määrittää luokat tietojoukolle tarkempien ennusteiden ja analyysien helpottamiseksi. Luokittelu on yksi monista menetelmistä, joiden tarkoituksena on tehdä erittäin suurten tietokokonaisuuksien analysoinnista tehokasta.
Miksi luokittelu?
Erittäin suurista tietokannoista on tulossa normi nykymaailmassa Suuri data. Kuvittele tietokanta, jossa on teratavuja tietoa – teratavu on yksi biljoonaa tavua dataa. Pelkästään Facebook käsittelee 600 teratavua uutta dataa joka päivä (vuodesta 2014, viimeksi, kun se raportoi nämä tiedot). Big datan suurin haaste on ymmärtää se. Eikä vain volyymi ole ainoa ongelma: big data on myös usein monipuolista, jäsentämätöntä ja nopeasti muuttuvaa. Ajattele ääni- ja videodataa, sosiaalisen median viestejä, 3D-tietoja tai paikkatietoa. Tällaista dataa ei ole helppo luokitella tai järjestää. Tähän haasteeseen vastaamiseksi on kehitetty sarja automaattisia menetelmiä hyödyllisen tiedon poimimiseksi, mukaan lukien: luokitus.
Miten luokittelu toimii
Analyytikon tavoitteena on luoda joukko luokitussääntöjä, jotka vastaavat kysymykseen, tekevät päätöksen tai ennustavat käyttäytymistä. Aluksi kehitetään joukko harjoitustietoja, jotka sisältävät tietyn attribuuttijoukon ja todennäköisen tuloksen. Luokittelualgoritmin tehtävänä on selvittää, kuinka tämä attribuuttijoukko päätyy johtopäätökseensä. Harkitse luottokorttiyhtiötä, joka yrittää määrittää, ketkä mahdolliset asiakkaat saavat luottokorttitarjouksen. Yrityksen koulutustiedot voivat sisältää:
Nimi | Ikä | Seksiä | Vuositulot | Luottokorttitarjous |
---|---|---|---|---|
John Doe | 25 | m | 39 500 dollaria | ei |
Jane Doe | 56 | f | 125 000 dollaria | Joo |
Nimi | Ikä | Seksiä | Vuositulot | Luottokorttitarjous |
---|---|---|---|---|
Jack Frost | 42 | m | 88 000 dollaria | |
Mary Murray | 16 | f | 0 dollaria |
Päivittäisiä luokitusesimerkkejä
Luokittelu ja muut kaivostekniikat ovat perustana suurelle osalle jokapäiväistä kokemustamme kuluttajina. Sääennusteet käyttävät luokitustekniikoita ilmoittamaan, tuleeko päivästä sateinen, aurinkoinen vai pilvinen. Lääkäri analysoi terveydentilaa todennäköisten lääketieteellisten tulosten ennustamiseksi. Eräs luokitusmenetelmä, Naive Bayesian, käyttää ehdollista todennäköisyyttä roskapostin luokitteluun.