GettyImages 551986609 MontyRakusen 59f92f25aad52b0010534330 c138750622704e7ca85f701c68f56d96

The k-tarkoittaa, että klusterointialgoritmi on tiedonlouhinta- ja koneoppimistyökalu, jota käytetään havaintojen ryhmittämiseen toisiinsa liittyvien havaintojen ryhmiin ilman aiempaa tietoa näistä suhteista. Otoksen avulla algoritmi yrittää näyttää mihin luokkaan tai klusteriin tiedot kuuluvat, ja klusterien lukumäärä määritellään arvolla k.

The k-tarkoittaa, että algoritmi on yksi yksinkertaisimmista klusterointitekniikoista ja sitä käytetään yleisesti lääketieteellisessä kuvantamisessa, biometriassa ja niihin liittyvillä aloilla. Etuna k-klusterointi tarkoittaa sitä, että se kertoo tiedoistasi (käyttäen valitsematonta muotoa) sen sijaan, että ohjeistaisit algoritmia tiedoista alussa (käyttäen algoritmin tarkistettua muotoa). Sitä kutsutaan joskus Lloydin algoritmiksi, varsinkin tietojenkäsittelytieteen piireissä, koska vakioalgoritmia ehdotti ensimmäisen kerran Stuart Lloyd vuonna 1957. Termin «k-means» loi vuonna 1967 James McQueen.

Kuinka K-keskiarvo-algoritmi toimii

The k-tarkoittaa, että algoritmi on evoluutioalgoritmi, joka on saanut nimensä työmenetelmästään. Algoritmi ryhmittelee havainnot seuraavasti: k ryhmät, missä? k annetaan syöttöparametrina. Sitten se kohdistaa jokaisen havainnon klusteriin sen perusteella, kuinka lähellä havaintoa klusterin keskiarvoon. Tämän jälkeen klusteri lasketaan uudelleen ja prosessi alkaa uudelleen. Näin algoritmi toimii:

  1. Algoritmi valitsee satunnaisesti k pisteitä alkuperäisinä klusterikeskuksina (resursseina).
  2. Jokainen tietojoukon piste kartoitetaan suljettuun klusteriin kunkin pisteen ja kunkin klusterin keskipisteen välisen euklidisen etäisyyden perusteella.
  3. Jokainen klusterin keskus lasketaan uudelleen kyseisen klusterin pisteiden keskiarvona.
  4. Toista vaiheita 2 ja 3, kunnes klusterit yhdistyvät. Konvergenssi voidaan määritellä eri tavalla toteutuksesta riippuen, mutta normaalisti se tarkoittaa, että joko mikään havainto ei muuta klustereita vaiheita 2 ja 3 toistettaessa tai muutoksilla ei ole olennaista eroa klustereiden määrittelyssä.

Valitse klustereiden määrä

Yksi tärkeimmistä haitoista k-tarkoittaa, että klusterointi on tosiasia, että sinun on määritettävä klusterien lukumäärä syötteenä algoritmille. Suunniteltuna algoritmi ei pysty määrittämään oikeaa klustereiden määrää ja luottaa siihen, että käyttäjä tunnistaa sen etukäteen. Jos sinulla on esimerkiksi ryhmä ihmisiä, jotka ryhmitellään binaarisen sukupuoli-identiteetin perusteella mieheksi tai naiseksi, nimeä k-tarkoittaa syötettä käyttävää algoritmia k = 3 pakottaisi ihmiset kolmeen klusteriin, jos vain kaksi tai yksi panos k = 2, antaisi luonnollisemman istuvuuden. Samoin, jos ryhmä yksilöitä voitaisiin helposti klusteroida kotivaltion perusteella ja kutsuit k-tarkoittaa algoritmia syötteellä k = 20, tulokset voivat olla liian yleisiä ollakseen tehokkaita. Tästä syystä on usein hyvä idea kokeilla erilaisia ​​arvoja k tunnistaaksesi arvon, joka parhaiten sopii tietoihisi. Voit myös tutkia muiden tiedonlouhintaalgoritmien käyttöä koneoppitun tiedon haussa.

FAQ

  • Mitä on tiedon louhinta?

    Tiedonlouhinta on käytäntö, jossa analysoidaan valtavia tietomääriä trendien ja kuvioiden etsimiseksi. Nämä tiedot kerätään usein henkilön Internet-selaushistoriasta, ostotottumuksista, sijaintitiedoista ja muusta.

  • Miten tiedon louhinta toimii?

    Yritykset keräävät usein tietoja palkinto-ohjelmista, sosiaalisesta mediasta, postituslistoista ja muista. Nämä tiedot analysoidaan sitten mallien ja käyttäytymisen varalta. Näin ruokakaupat tietävät, että munanukku myy paljon esimerkiksi lomakaudella tai miksi retkeilyvarustemainokset ponnaavat sosiaalisen median syötteeseesi tutkittuasi Siionin matkaa.

  • Mitkä ovat tiedon louhinnan päätavoitteet?

    Päätavoitteena on löytää oivalluksia, trendejä ja suhteita suurista tietomääristä. Asiantuntijat käyttävät tätä raakaa tietoa markkinointistrategioiden kehittämiseen. Sitä käytetään myös esimerkiksi poliisin, tieteen ja tekniikan aloilla.

Por Markus