Regressio on tiedonlouhintatekniikka, jota käytetään ennustamaan numeeristen arvojen sarja (kutsutaan myös jatkuvat arvot) tietyn tietojoukon perusteella. Regressiota voidaan käyttää esimerkiksi tuotteen tai palvelun kustannusten ennustamiseen muiden muuttujien perusteella. Regressiota käytetään useilla toimialoilla liiketoiminnan ja markkinoinnin suunnittelussa, taloudellisessa ennustamisessa, ympäristömallintamisessa ja trendianalyysissä.
Regressio vs luokittelu
Regressio ja luokittelu ovat tiedonlouhintatekniikoita, joita käytetään samanlaisten ongelmien ratkaisemiseen, mutta ne sekoitetaan usein. Molempia käytetään ennusteanalyysissä, mutta regressiota käytetään numeerisen tai jatkuvan arvon ennustamiseen, kun taas luokittelu määrittää tiedot erillisiin luokkiin. Regressiota käytettäisiin esimerkiksi kodin arvon ennustamiseen sen sijainnin, neliömetrin, viimeisimmän myyntihinnan, vertailukelpoisten asuntojen hintojen ja muiden tekijöiden perusteella. Luokittelu olisi paikallaan, jos haluat sen sijaan luokitella koteja, kuten kävelykelpoisuus, tontin koko tai rikollisuus.
Regressiotekniikoiden tyypit
Yksinkertaisin ja vanhin regression muoto on lineaarinen regressio, jota käytetään kahden muuttujan välisen suhteen estimoimiseen. Tämä tekniikka käyttää suoran matemaattista kaavaa (y = mx + b). Yksinkertaisesti sanottuna tämä tarkoittaa yksinkertaisesti sitä, että kaaviossa, jossa on Y- ja X-akseli, X:n ja Y:n välinen suhde on suora viiva, jossa on vähän poikkeamia. Voisimme esimerkiksi olettaa, että väestönkasvulla ruoan tuotanto lisääntyisi samaa tahtia – tämä edellyttää vahvaa, lineaarista suhdetta näiden kahden numeron välillä. Tämän visualisoimiseksi voit tarkastella kaaviota, jossa Y-akseli seuraa väestön kasvua ja X-akseli ruoan tuotantoa. Kun Y-arvo kasvaa, X-arvo kasvaisi samalla nopeudella, jolloin näiden kahden välinen suhde olisi suora. Kehittyneet tekniikat, kuten moninkertainen regressio, ennustavat useiden muuttujien välistä suhdetta – esimerkiksi onko tulojen, koulutuksen ja asuinpaikan välillä suhdetta? Muuttujien lisääminen lisää huomattavasti ennusteen monimutkaisuutta. Useita regressiotekniikoita on useita, mukaan lukien standardi, hierarkkinen, joukko ja askel, joista jokaisella on oma sovellus. Tässä vaiheessa on tärkeää ymmärtää, mitä yritämme ennustaa (riippuvainen tai ennustettu muuttuja) ja tiedot, joita käytämme ennusteen tekemiseen (riippumaton tai ennustaja muuttujat). Esimerkissämme haluamme ennustaa sijainnin, jossa ihmiset haluavat asua ( ennustettu muuttuva) tulot ja koulutus (molemmat ennustaja muuttujat).
- Standardi moninkertainen regressio ottaa samanaikaisesti huomioon kaikki ennustavat muuttujat. Esimerkiksi 1) mikä on tulojen ja koulutuksen (ennustajat) ja naapuruston valinnan (ennustettu) suhde; ja 2) missä määrin kukin yksittäinen ennustaja vaikuttaa tähän suhteeseen?
- Vaiheittainen moninkertainen regressio vastaa täysin eri kysymykseen. Vaiheittainen regressioalgoritmi analysoi, mitä ennustajia käytetään parhaiten naapuruston valinnan ennustamiseen – eli vaiheittainen malli arvioi ennustajamuuttujien tärkeysjärjestyksen ja valitsee sitten asiaankuuluvan osajoukon. Tämäntyyppinen regressioongelma käyttää «askeleita» regressioyhtälön kehittämiseen. Kun otetaan huomioon tämäntyyppinen regressio, kaikki ennustajat eivät välttämättä näy lopullisessa regressioyhtälössä.
- Hierarkkinen regressio, kuten askel askeleelta on peräkkäinen prosessi, mutta ennustavat muuttujat syötetään malliin ennalta määritetyssä järjestyksessä, joka on ennalta määrätty, eli algoritmi ei sisällä sisäänrakennettua yhtälösarjaa, jolla määritettäisiin, missä järjestyksessä ennustajat. Tätä käytetään useimmiten, kun regressioyhtälön laatijalla on alan asiantuntemusta.
- Joukkokohtainen regressio on myös samanlainen kuin vaiheittainen, mutta analysoi muuttujajoukkoja yksittäisten muuttujien sijaan.