Bayesilaiset roskapostisuodattimet laskevat sen sisällön perusteella todennäköisyyden, että viesti on roskapostia. Toisin kuin yksinkertaiset sanapohjaiset suodattimet, Bayesin roskapostisuodattimet oppivat saapuvasta roskapostista ja hyvästä sähköpostista, mikä johtaa erittäin vankkaan, mukautuvan ja tehokkaan roskapostin torjuntaan, joka antaa harvoin vääriä positiivisia tuloksia. Sähköpostiviestejä, joita ei pidetä roskapostina, kutsutaan joskus «kinkuksi».
Bayes-suodattimet paranevat jatkuvasti
Yksinkertaiset sanapohjaiset roskapostisuodattimet eivät ota huomioon sähköpostin käyttäjille epätavallisia sanoja (osoitus siitä, että tietty viesti saattaa olla roskapostia). Lisäksi heillä ei ole kykyä muuttaa roskapostin tunnistamiseen käyttämiään sääntöjä ajan myötä. Bayesilaiset roskapostisuodattimet ovat erilaisia, koska ne tekevät molempia. Bayesilaiset roskapostisuodattimet muodostavat ajan mittaan luettelon ei-toivotuista sanoista. He analysoivat sekä roskapostia että hyviä viestejä laskeakseen todennäköisyyden, että roskapostissa ja hyvässä postissa esiintyy erilaisia ominaisuuksia. Sitten luetteloon lisätään uusia, ei-toivottuja sanoja. Jos sana ei koskaan näy roskapostissa, mutta esiintyy usein vastaanottamassasi laillisessa sähköpostissa, todennäköisyys, että sana ilmaisee roskapostia, on lähellä nollaa. Oletetaan, että saat paljon laillisia viestejä, jotka sisältävät sanan . sisältää karteesinen. Tämä vähentää todennäköisyyttä, että saat sähköpostiviestit, jotka sisältävät sanan karteesinen ovat roskapostia. Toisaalta oletetaan, että saat harvoin, jos koskaan, laillisia viestejä, jotka sisältävät sanan väriaine. Jos saat viestin, joka sisältää sanan: väriaine, se on todennäköisemmin roskapostia.
Kuinka Bayes-suodatin tutkii sähköpostiviestin
Bayesin roskapostisuodatin tarkastelee viestien ominaisuuksia:
- Sanat viestin rungossa
- Sanat viestin otsikossa (kuten lähettäjä ja viestin polku)
- Muut elementit, kuten HTML/CSS-koodi (kuten värit ja muut muotoilut)
- Sanaparit ja lauseet
- Metatiedot (kuten missä tietty lause esiintyy)
Kun uusi viesti saapuu, Bayesin roskapostisuodatin analysoi sen ja laskee näiden ominaisuuksien perusteella todennäköisyyden, että se on roskapostia. Jatkamalla yllä olevia esimerkkejä, oletetaan, että viesti sisältää molemmat sanat, karteesinen ja väriaine. Pelkästään nämä sanat tekevät siitä epäselvän, onko viesti roskapostia vai aito sähköposti. Mutta jos viestissä on myös otsikko «HYVÄT VÄRITIEDOT!!!!!» silloin se on todennäköisemmin roskapostia.
Bayes-suodattimet oppivat automaattisesti
Kun suodatin on luokiteltu «roskapostiksi» tai «lailliseksi sähköpostiksi», se voi käyttää tätä päättäväisyyttä kouluttaakseen itseään. Esimerkissämme suodattimen on oltava joko todennäköisyys . laskea karteesinen osoittaa hyvää postausta tai lisää sen mahdollisuutta väriaine osoittaa roskapostia. Kun otetaan huomioon tämän viestin roskapostiotsikon lisätiedot (ja ehkä myös muut tekijät), se tekisi jälkimmäisen ja arvioi seuraavan saapuvan viestin uuden todennäköisyyden perusteella. Käyttämällä tätä automaattisesti mukautuvaa tekniikkaa Bayes-suodattimet voivat oppia sekä omista päätöksistään että käyttäjien päätöksistä (jos he korjaavat manuaalisesti väärin arvioidut viestit). Tämän järjestelmän mukautuvuus tekee näistä suodattimista tehokkaimpia yksittäisille sähköpostin käyttäjille, koska vaikka useimpien ihmisten roskapostilla on samanlaiset ominaisuudet, laillinen sähköposti on erilainen jokaiselle henkilölle.
Pystyvätkö roskapostittajat ohittamaan Bayesian suodattimet?
Laillisen sähköpostin ominaisuudet ovat yhtä tärkeitä Bayesin roskapostin suodatusprosessille kuin roskapostin ominaisuudet. Koska suodattimet on erityisesti koulutettu jokaiselle käyttäjälle, roskapostittajilla on vaikeampaa kiertää niitä ja suodattimet voivat mukautua melkein mihin tahansa roskapostittajat yrittämään. Roskapostittajilta tulevat viestit läpäisevät hyvin koulutetut Bayes-suodattimet vain, jos huijarit saavat roskapostinsa näyttämään tavalliselta sähköpostilta. Mutta roskapostittajat eivät yleensä lähetä tällaisia tavallisia viestejä, koska ne eivät toimi hyvin tarkoitukseensa (ts. vakuuttaa sinut ostamaan jotain tai klikkaa linkkiä). Niin hyvä kuin Bayes-suodatin onkin, yksi hyvässä postissa usein esiintyvä sana tai ominaisuus voi olla niin tärkeä, että sen sisältävää viestiä ei pidetä roskapostina. Siksi, jos roskapostittajat löytäisivät tavan määrittää ehdottoman hyvät sähköpostisanasi, he voisivat sisällyttää yhden niistä roskapostiin ja jopa tavoittaa sinut hyvin koulutetun Bayes-suodattimen kautta. Mutta tätä menetelmää kokeilleiden tutkijoiden mukaan se on aikaa vievä ja tarpeeksi monimutkainen, joten sitä ei todennäköisesti käytetä kovin usein.