Kaj morate vedeti o Bayesian neželeni filtri

by Heinz Tschabitscher

Preberite, kako statistični podatki omogočajo čiščenje vašega prejetega

Bayesovi filtri neželene pošte izračunajo verjetnost, da je spam sporočilo glede na njegovo vsebino. Za razliko od preprostih filtrov, ki temeljijo na vsebini, Bayesian filtriranje neželene vsebine uči iz neželene pošte in iz dobre pošte, kar ima za posledico zelo robusten, prilagodljiv in učinkovit pristop proti neželeni elektronski pošti, ki najbolj prinaša skoraj vse lažne pozitivne učinke.

Kako prepoznate elektronsko pošto?

Razmislite o tem, kako odkrivate neželeno pošto . Hitri pogled je pogosto dovolj. Veš, kakšna je neželena vsebina in veste, kako izgleda dobra pošta.

Verjetnost neželene pošte, ki izgleda kot dobra pošta, je okoli ... nič.

Ocenjevanje filtrov, ki temeljijo na vsebini, se ne prilagajajo

Ali ne bi bilo super, če bi tudi samodejni neželeni filtri delali tako?

Točno poskusite s točkovanjem filtrov za neželeno vsebino na podlagi vsebine. Iščeta besede in druge značilnosti, značilne za neželeno pošto. Vsak značilen element je dodeljen rezultat, neželeni rezultat za celotno sporočilo pa se izračuna iz posameznih rezultatov. Nekateri filtri za točkovanje iščejo značilnosti zakonite pošte, s čimer se zmanjša končni rezultat sporočila.

Pristop s filtri za točkovanje deluje, vendar ima tudi nekaj pomanjkljivosti:

Seznam značilnosti je zgrajen iz neželene pošte (in dobre pošte), ki je na voljo inženirjem filtra. Če bi kdo dobil dobro spoznanje o tipični neželeni pošti, je treba na stotine e-poštnih naslovov poslati pošto. To slabi učinkovitost filtrov, zlasti zato, ker bodo značilnosti dobre pošte drugačne za vsako osebo , vendar se to ne upošteva.
Značilnosti, ki jih je treba iskati, so bolj ali manj nastavljene v kamen . Če se pošiljatelji neželene pošte trudijo, da se prilagodijo (in postanejo njihova vsiljena pošta všeč dobri pošti v filtre), morajo biti značilnosti filtriranja ročno naravnane - še večje napore.
Rezultat, dodeljen vsaki besedi, je verjetno temeljil na dobri oceni, vendar je še vedno samovoljen. In tako kot seznam značilnosti, se ne prilagaja niti spremenljivemu svetu neželene pošte na splošno niti potrebam posameznega uporabnika.

Bayesian Spam Filters Tweak Sami, Getting boljši in boljši

Bayesovi filtri za neželeno pošto so tudi neke vrste filtri, ki temeljijo na vsebini. Njihov pristop odpravi težave s preprostim ocenjevanjem neželenih filtrov, čeprav je tako radikalno. Ker je šibkost filtrov točkovanja v ročno zgrajenem seznamu značilnosti in njihovih rezultatov, se ta seznam izloči.

Namesto tega Bayesian filtri neželene pošte sami izdelajo seznam. V idealnem primeru začnete z (veliko) skupino e-poštnih sporočil, ki ste jih označili kot vsiljeno pošto, in še enim kupom dobre pošte. Filtri pregledujejo oboje in analizirajo legitimno pošto in neželeno pošto, da izračunata verjetnost različnih značilnosti, ki se pojavljajo v neželeni pošti, in v pošti.

Kako Bayesian Spam Filter preučuje e-pošto

Značilnosti Bayesovega neželenega filma so lahko:

besede v telesu sporočila, seveda, in
njegove glave (pošiljatelji in poti za sporočila , na primer!), ampak tudi
drugi vidiki, kot je koda HTML / CSS (kot so barve in drugo oblikovanje) ali celo
besednih parov, besednih zvez in
meta informacije (kjer se na primer pojavlja posamezna fraza).

Če se beseda "kartezijanec" na primer nikoli ne pojavi v neželeni pošti, ampak pogosto v zakonitem e-poštnem sporočilu, ki ga prejmete, je verjetnost, da "kartijansko" označuje vsiljeno pošto, skoraj nič. "Toner" se na drugi strani izkaže izključno in pogosto v neželeni elektronski pošti. "Toner" ima zelo veliko verjetnost, da je v spamu, in ne precej pod 1 (100%).

Ko pride novo sporočilo, ga analizira Bayesian neželeni filter, verjetnost, da je celotno sporočilo neželena pošta izračunano z uporabo posameznih značilnosti.

Predpostavimo, da sporočilo vsebuje "kartezijsko" in "toner". Iz teh besed samo še ni jasno, ali imamo neželeno pošto ali pošteno pošto. Druge značilnosti bodo (upajmo in najverjetneje) nakazovali verjetnost, ki filtru dovoljuje, da razvrsti sporočilo kot neželeno pošto ali dobro pošto.

Bayesian neželeni filtri se lahko samodejno naučijo

Zdaj, ko imamo klasifikacijo, se sporočilo lahko uporabi za nadaljnje usposabljanje filtra. V tem primeru je verjetnost »kartezijanskega«, ki označuje dobro pošto, znižana (če je sporočilo, ki vsebuje tako »kartezijsko« kot »tonerje«, se šteje za neželeno), ali pa je treba ponovno preučiti verjetnost, da bo toner označil neželeno pošto.

Z uporabo te samodejne prilagoditvene tehnike se lahko Bayesovi filtri učijo iz svojih in uporabnikovih odločitev (če ročno popravi napačno presojo s filtri). Prilagodljivost Bayesovega filtriranja prav tako zagotavlja, da so najučinkovitejši za posameznega uporabnika elektronske pošte. Medtem ko ima večina ljudi neželeno vsebino podobne značilnosti, je zakonita pošta značilno drugačna za vse.

Kako lahko pošiljatelji neželene pošte dobijo pretekle Bayesian filtre?

Značilnosti zakonite pošte so enako pomembne za Bayesov postopek filtriranja neželene pošte kot neželeno pošto. Če so filtri posebej usposobljeni za vsakega uporabnika, imajo pošiljatelji neželene pošte še težje delo z vsemi (ali celo večini) neželenimi filtri, filtri pa se lahko prilagajajo skoraj vsem, ki jih poskusijo pošiljatelji neželene pošte.

Pošiljatelji neželene elektronske pošte bodo šli mimo dobro urejenih Bayesovih filtrov, če bodo njihova neželena sporočila popolnoma videti kot navadna e-pošta, ki jo lahko vsi dobijo.

Pošiljatelji neželene elektronske pošte običajno ne pošiljajo običajnih e-poštnih sporočil. Predpostavimo, da je to zato, ker te e-pošte ne delujejo kot neželena e-pošta. Torej, verjetno je, da ne bodo počeli tega, ko bodo navadna, dolgočasna e-poštna sporočila edini način, kako se pretepajo filtri.

Če se pošiljatelji neželene pošte ne bodo preusmerili na večino navadnih e-poštnih sporočil, bomo v naših mapah za pošiljke ponovno videli veliko neželene pošte, elektronska pošta pa bo postala tako frustrirajuća kot v pred-Bayesovih dneh (ali še slabše). Prav tako bo uničil trg za večino vrst neželene pošte, in tako ne bo trajal dolgo.

Močni kazalniki so lahko Achilles Bayesian filter neželene pošte. Peta

Izjemoma je mogoče opaziti, da pošiljatelji neželene elektronske pošte prebijejo skozi Bayesove filtre, tudi z njihovo običajno vsebino. V naravi Bayesove statistike je, da je ena beseda ali značilnost, ki se zelo pogosto pojavlja v dobri pošti, lahko tako pomembna, da lahko poljubno sporočilo pretvori v spam, da ga filter filtrira kot šunko.

Če pošiljatelji neželene elektronske pošte najdejo način za določitev vaših zanesljivih besed o dobrem pošti - z uporabo povratnih potrdil HTML, da bi videli, katera sporočila, ki ste jih odprli, na primer, lahko vključijo enega od njih v neželeno pošto in vas dosežejo tudi prek dobro- izobraženi Bayesov filter.

John Graham-Cumming je poskusil s tem, ko je pustil, da sta dva Bayesovih filtrov delovala drug proti drugemu, "slab", ki se prilagaja sporočilom, po katerih najde skozi "dober" filter. Pravi, da deluje, čeprav je postopek dolgotrajen in zapleten. Ne verjamemo, da se bo to veliko zgodilo, vsaj ne v velikem obsegu in ne prilagojeno značilnostim e-pošte posameznikov. Pošiljatelji neželene elektronske pošte lahko (poskusijo) določiti nekatere ključne besede za organizacije (namesto da bi nekateri ljudje na IBM-u lahko imeli kaj podobnega "Almaden").

Običajno se vsiljena pošta vedno (bistveno) razlikuje od običajne pošte ali pa ne bo neželene pošte.

Bottom Line: Bayesova filtrirna moč je lahko njena šibkost

Bayesovi filtri za vsiljene vsebine so filtri na podlagi vsebine, ki:

so posebej usposobljeni, da prepoznajo neželeno pošto uporabnika posameznika in dobro pošto , zaradi česar so zelo učinkoviti in se težko prilagajajo neželenim poštnim storitvam.
se lahko stalno in brez veliko napora ali ročne analize prilagaja najnovejšim trikovam pošiljateljev.
upoštevajte dobro pošto posameznega uporabnika in imajo zelo nizko stopnjo lažnih pozitivnih rezultatov .
Na žalost, če to povzroči slepo zaupanje v Bayesove filtre za preprečevanje neželene pošte, je občasna napaka še bolj resna . Nasprotni učinek lažnih negativov (neželene elektronske pošte, ki je videti kot običajna pošta) lahko moti in onemogoča uporabnike.