Bayesian Filter (Bayesovský filtr)

Bayesian Filter je statistický algoritmus založený na Bayesově teorému, který se používá k třídění dat do kategorií (nejčastěji Spam vs. Ham – legitimní pošta). Na rozdíl od jednoduchých filtrů, které hledají konkrétní klíčová slova, se bayesovský filtr dokáže učit z příkladů a přizpůsobovat se aktuálním trendům.

Jak to funguje: Princip pravděpodobnosti

Filtr neposuzuje e-mail jako celek, ale rozkládá ho na jednotlivé prvky (slova, znaky, metadata), kterým přiřazuje určitou váhu pravděpodobnosti.

1. Bayesův teorém v praxi

Základní matematický vzorec (zjednodušeně) vypočítává pravděpodobnost, že e-mail je spam, na základě výskytu konkrétních slov:

$$P(Spam|Slovo) = \frac{P(Slovo|Spam) \cdot P(Spam)}{P(Slovo)}$$

Pokud se slovo „Viagra“ vyskytuje v 90 % spamu, ale jen v 0,1 % legitimní pošty, má toto slovo vysoké „spamové skóre“.
Pokud se slovo „Projekt“ vyskytuje v 50 % legitimní pošty, ale jen v 1 % spamu, táhne toto slovo výsledné hodnocení směrem k „Ham“.

Proces učení a klasifikace

Bayesovský filtr není po instalaci „vševědoucí“. Musí projít dvěma fázemi:

1. Trénování (Training)

Uživatel nebo správce systému předloží filtru dvě sady dat:

Velký soubor potvrzených spamů.
Velký soubor potvrzené legitimní pošty.

Filtr si vytvoří databázi slov a jejich četností v obou skupinách.

2. Bodování (Scoring)

Když dorazí nový e-mail:

1. Algoritmus vybere nejvýznamnější slova v textu.
2. Zjistí jejich pravděpodobnost spamu z databáze.
3. Provede kombinovaný výpočet celkového skóre (obvykle od 0.0 do 1.0).
4. Pokud skóre překročí nastavený práh (např. 0.9), e-mail je označen jako spam.

Výhody a nevýhody

Výhody

Adaptivita: Pokud začnou spammeři používat nová slova, stačí párkrát označit e-mail jako spam a filtr se sám „přeškolí“.
Personalizace: Filtr pro právníka se naučí, že termíny jako „smlouva“ jsou v pořádku, zatímco pro běžného uživatele mohou být podezřelé.
Nízká chybovost: Správně natrénované filtry mají velmi nízký počet „falešně pozitivních“ výsledků (označení důležité zprávy za spam).

Nevýhody

Bayesian Poisoning (Otrávení filtru): Útočníci do spamu přidávají dlouhé bloky legitimního textu (např. úryvky z románů), aby zmátli statistiku a „naředili“ spamová slova.
Nutnost tréninku: Na začátku vyžaduje součinnost uživatele.
Vypočetní náročnost: Je náročnější na CPU a paměť než jednoduché seznamy zakázaných slov (Blacklisty).

Praktické využití

Dnes je bayesovské filtrování součástí téměř všech velkých antispamových řešení, jako jsou:

SpamAssassin: Populární open-source nástroj pro mailservery.
Gmail / Outlook: Využívají pokročilé varianty tohoto algoritmu v kombinaci s neuronovými sítěmi.
Detekce obsahu: Používá se i mimo e-maily, například pro automatické třídění zpráv v diskusních fórech nebo identifikaci jazyka.

Související pojmy: Spam, Ham, False Positive, Machine Learning, Blacklist, SpamAssassin.