Obsah

Bayesian Filter (Bayesovský filtr)

Bayesian Filter je statistický algoritmus založený na Bayesově teorému, který se používá k třídění dat do kategorií (nejčastěji Spam vs. Ham – legitimní pošta). Na rozdíl od jednoduchých filtrů, které hledají konkrétní klíčová slova, se bayesovský filtr dokáže učit z příkladů a přizpůsobovat se aktuálním trendům.


Jak to funguje: Princip pravděpodobnosti

Filtr neposuzuje e-mail jako celek, ale rozkládá ho na jednotlivé prvky (slova, znaky, metadata), kterým přiřazuje určitou váhu pravděpodobnosti.

1. Bayesův teorém v praxi

Základní matematický vzorec (zjednodušeně) vypočítává pravděpodobnost, že e-mail je spam, na základě výskytu konkrétních slov:

$$P(Spam|Slovo) = \frac{P(Slovo|Spam) \cdot P(Spam)}{P(Slovo)}$$


Proces učení a klasifikace

Bayesovský filtr není po instalaci „vševědoucí“. Musí projít dvěma fázemi:

1. Trénování (Training)

Uživatel nebo správce systému předloží filtru dvě sady dat:

Filtr si vytvoří databázi slov a jejich četností v obou skupinách.

2. Bodování (Scoring)

Když dorazí nový e-mail:

1. Algoritmus vybere nejvýznamnější slova v textu.
2. Zjistí jejich pravděpodobnost spamu z databáze.
3. Provede kombinovaný výpočet celkového skóre (obvykle od 0.0 do 1.0).
4. Pokud skóre překročí nastavený práh (např. 0.9), e-mail je označen jako spam.

Výhody a nevýhody

Výhody

Nevýhody


Praktické využití

Dnes je bayesovské filtrování součástí téměř všech velkých antispamových řešení, jako jsou:


Související pojmy: Spam, Ham, False Positive, Machine Learning, Blacklist, SpamAssassin.