Obsah

Regrese (Regression)

Regrese je statistická a strojová metoda, jejímž cílem je předpovědět spojitou numerickou hodnotu (číslo) na základě vstupních dat. Na rozdíl od klasifikace, která zařazuje data do kategorií (např. „pes“ vs. „kočka“), regrese odpovídá na otázku „Kolik?“.

1. Základní princip

V regresi hledáme matematickou funkci $f$, která nejlépe popisuje vztah mezi nezávisle proměnnými (vstupy, rysy) a závisle proměnnou (výstupem, cílem).

$$y = f(x) + \epsilon$$

Kde:

2. Typy regresních modelů

A. Lineární regrese (Linear Regression)

Nejjednodušší forma regrese, která předpokládá lineární vztah mezi vstupy a výstupem. Výsledkem je přímka (v 2D) nebo nadrovina (ve více dimenzích).

B. Polynomiální regrese

Používá se, pokud data nevykazují lineární trend, ale spíše křivku. Do rovnice se přidávají mocniny vstupních proměnných ($x^2, x^3, \dots$).

C. Logistická regrese (Pozor na záměnu!)

Navzdory názvu se v ML častěji používá pro klasifikaci. Používá sigmoidní funkci k určení pravděpodobnosti, že daný jev nastane (výsledek je v intervalu 0 až 1).

D. Regresní stromy a lesy (Random Forest Regression)

Využívají rozhodovací stromy k rozdělení dat do skupin a následně průměrují hodnoty v těchto skupinách. Jsou velmi odolné vůči odlehlým hodnotám (outliers).

3. Metriky hodnocení (Jak poznat dobrou regresi?)

U regrese nemůžeme měřit „přesnost“ (accuracy) jako u klasifikace, protože trefit se přesně na desetinné místo je téměř nemožné. Používáme proto metriky založené na chybě:

4. Praktické příklady využití

5. Úskalí regrese


Související články:

Tagy: ml algoritmy statistika regrese math