====== Regrese (Regression) ====== **Regrese** je statistická a strojová metoda, jejímž cílem je předpovědět **spojitou numerickou hodnotu** (číslo) na základě vstupních dat. Na rozdíl od klasifikace, která zařazuje data do kategorií (např. "pes" vs. "kočka"), regrese odpovídá na otázku "Kolik?". ===== 1. Základní princip ===== V regresi hledáme matematickou funkci $f$, která nejlépe popisuje vztah mezi nezávisle proměnnými (vstupy, rysy) a závisle proměnnou (výstupem, cílem). $$y = f(x) + \epsilon$$ Kde: * **$y$** je hodnota, kterou chceme předpovědět (např. cena nemovitosti). * **$x$** jsou vstupní data (např. rozloha bytu, lokalita, stáří). * **$\epsilon$** je náhodná chyba (šum). ===== 2. Typy regresních modelů ===== ==== A. Lineární regrese (Linear Regression) ==== Nejjednodušší forma regrese, která předpokládá lineární vztah mezi vstupy a výstupem. Výsledkem je přímka (v 2D) nebo nadrovina (ve více dimenzích). * **Jednoduchá:** Predikce na základě jednoho faktoru (např. plocha -> cena). * **Vícenásobná:** Predikce na základě více faktorů (plocha + lokalita + patro -> cena). ==== B. Polynomiální regrese ==== Používá se, pokud data nevykazují lineární trend, ale spíše křivku. Do rovnice se přidávají mocniny vstupních proměnných ($x^2, x^3, \dots$). ==== C. Logistická regrese (Pozor na záměnu!) ==== Navzdory názvu se v ML častěji používá pro **klasifikaci**. Používá sigmoidní funkci k určení pravděpodobnosti, že daný jev nastane (výsledek je v intervalu 0 až 1). ==== D. Regresní stromy a lesy (Random Forest Regression) ==== Využívají rozhodovací stromy k rozdělení dat do skupin a následně průměrují hodnoty v těchto skupinách. Jsou velmi odolné vůči odlehlým hodnotám (outliers). ===== 3. Metriky hodnocení (Jak poznat dobrou regresi?) ===== U regrese nemůžeme měřit "přesnost" (accuracy) jako u klasifikace, protože trefit se přesně na desetinné místo je téměř nemožné. Používáme proto metriky založené na chybě: * **MAE (Mean Absolute Error):** Průměrná absolutní chyba. Říká nám, o kolik se v průměru model plete (např. "model se plete o 500 Kč"). * **MSE (Mean Squared Error):** Průměrná čtvercová chyba. Více penalizuje velké chyby. * **RMSE (Root Mean Squared Error):** Odmocnina z MSE. Má stejné jednotky jako cílová proměnná. * **R-squared ($R^2$):** Koeficient determinace. Říká, jak velké procento rozptylu dat model vysvětluje (0 až 1). ===== 4. Praktické příklady využití ===== * **Finance:** Předpovídání vývoje cen akcií nebo měnových kurzů. * **Reality:** Odhad tržní ceny nemovitosti na základě jejích parametrů. * **Meteorologie:** Předpověď teploty na následující dny. * **Průmysl:** Prediktivní údržba (odhad, za kolik hodin se stroj porouchá). ===== 5. Úskalí regrese ===== * **Overfitting (Přeučení):** Model se naučil trénovací data "nazpaměť" i se šumem a selhává na nových datech. * **Underfitting (Nedostatečné naučení):** Model je příliš jednoduchý (např. snaží se popsat složitou křivku přímkou). * **Outliers (Odlehlé hodnoty):** Extrémní hodnoty v datech mohou lineární regresi drasticky zkreslit. ---- //Související články:// * [[it:ml:supervised_learning|Učení s učitelem]] * [[it:math:statistics|Základy statistiky]] * [[it:ml:overfitting|Overfitting a Underfitting]] //Tagy: {{tag>ml algoritmy statistika regrese math}}//