Obsah

Redukce dimenzionality (PCA)

Redukce dimenzionality je proces snižování počtu vstupních proměnných (rysů/dimenzí) v datové sadě. Cílem je zjednodušit data, odstranit šum a umožnit vizualizaci při zachování co největšího množství původních informací.

Nejznámější a nejpoužívanější lineární metodou pro tento úkol je Analýza hlavních komponent (Principal Component Analysis – PCA).

1. Proč redukovat dimenze?

2. Jak PCA funguje? (Princip)

PCA matematicky transformuje data do nového souřadnicového systému:

1. **Hledání směru největšího rozptylu:** Algoritmus najde směr (osu), ve kterém se data nejvíce mění. Tato osa se nazývá **První hlavní komponenta (PC1)**.
2. **Ortogonalita:** Druhá hlavní komponenta (**PC2**) musí být kolmá na první a musí vysvětlovat druhý největší podíl zbývajícího rozptylu.
3. **Projekce:** Původní data jsou promítnuta na tyto nové osy.

3. Postup výpočtu (Algoritmus)

Pro zájemce o matematické pozadí probíhá PCA v těchto krocích:

4. Praktické využití

5. Omezení PCA

Ukázka v Pythonu (Scikit-Learn)

from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
 
# 1. Standardizace dat
X_std = StandardScaler().fit_transform(X)
 
# 2. Inicializace PCA (chceme zachovat 2 nejdůležitější komponenty)
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_std)
 
# 3. Zjištění, kolik informací jsme zachovali
print(f"Zachovaný rozptyl: {pca.explained_variance_ratio_.sum()}")

Související články:

Tagy: ai ml pca statistika dimensionality_reduction math