1-DAV-302: Princípy dátovej vedy
Zima 2025
Prednášky a poznámky


Info | Domáce úlohy | Prednášky a poznámky | Predchádzajúce semestre


Na tejto stránke nájdete orientačný rozvrh semestra. Tento rozvrh bude aktualizovaný vždy po skončení príslušného týždňa prednášok, takisto budú pribúdať študijné materiály.
 
Literatúra:

 
Týždeň 22.09.2025-26.09.2025
P1: Úvod, administratíva. Workflow dátovej analýzy. Prístupy riadené hypotézou / otázkou vs. prístupy riadené dátami.
P2: Lineárna regresia. Definícia ako optimalizačná úloha a alternatívna definícia pomocou maximálnej vierohodnosti. Riešenie pomocou inverzie matíc a gradientovou metódou. Použitia lineárnej regresie. Regularizácia (ridge, LASSO). Praktická aplikácia.
Literatúra: Skie:1.1-1.2,9.1-9.5,Gru:8,Gru:14
Slajdy:Poznámky a ďalšie materiály:
Úvod, workflow (slajdy):PDF, 1409 Kb ]
NY taxi driver dataset (slajdy):PDF, 868 Kb ]
Odhad veľkosti populácie medveďa hnedého na Slovensku (štúdia):linka ]
Estimating the size of small populations from genetic mark–recapture data:linka ]
New York City TLC trip record data (dataset):linka ]
Úvod (video):linka ]
Lineárna regresia (video):linka ]

Týždeň 29.09.2025-03.10.2025
P1: Generalizovaná regresia. Testovacia chyba. Výchylka vs. rozptyl. Preučenie a podučenie. Imputácia hodnôt, lokálna regresia (LOWESS).
P2: Analýza hlavných komponentov (PCA). Riešenie pomocou vlastných vektorov. Hlavné komponenty ako dátové body. Kovariačná matica po PCA.
Literatúra: Skie:9.2.2,7.1.2,Gru:15;Skie:8.5,Gru:10
Slajdy:Poznámky a ďalšie materiály:
Generalizovaná regresia (notebook):Jupyter notebook, 988 Kb ]
Metóda LOWESS (notebook):Jupyter notebook, 224 Kb ]
PCA/Iris dataset (notebook):Jupyter notebook, 180 Kb ]
PCA/eigenfaces (notebook):Jupyter notebook, 381 Kb ]
Generalizovaná lineárna regresia (video):linka ]
Analýza hlavných komponentov (video):linka ]

Týždeň 06.10.2025-10.10.2025
C: numpy, parametrizovateľné notebooky
P2: Čo robíme keď dostaneme do ruky nový dataset? Sumárne štatistiky. Normálna distribúcia a vzťah k centrálnej limitnej vete. Výpočet variancie v celej populácii vs. vo vzorke. Pearsonov korelačný koeficient. Vzťah korelácie a lineárnej regresie, akú časť variancie dokáže vysvetliť regresia. Spearmanova korelácia. Korelácia a kauzalita. Autokorelácia. Kovariačná matica, vzťah k multinomiálnej normálnej distribúcii.
Literatúra: Skie:6.1,2.2-2.3; Gru:10
Slajdy:Poznámky a ďalšie materiály:
Regresia, numpy, parametrizovateľné notebooky (cvičenia):linka ]
Sumárne štatistiky, korelácia (slidy):PDF, 1200 Kb ]
NHANES weight dataset (notebook):Jupyter notebook, 1930 Kb ]

Týždeň 13.10.2025-17.10.2025
P1: Zhlukovanie. k-means a k-medians. Elbow method. Aglomeratívne zhlukovanie. Ďalšie metódy zhlukovania v sklearn.
P2: Zhlukovanie pomocou zmesi Gaussiánov. EM algoritmus (expectation maximization). Graf podobnosti. Spektrálne zhlukovanie.
Literatúra: Skie:10.5,Gru:19;DEKM:11.6
Slajdy:Poznámky a ďalšie materiály:
k-means zhlukovanie (slajdy):PDF, 155 Kb ]
zhlukovanie (slajdy):PDF, 720 Kb ]

Týždeň 20.10.2025-24.10.2025
C: Zhlukovanie
P2: Klasifikácia. k najbližších susedov. Logistická regresia.
Literatúra: Skie:10.2,Gru:12;Skie:9.6-9.7,Gru:16
Slajdy:Poznámky a ďalšie materiály:
Zhlukovanie (cvičenia):linka ]
k najbližších susedov (notebook):Jupyter notebook, 520 Kb ]
logistická regresia (notebook):Jupyter notebook, 438 Kb ]

Týždeň 27.10.2025-31.10.2025
P1: Viactriedová klasifikácia, softmax. Neurónové siete. Rozhodovacie stromy.
P2: pamiatka zosnulých, vyučovanie odpadne
Literatúra: Skie:11.6,Gru:18;Skie:11.2, Gru:17

Týždeň 03.11.2025-07.11.2025
C: Neurónové siete
P: Rozhodovacie stromy (príklad). Hlasovacie schémy (bagging / náhodné lesy, boosting / xgboost). Vyhodnocovanie úspešnosti klasifikácie: precision, recall, F1, ROC krivky, AUC
Literatúra: Skie:11.3,Gru:17;Skie:7.4
Slajdy:Poznámky a ďalšie materiály:
Neurónové siete (cvičenia):linka ]
Rozhodovacie stromy (slajdy):PDF, 82 Kb ]
Rozhodovacie stromy (notebook):Jupyter notebook, 1394 Kb ]

Týždeň 10.11.2025-14.11.2025
P1: Úloha trénovacieho, testovacieho a validačného data setu. k-fold evaluácia.
Pravdepodobnostné modelovanie. Bayesovské siete.
P2: Poznámky k riešeniam DÚ1
Naivný Bayesovský klasifikátor.
Literatúra: Skie:11.1,Gru:13

Týždeň 17.11.2025-21.11.2025
P1: Naivný Bayesovský klasifikátor (príklad). Skryté Markovovské modely. Viterbiho algoritmus. P2: Forward algoritmus.

Týždeň 24.11.2025-28.11.2025
P1: Štatistika v dátovej vede. Popisovanie dát pomocou parametrických rozdelení. Normálne rozdelenie, Binomické rozdelenie, Poissonovo rozdelenie, Mocninové (power-law) rozdelenie. Procesy, ktorými vznikajú tieto rozdelenia v reálnych dátach.
P2: Testovanie štatistických hypotéz. Nulová hypotéza / štatistika / P-hodnota. Fisherov exaktný test / chí-kvadrát test. Testy rozdielnosti rozdelení s rôznymi predpokladmi: Welchov t-test, Mann-Whitneyho test, Kolmogorov-Smirnov test, permutačné testy. Korekcia viacnásobného testovania: Bonferroniho korekcia, False discovery rate.

Týždeň 01.12.2025-05.12.2025
C: Miery úspešnosti klasifikácie
P1: Veľké dáta. Čo sú veľké dáta, odkiaľ prichádzajú. Spôsoby ako sa vyrovnať s veľkými dátami: Náhodné vzorkovanie, náhodné vzorkovanie streamovaných dát, stratifikované vzorkovanie. Sumárne (postačujúce) štatistiky pre trénovanie modelov. Relačné databázy. Paralelizácia / rozdelenie výpočtu na veľa nezávislých podproblémov. Data-centrické distribuované výpočty (príklad: zhlukovanie). Robustnosť ku zlyhaniam: využívanie frameworkov.

Týždeň 08.12.2025-12.12.2025
P1: Ďalšie témy zo strojového učenia. Odporúčacie systémy. Reprezentácia obrázkov, textov, zvuku. Large language models.
P2: Etické otázky súvisiace s dátovou vedou.
Literatúra: Skie:5,Gru:7

Týždeň 15.12.2025-19.12.2025
C: Large language models
P: Zhrnutie / Rezerva / Vzorové riešenia domácich úloh


Maintained by 1-DAV-302 personnel