| 1-DAV-302: Princípy dátovej vedy Zima 2025 Prednášky a poznámky |
|
Info | Domáce úlohy | Prednášky a poznámky | Predchádzajúce semestre
|
Na tejto stránke nájdete orientačný rozvrh semestra. Tento rozvrh
bude aktualizovaný vždy po skončení príslušného týždňa prednášok,
takisto budú pribúdať študijné materiály.
| ||
| Literatúra: | ||
|---|---|---|
| ||
| Týždeň 22.09.2025-26.09.2025 | |
|
P1: Úvod, administratíva. Workflow dátovej analýzy.
Prístupy riadené hypotézou / otázkou vs. prístupy riadené dátami. P2: Lineárna regresia. Definícia ako optimalizačná úloha a alternatívna definícia pomocou maximálnej vierohodnosti. Riešenie pomocou inverzie matíc a gradientovou metódou. Použitia lineárnej regresie. Regularizácia (ridge, LASSO). Praktická aplikácia. Literatúra: Skie:1.1-1.2,9.1-9.5,Gru:8,Gru:14 |
|
| Slajdy: | Poznámky a ďalšie materiály: |
|---|---|
|
Úvod, workflow (slajdy): [ PDF, 1409 Kb ] NY taxi driver dataset (slajdy): [ PDF, 868 Kb ] |
Odhad veľkosti populácie medveďa hnedého na Slovensku (štúdia): [ linka ] Estimating the size of small populations from genetic mark–recapture data: [ linka ] New York City TLC trip record data (dataset): [ linka ] Úvod (video): [ linka ] Lineárna regresia (video): [ linka ] |
| Týždeň 29.09.2025-03.10.2025 | |
|
P1: Generalizovaná regresia. Testovacia chyba. Výchylka
vs. rozptyl. Preučenie a podučenie. Imputácia hodnôt,
lokálna regresia (LOWESS). P2: Analýza hlavných komponentov (PCA). Riešenie pomocou vlastných vektorov. Hlavné komponenty ako dátové body. Kovariačná matica po PCA. Literatúra: Skie:9.2.2,7.1.2,Gru:15;Skie:8.5,Gru:10 |
|
| Slajdy: | Poznámky a ďalšie materiály: |
|---|---|
|
Generalizovaná regresia (notebook): [ Jupyter notebook, 988 Kb ] Metóda LOWESS (notebook): [ Jupyter notebook, 224 Kb ] PCA/Iris dataset (notebook): [ Jupyter notebook, 180 Kb ] PCA/eigenfaces (notebook): [ Jupyter notebook, 381 Kb ] |
Generalizovaná lineárna regresia (video): [ linka ] Analýza hlavných komponentov (video): [ linka ] |
| Týždeň 06.10.2025-10.10.2025 | |
|
C: numpy, parametrizovateľné notebooky P2: Čo robíme keď dostaneme do ruky nový dataset? Sumárne štatistiky. Normálna distribúcia a vzťah k centrálnej limitnej vete. Výpočet variancie v celej populácii vs. vo vzorke. Pearsonov korelačný koeficient. Vzťah korelácie a lineárnej regresie, akú časť variancie dokáže vysvetliť regresia. Spearmanova korelácia. Korelácia a kauzalita. Autokorelácia. Kovariačná matica, vzťah k multinomiálnej normálnej distribúcii. Literatúra: Skie:6.1,2.2-2.3; Gru:10 |
|
| Slajdy: | Poznámky a ďalšie materiály: |
|---|---|
|
Regresia, numpy, parametrizovateľné notebooky (cvičenia): [ linka ] Sumárne štatistiky, korelácia (slidy): [ PDF, 1200 Kb ] NHANES weight dataset (notebook): [ Jupyter notebook, 1930 Kb ] |
|
| Týždeň 13.10.2025-17.10.2025 | |
|
P1: Zhlukovanie. k-means a k-medians. Elbow method. Aglomeratívne zhlukovanie. Ďalšie metódy zhlukovania v sklearn. P2: Zhlukovanie pomocou zmesi Gaussiánov. EM algoritmus (expectation maximization). Graf podobnosti. Spektrálne zhlukovanie. Literatúra: Skie:10.5,Gru:19;DEKM:11.6 |
|
| Slajdy: | Poznámky a ďalšie materiály: |
|---|---|
|
k-means zhlukovanie (slajdy): [ PDF, 155 Kb ] zhlukovanie (slajdy): [ PDF, 720 Kb ] |
|
| Týždeň 20.10.2025-24.10.2025 | |
|
C: Zhlukovanie P2: Klasifikácia. k najbližších susedov. Logistická regresia. Literatúra: Skie:10.2,Gru:12;Skie:9.6-9.7,Gru:16 |
|
| Slajdy: | Poznámky a ďalšie materiály: |
|---|---|
|
Zhlukovanie (cvičenia): [ linka ] k najbližších susedov (notebook): [ Jupyter notebook, 520 Kb ] logistická regresia (notebook): [ Jupyter notebook, 438 Kb ] |
|
| Týždeň 27.10.2025-31.10.2025 | |
|
P1: Viactriedová klasifikácia, softmax. Neurónové siete.
Rozhodovacie stromy. P2: pamiatka zosnulých, vyučovanie odpadne Literatúra: Skie:11.6,Gru:18;Skie:11.2, Gru:17 |
| Týždeň 03.11.2025-07.11.2025 | |
|
C: Neurónové siete P: Rozhodovacie stromy (príklad). Hlasovacie schémy (bagging / náhodné lesy, boosting / xgboost). Vyhodnocovanie úspešnosti klasifikácie: precision, recall, F1, ROC krivky, AUC Literatúra: Skie:11.3,Gru:17;Skie:7.4 |
|
| Slajdy: | Poznámky a ďalšie materiály: |
|---|---|
|
Neurónové siete (cvičenia): [ linka ] Rozhodovacie stromy (slajdy): [ PDF, 82 Kb ] Rozhodovacie stromy (notebook): [ Jupyter notebook, 1394 Kb ] |
|
| Týždeň 10.11.2025-14.11.2025 | |
|
P1: Úloha trénovacieho, testovacieho a validačného data setu. k-fold evaluácia. Pravdepodobnostné modelovanie. Bayesovské siete. P2: Poznámky k riešeniam DÚ1 Naivný Bayesovský klasifikátor. Literatúra: Skie:11.1,Gru:13 |
| Týždeň 17.11.2025-21.11.2025 | |
|
P1: Naivný Bayesovský klasifikátor (príklad). Skryté Markovovské modely.
Viterbiho algoritmus.
P2: Forward algoritmus. |
| Týždeň 24.11.2025-28.11.2025 | |
|
P1: Štatistika v dátovej vede.
Popisovanie dát pomocou parametrických rozdelení.
Normálne rozdelenie, Binomické rozdelenie, Poissonovo rozdelenie,
Mocninové (power-law) rozdelenie. Procesy, ktorými vznikajú tieto rozdelenia
v reálnych dátach. P2: Testovanie štatistických hypotéz. Nulová hypotéza / štatistika / P-hodnota. Fisherov exaktný test / chí-kvadrát test. Testy rozdielnosti rozdelení s rôznymi predpokladmi: Welchov t-test, Mann-Whitneyho test, Kolmogorov-Smirnov test, permutačné testy. Korekcia viacnásobného testovania: Bonferroniho korekcia, False discovery rate. |
| Týždeň 01.12.2025-05.12.2025 | |
|
C: Miery úspešnosti klasifikácie P1: Veľké dáta. Čo sú veľké dáta, odkiaľ prichádzajú. Spôsoby ako sa vyrovnať s veľkými dátami: Náhodné vzorkovanie, náhodné vzorkovanie streamovaných dát, stratifikované vzorkovanie. Sumárne (postačujúce) štatistiky pre trénovanie modelov. Relačné databázy. Paralelizácia / rozdelenie výpočtu na veľa nezávislých podproblémov. Data-centrické distribuované výpočty (príklad: zhlukovanie). Robustnosť ku zlyhaniam: využívanie frameworkov. |
| Týždeň 08.12.2025-12.12.2025 | |
|
P1: Ďalšie témy zo strojového učenia. Odporúčacie systémy. Reprezentácia obrázkov, textov, zvuku. Large language models. P2: Etické otázky súvisiace s dátovou vedou. Literatúra: Skie:5,Gru:7 |
| Týždeň 15.12.2025-19.12.2025 | |
|
C: Large language models P: Zhrnutie / Rezerva / Vzorové riešenia domácich úloh |