1-DAV-302: Princípy dátovej vedy
Zima 2023
Prednášky a poznámky


Info | Domáce úlohy | Prednášky a poznámky | Predchádzajúce semestre


Na tejto stránke nájdete orientačný rozvrh semestra. Tento rozvrh bude aktualizovaný vždy po skončení príslušného týždňa prednášok, takisto budú pribúdať študijné materiály.
 
Literatúra:

 
Týždeň 18.09.2023-22.09.2023
P: Úvod, administratíva. Workflow dátovej analýzy. Prístupy riadené hypozézou / otázkou vs. prístupy riadené dátami.
Literatúra: Skie:1.1-1.2
Slajdy:Poznámky a ďalšie materiály:
Úvod, workflow (slajdy):PDF, 1054 Kb ]
Odhad veľkosti populácie medveďa hnedého na Slovensku (štúdia):linka ]
Estimating the size of small populations from genetic mark–recapture data:linka ]

Týždeň 25.09.2023-29.09.2023
P: Lineárna regresia. Definícia ako optimalizačná úloha a alternatívna definícia pomocou maximálnej vierohodnosti. Riešenie pomocou inverzie matíc a gradientovou metódou. Použitia lineárnej regresie. Regularizácia (ridge, LASSO). Praktická aplikácia.
C: numpy, parametrizovateľné notebooky
Literatúra: Skie:9.1-9.5; Gru:8,14
Slajdy:Poznámky a ďalšie materiály:
NY taxi driver data (slajdy):PDF, 868 Kb ]
Parametrizovateľné notebooky (cvičenia):linka ]
New York City TLC trip record data (dataset):linka ]

Týždeň 02.10.2023-06.10.2023
P1: Generalizovaná regresia. Testovacia chyba. Výchylka vs. rozptyl. Preučenie a podučenie. Imputácia hodnôt, lokálna regresia (LOWESS).
P2: Čo robíme keď dostaneme do ruky nový dataset? Sumárne štatistiky. Normálna distribúcia a vzťah k centrálnej limitnej vete. Výpočet variancie v celej populácii vs. vo vzorke. Pearsonov korelačný koeficient. Vzťah korelácie a lineárnej regresie, akú časť variancie dokáže vysvetliť regresia. Spearmanova korelácia. Korelácia a kauzalita. Autokorelácia. Kovariačná matica, vzťah k multinomiálnej normálnej distribúcii.
Literatúra: Skie:9.2.2,7.1.2; Gru:15; Skie:6.1,2.2-2.3
Slajdy:Poznámky a ďalšie materiály:
Generalizovaná regresia (notebook):Jupyter notebook, 988 Kb ]
Sumárne štatistiky, korelácia (slidy):PDF, 1200 Kb ]
NHANES weight dataset:Jupyter notebook, 1930 Kb ]

Týždeň 09.10.2023-13.10.2023
P1: Analýza hlavných komponentov (PCA). Riešenie pomocou vlastných vektorov. Hlavné komponenty ako dátové body. Kovariačná matica po PCA.
P2: Zhlukovanie. k-means a k-medians. Elbow method. Aglomeratívne zhlukovanie. Ďalšie metódy zhlukovania v sklearn.
Literatúra: Skie:8.5;Gru:10;Skie:10.5.1-10.5.2;Gru:19
Slajdy:Poznámky a ďalšie materiály:
PCA/Iris dataset (notebook):Jupyter notebook, 180 Kb ]
PCA/eigenfaces (notebook):Jupyter notebook, 381 Kb ]
k-means zhlukovanie (slajdy):PDF, 155 Kb ]
zhlukovanie (slajdy):PDF, 720 Kb ]

Týždeň 16.10.2023-20.10.2023
P1: Zhlukovanie pomocou zmesi Gaussiánov. EM algoritmus (expectation maximization). Graf podobnosti. Spektrálne zhlukovanie.
P2: Klasifikácia. k najbližších susedov. Logistická regresia.
Literatúra: Skie:10.5.4;HTF2:8.5;HTF2:14.5.3;Skie:10.2;Gru:12;Skie:9.6-9.7;Gru:16
Slajdy:Poznámky a ďalšie materiály:
Spektrálne zhlukovanie (slajdy):PDF, 61 Kb ]

Týždeň 23.10.2023-27.10.2023
P1: Viactriedová klasifikácia, softmax. Neurónové siete.
Úloha trénovacieho, testovacieho a validačného data setu. k-fold evaluácia.
C: Zhlukovanie
Literatúra: Skie:9.7;Skie:11.6,Gru:19;Skie:7.4
Slajdy:Poznámky a ďalšie materiály:
Zhlukovanie (cvičenia):linka ]

Týždeň 30.10.2023-03.11.2023
Sviatok pamiatka zosnulých, vyučovanie odpadlo.

Týždeň 06.11.2023-10.11.2023
P1: Rozhodovacie stromy. Hlasovacie metódy (bagging / náhodné lesy, boosting / xgboost).
P2: Pravdepodobnostné modelovanie. Baysovské siete. Naivný Bayesovský klasifikátor.
Literatúra: Skie:11.2,11.3,Gru:17;Skie:11.1,Gru:13
Slajdy:Poznámky a ďalšie materiály:
Rozhodovacie stromy (slajdy):PDF, 82 Kb ]

Týždeň 13.11.2023-17.11.2023
P1: Naivný Bayesovský klasifikátor (príklad). Skryté Markovovské modely.
Deň boja za slobodu a demokraciu, prednáška odpadla.
Slajdy:Poznámky a ďalšie materiály:
Spam filter (notebook):Jupyter notebook, 93 Kb ]

Týždeň 20.11.2023-24.11.2023
P1: Ďalšie témy zo strojového učenia. Odporúčacie systémy. Reprezentácia obrázkov, textov, zvuku.
C: Neurónové siete
Literatúra: Gru:23, Gru:21
Slajdy:Poznámky a ďalšie materiály:
Extrakcia atribútov pomocou Sklearn:linka ]
Neurónové siete (cvičenia):linka ]
Príklady použitia strojového učenia:linka ]

Týždeň 27.11.2023-01.12.2023
P1: Pravdepodobnostné modelovanie (pokr.). Viterbiho algoritmus. Forward algoritmus. Vierohodnosť parametrov pravdepodobnostného modelu.
C: Miery úspešnosti klasifikácie
Literatúra: DEKM:3
Slajdy:Poznámky a ďalšie materiály:
Skryté Markovovské modely (notebook):Jupyter notebook, 93 Kb ]
Vierohodnosť (notebook):Jupyter notebook, 39 Kb ]
Miery úspešnosti klasifikácie (cvičenia):linka ]

Týždeň 04.12.2023-08.12.2023
P1: Štatistika v dátovej vede. Popisovanie dát pomocou parametrických rozdelení. Normálne rozdelenie, Binomické rozdelenie, Poissonovo rozdelenie, Mocninové (power-law) rozdelenie. Procesy, ktorými vznikajú tieto rozdelenia v reálnych dátach.
P2: Testovanie štatistických hypotéz. Nulová hypotéza / štatistika / P-hodnota. Fisherov exaktný test / chí-kvadrát test. Testy rozdielnosti rozdelení s rôznymi predpokladmi: Welchov t-test, Mann-Whitneyho test, Kolmogorov-Smirnov test, permutačné testy. Korekcia viacnásobného testovania: Bonferroniho korekcia, False discovery rate.
Literatúra: Skie:5,Gru:7
Slajdy:Poznámky a ďalšie materiály:
Rozdelenia (slajdy):PDF, 349 Kb ]
Poissonovo rozdelenie (text / oprava):PDF, 116 Kb ]
Štatistické testy (notebook):Jupyter notebook, 180 Kb ]

Týždeň 11.12.2023-15.12.2023
P1: Veľké dáta. Čo sú veľké dáta, odkiaľ prichádzajú. Spôsoby ako sa vyrovnať s veľkými dátami: Náhodné vzorkovanie, náhodné vzorkovanie streamovaných dát, stratifikované vzorkovanie. Sumárne (postačujúce) štatistiky pre trénovanie modelov. Relačné databázy. Paralelizácia / rozdelenie výpočtu na veľa nezávislých podproblémov. Data-centrické distribuované výpočty (príklad: zhlukovanie). Robustnosť ku zlyhaniam: využívanie frameworkov.
P2: Etické otázky súvisiace s dátovou vedou.
Literatúra: Skie:12,Gru:25;Skie:12.7,13,Gru:26
Slajdy:Poznámky a ďalšie materiály:
Veľké dáta (slajdy):PDF, 316 Kb ]


Maintained by 1-DAV-302 personnel