1-DAV-302: Princípy dátovej vedy Zima 2023 Prednášky a poznámky |
Info | Domáce úlohy | Prednášky a poznámky | Predchádzajúce semestre
Na tejto stránke nájdete orientačný rozvrh semestra. Tento rozvrh
bude aktualizovaný vždy po skončení príslušného týždňa prednášok,
takisto budú pribúdať študijné materiály.
| ||
Literatúra: | ||
---|---|---|
|
Týždeň 18.09.2023-22.09.2023 | |
P: Úvod, administratíva. Workflow dátovej analýzy.
Prístupy riadené hypozézou / otázkou vs. prístupy riadené dátami. Literatúra: Skie:1.1-1.2 |
|
Slajdy: | Poznámky a ďalšie materiály: |
---|---|
Úvod, workflow (slajdy): [ PDF, 1054 Kb ] |
Odhad veľkosti populácie medveďa hnedého na Slovensku (štúdia): [ linka ] Estimating the size of small populations from genetic mark–recapture data: [ linka ] |
Týždeň 25.09.2023-29.09.2023 | |
P: Lineárna regresia. Definícia ako optimalizačná úloha a alternatívna definícia pomocou maximálnej vierohodnosti. Riešenie pomocou inverzie matíc a gradientovou metódou. Použitia lineárnej regresie. Regularizácia (ridge, LASSO). Praktická aplikácia. C: numpy, parametrizovateľné notebooky Literatúra: Skie:9.1-9.5; Gru:8,14 |
|
Slajdy: | Poznámky a ďalšie materiály: |
---|---|
NY taxi driver data (slajdy): [ PDF, 868 Kb ] Parametrizovateľné notebooky (cvičenia): [ linka ] |
New York City TLC trip record data (dataset): [ linka ] |
Týždeň 02.10.2023-06.10.2023 | |
P1: Generalizovaná regresia. Testovacia chyba. Výchylka
vs. rozptyl. Preučenie a podučenie. Imputácia hodnôt,
lokálna regresia (LOWESS). P2: Čo robíme keď dostaneme do ruky nový dataset? Sumárne štatistiky. Normálna distribúcia a vzťah k centrálnej limitnej vete. Výpočet variancie v celej populácii vs. vo vzorke. Pearsonov korelačný koeficient. Vzťah korelácie a lineárnej regresie, akú časť variancie dokáže vysvetliť regresia. Spearmanova korelácia. Korelácia a kauzalita. Autokorelácia. Kovariačná matica, vzťah k multinomiálnej normálnej distribúcii. Literatúra: Skie:9.2.2,7.1.2; Gru:15; Skie:6.1,2.2-2.3 |
|
Slajdy: | Poznámky a ďalšie materiály: |
---|---|
Generalizovaná regresia (notebook): [ Jupyter notebook, 988 Kb ] Sumárne štatistiky, korelácia (slidy): [ PDF, 1200 Kb ] |
NHANES weight dataset: [ Jupyter notebook, 1930 Kb ] |
Týždeň 09.10.2023-13.10.2023 | |
P1: Analýza hlavných komponentov (PCA). Riešenie pomocou vlastných vektorov. Hlavné komponenty ako dátové body. Kovariačná matica po PCA. P2: Zhlukovanie. k-means a k-medians. Elbow method. Aglomeratívne zhlukovanie. Ďalšie metódy zhlukovania v sklearn. Literatúra: Skie:8.5;Gru:10;Skie:10.5.1-10.5.2;Gru:19 |
|
Slajdy: | Poznámky a ďalšie materiály: |
---|---|
PCA/Iris dataset (notebook): [ Jupyter notebook, 180 Kb ] PCA/eigenfaces (notebook): [ Jupyter notebook, 381 Kb ] k-means zhlukovanie (slajdy): [ PDF, 155 Kb ] zhlukovanie (slajdy): [ PDF, 720 Kb ] |
Týždeň 16.10.2023-20.10.2023 | |
P1: Zhlukovanie pomocou zmesi Gaussiánov. EM algoritmus (expectation maximization). Graf podobnosti. Spektrálne zhlukovanie. P2: Klasifikácia. k najbližších susedov. Logistická regresia. Literatúra: Skie:10.5.4;HTF2:8.5;HTF2:14.5.3;Skie:10.2;Gru:12;Skie:9.6-9.7;Gru:16 |
|
Slajdy: | Poznámky a ďalšie materiály: |
---|---|
Spektrálne zhlukovanie (slajdy): [ PDF, 61 Kb ] |
Týždeň 23.10.2023-27.10.2023 | |
P1: Viactriedová klasifikácia, softmax. Neurónové siete. Úloha trénovacieho, testovacieho a validačného data setu. k-fold evaluácia. C: Zhlukovanie Literatúra: Skie:9.7;Skie:11.6,Gru:19;Skie:7.4 |
|
Slajdy: | Poznámky a ďalšie materiály: |
---|---|
Zhlukovanie (cvičenia): [ linka ] |
Týždeň 30.10.2023-03.11.2023 | |
Sviatok pamiatka zosnulých, vyučovanie odpadlo. |
Týždeň 06.11.2023-10.11.2023 | |
P1: Rozhodovacie stromy. Hlasovacie metódy (bagging / náhodné lesy, boosting / xgboost). P2: Pravdepodobnostné modelovanie. Baysovské siete. Naivný Bayesovský klasifikátor. Literatúra: Skie:11.2,11.3,Gru:17;Skie:11.1,Gru:13 |
|
Slajdy: | Poznámky a ďalšie materiály: |
---|---|
Rozhodovacie stromy (slajdy): [ PDF, 82 Kb ] |
Týždeň 13.11.2023-17.11.2023 | |
P1: Naivný Bayesovský klasifikátor (príklad). Skryté Markovovské modely. Deň boja za slobodu a demokraciu, prednáška odpadla. |
|
Slajdy: | Poznámky a ďalšie materiály: |
---|---|
Spam filter (notebook): [ Jupyter notebook, 93 Kb ] |
Týždeň 20.11.2023-24.11.2023 | |
P1: Ďalšie témy zo strojového učenia. Odporúčacie systémy. Reprezentácia
obrázkov, textov, zvuku. C: Neurónové siete Literatúra: Gru:23, Gru:21 |
|
Slajdy: | Poznámky a ďalšie materiály: |
---|---|
Extrakcia atribútov pomocou Sklearn: [ linka ] Neurónové siete (cvičenia): [ linka ] |
Príklady použitia strojového učenia: [ linka ] |
Týždeň 27.11.2023-01.12.2023 | |
P1: Pravdepodobnostné modelovanie (pokr.). Viterbiho algoritmus. Forward algoritmus. Vierohodnosť parametrov pravdepodobnostného modelu. C: Miery úspešnosti klasifikácie Literatúra: DEKM:3 |
|
Slajdy: | Poznámky a ďalšie materiály: |
---|---|
Skryté Markovovské modely (notebook): [ Jupyter notebook, 93 Kb ] Vierohodnosť (notebook): [ Jupyter notebook, 39 Kb ] Miery úspešnosti klasifikácie (cvičenia): [ linka ] |
Týždeň 04.12.2023-08.12.2023 | |
P1: Štatistika v dátovej vede.
Popisovanie dát pomocou parametrických rozdelení.
Normálne rozdelenie, Binomické rozdelenie, Poissonovo rozdelenie,
Mocninové (power-law) rozdelenie. Procesy, ktorými vznikajú tieto rozdelenia
v reálnych dátach. P2: Testovanie štatistických hypotéz. Nulová hypotéza / štatistika / P-hodnota. Fisherov exaktný test / chí-kvadrát test. Testy rozdielnosti rozdelení s rôznymi predpokladmi: Welchov t-test, Mann-Whitneyho test, Kolmogorov-Smirnov test, permutačné testy. Korekcia viacnásobného testovania: Bonferroniho korekcia, False discovery rate. Literatúra: Skie:5,Gru:7 |
|
Slajdy: | Poznámky a ďalšie materiály: |
---|---|
Rozdelenia (slajdy): [ PDF, 349 Kb ] Poissonovo rozdelenie (text / oprava): [ PDF, 116 Kb ] Štatistické testy (notebook): [ Jupyter notebook, 180 Kb ] |
Týždeň 11.12.2023-15.12.2023 | |
P1: Veľké dáta. Čo sú veľké dáta, odkiaľ prichádzajú.
Spôsoby ako sa vyrovnať s veľkými dátami: Náhodné vzorkovanie, náhodné vzorkovanie streamovaných dát, stratifikované vzorkovanie. Sumárne (postačujúce) štatistiky pre trénovanie modelov. Relačné databázy. Paralelizácia / rozdelenie výpočtu
na veľa nezávislých podproblémov. Data-centrické distribuované výpočty (príklad: zhlukovanie). Robustnosť ku zlyhaniam: využívanie frameworkov. P2: Etické otázky súvisiace s dátovou vedou. Literatúra: Skie:12,Gru:25;Skie:12.7,13,Gru:26 |
|
Slajdy: | Poznámky a ďalšie materiály: |
---|---|
Veľké dáta (slajdy): [ PDF, 316 Kb ] |