Vizualizácia dát · 1-DAV-105 · LS 2021/22


The new course website is at https://bbrejova.github.io/viz/

Projekty

From viz
Jump to navigation Jump to search

Ak niektoré z týchto pokynov predstavujú pre váš projekt problém, konzultujte možné riešenia s vyučujúcimi.

Témy projektov

Nižšie ponákame štyri témy projektov. Môžete si vzbrať jednu z nich, alebo navrhnúť vlastnú. K témam sú uvedené otázky, ktoré môžete skúmať, môžete si však vymyslieť aj iné. Spojenie dát z uvedených stránok s ďalšími zdrojmi dát je veľmi vítané.

Nezamestnanosť

Ústredie práce, sociálnych vecí a rodiny zverejňuje mesačné štatistiky nezamestnanosti na SLovensku, ktoré obsahujú tiež údaje členené podľa okresov, pohlavia, stupňa vzdelania, veku a podobne. Spracujte niektoré z týchto tabuliek (napríklad is vyberte údaje z jedného mesiaca vo viacerých rokoch) a vizualizujte trendy v týchto dátach. Mení sa výrazne nezamestnanosť v niektorých okresoch či skupinách obyvateľstva? Aký mala na nezamestnanosť vplyv pandémia? Súvisí nezamestnanosť s vývojom celkového obyvateľstva daného okresu? https://www.upsvr.gov.sk/statistiky/nezamestnanost-mesacne-statistiky.html?page_id=1254

Lieky

Národné centrum zdravotníckych informácií zverejňuje rebríček spotreby liekov na Slovensku. Skúste analyzovať trendy v tomto rebríčku. Vzrástla alebo klesla spotreba niektorých liekov v posledných rokoch? Ako sa na spotrebe liekov prejavil začiatok pandémie? Ktoré lieky pred pandémiou najviac kolísali v závislosti od ročného obdobia? Viete nájsť zopár liekov, kde viacerí výrobcovia produkujú liek s tou istou účinnou látkou a porovnať ich podiel na trhu? http://www.nczisk.sk/Statisticke_vystupy/Tematicke_statisticke_vystupy/TOP-50-liekov/Spotreba_humannych_liekov_zdravotnickych_pomocok_dietetickych_potravin_SR/Pages/Rebricky-a-datasety-spotreby-humannych-liekov-v-Slovenskej-republike.aspx

Migrácia v EÚ

Eurostat zverejňuje údaje o obyvateľoch jednotlivých krajín EU podľa ich občianstva. Toto zahŕňa imigrantov z mimoeurópskych krajín (napríklad utečencov), ale tiež presúvanie obyvateľov medzi jednotlivými krajinami EÚ, napr. za prácou. Vidíte nejaké zmeny trendov? Ktoré krajiny sa správajú podobne vzhľadom na imigráciu a emigráciu? Ako sa porovná Slovensko so susednými krajinami? Ako závisí počet migrujúcich ľudí od ekonomickej situácie v pôvodnej a cieľovej krajine? Závisí počet migrujúcich od vzdialeností krajín? https://ec.europa.eu/eurostat/en/web/products-datasets/-/MIGR_POP1CTZ

Hurikány

National Oceanic and Atmospheric Administration v USA zverejňuje tabuľku hurikánov v Atlantickom oceáne, v ktorej sú ich polohy a sila v rôznych časových bodoch. Ako sa mení sila a počet hurikánov v rámci roka a medzi rokmi? Ktoré hurikány boli v niektorých ohľadoch výnimočné? Mali niektoré hurikány podobné charakteristiky? V tomto projekty sa prípadne dajú vizualizovať dáta o hurikánoch aj na mape, dajú sa však robiť aj bežné vizualizácie časových radov alebo súvisov rôznych parametrov. https://www.nhc.noaa.gov/data/#hurdat

Fázy projektu

  • Vytvorenie skupín: dohodnite sa na skupinách veľkosti 3-5 do pondelka 22.3. do 12:00. Jeden člen skupiny uvedie členov skupiny a názov skupiny do príslušnej diskusie na MS Teams. Názov by mal byť krátky, môže to byť napr. skratka obsahujúca prvé písmená vašich krstných mien alebo priezvisk. Nezaradení študenti budú rozdelení do skupín vyučujúcimi.
  • Voľba témy: na cvičení 24.3. prediskutujte v skupine preferencie tém. Ak chcete navrhnúť vlastnú tému, musíte ju na tomto cvičení prediskutovať s vyučujúcimi. Výber témy treba ukončiť do pondelka 29.3. Jeden člen skupiny zapíše meno skupiny a názov témy do príslušnej diskusie na MS Teams. Najviac 3 skupiny môžu robiť tú istú tému, takže ak si už 3 iné skupiny vybrali a zapísali do diskusie vašu najobľúbenejšiu tému, musíte si zvoliť inú. Ak ste navrhli vlastnú tému, v tomto termíne treba odovzdať krátky popis témy.
  • Prvé kroky: Sťahovanie dát, ich úprava do vhodného formátu, zisťovanie základných charakteristík, opravovanie alebo odstraňovanie nesprávnych položiek. Na cvičení 31.3. začnete na týchto úlohách pracovať. Ideálne by ste ich dokončili pred ďalším týždňom, ale v niektorých projektoch toto môže byť väčšia časť projektu a trvať dlhšie.
  • Ďalšie etapy: Stanovte si otázku, ktorá by sa vo vašich dátach dala analyzovať a pokúste sa ju odpovedať vhodnými grafmi a tabuľkami. Snažte sa nájsť čo najvhodnejšiu vizualizáciu a preskúmať trendy alebo ich výnimky, ktoré nájdete. Postupne preskúmate niekoľko takých otázok. Jednotliví členovia skupiny alebo podskupinky môžu paralelne pracovať na rôznych otázkach. Postupne zostavujte aj materiály, ktoré budete odovzdávať,
  • Priebežná kontrola: Na každom cvičení od 7.4 do 5.5. sa uskutoční krátke stretnutie skupiny s vyučujúcimi ohľadom pokroku na projekte. Bližšie detaily viď nižšie.
  • Prezentácie projektov: v poslednom týždni semestra počas cvičenia, prípadne aj v inom dohodnutom čase
  • Odovzdanie projektu: začiatkom skúškového obdobia

Kontrolné stretnutia

  • Na každom cvičení od 7.4. do 5.5. sa uskutoční stretnutie skupiny s vyučujúcimi ohľadom pokroku na projekte
  • Aktuálny plán na cvičenie 7.4. (na ďalších cvičeniach potenciálne prispôsobíme):
    • Obidve vyučujúce v čase 9:10-9:40 navštívia na 5 minút každú skupinu (bude známy rozpis približných časov)
    • Skupina má v denníku nachystané stručné poznámky ohľadom aktuálneho stavu (kto čo spravil, aké sú ďalšie plány a či sú prípadne nejaké problémy).
    • Jeden člen skupiny nazdieľa túto časť denníka a veľmi stručne za cca 2 minúty ju odreferuje. Má prichystané aj ďalšie súbory, takže vie rýchlo v prípade potreby ukázať dokončené alebo rozrobené vizualizácie alebo tabuľky. Každý týždeň by mal referovať iný člen skupiny.
    • Nasleduje diskusia, do ktorej sa podľa potreby zapája celá skupina.
    • Ak treba dlhšiu diskusiu, naplánujeme si ešte jedno stretnutie v druhej polovici cvičenia.
  • Zvyšok cvičenia môžete podľa vlastného uváženia pracovať na projekte (skupinovo alebo individuálne) alebo na individuálnych úlohách k predmetu.

Technické pokyny

  • Projekt by mal byť v jazyku Python, spustiteľný v prostredí Colab a pracujúci prevažne s knižnicami preberanými na prednáške, hoci v menšej miere môžete použiť aj iné.
  • Spravte si svoju kópiu spracovávaných dát, aby vás neohrozilo, ak dáta zo zdrojovej stránky zmiznú alebo sa zmenia. Ak dáta vyžadujú rozsiahle predspracovanie, uložte si aj predspracované dáta.
  • Do dát robte čo najmenej manuálnych zásahov.
  • Počas práce na projekte priebežne píšte denník a zdieľajte ho s vyučujúcimi (linku dajte do diskusie v kanáli skupiny)
  • Ukladajte si použité zdroje a citujte ich vo výslednom projekte. Môžete sa inšpirovať existujúcimi analýzami vašich dát a replikovať prípadne rozšíriť tieto analýzy, mali by ste však priznať zdroje svojej inšpirácie.

Odovzdávanie finálneho projektu

Správa

Správa (report) je dokument, ktorý by ste odovzdali "zákazníkovi", t.j. zadávateľovi projektu, vysvetľujúci vaše výsledky. Mal by obsahovať:

  • hlavičku s názvom projektu, zoznamom autorov a dátumom
  • úvod stručne predstavujúci tému projektu
  • popis odkiaľ ste získali dáta a ako ste ich spracovali (či ich bolo potrebné nejako filtrovať alebo inak meniť), základné charakteristiky dát
  • výsledky ďalších analýz
  • záver so stručným zhrnutím hlavných výsledkov a možnosťami ďalšej práce.

Mal by to byť formálny text bez gramatických chýb, napísaný v slovenskom alebo anglickom jazyku. Obrázky a tabuľky by mali mať popisky vysvetľujúce čo je na grafe alebo v tabuľke zobrazené a mali by byť očíslované (obrázok/figure 1, tabuľka/table 1 atď.) Navyše na každý obrázok a tabuľku sa odvolajte v hlavnom texte (na obrázku 1 vidíme...) a vysvetlite, aké závery sa z neho dajú spraviť. Ak ste pri práci využili nejaké zdroje, uveďte ich v zozname literatúry na konci správy (zdroje dát, literatúru k oblasti, v ktorej robíte projekt). V správe neuvádzajte kód ani nepopisujte technické aspekty projektu (ako ste to programovali) a nemusíte tam ani uvádzať odkazy na zdroje, ktoré súvisia priamo s programovaním. Odovzdáva sa vo formáte pdf, môžete vytvoriť ako Google doc, ale aj v inom systéme (napríklad Latex/Overleaf).

Ak sa chcete inšpirovať, ako vyzerá formálny technický text s číslovanými obrázkami a tabuľkami, môžete si pozrieť zborník zo Študentskej vedeckej konferencie http://compbio.fmph.uniba.sk/svk2019/svk2019-zbornik.pdf (vaše články asi nebudú mať toľko matematiky a citovať budete asi skôr webstránky než vedecké publikácie, tiež nemusíte správu formátovať do dvoch stĺpcov).

Zdrojový kód

K projektu by ste mali odovzdať zdrojový kód vo forme Jupyter notebook, v ktorom bude celá analýza od načítania dát, cez ich úpravu a kontrolu až po vykreslenie finálnych grafov použitých v správe, prípadne aj ďalších, ktoré sa do správy nedostali. Celý kód by mal byť spustiteľný v Colabe s použitím dát, ktoré odovzdáte. Ak časť predspracovania dát nie je praktické robiť v notebooku, uveďte v notebooku analýzu začínajúcu načítaním už predspracovaných dát a proces predspracovania popíšte v notebooku, prípadne odovzdajte v zvláštnom súbore relevantný kód. Notebook by mal obsahovať nadpisy charakterizujúce jednotlivé časti analýzy a stručné popisy jednotlivých častí kódu. Uveďte aj odkazy (URL) na použité zdroje, najmä ak ste z nich kopírovali kód.

Dáta

Odovzdajte zip súbor so všetkými dátami, ktoré ste v projekte použili, jednak v pôvodnom stave ako ste ich stiahli a ak ich bolo treba výraznejšie predspracovať, tak aj v spracovanom stave.

Denník

Denník by mal vznikať priebežne a mal by byť členený na kapitoly, ktoré majú v nadpise uvedený stručný popis cieľa, kto sa na príslušnej časti podieľal a dátumy, kedy ste príslušnú analýzu robili. V tele kapitoly stručne popíšte čo ste robili, ako ste to robili, aké vznikli problémy, či sa ich podarilo vyriešiť. V denníku nechajte aj popis práce, ktorá napokon neviedla k úspešným grafom použitým v správe.

Denník by mal tiež obsahovať prípravu na kontrolné stretnutie s vyučujúcimi, ktoré sa budú konať na cvičeniach od 7.4. a tiež závery z takéhoto stretnutia. Takisto si píšte poznámky z ďalších prípadných skupinových stretnutí - aký ďalší postup a delenie úloh sa dohodlo.

Denník slúži pre vyučujúcich na monitorovanie pokroku. Ale slúži aj pre vás. Pomôže vám udržať sa v obraze, čo sa v skupine deje, čo sa dohodlo na stretnutiach a občerstviť si pamäť pri písaní záverečnej správy.

Pri väčších projektoch analýzy dát je dobré udržiavať si takéto poznámky, lebo na konci projektu si už nemusíte pamätať niektoré detaily zo začiatku. Takisto to pomáha koordinácii v rámci skupiny.

Hodnotenie

Podľa pravidiel predmetu v súvislosti z projektom získate až 50% známky.

  • Po každom kontrolnom stretnutí sa budú dať získať 3% za priebežnú prácu na projekte, spolu 15%.
    • Každý člen skupiny by sa v priebehu týždňa mal zúčastniť nejakej práce na projekte, aj keď nie je dokončená. V prípade špeciálnych okolností nám dajte vedieť.
  • Finálna prezentácia je za 5%.
  • Finálne hodnotenie odovzdaného projektu je za 20%.
  • Individuálna ústna skúška súvisiaca s projektom je za 10%, treba získať aspoň polovicu bodov.