Vizualizácia dát · 1-DAV-105 · LS 2021/22


The new course website is at https://bbrejova.github.io/viz/

Projekty

From viz
Jump to navigation Jump to search


Ak niektoré z týchto pokynov predstavujú pre váš projekt problém, konzultujte možné riešenia s vyučujúcimi.

Ciele projektu

Projekt je kľúčovou časťou predmetu

  • Na rozdiel od zadaní, kde máte presne danú úlohu a často aj rady k postupu, pri projekte si precvičíte samostatnejšiu prácu na analýze dát, kde si budete vymýšľať ciele aj postupy ako ich splniť.
  • Budete ale pracovať v skupinách, takže sa môžete učiť aj jeden od druhého.
  • Precvičíte si aj ďalšie aspekty práce v tímoch, ako komunikácia a koordinácia, tvorba dokumentácie a podobne.
  • Dôležitým aspektom projektu je aj komunikácia výsledkov vo forme prezentácie aj vo forme písomnej správy a technického dokumentu (notebooku), čo sú tiež dôležité zručnosti.
  • Váš pokrok na projekte ale budú monitorovať cvičiaci, ktorí vám radi poradia v prípade problémov.

Témy projektov

Nižšie ponúkame štyri témy projektov. Môžete si vybrať jednu z nich, alebo navrhnúť vlastnú. K témam sú uvedené otázky, ktoré môžete skúmať, môžete si však vymyslieť aj iné. Spojenie dát z uvedených stránok s ďalšími zdrojmi dát je veľmi vítané.

Nezamestnanosť

Ústredie práce, sociálnych vecí a rodiny zverejňuje mesačné štatistiky nezamestnanosti na Slovensku, ktoré obsahujú tiež údaje členené podľa okresov, pohlavia, stupňa vzdelania, veku a podobne. Spracujte niektoré z týchto tabuliek (napríklad is vyberte údaje z jedného mesiaca vo viacerých rokoch) a vizualizujte trendy v týchto dátach. Mení sa výrazne nezamestnanosť v niektorých okresoch či skupinách obyvateľstva? Aký mala na nezamestnanosť vplyv pandémia? Súvisí nezamestnanosť s vývojom celkového obyvateľstva daného okresu? https://www.upsvr.gov.sk/statistiky/nezamestnanost-mesacne-statistiky.html?page_id=1254

Školy

Inštitút INEKO zverejňuje údaje o zákadných a stredných školách na Slovensku. Rôzne zverejnené ukazovatele sa dajú porovnávať medzi školami, alebo regionálne alebo ich vývoj v čase. Údaje za posledné roky môžu chýbať, vynechajte ich teda z analýzy. https://skoly.ineko.sk/metodika/#data

Mobilita

Google zverejňuje počas pandémie COVID-19 údaje o tom, ako sa znížila mobilita ľudí počas pandémie oproti normálu. V súbore nájdete jednotlivé krajiny sveta, ale v rámci krajín aj menšie časti, napríklad na Slovensku kraje a okresy. Môžete sa teda zamerať iba na dáta zo Slovenska a jeho regiónov, alebo porovnať Slovensko s inými krajinami. Aké boli celkové trendy? Ako sa menili rôzne typy mobility? Boli rozdiely medzi študovanými regiónmi? Je vzťah medzi vývojom mobility a počtom pozitívnych testov (na základe ďalších dát, ktoré si zoženiete o vývoji pandémie alebo aspoň na základe publikovaných grafov dostupných na rôznych stránkach). Pozor, súbor je dosť veľký, odporúčame z neho odfiltrovať iba používanú časť. https://www.google.com/covid19/mobility/

Ulice

Ministerstvo vnútra SR zverejňuje zoznam adries v SR, z ktorého sa dajú získať údaje o všetkých uliciach. Aké sú najpopulárnejšie názvy ulíc na Slovensku? Líši sa popularita niektorých názvov podľa kraja prípadne okresu? Koľko rôznych čísel domov sa nachádza na uliciach (asi súvisí s dĺžkou ulice)? Líšia sa dĺžky ulíc v rôznych mestách? Prípadne sa dajú zohnať a pripojiť údaje o počtoch obyvateľov jednotlivých miest a skúmať ich súvis s počtom a dĺžkou ulíc a celkovým počtom adries. Populárne názvy ulíc sa dajú aj rozdeliť do skupín, ako napríklad slovenské osobnosti, zahraničné osobnosti, dátumy, mestá a pod. a skúmať popularitu týchto skupín. Dá sa skúmať tiež názov ulice ako text a preskúmať dĺžku názvu prípadne často sa opakujúce slová v názvoch. K adresám sú aj súradnice, takže sa dá počítať a vizualizovať napríklad hustota adries na určitých územiach a podobne. https://data.gov.sk/dataset/adresy-podla-krajov (treba stiahnuť každý kraj zvlášť)

Fázy projektu

  • Vytvorenie skupín: dohodnite sa na skupinách veľkosti 4-5 do piatka 25.3. Jeden člen skupiny uvedie členov skupiny a názov skupiny do príslušného dokumentu v Google classroom. Názov by mal byť krátky, môže to byť napr. skratka obsahujúca prvé písmená vašich krstných mien alebo priezvisk. Nezaradení študenti budú rozdelení do skupín vyučujúcimi.
  • Voľba témy: na cvičení 28.3. prediskutujte v skupine preferencie tém. Výber témy treba ukončiť do piatka 1.4. Jeden člen skupiny zapíše názov témy do príslušného dokumentu v Google classroom. Najviac 3 skupiny môžu robiť tú istú tému, takže ak si už 3 iné skupiny vybrali a zapísali vašu najobľúbenejšiu tému, musíte si zvoliť inú. Ak chcete navrhnúť vlastnú tému, musíte stručný popis témy a dostupných dát poslať emailom B. Brejovej najneskôr do stredy 30.3., čím skôr vám potom dáme vedieť, či je téma vhodná.
  • Organizácia skupiny: Dohodnite sa, ako budete v skupine komunikovať, rozdeľovať úlohy, zdieľať súbory a podobne. Založte si denník a linku, ktorá umožňuje do denníku vkladať komentáre, zapíšte do príslušnej úlohy v Google Classroom (budeme vám tam zapisovať priebežné hodnotenie). Na stretnutie v rámci skupiny môžete využiť časť cvičení, skupinové zadania už od 4.4. nebudú. Na cvičaniach však máte aj krátke skupinové stretnutie s cvičiacimi a individuálne riešenie úloh s prípadnou radou od cvičiacich.
  • Priebežná kontrola: Na každom cvičení od 11.4. do 2.5. sa uskutoční krátke stretnutie skupiny s vyučujúcimi ohľadom pokroku na projekte. Bližšie detaily viď nižšie.
  • Prvé kroky: Sťahovanie dát, ich úprava do vhodného formátu, zisťovanie základných charakteristík, opravovanie alebo odstraňovanie nesprávnych položiek. Na cvičení 4.4. začnete na týchto úlohách pracovať. Ideálne by ste ich dokončili pred ďalším týždňom, ale v niektorých projektoch toto môže byť väčšia časť projektu a trvať dlhšie.
  • Ďalšie etapy: Stanovte si otázku, ktorá by sa vo vašich dátach dala analyzovať a pokúste sa ju odpovedať vhodnými grafmi a tabuľkami. Snažte sa nájsť čo najvhodnejšiu vizualizáciu a preskúmať trendy alebo ich výnimky, ktoré nájdete. Postupne preskúmate niekoľko takých otázok. Jednotliví členovia skupiny alebo podskupinky môžu paralelne pracovať na rôznych otázkach. Postupne zostavujte aj materiály, ktoré budete odovzdávať,
  • Prezentácie projektov: v poslednom týždni semestra počas cvičenia alebo v inom dohodnutom čase
  • Odovzdanie projektu: v pondelok 16.5. 22:00 (prvý deň skúškového), ale odporúčame ho dokončiť skôr

Kontrolné stretnutia

  • Na každom cvičení od 11.4. do 2.5. sa uskutoční stretnutie skupiny s vyučujúcimi ohľadom pokroku na projekte. Stretnutie začnú cca 15 minút po začiatku cvičenia, takže môžete sa ešte predtým rýchlo poradiť.
  • Skupina má v denníku nachystané stručné poznámky ohľadom aktuálneho stavu (kto čo spravil, aké sú ďalšie plány a či sú prípadne nejaké problémy).
  • Jeden člen skupiny otvorí túto časť denníka a veľmi stručne za cca 2 minúty ju odreferuje. Má prichystané aj ďalšie súbory, takže vie rýchlo v prípade potreby ukázať dokončené alebo rozrobené vizualizácie alebo tabuľky. Každý týždeň by mal referovať iný člen skupiny.
  • Nasleduje diskusia, do ktorej sa podľa potreby zapája celá skupina.
  • Zvyšok cvičenia môžete podľa vlastného uváženia pracovať na projekte (skupinovo alebo individuálne) alebo na individuálnych úlohách k predmetu.

Technické pokyny

  • Projekt by mal byť v jazyku Python, spustiteľný v prostredí Colab a pracujúci prevažne s knižnicami preberanými na prednáške, hoci v menšej miere môžete použiť aj iné.
  • Spravte si svoju kópiu spracovávaných dát, aby vás neohrozilo, ak dáta zo zdrojovej stránky zmiznú alebo sa zmenia. Ak dáta vyžadujú rozsiahle predspracovanie, uložte si aj predspracované dáta.
  • Dáta sa vám budú dobre načítavať, ak si ich dáte na web, napríklad na fakultný server daVinci [1], [2]
  • Do dát robte čo najmenej manuálnych zásahov.
  • Opakujúce sa časti kódu presuňte do funkcií, ktoré viackrát použijete s rôznymi parametrami. Takisto zložitejšie výpočty je vhodné presunúť do funkcie.
  • Počas práce na projekte priebežne píšte denník a zdieľajte ho s vyučujúcimi (viď nižšie)
  • Ukladajte si použité zdroje a citujte ich vo výslednom projekte. Môžete sa inšpirovať existujúcimi analýzami vašich dát a replikovať prípadne rozšíriť tieto analýzy, mali by ste však priznať zdroje svojej inšpirácie.

Odovzdávanie finálneho projektu

Ako finálny projekt odovzdáva jeden člen skupiny tri súbory uvedené nižšie a naďalej nám dávajte k dispozícii aj denník, ktorý už po dátume odovzdania nemeňte.

Správa

Správa (report) je dokument, ktorý by ste odovzdali "zákazníkovi", t.j. zadávateľovi projektu, vysvetľujúci vaše výsledky. Mal by obsahovať nasledujúce časti

  • Hlavičku s názvom projektu, zoznamom autorov a dátumom
  • Obsah so zoznamom kapitol a linkami alebo číslami strán (pokiaľ možno vygenerovaný automaticky)
  • Úvod stručne predstavujúci tému projektu
  • Popis odkiaľ ste získali dáta, ako ste ich spracovali (či ich bolo potrebné nejako filtrovať alebo inak meniť) a základné charakteristiky dát (pre jednotlivé použité tabuľky uveďte význam jednotlivých stĺpcov a počet riadkov, prípadne aj ďalšie sumárne štatistiky)
  • Výsledky ďalších analýz (rozdelené do viacerých kapitol). Ku každej analýze stručne popíšte, čo ste s dátami spravili, uveďte grafy alebo tabuľky s výsledkami, vysvetlite, aké trendy a iné závery na nich vidno. Pri záveroch pozor, aby ste z korelácie automaticky nepredpokladali kauzalitu. Z textu by malo byť jasné, čo sú skutočné pozorovania a čo vaše dohady. Vaše výsledky môžete porovnať s výsledkami z iných zdrojov (nie je to ale nutné).
  • Záver so stručným zhrnutím hlavných výsledkov a možnosťami ďalšej práce.

Po formálne stránke by správa mala byť formálny text bez gramatických chýb, napísaný v slovenskom alebo anglickom jazyku. Obrázky a tabuľky by mali mať popisky vysvetľujúce čo je na grafe alebo v tabuľke zobrazené a mali by byť očíslované (obrázok/figure 1, tabuľka/table 1 atď.) Navyše na každý obrázok a tabuľku sa odvolajte v hlavnom texte (na obrázku 1 vidíme...). Ak ste pri práci využili nejaké zdroje, uveďte ich v zozname literatúry na konci správy (zdroje dát, literatúru k oblasti, v ktorej robíte projekt). V správe neuvádzajte kód ani nepopisujte technické aspekty projektu (ako ste to programovali) a nemusíte tam ani uvádzať odkazy na zdroje, ktoré súvisia priamo s programovaním. Odovzdáva sa vo formáte pdf, môžete vytvoriť ako Google doc, ale aj v inom systéme (napríklad Latex/Overleaf).

Ak sa chcete inšpirovať, ako vyzerá formálny technický text s číslovanými obrázkami a tabuľkami, môžete si pozrieť zborník zo Študentskej vedeckej konferencie http://compbio.fmph.uniba.sk/svk2019/svk2019-zbornik.pdf (vaše články asi nebudú mať toľko matematiky a citovať budete asi skôr webstránky než vedecké publikácie, tiež nemusíte správu formátovať do dvoch stĺpcov).

Ukážkovú kostru správy v Google doc nájdete tu: https://docs.google.com/document/d/1RBGJhzGwKydaW45O3WTHijErevG6YWCvFePAEios0YM/edit?usp=sharing


Zdrojový kód

K projektu by ste mali odovzdať zdrojový kód vo forme Jupyter notebook, v ktorom bude celá analýza od načítania dát, cez ich úpravu a kontrolu až po vykreslenie finálnych grafov použitých v správe, prípadne aj ďalších, ktoré sa do správy nedostali. Celý kód by mal byť spustiteľný v Colabe s použitím dát, ktoré odovzdáte. Ak časť predspracovania dát nie je praktické robiť v notebooku, uveďte v notebooku analýzu začínajúcu načítaním už predspracovaných dát a proces predspracovania popíšte v notebooku, prípadne odovzdajte v zvláštnom súbore relevantný kód. Notebook by mal obsahovať nadpisy charakterizujúce jednotlivé časti analýzy a stručné popisy jednotlivých častí kódu. Uveďte aj odkazy (URL) na použité zdroje, najmä ak ste z nich kopírovali kód.

Dáta

Odovzdajte zip súbor so všetkými dátami, ktoré ste v projekte použili, jednak v pôvodnom stave ako ste ich stiahli a ak ich bolo treba výraznejšie predspracovať, tak aj v spracovanom stave.

Denník

Denník vypĺňajte do poskytnutej kostry [3], z ktorej si spravíte kópiu.

Denník by mal vznikať priebežne a mal by byť členený na kapitoly, ktoré majú v nadpise uvedený stručný popis cieľa, kto sa na príslušnej časti podieľal a dátumy, kedy ste príslušnú analýzu robili. V tele kapitoly stručne popíšte čo ste robili, ako ste to robili, aké vznikli problémy, či sa ich podarilo vyriešiť. V denníku nechajte aj popis práce, ktorá napokon neviedla k úspešným grafom použitým v správe.

Denník by mal tiež obsahovať prípravu na kontrolné stretnutie s vyučujúcimi, ktoré sa budú konať na cvičeniach a tiež závery z takéhoto stretnutia. Takisto si píšte poznámky z ďalších prípadných skupinových stretnutí - aký ďalší postup a delenie úloh sa dohodlo.

V začiatku denníka uveďte názov skupiny, zoznam členov a tému projektu.

Denník slúži pre vyučujúcich na monitorovanie pokroku. Ale slúži aj pre vás. Pomôže vám udržať sa v obraze, čo sa v skupine deje, čo sa dohodlo na stretnutiach a občerstviť si pamäť pri písaní záverečnej správy.

Pri väčších projektoch analýzy dát je dobré udržiavať si takéto poznámky, lebo na konci projektu si už nemusíte pamätať niektoré detaily zo začiatku. Takisto to pomáha koordinácii v rámci skupiny.

Na záver do denníku dopíšte stručný prehľad pre každého člena skupiny, na ktorých častiach projektu pracoval a dajte nám vedieť, či chcete projekt zdieľať.

Prezentácie

  • Prezentácie budú posledný týždeň semestra počas cvičení alebo v ďalšom dohodnutom čase.
  • Každá skupina spraví jednu spoločnú prezentáciu, ktorá má trvať 10-15 minút.
  • Prezentácia má byť v jednom súbore, zdieľa ju jeden člen skupiny, ale v rozprávaní sa vystriedajú všetci členovia. Každý člen rozpráva aspoň 2 minúty.
  • Na každej prezentácii sa zúčastní ako publikum ešte jedna ďalšia skupina s inou témou projektu.
  • Vaša prezentácia by mala mať nasledujúce časti:
    • Úvod do témy, popis dát
    • Sumár hlavných výsledkov ako pre zákazníka (ukážky grafov a ich popis)
    • Ukážky zaujímavých technických aspektov projektu ako pre kolegov programátorov, čo ste sa naučili, čo bolo ťažké.
  • Prezentáciu si vopred precvičte, hlavne nadväznosti častí a celkové trvanie.

Hodnotenie

Podľa pravidiel predmetu v súvislosti z projektom získate až 55% známky.

  • Po každom kontrolnom stretnutí sa budú dať získať 5% za priebežnú prácu na projekte, spolu 15%.
    • Každý člen skupiny by sa v priebehu týždňa mal zúčastniť nejakej práce na projekte, aj keď nie je dokončená. V prípade špeciálnych okolností nám dajte vedieť.
  • Finálna prezentácia je za 5%.
  • Finálne hodnotenie odovzdaného projektu je za 25%.
  • Individuálna ústna skúška súvisiaca s projektom je za 10%, treba získať aspoň polovicu bodov.