1-DAV-202 Data Management 2023/24
Previously 2-INF-185 Data Source Integration
Difference between revisions of "Genomika"
Jump to navigation
Jump to search
(8 intermediate revisions by 2 users not shown) | |||
Line 5: | Line 5: | ||
* [[Genomika: Rozvojové projekty]] - z minulého roku | * [[Genomika: Rozvojové projekty]] - z minulého roku | ||
* [http://genomika.compbio.fmph.uniba.sk/ Náš browser] | * [http://genomika.compbio.fmph.uniba.sk/ Náš browser] | ||
+ | * [https://docs.google.com/forms/d/e/1FAIpQLSeO-uod8pGqWeLoMHBuG1gMdoh5dFdjq-qmg6LfbCbq6ORynA/viewform?usp=sf_link Dotazník] | ||
+ | * [https://github.com/fmfi-genomika/genomika-2020 Github] | ||
==Obsahové prerekvizity== | ==Obsahové prerekvizity== | ||
Line 87: | Line 89: | ||
* Individuálna alebo skupinová práca, cvičiaci pomôžu riešiť technické problémy / zodpovedať otázky. | * Individuálna alebo skupinová práca, cvičiaci pomôžu riešiť technické problémy / zodpovedať otázky. | ||
* Môžeme sa porozprávať aj o terminológii potrebnej k ďalšej prednáške | * Môžeme sa porozprávať aj o terminológii potrebnej k ďalšej prednáške | ||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
==Ǔlohy pre vás== | ==Ǔlohy pre vás== | ||
Line 98: | Line 94: | ||
* Skúste si spraviť [[Genomika: cvičenie UCSC browser|cvičenie]] na prácu s UCSC prehliadačom | * Skúste si spraviť [[Genomika: cvičenie UCSC browser|cvičenie]] na prácu s UCSC prehliadačom | ||
* Rozmyslíme a dohodneme si spôsob organizácie a koordinácie v rámci skupiny | * Rozmyslíme a dohodneme si spôsob organizácie a koordinácie v rámci skupiny | ||
− | * | + | * Vyplniť dotazník: [https://docs.google.com/forms/d/e/1FAIpQLSeO-uod8pGqWeLoMHBuG1gMdoh5dFdjq-qmg6LfbCbq6ORynA/viewform?usp=sf_link], prijať pozvánku za člena Github projektu |
+ | * Skúsiť sa prihlásiť na server | ||
* Pre ďalšiu prednášku je vhodné si z MBI zopakovať úvod do biológie pre informatikov (cvičenie) a prednášku o sekvenovaní a zostavovaní genómov | * Pre ďalšiu prednášku je vhodné si z MBI zopakovať úvod do biológie pre informatikov (cvičenie) a prednášku o sekvenovaní a zostavovaní genómov | ||
==Koordinácia v rámci skupiny a s cvičiacimi== | ==Koordinácia v rámci skupiny a s cvičiacimi== | ||
− | + | Mali by ste si vytvoriť spôsob organizácie práce a jej výsledkov v rámci skupiny | |
* Mala by existovať verejne dostupná a prehľadná dokumentácia k všetkému, čo ste robili | * Mala by existovať verejne dostupná a prehľadná dokumentácia k všetkému, čo ste robili | ||
+ | ** Celkový komentár, o čo v danej úôlohe ide | ||
** Kde ste stiahli dáta, ako ste ich spracovali (ideálne postupnosť všetkých relevantných príkazov), poznámky k problematickým krokom | ** Kde ste stiahli dáta, ako ste ich spracovali (ideálne postupnosť všetkých relevantných príkazov), poznámky k problematickým krokom | ||
− | ** | + | ** Genome browser by mal mať tiež informácie o jednotlivých trackoch pre používateľov, s linkou na technickejšiu dokumentáciu |
− | * | + | ** V angličtine, ale stačia stručné poznámky |
+ | * Mal by byť verejne prístupný archív zdrojových kódov všetkých programov, ktorý ste pre predmet napísali | ||
+ | * Spracovávané dáta by mali byť na serveri genomika v adresári /data, okrem príliš veľkých medzivýslekdov | ||
+ | * Malo by byť tiež jasné, kto pracuje na akej úlohe, aké úlohy sú ešte nepriradené, aké veci treba ešte dorobiť, čo už je hotové a pod. | ||
+ | |||
+ | Každému študentovi tiež vytvoríme Google doc, do ktorého si bude písať '''denník''' | ||
+ | * Stručný heslovitý prehľad, čo sa podarilo spraviť v jendotlivých týždňoch semestra, prípadne väčšie prekážky, ktoré bolo treba pritom riešiť | ||
+ | * Použitie pri hodnotení | ||
+ | * Do denníka vám tiež nakopírujeme pridelené body | ||
+ | |||
+ | Osvedčené z minulého roku: | ||
+ | * Zdrojový kód na Githube (napr. [https://github.com/fmfi-genomika/genomikaMalGlo]) | ||
+ | * Dokumentácia ako wiki na Githube (napr. [https://github.com/fmfi-genomika/genomikaMalGlo/wiki]) | ||
+ | * Organizácia úloh ako Project na GitHube [https://github.com/fmfi-genomika/genomikaMalGlo/projects/1] | ||
+ | * Plus vhodná organizácia súborov na serveri a dokumentácia pre používateľov | ||
− | + | Github na tento rok: https://github.com/fmfi-genomika/genomika-2019 | |
− | |||
− | |||
− | |||
− | + | ===Neverejné dáta=== | |
− | * | + | * Niektorí budú pracovať aj so zatiaľ nezverejnenými dátami vyprodukovanými na PriFUK v spolupráci so zahraničím |
− | * | + | * Tieto dáta ani výsledky z nich získané nikde '''nezverejňujte''' |
+ | * Všeobecné postupy pri ich spracovaní môžete zverejniť, bez podrobností o biologickom význame týchto dát | ||
+ | * Ďalšiu dokumentáciu, ktorá by mala zostať zatiaľ neverejná, budeme ukladať podľa potreby na zdieľaný Google doc |
Latest revision as of 15:55, 19 February 2020
Stránka k predmetu 2-INF-269/15 Genomika
- Cvičenie na prvý týždeň
- Predbežné informácie k štátniciam - z minulého roku
- Genomika: Informácie ku trackom - z minulého roku
- Genomika: Rozvojové projekty - z minulého roku
- Náš browser
- Dotazník
- Github
Contents
Obsahové prerekvizity
- Metódy v bioinformatike a Integrácia dátových zdrojov
- Ak ste skúsení v práci na príkazovom riadku v Linuxe, Integráciu je možné brať aj súčasne s Genomikou
Ciele predmetu
Základné ciele:
- Vystaviť vás interdisciplinárnej komunikácii a spolupráci.
- Budovať schopnosť rýchlo sa oboznámiť s podstatnými znalosťami z vám neznámej oblasti, ktorá vám umožní efektívne komunikovať s klientami a kolegami, ktorí nie sú informatici.
- Rozvíjať schopnosti tímovej spolupráce a organizácie práce.
- Vyskúšať si projekt, kde nastupujete do "rozbehnutého vlaku" (práca s existujúcim softvérom s potrebou vývoja vlastných rozšírení).
Vedomostná náplň pre všetkých:
- Zoznámiť sa s modernými biotechnológiami, ktoré sú podstatným zdrojom fenoménu "big data" a sú základom moderného medicínskeho výskumu.
Pre vážnych záujemcov o bioinformatiku:
- Vyskúšať si prácu s reálnymi biologickými dátami.
- Prísť do kontaktu s odborníkmi z prírodných vied.
Hodnotenie
- Písomná skúška: 50% (spoločná pre biológov aj informatikov)
- Práca skupiny ako celku: 25%
- (Preukázateľný) individuálny prínos k úspešnosti projektu: 25%
- Známky A: 90+, B: 80+, C: 70+, D: 60+, E: 50+
Poznámky k hodnoteniu cvičení:
- Obzvlášť malý alebo veľký podiel na práci skupiny môže vieť k individuálnej zmene váh (v extrémnych prípadoch môže individuálne hodnotenie tvoriť až 50% celej známky)
- Za každú fázu skupinového projektu (t.j. po každom stretnutí) vám budú pridelené čierne a/alebo červené body
- Červené body sú za splnené úlohy a ich počet odzrkadľuje kvalitu, kvantitu a náročnosť práce
- Čierne body sú za úlohy, ktoré vám boli priradené, ale ktoré ste nesplnili, obzvlášť ak od nich závisí ďalší postup ostatných členov skupiny.
- Čierne body môžu byť udelené aj za prístup narúšajúci úspešné napredovanie tímu (neospravedlnená neprítomnosť na stretnutí, narušenie práce spoločného servera a pod.)
- Individuálne hodnotenie je neklesajúca funkcia od počtu červených bodov a nerastúca od počtu čiernych.
Prednášky
- Spojené s predmetom N-mCBI-119/15 na Prírodovedeckej fakulte (spoločne s magisterskými študentami genetiky, molekulárnej biológie a biochémie)
- Prednášajúci:
- Peter Baráth (Chemický ústav SAV)
- Broňa Brejová (Katedra informatiky FMFI)
- Richard Kollár (Katedra aplikovanej matematiky a štatistiky FMFI)
- Martina Neboháčová (Katedra biochémie PriFUK)
- Jozef Nosek (Katedra biochémie PriFUK)
- Ľubomír Tomáška (Katedra genetiky PriFUK)
- Ivan Valent (Katedra fyzikálnej a teoretickej chémie PriFUK)
- Tomáš Vinař (Katedra aplikovanej informatiky FMFI)
- Moodle s materiálmi k prednáškam
- Učebnica čiernobiela, farebná, vo fakultnej knižnici na prezenčné použitie so signatúrou I-INF-N-20
Čo si máte odniesť z prednášky?
- Pochopiť podstatné myšlienky prezentácie / textu (o akej technológii sa bavíme, aký typ dát tam vystupuje, akým spôsobom ich získavame, aký je princíp fungovania)?
- Nie je podstatné (ani možné) na 100% ovládať terminológiu
- využívajte znalosti získané v MBI! (je dobré si pred prednáškou zopakovať relevantnú časť)
- treba sa preniesť nad fakt, že nie každému slovu budete rozumieť
- je ok sa na pár minút stratiť v detailoch (ale nie je ok sa stratiť na 70% prednášky)
- treba sa priebežne pýtať rozumné otázky smerujúce k vyjasneniu podstatných vecí
- (tréning k interdisciplinárnej komunikácii ide oboma smermi ;))
- Don't panic! Väčšina prednášok je v knihe
- Tréning v schopnosti rozlíšiť podstatné od nepodstatného (veľmi dôležitý do budúcnosti)
- V prípade veľkých problémov sa môžeme dohodnúť na konzultáciách ku konkrétnym otázkam
Cvičenia
- Cvičiaci Broňa Brejová a Tomáš Vinař
- Tvorba prehliadača genómov na báze softvéru UCSC genome browser pre vybrané genómy.
- Ak budú výsledky dobré, reálna šanca na využitie na Prírodovedeckej fakulte UK aj v medzinárodnej komunite!
- Väčšinu práce budeme robiť v čase cvičení 2 vyučovacie hodiny týždenne kvôli ľahšej koordinácii. Prípadné neprítomnosti si bude treba nahradiť intenzívnejšou prácou doma.
Je toto reálny model niečoho s čím sa môžem stretnúť v praxi?
- Vo väčšine firiem nastupujete do rozbehnutého projektu.
- Nie je neobvyklé, že skupina ľudí odíde a zanechá po sebe nesúrodú dokumentáciu a rozrobenú prácu, na ktorej vy musíte pokračovať.
- Nie príliš schopný manažér.
- Firmy so stabilným produktom používajú zabehnuté technológie (z vášho pohľadu legacy postupy s prvkami zastaralých programovacích jazykov); nie je finančne ani časovo možné neustále refaktorovať na nové platformy
- V tomto projekte: hlavná časť softvéru v C/C++, Perl; databáza MySQL - jadro podporného softvéru vyvinuté na prelome tisícročí
- Ťažiskom projektu je vyhľadávanie, spracovanie a porozumenie dátam
- Vývoj softvéru je pomocný prvok s dôrazom na dosiahnutie konkrétneho cieľa; kľúčová je reprodukovateľnosť, vítaná je znovupoužiteľnost v iných kontextoch
Typický priebeh cvičenia
Budeme podľa potreby striedať nasledujúce aktivity
- Krátke prezentácie členov tímu o postupe / dosiahnutí cieľov (vrátane prezentácie informácií, ktoré by mohli byť užitočné kolegom pri ich práci ale aj vysvetlenie významu spracovaných dát)
- Diskusia k aktuálnym problémom, brain storming ohľadom riešenia aktuálnych problémov
- Rozdelenie práce na nových cieľoch
- Individuálna alebo skupinová práca, cvičiaci pomôžu riešiť technické problémy / zodpovedať otázky.
- Môžeme sa porozprávať aj o terminológii potrebnej k ďalšej prednáške
Ǔlohy pre vás
- Skúste si spraviť cvičenie na prácu s UCSC prehliadačom
- Rozmyslíme a dohodneme si spôsob organizácie a koordinácie v rámci skupiny
- Vyplniť dotazník: [1], prijať pozvánku za člena Github projektu
- Skúsiť sa prihlásiť na server
- Pre ďalšiu prednášku je vhodné si z MBI zopakovať úvod do biológie pre informatikov (cvičenie) a prednášku o sekvenovaní a zostavovaní genómov
Koordinácia v rámci skupiny a s cvičiacimi
Mali by ste si vytvoriť spôsob organizácie práce a jej výsledkov v rámci skupiny
- Mala by existovať verejne dostupná a prehľadná dokumentácia k všetkému, čo ste robili
- Celkový komentár, o čo v danej úôlohe ide
- Kde ste stiahli dáta, ako ste ich spracovali (ideálne postupnosť všetkých relevantných príkazov), poznámky k problematickým krokom
- Genome browser by mal mať tiež informácie o jednotlivých trackoch pre používateľov, s linkou na technickejšiu dokumentáciu
- V angličtine, ale stačia stručné poznámky
- Mal by byť verejne prístupný archív zdrojových kódov všetkých programov, ktorý ste pre predmet napísali
- Spracovávané dáta by mali byť na serveri genomika v adresári /data, okrem príliš veľkých medzivýslekdov
- Malo by byť tiež jasné, kto pracuje na akej úlohe, aké úlohy sú ešte nepriradené, aké veci treba ešte dorobiť, čo už je hotové a pod.
Každému študentovi tiež vytvoríme Google doc, do ktorého si bude písať denník
- Stručný heslovitý prehľad, čo sa podarilo spraviť v jendotlivých týždňoch semestra, prípadne väčšie prekážky, ktoré bolo treba pritom riešiť
- Použitie pri hodnotení
- Do denníka vám tiež nakopírujeme pridelené body
Osvedčené z minulého roku:
- Zdrojový kód na Githube (napr. [2])
- Dokumentácia ako wiki na Githube (napr. [3])
- Organizácia úloh ako Project na GitHube [4]
- Plus vhodná organizácia súborov na serveri a dokumentácia pre používateľov
Github na tento rok: https://github.com/fmfi-genomika/genomika-2019
Neverejné dáta
- Niektorí budú pracovať aj so zatiaľ nezverejnenými dátami vyprodukovanými na PriFUK v spolupráci so zahraničím
- Tieto dáta ani výsledky z nich získané nikde nezverejňujte
- Všeobecné postupy pri ich spracovaní môžete zverejniť, bez podrobností o biologickom význame týchto dát
- Ďalšiu dokumentáciu, ktorá by mala zostať zatiaľ neverejná, budeme ukladať podľa potreby na zdieľaný Google doc