1-DAV-202 Data Management 2023/24
Previously 2-INF-185 Data Source Integration
Genomika
Stránka k predmetu 2-INF-269/15 Genomika
- Cvičenie na prvý týždeň
- Predbežné informácie k štátniciam - z minulého roku
- Genomika: Informácie ku trackom - z minulého roku
- Genomika: Rozvojové projekty - z minulého roku
- Náš browser
- Dotazník
- Github
Contents
Obsahové prerekvizity
- Metódy v bioinformatike a Integrácia dátových zdrojov
- Ak ste skúsení v práci na príkazovom riadku v Linuxe, Integráciu je možné brať aj súčasne s Genomikou
Ciele predmetu
Základné ciele:
- Vystaviť vás interdisciplinárnej komunikácii a spolupráci.
- Budovať schopnosť rýchlo sa oboznámiť s podstatnými znalosťami z vám neznámej oblasti, ktorá vám umožní efektívne komunikovať s klientami a kolegami, ktorí nie sú informatici.
- Rozvíjať schopnosti tímovej spolupráce a organizácie práce.
- Vyskúšať si projekt, kde nastupujete do "rozbehnutého vlaku" (práca s existujúcim softvérom s potrebou vývoja vlastných rozšírení).
Vedomostná náplň pre všetkých:
- Zoznámiť sa s modernými biotechnológiami, ktoré sú podstatným zdrojom fenoménu "big data" a sú základom moderného medicínskeho výskumu.
Pre vážnych záujemcov o bioinformatiku:
- Vyskúšať si prácu s reálnymi biologickými dátami.
- Prísť do kontaktu s odborníkmi z prírodných vied.
Hodnotenie
- Písomná skúška: 50% (spoločná pre biológov aj informatikov)
- Práca skupiny ako celku: 25%
- (Preukázateľný) individuálny prínos k úspešnosti projektu: 25%
- Známky A: 90+, B: 80+, C: 70+, D: 60+, E: 50+
Poznámky k hodnoteniu cvičení:
- Obzvlášť malý alebo veľký podiel na práci skupiny môže vieť k individuálnej zmene váh (v extrémnych prípadoch môže individuálne hodnotenie tvoriť až 50% celej známky)
- Za každú fázu skupinového projektu (t.j. po každom stretnutí) vám budú pridelené čierne a/alebo červené body
- Červené body sú za splnené úlohy a ich počet odzrkadľuje kvalitu, kvantitu a náročnosť práce
- Čierne body sú za úlohy, ktoré vám boli priradené, ale ktoré ste nesplnili, obzvlášť ak od nich závisí ďalší postup ostatných členov skupiny.
- Čierne body môžu byť udelené aj za prístup narúšajúci úspešné napredovanie tímu (neospravedlnená neprítomnosť na stretnutí, narušenie práce spoločného servera a pod.)
- Individuálne hodnotenie je neklesajúca funkcia od počtu červených bodov a nerastúca od počtu čiernych.
Prednášky
- Spojené s predmetom N-mCBI-119/15 na Prírodovedeckej fakulte (spoločne s magisterskými študentami genetiky, molekulárnej biológie a biochémie)
- Prednášajúci:
- Peter Baráth (Chemický ústav SAV)
- Broňa Brejová (Katedra informatiky FMFI)
- Richard Kollár (Katedra aplikovanej matematiky a štatistiky FMFI)
- Martina Neboháčová (Katedra biochémie PriFUK)
- Jozef Nosek (Katedra biochémie PriFUK)
- Ľubomír Tomáška (Katedra genetiky PriFUK)
- Ivan Valent (Katedra fyzikálnej a teoretickej chémie PriFUK)
- Tomáš Vinař (Katedra aplikovanej informatiky FMFI)
- Moodle s materiálmi k prednáškam
- Učebnica čiernobiela, farebná, vo fakultnej knižnici na prezenčné použitie so signatúrou I-INF-N-20
Čo si máte odniesť z prednášky?
- Pochopiť podstatné myšlienky prezentácie / textu (o akej technológii sa bavíme, aký typ dát tam vystupuje, akým spôsobom ich získavame, aký je princíp fungovania)?
- Nie je podstatné (ani možné) na 100% ovládať terminológiu
- využívajte znalosti získané v MBI! (je dobré si pred prednáškou zopakovať relevantnú časť)
- treba sa preniesť nad fakt, že nie každému slovu budete rozumieť
- je ok sa na pár minút stratiť v detailoch (ale nie je ok sa stratiť na 70% prednášky)
- treba sa priebežne pýtať rozumné otázky smerujúce k vyjasneniu podstatných vecí
- (tréning k interdisciplinárnej komunikácii ide oboma smermi ;))
- Don't panic! Väčšina prednášok je v knihe
- Tréning v schopnosti rozlíšiť podstatné od nepodstatného (veľmi dôležitý do budúcnosti)
- V prípade veľkých problémov sa môžeme dohodnúť na konzultáciách ku konkrétnym otázkam
Cvičenia
- Cvičiaci Broňa Brejová a Tomáš Vinař
- Tvorba prehliadača genómov na báze softvéru UCSC genome browser pre vybrané genómy.
- Ak budú výsledky dobré, reálna šanca na využitie na Prírodovedeckej fakulte UK aj v medzinárodnej komunite!
- Väčšinu práce budeme robiť v čase cvičení 2 vyučovacie hodiny týždenne kvôli ľahšej koordinácii. Prípadné neprítomnosti si bude treba nahradiť intenzívnejšou prácou doma.
Je toto reálny model niečoho s čím sa môžem stretnúť v praxi?
- Vo väčšine firiem nastupujete do rozbehnutého projektu.
- Nie je neobvyklé, že skupina ľudí odíde a zanechá po sebe nesúrodú dokumentáciu a rozrobenú prácu, na ktorej vy musíte pokračovať.
- Nie príliš schopný manažér.
- Firmy so stabilným produktom používajú zabehnuté technológie (z vášho pohľadu legacy postupy s prvkami zastaralých programovacích jazykov); nie je finančne ani časovo možné neustále refaktorovať na nové platformy
- V tomto projekte: hlavná časť softvéru v C/C++, Perl; databáza MySQL - jadro podporného softvéru vyvinuté na prelome tisícročí
- Ťažiskom projektu je vyhľadávanie, spracovanie a porozumenie dátam
- Vývoj softvéru je pomocný prvok s dôrazom na dosiahnutie konkrétneho cieľa; kľúčová je reprodukovateľnosť, vítaná je znovupoužiteľnost v iných kontextoch
Typický priebeh cvičenia
Budeme podľa potreby striedať nasledujúce aktivity
- Krátke prezentácie členov tímu o postupe / dosiahnutí cieľov (vrátane prezentácie informácií, ktoré by mohli byť užitočné kolegom pri ich práci ale aj vysvetlenie významu spracovaných dát)
- Diskusia k aktuálnym problémom, brain storming ohľadom riešenia aktuálnych problémov
- Rozdelenie práce na nových cieľoch
- Individuálna alebo skupinová práca, cvičiaci pomôžu riešiť technické problémy / zodpovedať otázky.
- Môžeme sa porozprávať aj o terminológii potrebnej k ďalšej prednáške
Yarrowia lipolytica
- Budeme sa zaoberať kvasinkou Yarrowia lipolytica kmene CLIB122 a H222.
- Kmeň H222:
- Referenčný kmeň CLIB122:
- Ďalšie kmene [5]
Prvá úloha pre vybraného dobrovoľníka pred budúcim týždňom
- stiahnuť fasta súbor pre genóm kmeňa H222 z ftp linky vyššie (súbor *genomic.fna.gz)
- upraviť mená kontigov na mená typu UTQH01000016.1
- uložiť na genomika server do /gbdb/yarLipB1/yarLipB1.fa (aby vyzeralo podobne ako /gbdb/yarLip1/yarLip1.fa)
Ǔlohy pre vás
- Skúste si spraviť cvičenie na prácu s UCSC prehliadačom
- Rozmyslíme a dohodneme si spôsob organizácie a koordinácie v rámci skupiny
- Vyplniť dotazník: [6], prijať pozvánku za člena Github projektu
- Skúsiť sa prihlásiť na server
- Pre ďalšiu prednášku je vhodné si z MBI zopakovať úvod do biológie pre informatikov (cvičenie) a prednášku o sekvenovaní a zostavovaní genómov
Koordinácia v rámci skupiny a s cvičiacimi
Mali by ste si vytvoriť spôsob organizácie práce a jej výsledkov v rámci skupiny
- Mala by existovať verejne dostupná a prehľadná dokumentácia k všetkému, čo ste robili
- Celkový komentár, o čo v danej úôlohe ide
- Kde ste stiahli dáta, ako ste ich spracovali (ideálne postupnosť všetkých relevantných príkazov), poznámky k problematickým krokom
- Genome browser by mal mať tiež informácie o jednotlivých trackoch pre používateľov, s linkou na technickejšiu dokumentáciu
- V angličtine, ale stačia stručné poznámky
- Mal by byť verejne prístupný archív zdrojových kódov všetkých programov, ktorý ste pre predmet napísali
- Spracovávané dáta by mali byť na serveri genomika v adresári /data, okrem príliš veľkých medzivýslekdov
- Malo by byť tiež jasné, kto pracuje na akej úlohe, aké úlohy sú ešte nepriradené, aké veci treba ešte dorobiť, čo už je hotové a pod.
Každému študentovi tiež vytvoríme Google doc, do ktorého si bude písať denník
- Stručný heslovitý prehľad, čo sa podarilo spraviť v jendotlivých týždňoch semestra, prípadne väčšie prekážky, ktoré bolo treba pritom riešiť
- Použitie pri hodnotení
- Do denníka vám tiež nakopírujeme pridelené body
Osvedčené z minulého roku:
- Zdrojový kód na Githube (napr. [7])
- Dokumentácia ako wiki na Githube (napr. [8])
- Organizácia úloh ako Project na GitHube [9]
- Plus vhodná organizácia súborov na serveri a dokumentácia pre používateľov
Github na tento rok: https://github.com/fmfi-genomika/genomika-2019
Neverejné dáta
- Niektorí budú pracovať aj so zatiaľ nezverejnenými dátami vyprodukovanými na PriFUK v spolupráci so zahraničím
- Tieto dáta ani výsledky z nich získané nikde nezverejňujte
- Všeobecné postupy pri ich spracovaní môžete zverejniť, bez podrobností o biologickom význame týchto dát
- Ďalšiu dokumentáciu, ktorá by mala zostať zatiaľ neverejná, budeme ukladať podľa potreby na zdieľaný Google doc