1-DAV-202 Data Management 2023/24
Previously 2-INF-185 Data Source Integration

Materials · Introduction · Rules · Contact
· Grades from marked homeworks are on the server in file /grades/userid.txt
· Dates of project submission and oral exams:
Early: submit project May 24 9:00am, oral exams May 27 1:00pm (limit 5 students).
Otherwise submit project June 11, 9:00am, oral exams June 18 and 21 (estimated 9:00am-1:00pm, schedule will be published before exam).
Sign up for one the exam days in AIS before June 11.
Remedial exams will take place in the last week of the exam period. Beware, there will not be much time to prepare a better project. Projects should be submitted as homeworks to /submit/project.
· Cloud homework is due on May 20 9:00am.


Difference between revisions of "Genomika"

From MAD
Jump to navigation Jump to search
 
(14 intermediate revisions by 2 users not shown)
Line 1: Line 1:
 
Stránka k predmetu 2-INF-269/15 Genomika
 
Stránka k predmetu 2-INF-269/15 Genomika
 
* [[Genomika: cvičenie UCSC browser|Cvičenie na prvý týždeň]]
 
* [[Genomika: cvičenie UCSC browser|Cvičenie na prvý týždeň]]
* [[Predbežné informácie k štátniciam]]
+
* [[Predbežné informácie k štátniciam]] - z minulého roku
* [[Genomika: Informácie ku trackom]]
+
* [[Genomika: Informácie ku trackom]] - z minulého roku
* [[Genomika: Rozvojové projekty]]
+
* [[Genomika: Rozvojové projekty]] - z minulého roku
 
* [http://genomika.compbio.fmph.uniba.sk/ Náš browser]
 
* [http://genomika.compbio.fmph.uniba.sk/ Náš browser]
 +
* [https://docs.google.com/forms/d/e/1FAIpQLSeO-uod8pGqWeLoMHBuG1gMdoh5dFdjq-qmg6LfbCbq6ORynA/viewform?usp=sf_link Dotazník]
 +
* [https://github.com/fmfi-genomika/genomika-2020 Github]
  
 
==Obsahové prerekvizity==
 
==Obsahové prerekvizity==
Line 82: Line 84:
 
===Typický priebeh cvičenia===
 
===Typický priebeh cvičenia===
 
Budeme podľa potreby striedať nasledujúce aktivity
 
Budeme podľa potreby striedať nasledujúce aktivity
* Krátke prezentácie členov tímu o postupe / dosiahnutí cieľov (vrátane prezentácie informácií, ktoré by mohli byť užitočné kolegom pri ich práci)
+
* Krátke prezentácie členov tímu o postupe / dosiahnutí cieľov (vrátane prezentácie informácií, ktoré by mohli byť užitočné kolegom pri ich práci ale aj vysvetlenie významu spracovaných dát)
 
* Diskusia k aktuálnym problémom, brain storming ohľadom riešenia aktuálnych problémov
 
* Diskusia k aktuálnym problémom, brain storming ohľadom riešenia aktuálnych problémov
 
* Rozdelenie práce na nových cieľoch
 
* Rozdelenie práce na nových cieľoch
 
* Individuálna alebo skupinová práca, cvičiaci pomôžu riešiť technické problémy / zodpovedať otázky.
 
* Individuálna alebo skupinová práca, cvičiaci pomôžu riešiť technické problémy / zodpovedať otázky.
 
* Môžeme sa porozprávať aj o terminológii potrebnej k ďalšej prednáške
 
* Môžeme sa porozprávať aj o terminológii potrebnej k ďalšej prednáške
 
==Yarrowia lipolytica==
 
* Yarrowia lipolytica H222
 
* [https://mra.asm.org/content/8/4/e01547-18]
 
* [ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/900/537/225/GCA_900537225.1_YALIH222]
 
* [https://www.ncbi.nlm.nih.gov/assembly/GCA_900537225]
 
 
==Malassezia globosa a Malassezia sympodialis==
 
* Budeme používať skratky malGlo a malSym
 
* Sú to mikroorganizmy, ktoré patria medzi huby (fungi).
 
* Bežne žijú na ľudskej pokožke, živia sa kožným mazom.
 
* Môžu spôsobovať problémy, ako lupiny vo vlasoch, ekzém, infekcie.
 
* Obrázky: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4069738/figure/F1/
 
* Saunders CW, Scheynius A, Heitman J. Malassezia fungi are specialized to live on skin and associated with dandruff, eczema, and other skin diseases. PLoS pathogens. 2012 Jun 21;8(6):e1002701. [https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3380954/]
 
 
 
Malassezia globosa
 
* genóm publikovaný firmou Procter and Gamble, ktorá vyrába šampón Head and Shoulders, ktorý obsahuje antigungálne látky
 
* Xu J, Saunders CW, Hu P, Grant RA, Boekhout T, Kuramae EE, Kronstad JW, DeAngelis YM, Reeder NL, Johnstone KR, Leland M. Dandruff-associated Malassezia genomes reveal convergent and divergent virulence traits shared with plant and human fungal pathogens. Proceedings of the National Academy of Sciences. 2007 Nov 20;104(47):18730-5. [https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2141845/]
 
* Wu G, Zhao H, Li C, Rajapakse MP, Wong WC, Xu J, Saunders CW, Reeder NL, Reilman RA, Scheynius A, Sun S. Genus-wide comparative genomics of Malassezia delineates its phylogeny, physiology, and niche adaptation on human skin. PLoS genetics. 2015 Nov 5;11(11):e1005614. [https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4634964/]
 
* Genóm [https://www.ncbi.nlm.nih.gov/genome/701?genome_assembly_id=30575], proteíny [http://www.uniprot.org/proteomes/UP000008837], RNA-seq [https://www.ncbi.nlm.nih.gov/bioproject/PRJNA286710]
 
* Tím: Becza, Hraška, Jariabka, Krajčovič, Smolík, Šuppa, Zeleňák
 
 
Malassezia sympodialis
 
* Gioti A, Nystedt B, Li W, Xu J, Andersson A, Averette AF, Münch K, Wang X, Kappauf C, Kingsbury JM, Kraak B. Genomic insights into the atopic eczema-associated skin commensal yeast Malassezia sympodialis. MBio. 2013 Mar 1;4(1):e00572-12. [https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3560662/]
 
* Zhu Y, Engström PG, Tellgren-Roth C, Baudo CD, Kennell JC, Sun S, Billmyre RB, Schröder MS, Andersson A, Holm T, Sigurgeirsson B. Proteogenomics produces comprehensive and highly accurate protein-coding gene annotation in a complete genome assembly of Malassezia sympodialis. Nucleic acids research. 2017 Jan 18;45(5):2629-43. [https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5389616/]
 
* Genóm [https://www.ncbi.nlm.nih.gov/genome/16894?genome_assembly_id=302004], proteíny [http://www.uniprot.org/proteomes/UP000186303], RNA-seq [https://www.ebi.ac.uk/arrayexpress/experiments/E-MTAB-4589/]
 
* Tím: Ižip, Mayer, Metohajrová, Novák, Rabatin, D. Simeunovič, R. Simeunovič
 
 
Ďalšie príbuzné genómy
 
* [https://www.ncbi.nlm.nih.gov/genome/?term=txid55193%5BOrganism%3Aexp%5D]
 
  
 
==Ǔlohy pre vás==
 
==Ǔlohy pre vás==
  
 
* Skúste si spraviť [[Genomika: cvičenie UCSC browser|cvičenie]] na prácu s UCSC prehliadačom
 
* Skúste si spraviť [[Genomika: cvičenie UCSC browser|cvičenie]] na prácu s UCSC prehliadačom
* Do pondelka 26.2.: poslať B. Brejovej email obsahujúci vaše meno, gmailové konto a githubové konto, ktoré chcete na predmete využívať, prijať pozvánku za člena Github projektu
+
* Rozmyslíme a dohodneme si spôsob organizácie a koordinácie v rámci skupiny
* Rozmyslite si v skupinách aké spôsoby koordinácie chcete používať, návrhy nižšie
+
* Vyplniť dotazník: [https://docs.google.com/forms/d/e/1FAIpQLSeO-uod8pGqWeLoMHBuG1gMdoh5dFdjq-qmg6LfbCbq6ORynA/viewform?usp=sf_link], prijať pozvánku za člena Github projektu
* Pre ďalšie dve prednášky je vhodné si z MBI zopakovať úvod do biológie pre informatikov (cvičenie) a prednášku o sekvenovaní a zostavovaní genómov
+
* Skúsiť sa prihlásiť na server
* 1.3. stretnutie malGlo, 8.3. stretnutie malSym
+
* Pre ďalšiu prednášku je vhodné si z MBI zopakovať úvod do biológie pre informatikov (cvičenie) a prednášku o sekvenovaní a zostavovaní genómov
  
 
==Koordinácia v rámci skupiny a s cvičiacimi==
 
==Koordinácia v rámci skupiny a s cvičiacimi==
Každá skupina by si mala vytvoriť spôsob organizácie práce a jej výsledkov
+
Mali by ste si vytvoriť spôsob organizácie práce a jej výsledkov v rámci skupiny
 
* Mala by existovať verejne dostupná a prehľadná dokumentácia k všetkému, čo ste robili  
 
* Mala by existovať verejne dostupná a prehľadná dokumentácia k všetkému, čo ste robili  
 +
** Celkový komentár, o čo v danej úôlohe ide
 
** Kde ste stiahli dáta, ako ste ich spracovali (ideálne postupnosť všetkých relevantných príkazov), poznámky k problematickým krokom
 
** Kde ste stiahli dáta, ako ste ich spracovali (ideálne postupnosť všetkých relevantných príkazov), poznámky k problematickým krokom
** Ideálne v angličtine, ale stačia stručné poznámky
+
** Genome browser by mal mať tiež informácie o jednotlivých trackoch pre používateľov, s linkou na technickejšiu dokumentáciu
* Takisto by mali byť verejne prístupný archív zdrojových kódov všetkých programov, ktorý ste pre predmet napísali
+
** V angličtine, ale stačia stručné poznámky
 +
* Mal by byť verejne prístupný archív zdrojových kódov všetkých programov, ktorý ste pre predmet napísali
 +
* Spracovávané dáta by mali byť na serveri genomika v adresári /data, okrem príliš veľkých medzivýslekdov
 +
* Malo by byť tiež jasné, kto pracuje na akej úlohe, aké úlohy sú ešte nepriradené, aké veci treba ešte dorobiť, čo už je hotové a pod.
  
Z minulého roku existuje projekt na GitHube https://github.com/bbrejova/genomika-2017
+
Každému študentovi tiež vytvoríme Google doc, do ktorého si bude písať '''denník'''
* Obsahuje skripty aj dokumentáciu vo forme wiki
+
* Stručný heslovitý prehľad, čo sa podarilo spraviť v jendotlivých týždňoch semestra, prípadne väčšie prekážky, ktoré bolo treba pritom riešiť
* Odporúčame použiť, ak nemáte lepší nápad ako prácu zorganizovať
+
* Použitie pri hodnotení
* Časti z minulého roka nemažte, môžete ich však nejako presunúť do priečinka a pod.
+
* Do denníka vám tiež nakopírujeme pridelené body
  
Denník skupiny
+
Osvedčené z minulého roku:
* Každá skupina má Google document, v ktorom sa na stretnutí spíšu dohodnuté úlohy a komu boli priradené a na ďalšom stretnutí aktuálny stav ich plnenia a pridelené body
+
* Zdrojový kód na Githube (napr. [https://github.com/fmfi-genomika/genomikaMalGlo])
* Môžete si tam písať aj ďalšie poznámky o aktuálnom stave prác a problémoch, na aké ste narazili
+
* Dokumentácia ako wiki na Githube (napr. [https://github.com/fmfi-genomika/genomikaMalGlo/wiki])
 +
* Organizácia úloh ako Project na GitHube [https://github.com/fmfi-genomika/genomikaMalGlo/projects/1]
 +
* Plus vhodná organizácia súborov na serveri a dokumentácia pre používateľov
  
==Predbežný plán cvičení==
+
Github na tento rok: https://github.com/fmfi-genomika/genomika-2019
Časový plán sa ešte môže zmeniť podľa okolností
 
  
* 6.4. MalGlo (Becza, Hraška, Jariabka, Krajčovič, Smolík, Šuppa, Zeleňák)
+
===Neverejné dáta===
* 12.4. MalSym (Ižip, Mayer, Metohajrová, Novák, Rabatin, D. Simeunovič, R. Simeunovič)
+
* Niektorí budú pracovať aj so zatiaľ nezverejnenými dátami vyprodukovanými na PriFUK v spolupráci so zahraničím
* 19.4. MalGlo
+
* Tieto dáta ani výsledky z nich získané nikde '''nezverejňujte'''
* 26.4. MalSym
+
* Všeobecné postupy pri ich spracovaní môžete zverejniť, bez podrobností o biologickom význame týchto dát
* 3.5. nebude
+
* Ďalšiu dokumentáciu, ktorá  by mala zostať zatiaľ neverejná, budeme ukladať podľa potreby na zdieľaný Google doc
* 10.5. MalGlo
 
* 17.5. MalSym
 

Latest revision as of 15:55, 19 February 2020

Stránka k predmetu 2-INF-269/15 Genomika

Obsahové prerekvizity

  • Metódy v bioinformatike a Integrácia dátových zdrojov
  • Ak ste skúsení v práci na príkazovom riadku v Linuxe, Integráciu je možné brať aj súčasne s Genomikou

Ciele predmetu

Základné ciele:

  • Vystaviť vás interdisciplinárnej komunikácii a spolupráci.
  • Budovať schopnosť rýchlo sa oboznámiť s podstatnými znalosťami z vám neznámej oblasti, ktorá vám umožní efektívne komunikovať s klientami a kolegami, ktorí nie sú informatici.
  • Rozvíjať schopnosti tímovej spolupráce a organizácie práce.
  • Vyskúšať si projekt, kde nastupujete do "rozbehnutého vlaku" (práca s existujúcim softvérom s potrebou vývoja vlastných rozšírení).

Vedomostná náplň pre všetkých:

  • Zoznámiť sa s modernými biotechnológiami, ktoré sú podstatným zdrojom fenoménu "big data" a sú základom moderného medicínskeho výskumu.

Pre vážnych záujemcov o bioinformatiku:

  • Vyskúšať si prácu s reálnymi biologickými dátami.
  • Prísť do kontaktu s odborníkmi z prírodných vied.

Hodnotenie

  • Písomná skúška: 50% (spoločná pre biológov aj informatikov)
  • Práca skupiny ako celku: 25%
  • (Preukázateľný) individuálny prínos k úspešnosti projektu: 25%
  • Známky A: 90+, B: 80+, C: 70+, D: 60+, E: 50+

Poznámky k hodnoteniu cvičení:

  • Obzvlášť malý alebo veľký podiel na práci skupiny môže vieť k individuálnej zmene váh (v extrémnych prípadoch môže individuálne hodnotenie tvoriť až 50% celej známky)
  • Za každú fázu skupinového projektu (t.j. po každom stretnutí) vám budú pridelené čierne a/alebo červené body
    • Červené body sú za splnené úlohy a ich počet odzrkadľuje kvalitu, kvantitu a náročnosť práce
    • Čierne body sú za úlohy, ktoré vám boli priradené, ale ktoré ste nesplnili, obzvlášť ak od nich závisí ďalší postup ostatných členov skupiny.
    • Čierne body môžu byť udelené aj za prístup narúšajúci úspešné napredovanie tímu (neospravedlnená neprítomnosť na stretnutí, narušenie práce spoločného servera a pod.)
    • Individuálne hodnotenie je neklesajúca funkcia od počtu červených bodov a nerastúca od počtu čiernych.

Prednášky

Čo si máte odniesť z prednášky?

  • Pochopiť podstatné myšlienky prezentácie / textu (o akej technológii sa bavíme, aký typ dát tam vystupuje, akým spôsobom ich získavame, aký je princíp fungovania)?
  • Nie je podstatné (ani možné) na 100% ovládať terminológiu
    • využívajte znalosti získané v MBI! (je dobré si pred prednáškou zopakovať relevantnú časť)
    • treba sa preniesť nad fakt, že nie každému slovu budete rozumieť
    • je ok sa na pár minút stratiť v detailoch (ale nie je ok sa stratiť na 70% prednášky)
    • treba sa priebežne pýtať rozumné otázky smerujúce k vyjasneniu podstatných vecí
    • (tréning k interdisciplinárnej komunikácii ide oboma smermi ;))
    • Don't panic! Väčšina prednášok je v knihe
  • Tréning v schopnosti rozlíšiť podstatné od nepodstatného (veľmi dôležitý do budúcnosti)
  • V prípade veľkých problémov sa môžeme dohodnúť na konzultáciách ku konkrétnym otázkam

Cvičenia

  • Cvičiaci Broňa Brejová a Tomáš Vinař
  • Tvorba prehliadača genómov na báze softvéru UCSC genome browser pre vybrané genómy.
  • Ak budú výsledky dobré, reálna šanca na využitie na Prírodovedeckej fakulte UK aj v medzinárodnej komunite!
  • Väčšinu práce budeme robiť v čase cvičení 2 vyučovacie hodiny týždenne kvôli ľahšej koordinácii. Prípadné neprítomnosti si bude treba nahradiť intenzívnejšou prácou doma.

Je toto reálny model niečoho s čím sa môžem stretnúť v praxi?

  • Vo väčšine firiem nastupujete do rozbehnutého projektu.
  • Nie je neobvyklé, že skupina ľudí odíde a zanechá po sebe nesúrodú dokumentáciu a rozrobenú prácu, na ktorej vy musíte pokračovať.
  • Nie príliš schopný manažér.
  • Firmy so stabilným produktom používajú zabehnuté technológie (z vášho pohľadu legacy postupy s prvkami zastaralých programovacích jazykov); nie je finančne ani časovo možné neustále refaktorovať na nové platformy
  • V tomto projekte: hlavná časť softvéru v C/C++, Perl; databáza MySQL - jadro podporného softvéru vyvinuté na prelome tisícročí
  • Ťažiskom projektu je vyhľadávanie, spracovanie a porozumenie dátam
  • Vývoj softvéru je pomocný prvok s dôrazom na dosiahnutie konkrétneho cieľa; kľúčová je reprodukovateľnosť, vítaná je znovupoužiteľnost v iných kontextoch

Typický priebeh cvičenia

Budeme podľa potreby striedať nasledujúce aktivity

  • Krátke prezentácie členov tímu o postupe / dosiahnutí cieľov (vrátane prezentácie informácií, ktoré by mohli byť užitočné kolegom pri ich práci ale aj vysvetlenie významu spracovaných dát)
  • Diskusia k aktuálnym problémom, brain storming ohľadom riešenia aktuálnych problémov
  • Rozdelenie práce na nových cieľoch
  • Individuálna alebo skupinová práca, cvičiaci pomôžu riešiť technické problémy / zodpovedať otázky.
  • Môžeme sa porozprávať aj o terminológii potrebnej k ďalšej prednáške

Ǔlohy pre vás

  • Skúste si spraviť cvičenie na prácu s UCSC prehliadačom
  • Rozmyslíme a dohodneme si spôsob organizácie a koordinácie v rámci skupiny
  • Vyplniť dotazník: [1], prijať pozvánku za člena Github projektu
  • Skúsiť sa prihlásiť na server
  • Pre ďalšiu prednášku je vhodné si z MBI zopakovať úvod do biológie pre informatikov (cvičenie) a prednášku o sekvenovaní a zostavovaní genómov

Koordinácia v rámci skupiny a s cvičiacimi

Mali by ste si vytvoriť spôsob organizácie práce a jej výsledkov v rámci skupiny

  • Mala by existovať verejne dostupná a prehľadná dokumentácia k všetkému, čo ste robili
    • Celkový komentár, o čo v danej úôlohe ide
    • Kde ste stiahli dáta, ako ste ich spracovali (ideálne postupnosť všetkých relevantných príkazov), poznámky k problematickým krokom
    • Genome browser by mal mať tiež informácie o jednotlivých trackoch pre používateľov, s linkou na technickejšiu dokumentáciu
    • V angličtine, ale stačia stručné poznámky
  • Mal by byť verejne prístupný archív zdrojových kódov všetkých programov, ktorý ste pre predmet napísali
  • Spracovávané dáta by mali byť na serveri genomika v adresári /data, okrem príliš veľkých medzivýslekdov
  • Malo by byť tiež jasné, kto pracuje na akej úlohe, aké úlohy sú ešte nepriradené, aké veci treba ešte dorobiť, čo už je hotové a pod.

Každému študentovi tiež vytvoríme Google doc, do ktorého si bude písať denník

  • Stručný heslovitý prehľad, čo sa podarilo spraviť v jendotlivých týždňoch semestra, prípadne väčšie prekážky, ktoré bolo treba pritom riešiť
  • Použitie pri hodnotení
  • Do denníka vám tiež nakopírujeme pridelené body

Osvedčené z minulého roku:

  • Zdrojový kód na Githube (napr. [2])
  • Dokumentácia ako wiki na Githube (napr. [3])
  • Organizácia úloh ako Project na GitHube [4]
  • Plus vhodná organizácia súborov na serveri a dokumentácia pre používateľov

Github na tento rok: https://github.com/fmfi-genomika/genomika-2019

Neverejné dáta

  • Niektorí budú pracovať aj so zatiaľ nezverejnenými dátami vyprodukovanými na PriFUK v spolupráci so zahraničím
  • Tieto dáta ani výsledky z nich získané nikde nezverejňujte
  • Všeobecné postupy pri ich spracovaní môžete zverejniť, bez podrobností o biologickom význame týchto dát
  • Ďalšiu dokumentáciu, ktorá by mala zostať zatiaľ neverejná, budeme ukladať podľa potreby na zdieľaný Google doc