1-DAV-202 Data Management 2023/24
Previously 2-INF-185 Data Source Integration

Materials · Introduction · Rules · Contact
· Grades from marked homeworks are on the server in file /grades/userid.txt
· Please submit project proposals until Friday April 12. Topics from potential bachelor topic supervisors can be found in /tasks/temy.txt (in Slovak).
· Due to Student Research Conference, Javascript and Bioinf3 homeworks are due on April 25, 9:00am.


Difference between revisions of "Genomika"

From MAD
Jump to navigation Jump to search
 
(21 intermediate revisions by 2 users not shown)
Line 1: Line 1:
 
Stránka k predmetu 2-INF-269/15 Genomika
 
Stránka k predmetu 2-INF-269/15 Genomika
* [[Genomika: cvičenie UCSC browser|cvičenie na prvý týždeň]]
+
* [[Genomika: cvičenie UCSC browser|Cvičenie na prvý týždeň]]
* [[Predbežné informácie k štátniciam]]
+
* [[Predbežné informácie k štátniciam]] - z minulého roku
* [[Genomika: Informácie ku trackom]]
+
* [[Genomika: Informácie ku trackom]] - z minulého roku
* [[Genomika: Rozvojové projekty]]
+
* [[Genomika: Rozvojové projekty]] - z minulého roku
 
* [http://genomika.compbio.fmph.uniba.sk/ Náš browser]
 
* [http://genomika.compbio.fmph.uniba.sk/ Náš browser]
 +
* [https://docs.google.com/forms/d/e/1FAIpQLSeO-uod8pGqWeLoMHBuG1gMdoh5dFdjq-qmg6LfbCbq6ORynA/viewform?usp=sf_link Dotazník]
 +
* [https://github.com/fmfi-genomika/genomika-2020 Github]
  
 
==Obsahové prerekvizity==
 
==Obsahové prerekvizity==
Line 19: Line 21:
  
 
===Vedomostná náplň pre všetkých:===
 
===Vedomostná náplň pre všetkých:===
* Zoznámiť sa s modernými technológiami, ktoré sú podstatným zdrojom fenoménu "big data" a sú základom moderného medicínskeho výskumu.
+
* Zoznámiť sa s modernými biotechnológiami, ktoré sú podstatným zdrojom fenoménu "big data" a sú základom moderného medicínskeho výskumu.
  
 
===Pre vážnych záujemcov o bioinformatiku:===
 
===Pre vážnych záujemcov o bioinformatiku:===
Line 32: Line 34:
  
 
Poznámky k hodnoteniu cvičení:
 
Poznámky k hodnoteniu cvičení:
* Obzvlášť malý alebo veľký podiel na práci skupiny môže vieť k individuálnej zmene váh(v extrémnych prípadoch môže individuálne hodnotenie tvoriť až 50% celej známky)
+
* Obzvlášť malý alebo veľký podiel na práci skupiny môže vieť k individuálnej zmene váh (v extrémnych prípadoch môže individuálne hodnotenie tvoriť až 50% celej známky)
 
* Za každú fázu skupinového projektu (t.j. po každom stretnutí) vám budú pridelené čierne a/alebo červené body
 
* Za každú fázu skupinového projektu (t.j. po každom stretnutí) vám budú pridelené čierne a/alebo červené body
 
** Červené body sú za splnené úlohy a ich počet odzrkadľuje kvalitu, kvantitu a náročnosť práce
 
** Červené body sú za splnené úlohy a ich počet odzrkadľuje kvalitu, kvantitu a náročnosť práce
 
** Čierne body sú za úlohy, ktoré vám boli priradené, ale ktoré ste nesplnili, obzvlášť ak od nich závisí ďalší postup ostatných členov skupiny.  
 
** Čierne body sú za úlohy, ktoré vám boli priradené, ale ktoré ste nesplnili, obzvlášť ak od nich závisí ďalší postup ostatných členov skupiny.  
** Čierne body môžu byť udelené aj za prístup narúšajúci úspešné napredovanie tímu(neospravedlnená neprítomnosť na stretnutí, narušenie práce spoločného servera a pod.)
+
** Čierne body môžu byť udelené aj za prístup narúšajúci úspešné napredovanie tímu (neospravedlnená neprítomnosť na stretnutí, narušenie práce spoločného servera a pod.)
 
** Individuálne hodnotenie je neklesajúca funkcia od počtu červených bodov a nerastúca od počtu čiernych.
 
** Individuálne hodnotenie je neklesajúca funkcia od počtu červených bodov a nerastúca od počtu čiernych.
  
Line 61: Line 63:
 
** treba sa priebežne pýtať rozumné otázky smerujúce k vyjasneniu podstatných vecí
 
** treba sa priebežne pýtať rozumné otázky smerujúce k vyjasneniu podstatných vecí
 
** (tréning k interdisciplinárnej komunikácii ide oboma smermi ;))
 
** (tréning k interdisciplinárnej komunikácii ide oboma smermi ;))
** Don't panic! Jediná vec, ktorá nie je v knihe, je Tomášova prednáška.
+
** Don't panic! Väčšina prednášok je v knihe
 
* Tréning v schopnosti rozlíšiť podstatné od nepodstatného (veľmi dôležitý do budúcnosti)
 
* Tréning v schopnosti rozlíšiť podstatné od nepodstatného (veľmi dôležitý do budúcnosti)
 
* V prípade veľkých problémov sa môžeme dohodnúť na konzultáciách ku konkrétnym otázkam
 
* V prípade veľkých problémov sa môžeme dohodnúť na konzultáciách ku konkrétnym otázkam
Line 68: Line 70:
 
* Cvičiaci [http://compbio.fmph.uniba.sk/~bbrejova/ Broňa Brejová] a [http://compbio.fmph.uniba.sk/~tvinar/ Tomáš Vinař]
 
* Cvičiaci [http://compbio.fmph.uniba.sk/~bbrejova/ Broňa Brejová] a [http://compbio.fmph.uniba.sk/~tvinar/ Tomáš Vinař]
 
* Tvorba prehliadača genómov na báze softvéru [http://genome-euro.ucsc.edu/ UCSC genome browser] pre vybrané genómy.  
 
* Tvorba prehliadača genómov na báze softvéru [http://genome-euro.ucsc.edu/ UCSC genome browser] pre vybrané genómy.  
* Ak budú výsledky dobré, reálna šanca na využitie v medzinárodnej komunite!
+
* Ak budú výsledky dobré, reálna šanca na využitie na Prírodovedeckej fakulte UK aj v medzinárodnej komunite!
* Dve skupiny (s rôznymi cieľmi), stretnutia cca každé dva týždne v rozvrhovanom čase.
+
* Väčšinu práce budeme robiť v čase cvičení 2 vyučovacie hodiny týždenne kvôli ľahšej koordinácii. Prípadné neprítomnosti si bude treba nahradiť intenzívnejšou prácou doma.
  
 
===Je toto reálny model niečoho s čím sa môžem stretnúť v praxi?===
 
===Je toto reálny model niečoho s čím sa môžem stretnúť v praxi?===
Line 78: Line 80:
 
* V tomto projekte: hlavná časť softvéru v C/C++, Perl; databáza MySQL - jadro podporného softvéru vyvinuté na prelome tisícročí
 
* V tomto projekte: hlavná časť softvéru v C/C++, Perl; databáza MySQL - jadro podporného softvéru vyvinuté na prelome tisícročí
 
* Ťažiskom projektu je vyhľadávanie, spracovanie a porozumenie dátam
 
* Ťažiskom projektu je vyhľadávanie, spracovanie a porozumenie dátam
* Vývoj softvéru je pomocný prvok s dôrazom na dosiahnutie konkrétneho cieľa; kľúčová je reprodukovateľnosť, vítaná je znovupoužiteľnosti v iných kontextoch
+
* Vývoj softvéru je pomocný prvok s dôrazom na dosiahnutie konkrétneho cieľa; kľúčová je reprodukovateľnosť, vítaná je znovupoužiteľnost v iných kontextoch
  
 
===Typický priebeh cvičenia===
 
===Typický priebeh cvičenia===
* Krátke prezentácie členov tímu o postupe / dosiahnutí cieľov (vrátane prezentácie informácii, ktoré by mohli byť užitočné kolegom pri ich práci)
+
Budeme podľa potreby striedať nasledujúce aktivity
 +
* Krátke prezentácie členov tímu o postupe / dosiahnutí cieľov (vrátane prezentácie informácií, ktoré by mohli byť užitočné kolegom pri ich práci ale aj vysvetlenie významu spracovaných dát)
 
* Diskusia k aktuálnym problémom, brain storming ohľadom riešenia aktuálnych problémov
 
* Diskusia k aktuálnym problémom, brain storming ohľadom riešenia aktuálnych problémov
* Nové ciele, rozdelenie práce
+
* Rozdelenie práce na nových cieľoch
* Začnete pracovať na nových cieľoch, cvičiaci pomôžu riešiť technické problémy / zodpovedať otázky. Z cvičenia by ste mali odchádzať s predstavou čo idete robiť a ako dlho vám to bude trvať.
+
* Individuálna alebo skupinová práca, cvičiaci pomôžu riešiť technické problémy / zodpovedať otázky.
* Po skončení cvičenia pokračujete individuálne do ďalšieho stretnutia (komunikácia v rámci skupiny je samozrejme vítaná).
+
* Môžeme sa porozprávať aj o terminológii potrebnej k ďalšej prednáške
 
 
 
 
==Malassezia globosa a Malassezia sympodialis==
 
* Budeme používať skratky malGlo a malSym
 
* Sú to mikroorganizmy, ktoré patria medzi huby (fungi).
 
* Bežne žijú na ľudskej pokožke, živia sa kožným mazom.
 
* Môžu spôsobovať problémy, ako lupiny vo vlasoch, ekzém, infekcie.
 
* Obrázky: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4069738/figure/F1/
 
* Saunders CW, Scheynius A, Heitman J. Malassezia fungi are specialized to live on skin and associated with dandruff, eczema, and other skin diseases. PLoS pathogens. 2012 Jun 21;8(6):e1002701. [https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3380954/]
 
 
 
 
 
Malassezia globosa
 
* genóm publikovaný firmou Procter and Gamble, ktorá vyrába šampón Head and Shoulders, ktorý obsahuje antigungálne látky
 
* Xu J, Saunders CW, Hu P, Grant RA, Boekhout T, Kuramae EE, Kronstad JW, DeAngelis YM, Reeder NL, Johnstone KR, Leland M. Dandruff-associated Malassezia genomes reveal convergent and divergent virulence traits shared with plant and human fungal pathogens. Proceedings of the National Academy of Sciences. 2007 Nov 20;104(47):18730-5. [https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2141845/]
 
* Wu G, Zhao H, Li C, Rajapakse MP, Wong WC, Xu J, Saunders CW, Reeder NL, Reilman RA, Scheynius A, Sun S. Genus-wide comparative genomics of Malassezia delineates its phylogeny, physiology, and niche adaptation on human skin. PLoS genetics. 2015 Nov 5;11(11):e1005614. [https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4634964/]
 
* Genóm [https://www.ncbi.nlm.nih.gov/genome/701?genome_assembly_id=30575], proteíny [http://www.uniprot.org/proteomes/UP000008837], RNA-seq [https://www.ncbi.nlm.nih.gov/bioproject/PRJNA286710]
 
* Tím: Becza, Hraška, Jariabka, Krajčovič, Smolík, Šuppa, Zeleňák
 
 
 
Malassezia sympodialis
 
* Gioti A, Nystedt B, Li W, Xu J, Andersson A, Averette AF, Münch K, Wang X, Kappauf C, Kingsbury JM, Kraak B. Genomic insights into the atopic eczema-associated skin commensal yeast Malassezia sympodialis. MBio. 2013 Mar 1;4(1):e00572-12. [https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3560662/]
 
* Zhu Y, Engström PG, Tellgren-Roth C, Baudo CD, Kennell JC, Sun S, Billmyre RB, Schröder MS, Andersson A, Holm T, Sigurgeirsson B. Proteogenomics produces comprehensive and highly accurate protein-coding gene annotation in a complete genome assembly of Malassezia sympodialis. Nucleic acids research. 2017 Jan 18;45(5):2629-43. [https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5389616/]
 
* Genóm [https://www.ncbi.nlm.nih.gov/genome/16894?genome_assembly_id=302004], proteíny [http://www.uniprot.org/proteomes/UP000186303], RNA-seq [https://www.ebi.ac.uk/arrayexpress/experiments/E-MTAB-4589/]
 
* Tím: Ižip, Mayer, Metohajrová, Novák, Rabatin, D. Simeunovič, R. Simeunovič
 
 
 
Ďalšie príbuzné genómy
 
* [https://www.ncbi.nlm.nih.gov/genome/?term=txid55193%5BOrganism%3Aexp%5D]
 
  
 
==Ǔlohy pre vás==
 
==Ǔlohy pre vás==
  
 
* Skúste si spraviť [[Genomika: cvičenie UCSC browser|cvičenie]] na prácu s UCSC prehliadačom
 
* Skúste si spraviť [[Genomika: cvičenie UCSC browser|cvičenie]] na prácu s UCSC prehliadačom
* Do pondelka 26.2.: poslať B. Brejovej email obsahujúci vaše meno, gmailové konto a githubové konto, ktoré chcete na predmete využívať, prijať pozvánku za člena Github projektu
+
* Rozmyslíme a dohodneme si spôsob organizácie a koordinácie v rámci skupiny
* Rozmyslite si v skupinách aké spôsoby koordinácie chcete používať, návrhy nižšie
+
* Vyplniť dotazník: [https://docs.google.com/forms/d/e/1FAIpQLSeO-uod8pGqWeLoMHBuG1gMdoh5dFdjq-qmg6LfbCbq6ORynA/viewform?usp=sf_link], prijať pozvánku za člena Github projektu
* Pre ďalšie dve prednášky je vhodné si z MBI zopakovať úvod do biológie pre informatikov (cvičenie) a prednášku o sekvenovaní a zostavovaní genómov
+
* Skúsiť sa prihlásiť na server
* 1.3. stretnutie malGlo, 8.3. stretnutie malSym
+
* Pre ďalšiu prednášku je vhodné si z MBI zopakovať úvod do biológie pre informatikov (cvičenie) a prednášku o sekvenovaní a zostavovaní genómov
  
 
==Koordinácia v rámci skupiny a s cvičiacimi==
 
==Koordinácia v rámci skupiny a s cvičiacimi==
Každá skupina by si mala vytvoriť spôsob organizácie práce a jej výsledkov
+
Mali by ste si vytvoriť spôsob organizácie práce a jej výsledkov v rámci skupiny
 
* Mala by existovať verejne dostupná a prehľadná dokumentácia k všetkému, čo ste robili  
 
* Mala by existovať verejne dostupná a prehľadná dokumentácia k všetkému, čo ste robili  
 +
** Celkový komentár, o čo v danej úôlohe ide
 
** Kde ste stiahli dáta, ako ste ich spracovali (ideálne postupnosť všetkých relevantných príkazov), poznámky k problematickým krokom
 
** Kde ste stiahli dáta, ako ste ich spracovali (ideálne postupnosť všetkých relevantných príkazov), poznámky k problematickým krokom
** Ideálne v angličtine, ale stačia stručné poznámky
+
** Genome browser by mal mať tiež informácie o jednotlivých trackoch pre používateľov, s linkou na technickejšiu dokumentáciu
* Takisto by mali byť verejne prístupný archív zdrojových kódov všetkých programov, ktorý ste pre predmet napísali
+
** V angličtine, ale stačia stručné poznámky
 +
* Mal by byť verejne prístupný archív zdrojových kódov všetkých programov, ktorý ste pre predmet napísali
 +
* Spracovávané dáta by mali byť na serveri genomika v adresári /data, okrem príliš veľkých medzivýslekdov
 +
* Malo by byť tiež jasné, kto pracuje na akej úlohe, aké úlohy sú ešte nepriradené, aké veci treba ešte dorobiť, čo už je hotové a pod.
  
Z minulého roku existuje projekt na GitHube https://github.com/bbrejova/genomika-2017
+
Každému študentovi tiež vytvoríme Google doc, do ktorého si bude písať '''denník'''
* Obsahuje skripty aj dokumentáciu vo forme wiki
+
* Stručný heslovitý prehľad, čo sa podarilo spraviť v jendotlivých týždňoch semestra, prípadne väčšie prekážky, ktoré bolo treba pritom riešiť
* Odporúčame použiť, ak nemáte lepší nápad ako prácu zorganizovať
+
* Použitie pri hodnotení
* Časti z minulého roka nemažte, môžete ich však nejako presunúť do priečinka a pod.
+
* Do denníka vám tiež nakopírujeme pridelené body
  
Denník skupiny
+
Osvedčené z minulého roku:
* Každá skupina má Google document, v ktorom sa na stretnutí spíšu dohodnuté úlohy a komu boli priradené a na ďalšom stretnutí aktuálny stav ich plnenia a pridelené body
+
* Zdrojový kód na Githube (napr. [https://github.com/fmfi-genomika/genomikaMalGlo])
* Môžete si tam písať aj ďalšie poznámky o aktuálnom stave prác a problémoch, na aké ste narazili
+
* Dokumentácia ako wiki na Githube (napr. [https://github.com/fmfi-genomika/genomikaMalGlo/wiki])
 +
* Organizácia úloh ako Project na GitHube [https://github.com/fmfi-genomika/genomikaMalGlo/projects/1]
 +
* Plus vhodná organizácia súborov na serveri a dokumentácia pre používateľov
  
==Predbežný plán cvičení==
+
Github na tento rok: https://github.com/fmfi-genomika/genomika-2019
Časový plán sa ešte môže zmeniť podľa okolností
 
  
* 6.4. MalGlo (Becza, Hraška, Jariabka, Krajčovič, Smolík, Šuppa, Zeleňák)
+
===Neverejné dáta===
* 12.4. MalSym (Ižip, Mayer, Metohajrová, Novák, Rabatin, D. Simeunovič, R. Simeunovič)
+
* Niektorí budú pracovať aj so zatiaľ nezverejnenými dátami vyprodukovanými na PriFUK v spolupráci so zahraničím
* 19.4. MalGlo
+
* Tieto dáta ani výsledky z nich získané nikde '''nezverejňujte'''
* 26.4. MalSym
+
* Všeobecné postupy pri ich spracovaní môžete zverejniť, bez podrobností o biologickom význame týchto dát
* 3.5. nebude
+
* Ďalšiu dokumentáciu, ktorá  by mala zostať zatiaľ neverejná, budeme ukladať podľa potreby na zdieľaný Google doc
* 10.5. MalGlo
 
* 17.5. MalSym
 

Latest revision as of 16:55, 19 February 2020

Stránka k predmetu 2-INF-269/15 Genomika

Obsahové prerekvizity

  • Metódy v bioinformatike a Integrácia dátových zdrojov
  • Ak ste skúsení v práci na príkazovom riadku v Linuxe, Integráciu je možné brať aj súčasne s Genomikou

Ciele predmetu

Základné ciele:

  • Vystaviť vás interdisciplinárnej komunikácii a spolupráci.
  • Budovať schopnosť rýchlo sa oboznámiť s podstatnými znalosťami z vám neznámej oblasti, ktorá vám umožní efektívne komunikovať s klientami a kolegami, ktorí nie sú informatici.
  • Rozvíjať schopnosti tímovej spolupráce a organizácie práce.
  • Vyskúšať si projekt, kde nastupujete do "rozbehnutého vlaku" (práca s existujúcim softvérom s potrebou vývoja vlastných rozšírení).

Vedomostná náplň pre všetkých:

  • Zoznámiť sa s modernými biotechnológiami, ktoré sú podstatným zdrojom fenoménu "big data" a sú základom moderného medicínskeho výskumu.

Pre vážnych záujemcov o bioinformatiku:

  • Vyskúšať si prácu s reálnymi biologickými dátami.
  • Prísť do kontaktu s odborníkmi z prírodných vied.

Hodnotenie

  • Písomná skúška: 50% (spoločná pre biológov aj informatikov)
  • Práca skupiny ako celku: 25%
  • (Preukázateľný) individuálny prínos k úspešnosti projektu: 25%
  • Známky A: 90+, B: 80+, C: 70+, D: 60+, E: 50+

Poznámky k hodnoteniu cvičení:

  • Obzvlášť malý alebo veľký podiel na práci skupiny môže vieť k individuálnej zmene váh (v extrémnych prípadoch môže individuálne hodnotenie tvoriť až 50% celej známky)
  • Za každú fázu skupinového projektu (t.j. po každom stretnutí) vám budú pridelené čierne a/alebo červené body
    • Červené body sú za splnené úlohy a ich počet odzrkadľuje kvalitu, kvantitu a náročnosť práce
    • Čierne body sú za úlohy, ktoré vám boli priradené, ale ktoré ste nesplnili, obzvlášť ak od nich závisí ďalší postup ostatných členov skupiny.
    • Čierne body môžu byť udelené aj za prístup narúšajúci úspešné napredovanie tímu (neospravedlnená neprítomnosť na stretnutí, narušenie práce spoločného servera a pod.)
    • Individuálne hodnotenie je neklesajúca funkcia od počtu červených bodov a nerastúca od počtu čiernych.

Prednášky

Čo si máte odniesť z prednášky?

  • Pochopiť podstatné myšlienky prezentácie / textu (o akej technológii sa bavíme, aký typ dát tam vystupuje, akým spôsobom ich získavame, aký je princíp fungovania)?
  • Nie je podstatné (ani možné) na 100% ovládať terminológiu
    • využívajte znalosti získané v MBI! (je dobré si pred prednáškou zopakovať relevantnú časť)
    • treba sa preniesť nad fakt, že nie každému slovu budete rozumieť
    • je ok sa na pár minút stratiť v detailoch (ale nie je ok sa stratiť na 70% prednášky)
    • treba sa priebežne pýtať rozumné otázky smerujúce k vyjasneniu podstatných vecí
    • (tréning k interdisciplinárnej komunikácii ide oboma smermi ;))
    • Don't panic! Väčšina prednášok je v knihe
  • Tréning v schopnosti rozlíšiť podstatné od nepodstatného (veľmi dôležitý do budúcnosti)
  • V prípade veľkých problémov sa môžeme dohodnúť na konzultáciách ku konkrétnym otázkam

Cvičenia

  • Cvičiaci Broňa Brejová a Tomáš Vinař
  • Tvorba prehliadača genómov na báze softvéru UCSC genome browser pre vybrané genómy.
  • Ak budú výsledky dobré, reálna šanca na využitie na Prírodovedeckej fakulte UK aj v medzinárodnej komunite!
  • Väčšinu práce budeme robiť v čase cvičení 2 vyučovacie hodiny týždenne kvôli ľahšej koordinácii. Prípadné neprítomnosti si bude treba nahradiť intenzívnejšou prácou doma.

Je toto reálny model niečoho s čím sa môžem stretnúť v praxi?

  • Vo väčšine firiem nastupujete do rozbehnutého projektu.
  • Nie je neobvyklé, že skupina ľudí odíde a zanechá po sebe nesúrodú dokumentáciu a rozrobenú prácu, na ktorej vy musíte pokračovať.
  • Nie príliš schopný manažér.
  • Firmy so stabilným produktom používajú zabehnuté technológie (z vášho pohľadu legacy postupy s prvkami zastaralých programovacích jazykov); nie je finančne ani časovo možné neustále refaktorovať na nové platformy
  • V tomto projekte: hlavná časť softvéru v C/C++, Perl; databáza MySQL - jadro podporného softvéru vyvinuté na prelome tisícročí
  • Ťažiskom projektu je vyhľadávanie, spracovanie a porozumenie dátam
  • Vývoj softvéru je pomocný prvok s dôrazom na dosiahnutie konkrétneho cieľa; kľúčová je reprodukovateľnosť, vítaná je znovupoužiteľnost v iných kontextoch

Typický priebeh cvičenia

Budeme podľa potreby striedať nasledujúce aktivity

  • Krátke prezentácie členov tímu o postupe / dosiahnutí cieľov (vrátane prezentácie informácií, ktoré by mohli byť užitočné kolegom pri ich práci ale aj vysvetlenie významu spracovaných dát)
  • Diskusia k aktuálnym problémom, brain storming ohľadom riešenia aktuálnych problémov
  • Rozdelenie práce na nových cieľoch
  • Individuálna alebo skupinová práca, cvičiaci pomôžu riešiť technické problémy / zodpovedať otázky.
  • Môžeme sa porozprávať aj o terminológii potrebnej k ďalšej prednáške

Ǔlohy pre vás

  • Skúste si spraviť cvičenie na prácu s UCSC prehliadačom
  • Rozmyslíme a dohodneme si spôsob organizácie a koordinácie v rámci skupiny
  • Vyplniť dotazník: [1], prijať pozvánku za člena Github projektu
  • Skúsiť sa prihlásiť na server
  • Pre ďalšiu prednášku je vhodné si z MBI zopakovať úvod do biológie pre informatikov (cvičenie) a prednášku o sekvenovaní a zostavovaní genómov

Koordinácia v rámci skupiny a s cvičiacimi

Mali by ste si vytvoriť spôsob organizácie práce a jej výsledkov v rámci skupiny

  • Mala by existovať verejne dostupná a prehľadná dokumentácia k všetkému, čo ste robili
    • Celkový komentár, o čo v danej úôlohe ide
    • Kde ste stiahli dáta, ako ste ich spracovali (ideálne postupnosť všetkých relevantných príkazov), poznámky k problematickým krokom
    • Genome browser by mal mať tiež informácie o jednotlivých trackoch pre používateľov, s linkou na technickejšiu dokumentáciu
    • V angličtine, ale stačia stručné poznámky
  • Mal by byť verejne prístupný archív zdrojových kódov všetkých programov, ktorý ste pre predmet napísali
  • Spracovávané dáta by mali byť na serveri genomika v adresári /data, okrem príliš veľkých medzivýslekdov
  • Malo by byť tiež jasné, kto pracuje na akej úlohe, aké úlohy sú ešte nepriradené, aké veci treba ešte dorobiť, čo už je hotové a pod.

Každému študentovi tiež vytvoríme Google doc, do ktorého si bude písať denník

  • Stručný heslovitý prehľad, čo sa podarilo spraviť v jendotlivých týždňoch semestra, prípadne väčšie prekážky, ktoré bolo treba pritom riešiť
  • Použitie pri hodnotení
  • Do denníka vám tiež nakopírujeme pridelené body

Osvedčené z minulého roku:

  • Zdrojový kód na Githube (napr. [2])
  • Dokumentácia ako wiki na Githube (napr. [3])
  • Organizácia úloh ako Project na GitHube [4]
  • Plus vhodná organizácia súborov na serveri a dokumentácia pre používateľov

Github na tento rok: https://github.com/fmfi-genomika/genomika-2019

Neverejné dáta

  • Niektorí budú pracovať aj so zatiaľ nezverejnenými dátami vyprodukovanými na PriFUK v spolupráci so zahraničím
  • Tieto dáta ani výsledky z nich získané nikde nezverejňujte
  • Všeobecné postupy pri ich spracovaní môžete zverejniť, bez podrobností o biologickom význame týchto dát
  • Ďalšiu dokumentáciu, ktorá by mala zostať zatiaľ neverejná, budeme ukladať podľa potreby na zdieľaný Google doc