1-DAV-202 Data Management 2023/24
Previously 2-INF-185 Data Source Integration

Materials · Introduction · Rules · Contact
· Grades from marked homeworks are on the server in file /grades/userid.txt
· Dates of project submission and oral exams:
Early: submit project May 24 9:00am, oral exams May 27 1:00pm (limit 5 students).
Otherwise submit project June 11, 9:00am, oral exams June 18 and 21 (estimated 9:00am-1:00pm, schedule will be published before exam).
Sign up for one the exam days in AIS before June 11.
Remedial exams will take place in the last week of the exam period. Beware, there will not be much time to prepare a better project. Projects should be submitted as homeworks to /submit/project.
· Cloud homework is due on May 20 9:00am.


Difference between revisions of "Genomika"

From MAD
Jump to navigation Jump to search
 
(64 intermediate revisions by 3 users not shown)
Line 1: Line 1:
 
Stránka k predmetu 2-INF-269/15 Genomika
 
Stránka k predmetu 2-INF-269/15 Genomika
* [[Genomika: cvičenie UCSC browser|cvičenie na prvý týždeň]]
+
* [[Genomika: cvičenie UCSC browser|Cvičenie na prvý týždeň]]
 +
* [[Predbežné informácie k štátniciam]] - z minulého roku
 +
* [[Genomika: Informácie ku trackom]] - z minulého roku
 +
* [[Genomika: Rozvojové projekty]] - z minulého roku
 +
* [http://genomika.compbio.fmph.uniba.sk/ Náš browser]
 +
* [https://docs.google.com/forms/d/e/1FAIpQLSeO-uod8pGqWeLoMHBuG1gMdoh5dFdjq-qmg6LfbCbq6ORynA/viewform?usp=sf_link Dotazník]
 +
* [https://github.com/fmfi-genomika/genomika-2020 Github]
  
 
==Obsahové prerekvizity==
 
==Obsahové prerekvizity==
Line 6: Line 12:
 
* Ak ste skúsení v práci na príkazovom riadku v Linuxe, Integráciu je možné brať aj súčasne s Genomikou
 
* Ak ste skúsení v práci na príkazovom riadku v Linuxe, Integráciu je možné brať aj súčasne s Genomikou
  
==Prednášky==
+
==Ciele predmetu==
* Prednášky spolu s predmetom PriF.KBCh/N-mCBI-119/15 na Prírodovedeckej fakulte (pre magisterské programy Genetika, Biochémia a Molekulárna biológia)
+
 
* Pozor prednášky sa riadia harmonogramom PriFUK, kde je semester 13.2.2017 až 12.5.2017
+
===Základné ciele:===
* Prednášajú [https://www.sav.sk/?lang=sk&doc=user-org-user&user_no=10065 Peter Baráth] (Chemický ústav SAV), [http://www.biocenter.sk/ib.html Ingrid Bhatia] (Katedra biochémie PriFUK), [http://compbio.fmph.uniba.sk/~bbrejova/ Broňa Brejová] (Katedra informatiky FMFI), [https://sluzby.fmph.uniba.sk/ludia/kollar53 Richard Kollár] (Katedra aplikovanej matematiky a štatistiky FMFI), [http://biochemici.sk/index.php/about/employees/24-nebohacovamartina Martina Neboháčová] (Katedra biochémie PriFUK), [http://www.biocenter.sk/jn.html Jozef Nosek] (Katedra biochémie PriFUK), [http://www.biocenter.sk/lt.html Ľubomír Tomáška] (Katedra genetiky PriFUK), [https://www.researchgate.net/profile/Ivan_Valent Ivan Valent] (Katedra fyzikálnej a teoretickej chémie PriFUK), [http://compbio.fmph.uniba.sk/~tvinar/ Tomáš Vinař] (Katedra aplikovanej informatiky FMFI)
+
* Vystaviť vás interdisciplinárnej komunikácii a spolupráci.
* [https://moodle.uniba.sk/moodle/moodle16/course/view.php?id=1322 Moodle s materiálmi k prednáškam]
+
* Budovať schopnosť rýchlo sa oboznámiť s podstatnými znalosťami z vám neznámej oblasti, ktorá vám umožní efektívne komunikovať s klientami a kolegami, ktorí nie sú informatici.
* Učebnica [https://www.amazon.de/Genomika-Jozef-Nosek/dp/1494230623/ref=tmm_pap_title_0?_encoding=UTF8&qid=&sr= čiernobiela], [https://www.amazon.de/Genomika-Jozef-Nosek/dp/1493731335 farebná], vo fakultnej knižnici na prezenčné použitie so signatúrou I-INF-N-20
+
* Rozvíjať schopnosti tímovej spolupráce a organizácie práce.
 +
* Vyskúšať si projekt, kde nastupujete do "rozbehnutého vlaku" (práca s existujúcim softvérom s potrebou vývoja vlastných rozšírení).
 +
 
 +
===Vedomostná náplň pre všetkých:===
 +
* Zoznámiť sa s modernými biotechnológiami, ktoré sú podstatným zdrojom fenoménu "big data" a sú základom moderného medicínskeho výskumu.
  
==Cvičenia==
+
===Pre vážnych záujemcov o bioinformatiku:===
* Cvičiaci [http://compbio.fmph.uniba.sk/~bbrejova/ Broňa Brejová] a [http://compbio.fmph.uniba.sk/~tvinar/ Tomáš Vinař]
+
* Vyskúšať si prácu s reálnymi biologickými dátami.
* Náplňou cvičení je tvorba prehliadača genómov na báze softvéru [http://genome-euro.ucsc.edu/ UCSC genome browser] pre vybrané genómy. Pri tejto tvorbe si precvičíme prácu s genomickými dátami a vytvoríme aj potenciálne užitočný nástroj
+
* Prísť do kontaktu s odborníkmi z prírodných vied.
* Budeme pracovať ako skupina, ktorá má spoločný cieľ. Konkrétne podciele na najbližší čas si vždy rozdelíme medzi jednotlivých členov (prípadne dvojice) na spoločnom stretnutí.
 
* Stretnutie sa uskutoční v rozvrhovom čase pre cvičenia približne raz za dva týždne. Jednotliví členovia skupiny zosumarizujú, čo sa im z predchádzajúcich úloh podarilo a čo nie, na aké problémy narazili, čo sa zaujímavé naučili a pod. Podiskutujeme, ako by sa tieto problémy mohli riešiť, rozmyslíme ďalšie úlohy a dohodneme sa, kto bude čo robiť.
 
* Po skončení diskusnej časti stretnutia začnete na dohodnutých úlohách pracovať v počítačovej miestnosti, pokračujete individuálne do ďalšieho stretnutia
 
* Ak sa v danom týždni nekoná stretnutie celej skupiny, môžete v čase cvičení využiť miestnosť na prácu na projekte, najmä ak chcete koordinovať viac ľudí. V prípade záujmu môžeme prísť aj my a niečo poradiť (dohodnite si to vopred).
 
  
 
==Hodnotenie==
 
==Hodnotenie==
* Prednášková časť je ukončená písomnou skúškou, ktorá tvorí 50% známky, skúšku organizuje prof. Nosek
+
* Písomná skúška: 50% (spoločná pre biológov aj informatikov)
* 50% známky je za prácu na cvičeniach, pričom cca 25% známky je celkový dojem z úspešnosti skupiny ako celku a 25% z individuálneho prínosu daného študenta
+
* Práca skupiny ako celku: 25%
 +
* (Preukázateľný) individuálny prínos k úspešnosti projektu: 25%
 
* Známky A: 90+, B: 80+, C: 70+, D: 60+, E: 50+  
 
* Známky A: 90+, B: 80+, C: 70+, D: 60+, E: 50+  
  
Poznámky k hodnoteniu cvičení
+
Poznámky k hodnoteniu cvičení:
* Ak niektorí študenti budú mať obzvlášť malý alebo obzvlášť veľký podiel na práci skupiny, môže byť váha ich individuálneho hodnotenia zvýšená (v extrémnych prípadoch až 50% celej známky)
+
* Obzvlášť malý alebo veľký podiel na práci skupiny môže vieť k individuálnej zmene váh (v extrémnych prípadoch môže individuálne hodnotenie tvoriť až 50% celej známky)
 
* Za každú fázu skupinového projektu (t.j. po každom stretnutí) vám budú pridelené čierne a/alebo červené body
 
* Za každú fázu skupinového projektu (t.j. po každom stretnutí) vám budú pridelené čierne a/alebo červené body
 
** Červené body sú za splnené úlohy a ich počet odzrkadľuje kvalitu, kvantitu a náročnosť práce
 
** Červené body sú za splnené úlohy a ich počet odzrkadľuje kvalitu, kvantitu a náročnosť práce
** Čierne body sú za úlohy, ktoré vám boli priradené, ale ktoré ste nesplnili, obzvlášť ak od nich závisí ďalší postup ostatných členov skupiny. Takisto čierne body dostanete za iné správanie, ktoré narúša úspešné napredovanie skupiny (neospravedlnená neprítomnosť na stretnutí, narušenie práce spoločného servera a pod.)
+
** Čierne body sú za úlohy, ktoré vám boli priradené, ale ktoré ste nesplnili, obzvlášť ak od nich závisí ďalší postup ostatných členov skupiny.  
** Individuálne hodnotenie je neklesajúca funkcia od počtu červených bodov a nerastúca od počtu čiernych, presný prepočet určíme neskôr.
+
** Čierne body môžu byť udelené aj za prístup narúšajúci úspešné napredovanie tímu (neospravedlnená neprítomnosť na stretnutí, narušenie práce spoločného servera a pod.)
 +
** Individuálne hodnotenie je neklesajúca funkcia od počtu červených bodov a nerastúca od počtu čiernych.
  
==Koordinácia v rámci skupiny a s cvičiacimi==
+
==Prednášky==
* Projekt na GitHube https://github.com/bbrejova/genomika-2017
+
* Spojené s predmetom N-mCBI-119/15 na Prírodovedeckej fakulte (spoločne s magisterskými študentami genetiky, molekulárnej biológie a biochémie)
** Slúži na ukladanie skriptov a dokumentácie, koordinácia úloh pomocou issues
+
* Prednášajúci:
** Verejne prístupný, píšeme po anglicky, neuvádzame záležitosti súvisiace skôr s predmetom než samotným cieľom našej práce
+
** [https://www.sav.sk/?lang=sk&doc=user-org-user&user_no=10065 Peter Baráth] (Chemický ústav SAV)
** Nabudúce spolu dohodneme vhodnú štruktúru
+
** [http://compbio.fmph.uniba.sk/~bbrejova/ Broňa Brejová] (Katedra informatiky FMFI)
 +
** [https://sluzby.fmph.uniba.sk/ludia/kollar53 Richard Kollár] (Katedra aplikovanej matematiky a štatistiky FMFI)
 +
** [http://biochemici.sk/index.php/about/employees/24-nebohacovamartina Martina Neboháčová] (Katedra biochémie PriFUK)
 +
** [http://www.biocenter.sk/jn.html Jozef Nosek] (Katedra biochémie PriFUK)
 +
** [http://www.biocenter.sk/lt.html Ľubomír Tomáška] (Katedra genetiky PriFUK)
 +
** [https://www.researchgate.net/profile/Ivan_Valent Ivan Valent] (Katedra fyzikálnej a teoretickej chémie PriFUK)
 +
** [http://compbio.fmph.uniba.sk/~tvinar/ Tomáš Vinař] (Katedra aplikovanej informatiky FMFI)
 +
* [https://moodle.uniba.sk/moodle/moodle17/course/view.php?id=1322 Moodle s materiálmi k prednáškam]
 +
* Učebnica [https://www.amazon.de/Genomika-Jozef-Nosek/dp/1494230623/ref=tmm_pap_title_0?_encoding=UTF8&qid=&sr= čiernobiela], [https://www.amazon.de/Genomika-Jozef-Nosek/dp/1493731335 farebná], vo fakultnej knižnici na prezenčné použitie so signatúrou I-INF-N-20
 +
 
 +
=== Čo si máte odniesť z prednášky? ===
 +
* Pochopiť podstatné myšlienky prezentácie / textu (o akej technológii sa bavíme, aký typ dát tam vystupuje, akým spôsobom ich získavame, aký je princíp fungovania)?
 +
* Nie je podstatné (ani možné) na 100% ovládať terminológiu
 +
** využívajte znalosti získané v MBI! (je dobré si pred prednáškou zopakovať relevantnú časť)
 +
** treba sa preniesť nad fakt, že nie každému slovu budete rozumieť
 +
** je ok sa na pár minút stratiť v detailoch (ale nie je ok sa stratiť na 70% prednášky)
 +
** treba sa priebežne pýtať rozumné otázky smerujúce k vyjasneniu podstatných vecí
 +
** (tréning k interdisciplinárnej komunikácii ide oboma smermi ;))
 +
** Don't panic! Väčšina prednášok je v knihe
 +
* Tréning v schopnosti rozlíšiť podstatné od nepodstatného (veľmi dôležitý do budúcnosti)
 +
* V prípade veľkých problémov sa môžeme dohodnúť na konzultáciách ku konkrétnym otázkam
  
* Každý študent má Google document, v ktorom si vedie stručný denník
+
==Cvičenia==
** Tento denník zdieľajte s cvičiacimi na zápis, budú vám tam dopisovať body
+
* Cvičiaci [http://compbio.fmph.uniba.sk/~bbrejova/ Broňa Brejová] a [http://compbio.fmph.uniba.sk/~tvinar/ Tomáš Vinař]
** V každej fáze uveďte dátum stretnutia, ktorým fáza začala a pod neho stručný zoznam vecí, ktoré ste spravili s linkami do GitHubu na výsledky vašej práce
+
* Tvorba prehliadača genómov na báze softvéru [http://genome-euro.ucsc.edu/ UCSC genome browser] pre vybrané genómy.
** Uveďte tiež stručný sumár, čo sa vám oproti plánu podarilo alebo nepodarilo, prípadne či s niečím boli ťažkosti, či ste spravili niečo oproti plánu navyše a pod.
+
* Ak budú výsledky dobré, reálna šanca na využitie na Prírodovedeckej fakulte UK aj v medzinárodnej komunite!
** Tento denník je vhodným podkladom pre ďalšie plánovacie stretnutie, kde sa o vašich výsledkoch budeme rozprávať, treba si ho teda pripraviť pred stretnutím
+
* Väčšinu práce budeme robiť v čase cvičení 2 vyučovacie hodiny týždenne kvôli ľahšej koordinácii. Prípadné neprítomnosti si bude treba nahradiť intenzívnejšou prácou doma.
** Ak si ale na stretnutí spomeniete na niečo, čo chcete pridať k denníku predchádzajúcej správy, spravte to ešet v deň stretnutia, potom už predchádzajúcu fázu nemeniť
 
** Najnovšiu fázu majte vždy na vrchu dokumentu, aby sa dala rýchlo nájsť
 
  
* Chceme aj nejaký mailing list / skupinu na oznamy ostatným členom?
+
===Je toto reálny model niečoho s čím sa môžem stretnúť v praxi?===
 +
* Vo väčšine firiem nastupujete do rozbehnutého projektu.
 +
* Nie je neobvyklé, že skupina ľudí odíde a zanechá po sebe nesúrodú dokumentáciu a rozrobenú prácu, na ktorej vy musíte pokračovať.
 +
* Nie príliš schopný manažér.
 +
* Firmy so stabilným produktom používajú zabehnuté technológie (z vášho pohľadu legacy postupy s prvkami zastaralých programovacích jazykov); nie je finančne ani časovo možné neustále refaktorovať na nové platformy
 +
* V tomto projekte: hlavná časť softvéru v C/C++, Perl; databáza MySQL - jadro podporného softvéru vyvinuté na prelome tisícročí
 +
* Ťažiskom projektu je vyhľadávanie, spracovanie a porozumenie dátam
 +
* Vývoj softvéru je pomocný prvok s dôrazom na dosiahnutie konkrétneho cieľa; kľúčová je reprodukovateľnosť, vítaná je znovupoužiteľnost v iných kontextoch
  
==Plán na prvé týždne==
+
===Typický priebeh cvičenia===
 +
Budeme podľa potreby striedať nasledujúce aktivity
 +
* Krátke prezentácie členov tímu o postupe / dosiahnutí cieľov (vrátane prezentácie informácií, ktoré by mohli byť užitočné kolegom pri ich práci ale aj vysvetlenie významu spracovaných dát)
 +
* Diskusia k aktuálnym problémom, brain storming ohľadom riešenia aktuálnych problémov
 +
* Rozdelenie práce na nových cieľoch
 +
* Individuálna alebo skupinová práca, cvičiaci pomôžu riešiť technické problémy / zodpovedať otázky.
 +
* Môžeme sa porozprávať aj o terminológii potrebnej k ďalšej prednáške
  
V prvých troch týždňoch plánujeme stretnutie každý týždeň
+
==Ǔlohy pre vás==
* 23.2.: organizačné detaily, práca s UCSC prehliadačom: [[Genomika: cvičenie UCSC browser|cvičenie]]
 
** úloha do ďalšieho týždňa: vytvoriť si Google doc s denníkom, zdieľať s cvičiacimi, uviesť v ňom svoje meno a GitHub username, prijať pozvánku stať sa členom projektu
 
* 2.3.: celkové ciele skupiny
 
** úloha do ďalšieho týždňa: oboznámenie sa s existujúcimi prehliadačmi pre cieľové druhy, získanie genómových sekvencií, začiatok inštalácie browsera (rozdelíme si)
 
* 9.3: podrobnejšie ciele na prvé fázy
 
** rozdelíme konkrétne úlohy na ďalšie dva týždne
 
  
==UCSC prehliadač genómov==
+
* Skúste si spraviť [[Genomika: cvičenie UCSC browser|cvičenie]] na prácu s UCSC prehliadačom
 +
* Rozmyslíme a dohodneme si spôsob organizácie a koordinácie v rámci skupiny
 +
* Vyplniť dotazník: [https://docs.google.com/forms/d/e/1FAIpQLSeO-uod8pGqWeLoMHBuG1gMdoh5dFdjq-qmg6LfbCbq6ORynA/viewform?usp=sf_link], prijať pozvánku za člena Github projektu
 +
* Skúsiť sa prihlásiť na server
 +
* Pre ďalšiu prednášku je vhodné si z MBI zopakovať úvod do biológie pre informatikov (cvičenie) a prednášku o sekvenovaní a zostavovaní genómov
  
===Základy browsera, gény===
+
==Koordinácia v rámci skupiny a s cvičiacimi==
* On-line grafický nástroj na prezeranie genómov
+
Mali by ste si vytvoriť spôsob organizácie práce a jej výsledkov v rámci skupiny
* Konfigurovateľný, veľa možností, ale pomerne málo organizmov
+
* Mala by existovať verejne dostupná a prehľadná dokumentácia k všetkému, čo ste robili
* V programe Firefox choďte na stránku UCSC genome browser http://genome-euro.ucsc.edu/  (európsky mirror stránky http://genome.ucsc.edu/ )
+
** Celkový komentár, o čo v danej úôlohe ide
* Hore v modrom menu zvoľte Genomes, potom zvoľte ľudský genóm verzia hg38. Do okienka <tt>search term</tt> zadajte HOXA2. Vo výsledkoch hľadania (Known genes) zvoľte gén homeobox A2 na chromozóme 7.
+
** Kde ste stiahli dáta, ako ste ich spracovali (ideálne postupnosť všetkých relevantných príkazov), poznámky k problematickým krokom
** Pozrime si spolu túto stránku
+
** Genome browser by mal mať tiež informácie o jednotlivých trackoch pre používateľov, s linkou na technickejšiu dokumentáciu
** V hornej časti sú ovládacie prvky na pohyb vľavo, vpravo, približovanie, vzďaľovanie
+
** V angličtine, ale stačia stručné poznámky
** Pod tým schéma chromozómu, červeným vyznačená zobrazená oblasť
+
* Mal by byť verejne prístupný archív zdrojových kódov všetkých programov, ktorý ste pre predmet napísali
** Pod tým obrázok vybranej oblasti, rôzne tracky
+
* Spracovávané dáta by mali byť na serveri genomika v adresári /data, okrem príliš veľkých medzivýslekdov
** Pod tým zoznam všetkých trackov, dajú sa zapínať, vypínať a konfigurovať
+
* Malo by byť tiež jasné, kto pracuje na akej úlohe, aké úlohy sú ešte nepriradené, aké veci treba ešte dorobiť, čo už je hotové a pod.
** Po kliknutí na obrázok sa často zobrazí ďalšia informácia o danom géne alebo inom zdroji dát (treba mať zapnuté na full alebo pack, inak prepína úroveň zobrazenia)
 
** V génoch exóny hrubé, UTR tenšie, intróny vodorovné čiary
 
  
* '''Koľko má HOXA2 exónov? Na ktorom chromozóme a pozícii je? Pozor, je na opačnom vlákne. Ako je táto skutočnosť naznačená na obrázku?'''
+
Každému študentovi tiež vytvoríme Google doc, do ktorého si bude písať '''denník'''
* V tracku GENCODE kliknite na gén, mali by ste sa dostať na stránku popisujúcu jeho rôzne vlastnosti.
+
* Stručný heslovitý prehľad, čo sa podarilo spraviť v jendotlivých týždňoch semestra, prípadne väčšie prekážky, ktoré bolo treba pritom riešiť
** Na tejto stránke nájdite linku na stiahnutie proteínovej sekvencie. '''Aké sú prvé štyri aminokyseliny?'''
+
* Použitie pri hodnotení
 +
* Do denníka vám tiež nakopírujeme pridelené body
  
* Pozrime si aj ďalšie typy trackov, napr.  
+
Osvedčené z minulého roku:
 +
* Zdrojový kód na Githube (napr. [https://github.com/fmfi-genomika/genomikaMalGlo])
 +
* Dokumentácia ako wiki na Githube (napr. [https://github.com/fmfi-genomika/genomikaMalGlo/wiki])
 +
* Organizácia úloh ako Project na GitHube [https://github.com/fmfi-genomika/genomikaMalGlo/projects/1]
 +
* Plus vhodná organizácia súborov na serveri a dokumentácia pre používateľov
  
===Verzie genómov, prechádzanie medzi verziami (liftOver)===
+
Github na tento rok: https://github.com/fmfi-genomika/genomika-2019
* Vráťte sa na UCSC genome browser http://genome-euro.ucsc.edu/
 
* Pozrieme si niekoľko vecí týkajúcich sa sekvenovania a skladania genómov
 
* Hore v modrom menu zvoľte Genomes, časť Other
 
* Na ďalšej stránke zvoľte človeka a pomocou menu Human Assembly '''zistite, kedy boli pridané posledné dve verzie ľudského genómu (hg19 a hg38)'''
 
* Na tej istej stránke dole nájdete stručný popis zvolenej verzie genómu.
 
* Zapnite si tracky "Assembly" a "Gaps" a pozrite si región chr2:110,000,000-110,300,000 v hg19: [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg19&position=chr2%3A110000000-110300000] '''Aká dlhá je neosekvenovaná medzera (gap) v strede tohto regiónu?''' Približnú veľkosť môžete odčítať z obrázku, presnejší údaj zistíte kliknutím na čierny obdĺžnik zodpovedajúci tejto medzere (úplne presná dĺžka aj tak nebola známa, nakoľko nebola osekvenovaná).
 
* Cez menu položku View, In other genomes si pozrite, ako zobrazený úsek vyzerá vo verzii hg38. Ako sa zmenila dĺžka z pôvodných 300kb?
 
===BLAT===
 
* Sekvencia uvedena nizsie vznikla pomocou RT-PCR na ľudských cDNA knižniciach
 
* Choďte na UCSC genome browser  http://genome.ucsc.edu/ , na modrej lište zvoľte BLAT, zadajte túto sekvenciu a hľadajte ju v ľudskom genóme. '''Akú podobnosť (IDENTITY) má najsilnejší nájdený výskyt? Aký dlhý úsek genómu zasahuje? (SPAN).''' Všimnite si, že ostatné výskyty sú oveľa kratšie.
 
* V stĺpci ACTIONS si pomocou Details môžete pozrieť detaily zarovnania a pomocou Browser si pozrieť príslušný úsek genómu.
 
* V tomto úseku genómu si zapnite track Vertebrate net na full a kliknutím na farebnú čiaru na obrázku pre tento track zistite, '''na ktorom chromozóme sliepky sa vyskytuje homologický úsek.'''
 
* Skusme tu istu sekvenciu zarovnat ku genomu sliepky programom Blat: stlacte najprv na hornej modrej liste Genomes, zvolte Vertebrates a Chicken a potom na hornej liste BLAT. Do okienka zadajte tu istu sekvenciu. '''Akú podobnosť a dĺžku má najsilnejší nájdený výskyt teraz? Na ktorom je chromozóme?'''
 
* Skúsme to isté v NCBI blaste: Choďte na http://blast.ncbi.nlm.nih.gov/ zvoľte nucleotide blast, database others a z menu reference genomic sequence, organism chicken (taxid:9031), program blastn
 
* '''Aka je dlzka, identity a E-value najlepsieho zarovnania? Na ktorom je chromozome?'''
 
  
===RT PCR sekvencia z cvičenia vyššie===
+
===Neverejné dáta===
<pre>
+
* Niektorí budú pracovať aj so zatiaľ nezverejnenými dátami vyprodukovanými na PriFUK v spolupráci so zahraničím
AACCATGGGTATATACGACTCACTATAGGGGGATATCAGCTGGGATGGCAAATAATGATTTTATTTTGAC
+
* Tieto dáta ani výsledky z nich získané nikde '''nezverejňujte'''
TGATAGTGACCTGTTCGTTGCAACAAATTGATAAGCAATGCTTTCTTATAATGCCAACTTTGTACAAGAA
+
* Všeobecné postupy pri ich spracovaní môžete zverejniť, bez podrobností o biologickom význame týchto dát
AGTTGGGCAGGTGTGTTTTTTGTCCTTCAGGTAGCCGAAGAGCATCTCCAGGCCCCCCTCCACCAGCTCC
+
* Ďalšiu dokumentáciu, ktorá  by mala zostať zatiaľ neverejná, budeme ukladať podľa potreby na zdieľaný Google doc
GGCAGAGGCTTGGATAAAGGGTTGTGGGAAATGTGGAGCCCTTTGTCCATGGGATTCCAGGCGATCCTCA
 
CCAGTCTACACAGCAGGTGGAGTTCGCTCGGGAGGGTCTGGATGTCATTGTTGTTGAGGTTCAGCAGCTC
 
CAGGCTGGTGACCAGGCAAAGCGACCTCGGGAAGGAGTGGATGTTGTTGCCCTCTGCGATGAAGATCTGC
 
AGGCTGGCCAGGTGCTGGATGCTCTCAGCGATGTTTTCCAGGCGATTCGAGCCCACGTGCAAGAAAATCA
 
GTTCCTTCAGGGAGAACACACACATGGGGATGTGCGCGAAGAAGTTGTTGCTGAGGTTTAGCTTCCTCAG
 
TCTAGAGAGGTCGGCGAAGCATGCAGGGAGCTGGGACAGGCAGTTGTGCGACAAGCTCAGGACCTCCAGC
 
TTTCGGCACAAGCTCAGCTCGGCCGGCACCTCTGTCAGGCAGTTCATGTTGACAAACAGGACCTTGAGGC
 
ACTGTAGGAGGCTCACTTCTCTGGGCAGGCTCTTCAGGCGGTTCCCGCACAAGTTCAGGACCACGATCCG
 
GGTCAGTTTCCCCACCTCGGGGAGGGAGAACCCCGGAGCTGGTTGTGAGACAAATTGAGTTTCTGGACCC
 
CCGAAAAGCCCCCACAAAAAGCCG
 
</pre>
 

Latest revision as of 15:55, 19 February 2020

Stránka k predmetu 2-INF-269/15 Genomika

Obsahové prerekvizity

  • Metódy v bioinformatike a Integrácia dátových zdrojov
  • Ak ste skúsení v práci na príkazovom riadku v Linuxe, Integráciu je možné brať aj súčasne s Genomikou

Ciele predmetu

Základné ciele:

  • Vystaviť vás interdisciplinárnej komunikácii a spolupráci.
  • Budovať schopnosť rýchlo sa oboznámiť s podstatnými znalosťami z vám neznámej oblasti, ktorá vám umožní efektívne komunikovať s klientami a kolegami, ktorí nie sú informatici.
  • Rozvíjať schopnosti tímovej spolupráce a organizácie práce.
  • Vyskúšať si projekt, kde nastupujete do "rozbehnutého vlaku" (práca s existujúcim softvérom s potrebou vývoja vlastných rozšírení).

Vedomostná náplň pre všetkých:

  • Zoznámiť sa s modernými biotechnológiami, ktoré sú podstatným zdrojom fenoménu "big data" a sú základom moderného medicínskeho výskumu.

Pre vážnych záujemcov o bioinformatiku:

  • Vyskúšať si prácu s reálnymi biologickými dátami.
  • Prísť do kontaktu s odborníkmi z prírodných vied.

Hodnotenie

  • Písomná skúška: 50% (spoločná pre biológov aj informatikov)
  • Práca skupiny ako celku: 25%
  • (Preukázateľný) individuálny prínos k úspešnosti projektu: 25%
  • Známky A: 90+, B: 80+, C: 70+, D: 60+, E: 50+

Poznámky k hodnoteniu cvičení:

  • Obzvlášť malý alebo veľký podiel na práci skupiny môže vieť k individuálnej zmene váh (v extrémnych prípadoch môže individuálne hodnotenie tvoriť až 50% celej známky)
  • Za každú fázu skupinového projektu (t.j. po každom stretnutí) vám budú pridelené čierne a/alebo červené body
    • Červené body sú za splnené úlohy a ich počet odzrkadľuje kvalitu, kvantitu a náročnosť práce
    • Čierne body sú za úlohy, ktoré vám boli priradené, ale ktoré ste nesplnili, obzvlášť ak od nich závisí ďalší postup ostatných členov skupiny.
    • Čierne body môžu byť udelené aj za prístup narúšajúci úspešné napredovanie tímu (neospravedlnená neprítomnosť na stretnutí, narušenie práce spoločného servera a pod.)
    • Individuálne hodnotenie je neklesajúca funkcia od počtu červených bodov a nerastúca od počtu čiernych.

Prednášky

Čo si máte odniesť z prednášky?

  • Pochopiť podstatné myšlienky prezentácie / textu (o akej technológii sa bavíme, aký typ dát tam vystupuje, akým spôsobom ich získavame, aký je princíp fungovania)?
  • Nie je podstatné (ani možné) na 100% ovládať terminológiu
    • využívajte znalosti získané v MBI! (je dobré si pred prednáškou zopakovať relevantnú časť)
    • treba sa preniesť nad fakt, že nie každému slovu budete rozumieť
    • je ok sa na pár minút stratiť v detailoch (ale nie je ok sa stratiť na 70% prednášky)
    • treba sa priebežne pýtať rozumné otázky smerujúce k vyjasneniu podstatných vecí
    • (tréning k interdisciplinárnej komunikácii ide oboma smermi ;))
    • Don't panic! Väčšina prednášok je v knihe
  • Tréning v schopnosti rozlíšiť podstatné od nepodstatného (veľmi dôležitý do budúcnosti)
  • V prípade veľkých problémov sa môžeme dohodnúť na konzultáciách ku konkrétnym otázkam

Cvičenia

  • Cvičiaci Broňa Brejová a Tomáš Vinař
  • Tvorba prehliadača genómov na báze softvéru UCSC genome browser pre vybrané genómy.
  • Ak budú výsledky dobré, reálna šanca na využitie na Prírodovedeckej fakulte UK aj v medzinárodnej komunite!
  • Väčšinu práce budeme robiť v čase cvičení 2 vyučovacie hodiny týždenne kvôli ľahšej koordinácii. Prípadné neprítomnosti si bude treba nahradiť intenzívnejšou prácou doma.

Je toto reálny model niečoho s čím sa môžem stretnúť v praxi?

  • Vo väčšine firiem nastupujete do rozbehnutého projektu.
  • Nie je neobvyklé, že skupina ľudí odíde a zanechá po sebe nesúrodú dokumentáciu a rozrobenú prácu, na ktorej vy musíte pokračovať.
  • Nie príliš schopný manažér.
  • Firmy so stabilným produktom používajú zabehnuté technológie (z vášho pohľadu legacy postupy s prvkami zastaralých programovacích jazykov); nie je finančne ani časovo možné neustále refaktorovať na nové platformy
  • V tomto projekte: hlavná časť softvéru v C/C++, Perl; databáza MySQL - jadro podporného softvéru vyvinuté na prelome tisícročí
  • Ťažiskom projektu je vyhľadávanie, spracovanie a porozumenie dátam
  • Vývoj softvéru je pomocný prvok s dôrazom na dosiahnutie konkrétneho cieľa; kľúčová je reprodukovateľnosť, vítaná je znovupoužiteľnost v iných kontextoch

Typický priebeh cvičenia

Budeme podľa potreby striedať nasledujúce aktivity

  • Krátke prezentácie členov tímu o postupe / dosiahnutí cieľov (vrátane prezentácie informácií, ktoré by mohli byť užitočné kolegom pri ich práci ale aj vysvetlenie významu spracovaných dát)
  • Diskusia k aktuálnym problémom, brain storming ohľadom riešenia aktuálnych problémov
  • Rozdelenie práce na nových cieľoch
  • Individuálna alebo skupinová práca, cvičiaci pomôžu riešiť technické problémy / zodpovedať otázky.
  • Môžeme sa porozprávať aj o terminológii potrebnej k ďalšej prednáške

Ǔlohy pre vás

  • Skúste si spraviť cvičenie na prácu s UCSC prehliadačom
  • Rozmyslíme a dohodneme si spôsob organizácie a koordinácie v rámci skupiny
  • Vyplniť dotazník: [1], prijať pozvánku za člena Github projektu
  • Skúsiť sa prihlásiť na server
  • Pre ďalšiu prednášku je vhodné si z MBI zopakovať úvod do biológie pre informatikov (cvičenie) a prednášku o sekvenovaní a zostavovaní genómov

Koordinácia v rámci skupiny a s cvičiacimi

Mali by ste si vytvoriť spôsob organizácie práce a jej výsledkov v rámci skupiny

  • Mala by existovať verejne dostupná a prehľadná dokumentácia k všetkému, čo ste robili
    • Celkový komentár, o čo v danej úôlohe ide
    • Kde ste stiahli dáta, ako ste ich spracovali (ideálne postupnosť všetkých relevantných príkazov), poznámky k problematickým krokom
    • Genome browser by mal mať tiež informácie o jednotlivých trackoch pre používateľov, s linkou na technickejšiu dokumentáciu
    • V angličtine, ale stačia stručné poznámky
  • Mal by byť verejne prístupný archív zdrojových kódov všetkých programov, ktorý ste pre predmet napísali
  • Spracovávané dáta by mali byť na serveri genomika v adresári /data, okrem príliš veľkých medzivýslekdov
  • Malo by byť tiež jasné, kto pracuje na akej úlohe, aké úlohy sú ešte nepriradené, aké veci treba ešte dorobiť, čo už je hotové a pod.

Každému študentovi tiež vytvoríme Google doc, do ktorého si bude písať denník

  • Stručný heslovitý prehľad, čo sa podarilo spraviť v jendotlivých týždňoch semestra, prípadne väčšie prekážky, ktoré bolo treba pritom riešiť
  • Použitie pri hodnotení
  • Do denníka vám tiež nakopírujeme pridelené body

Osvedčené z minulého roku:

  • Zdrojový kód na Githube (napr. [2])
  • Dokumentácia ako wiki na Githube (napr. [3])
  • Organizácia úloh ako Project na GitHube [4]
  • Plus vhodná organizácia súborov na serveri a dokumentácia pre používateľov

Github na tento rok: https://github.com/fmfi-genomika/genomika-2019

Neverejné dáta

  • Niektorí budú pracovať aj so zatiaľ nezverejnenými dátami vyprodukovanými na PriFUK v spolupráci so zahraničím
  • Tieto dáta ani výsledky z nich získané nikde nezverejňujte
  • Všeobecné postupy pri ich spracovaní môžete zverejniť, bez podrobností o biologickom význame týchto dát
  • Ďalšiu dokumentáciu, ktorá by mala zostať zatiaľ neverejná, budeme ukladať podľa potreby na zdieľaný Google doc