1-DAV-202 Data Management 2023/24
Previously 2-INF-185 Data Source Integration

Materials · Introduction · Rules · Contact
· Grades from marked homeworks are on the server in file /grades/userid.txt
· Dates of project submission and oral exams:
Early: submit project May 24 9:00am, oral exams May 27 1:00pm (limit 5 students).
Otherwise submit project June 11, 9:00am, oral exams June 18 and 21 (estimated 9:00am-1:00pm, schedule will be published before exam).
Sign up for one the exam days in AIS before June 11.
Remedial exams will take place in the last week of the exam period. Beware, there will not be much time to prepare a better project. Projects should be submitted as homeworks to /submit/project.
· Cloud homework is due on May 20 9:00am.


Difference between revisions of "Genomika"

From MAD
Jump to navigation Jump to search
Line 1: Line 1:
 
Stránka k predmetu 2-INF-269/15 Genomika
 
Stránka k predmetu 2-INF-269/15 Genomika
 +
* [[Genomika: cvičenie UCSC browser|cvičenie na prvý týždeň]]
  
 
==Obsahové prerekvizity==
 
==Obsahové prerekvizity==
Line 51: Line 52:
  
 
V prvých troch týždňoch plánujeme stretnutie každý týždeň
 
V prvých troch týždňoch plánujeme stretnutie každý týždeň
* 23.2.: organizačné detaily, práca s UCSC prehliadačom
+
* 23.2.: organizačné detaily, práca s UCSC prehliadačom: [[Genomika: cvičenie UCSC browser|cvičenie]]
 
** úloha do ďalšieho týždňa: vytvoriť si Google doc s denníkom, zdieľať s cvičiacimi, uviesť v ňom svoje meno a GitHub username, prijať pozvánku stať sa členom projektu
 
** úloha do ďalšieho týždňa: vytvoriť si Google doc s denníkom, zdieľať s cvičiacimi, uviesť v ňom svoje meno a GitHub username, prijať pozvánku stať sa členom projektu
 
* 2.3.: celkové ciele skupiny
 
* 2.3.: celkové ciele skupiny

Revision as of 18:06, 22 February 2017

Stránka k predmetu 2-INF-269/15 Genomika

Obsahové prerekvizity

  • Metódy v bioinformatike a Integrácia dátových zdrojov
  • Ak ste skúsení v práci na príkazovom riadku v Linuxe, Integráciu je možné brať aj súčasne s Genomikou

Prednášky

Cvičenia

  • Cvičiaci Broňa Brejová a Tomáš Vinař
  • Náplňou cvičení je tvorba prehliadača genómov na báze softvéru UCSC genome browser pre vybrané genómy. Pri tejto tvorbe si precvičíme prácu s genomickými dátami a vytvoríme aj potenciálne užitočný nástroj
  • Budeme pracovať ako skupina, ktorá má spoločný cieľ. Konkrétne podciele na najbližší čas si vždy rozdelíme medzi jednotlivých členov (prípadne dvojice) na spoločnom stretnutí.
  • Stretnutie sa uskutoční v rozvrhovom čase pre cvičenia približne raz za dva týždne. Jednotliví členovia skupiny zosumarizujú, čo sa im z predchádzajúcich úloh podarilo a čo nie, na aké problémy narazili, čo sa zaujímavé naučili a pod. Podiskutujeme, ako by sa tieto problémy mohli riešiť, rozmyslíme ďalšie úlohy a dohodneme sa, kto bude čo robiť.
  • Po skončení diskusnej časti stretnutia začnete na dohodnutých úlohách pracovať v počítačovej miestnosti, pokračujete individuálne do ďalšieho stretnutia
  • Ak sa v danom týždni nekoná stretnutie celej skupiny, môžete v čase cvičení využiť miestnosť na prácu na projekte, najmä ak chcete koordinovať viac ľudí. V prípade záujmu môžeme prísť aj my a niečo poradiť (dohodnite si to vopred).

Hodnotenie

  • Prednášková časť je ukončená písomnou skúškou, ktorá tvorí 50% známky, skúšku organizuje prof. Nosek
  • 50% známky je za prácu na cvičeniach, pričom cca 25% známky je celkový dojem z úspešnosti skupiny ako celku a 25% z individuálneho prínosu daného študenta
  • Známky A: 90+, B: 80+, C: 70+, D: 60+, E: 50+

Poznámky k hodnoteniu cvičení

  • Ak niektorí študenti budú mať obzvlášť malý alebo obzvlášť veľký podiel na práci skupiny, môže byť váha ich individuálneho hodnotenia zvýšená (v extrémnych prípadoch až 50% celej známky)
  • Za každú fázu skupinového projektu (t.j. po každom stretnutí) vám budú pridelené čierne a/alebo červené body
    • Červené body sú za splnené úlohy a ich počet odzrkadľuje kvalitu, kvantitu a náročnosť práce
    • Čierne body sú za úlohy, ktoré vám boli priradené, ale ktoré ste nesplnili, obzvlášť ak od nich závisí ďalší postup ostatných členov skupiny. Takisto čierne body dostanete za iné správanie, ktoré narúša úspešné napredovanie skupiny (neospravedlnená neprítomnosť na stretnutí, narušenie práce spoločného servera a pod.)
    • Individuálne hodnotenie je neklesajúca funkcia od počtu červených bodov a nerastúca od počtu čiernych, presný prepočet určíme neskôr.

Koordinácia v rámci skupiny a s cvičiacimi

  • Projekt na GitHube https://github.com/bbrejova/genomika-2017
    • Slúži na ukladanie skriptov a dokumentácie, koordinácia úloh pomocou issues
    • Verejne prístupný, píšeme po anglicky, neuvádzame záležitosti súvisiace skôr s predmetom než samotným cieľom našej práce
    • Nabudúce spolu dohodneme vhodnú štruktúru
  • Každý študent má Google document, v ktorom si vedie stručný denník
    • Tento denník zdieľajte s cvičiacimi na zápis, budú vám tam dopisovať body
    • V každej fáze uveďte dátum stretnutia, ktorým fáza začala a pod neho stručný zoznam vecí, ktoré ste spravili s linkami do GitHubu na výsledky vašej práce
    • Uveďte tiež stručný sumár, čo sa vám oproti plánu podarilo alebo nepodarilo, prípadne či s niečím boli ťažkosti, či ste spravili niečo oproti plánu navyše a pod.
    • Tento denník je vhodným podkladom pre ďalšie plánovacie stretnutie, kde sa o vašich výsledkoch budeme rozprávať, treba si ho teda pripraviť pred stretnutím
    • Ak si ale na stretnutí spomeniete na niečo, čo chcete pridať k denníku predchádzajúcej správy, spravte to ešet v deň stretnutia, potom už predchádzajúcu fázu nemeniť
    • Najnovšiu fázu majte vždy na vrchu dokumentu, aby sa dala rýchlo nájsť
  • Chceme aj nejaký mailing list / skupinu na oznamy ostatným členom?

Plán na prvé týždne

V prvých troch týždňoch plánujeme stretnutie každý týždeň

  • 23.2.: organizačné detaily, práca s UCSC prehliadačom: cvičenie
    • úloha do ďalšieho týždňa: vytvoriť si Google doc s denníkom, zdieľať s cvičiacimi, uviesť v ňom svoje meno a GitHub username, prijať pozvánku stať sa členom projektu
  • 2.3.: celkové ciele skupiny
    • úloha do ďalšieho týždňa: oboznámenie sa s existujúcimi prehliadačmi pre cieľové druhy, získanie genómových sekvencií, začiatok inštalácie browsera (rozdelíme si)
  • 9.3: podrobnejšie ciele na prvé fázy
    • rozdelíme konkrétne úlohy na ďalšie dva týždne

UCSC prehliadač genómov

Základy browsera, gény

  • On-line grafický nástroj na prezeranie genómov
  • Konfigurovateľný, veľa možností, ale pomerne málo organizmov
  • V programe Firefox choďte na stránku UCSC genome browser http://genome-euro.ucsc.edu/ (európsky mirror stránky http://genome.ucsc.edu/ )
  • Hore v modrom menu zvoľte Genomes, potom zvoľte ľudský genóm verzia hg38. Do okienka search term zadajte HOXA2. Vo výsledkoch hľadania (Known genes) zvoľte gén homeobox A2 na chromozóme 7.
    • Pozrime si spolu túto stránku
    • V hornej časti sú ovládacie prvky na pohyb vľavo, vpravo, približovanie, vzďaľovanie
    • Pod tým schéma chromozómu, červeným vyznačená zobrazená oblasť
    • Pod tým obrázok vybranej oblasti, rôzne tracky
    • Pod tým zoznam všetkých trackov, dajú sa zapínať, vypínať a konfigurovať
    • Po kliknutí na obrázok sa často zobrazí ďalšia informácia o danom géne alebo inom zdroji dát (treba mať zapnuté na full alebo pack, inak prepína úroveň zobrazenia)
    • V génoch exóny hrubé, UTR tenšie, intróny vodorovné čiary
  • Koľko má HOXA2 exónov? Na ktorom chromozóme a pozícii je? Pozor, je na opačnom vlákne. Ako je táto skutočnosť naznačená na obrázku?
  • V tracku GENCODE kliknite na gén, mali by ste sa dostať na stránku popisujúcu jeho rôzne vlastnosti.
    • Na tejto stránke nájdite linku na stiahnutie proteínovej sekvencie. Aké sú prvé štyri aminokyseliny?
  • Pozrime si aj ďalšie typy trackov, napr.

Verzie genómov, prechádzanie medzi verziami (liftOver)

  • Vráťte sa na UCSC genome browser http://genome-euro.ucsc.edu/
  • Pozrieme si niekoľko vecí týkajúcich sa sekvenovania a skladania genómov
  • Hore v modrom menu zvoľte Genomes, časť Other
  • Na ďalšej stránke zvoľte človeka a pomocou menu Human Assembly zistite, kedy boli pridané posledné dve verzie ľudského genómu (hg19 a hg38)
  • Na tej istej stránke dole nájdete stručný popis zvolenej verzie genómu.
  • Zapnite si tracky "Assembly" a "Gaps" a pozrite si región chr2:110,000,000-110,300,000 v hg19: [1] Aká dlhá je neosekvenovaná medzera (gap) v strede tohto regiónu? Približnú veľkosť môžete odčítať z obrázku, presnejší údaj zistíte kliknutím na čierny obdĺžnik zodpovedajúci tejto medzere (úplne presná dĺžka aj tak nebola známa, nakoľko nebola osekvenovaná).
  • Cez menu položku View, In other genomes si pozrite, ako zobrazený úsek vyzerá vo verzii hg38. Ako sa zmenila dĺžka z pôvodných 300kb?

BLAT

  • Sekvencia uvedena nizsie vznikla pomocou RT-PCR na ľudských cDNA knižniciach
  • Choďte na UCSC genome browser http://genome.ucsc.edu/ , na modrej lište zvoľte BLAT, zadajte túto sekvenciu a hľadajte ju v ľudskom genóme. Akú podobnosť (IDENTITY) má najsilnejší nájdený výskyt? Aký dlhý úsek genómu zasahuje? (SPAN). Všimnite si, že ostatné výskyty sú oveľa kratšie.
  • V stĺpci ACTIONS si pomocou Details môžete pozrieť detaily zarovnania a pomocou Browser si pozrieť príslušný úsek genómu.
  • V tomto úseku genómu si zapnite track Vertebrate net na full a kliknutím na farebnú čiaru na obrázku pre tento track zistite, na ktorom chromozóme sliepky sa vyskytuje homologický úsek.
  • Skusme tu istu sekvenciu zarovnat ku genomu sliepky programom Blat: stlacte najprv na hornej modrej liste Genomes, zvolte Vertebrates a Chicken a potom na hornej liste BLAT. Do okienka zadajte tu istu sekvenciu. Akú podobnosť a dĺžku má najsilnejší nájdený výskyt teraz? Na ktorom je chromozóme?
  • Skúsme to isté v NCBI blaste: Choďte na http://blast.ncbi.nlm.nih.gov/ zvoľte nucleotide blast, database others a z menu reference genomic sequence, organism chicken (taxid:9031), program blastn
  • Aka je dlzka, identity a E-value najlepsieho zarovnania? Na ktorom je chromozome?

RT PCR sekvencia z cvičenia vyššie

AACCATGGGTATATACGACTCACTATAGGGGGATATCAGCTGGGATGGCAAATAATGATTTTATTTTGAC
TGATAGTGACCTGTTCGTTGCAACAAATTGATAAGCAATGCTTTCTTATAATGCCAACTTTGTACAAGAA
AGTTGGGCAGGTGTGTTTTTTGTCCTTCAGGTAGCCGAAGAGCATCTCCAGGCCCCCCTCCACCAGCTCC
GGCAGAGGCTTGGATAAAGGGTTGTGGGAAATGTGGAGCCCTTTGTCCATGGGATTCCAGGCGATCCTCA
CCAGTCTACACAGCAGGTGGAGTTCGCTCGGGAGGGTCTGGATGTCATTGTTGTTGAGGTTCAGCAGCTC
CAGGCTGGTGACCAGGCAAAGCGACCTCGGGAAGGAGTGGATGTTGTTGCCCTCTGCGATGAAGATCTGC
AGGCTGGCCAGGTGCTGGATGCTCTCAGCGATGTTTTCCAGGCGATTCGAGCCCACGTGCAAGAAAATCA
GTTCCTTCAGGGAGAACACACACATGGGGATGTGCGCGAAGAAGTTGTTGCTGAGGTTTAGCTTCCTCAG
TCTAGAGAGGTCGGCGAAGCATGCAGGGAGCTGGGACAGGCAGTTGTGCGACAAGCTCAGGACCTCCAGC
TTTCGGCACAAGCTCAGCTCGGCCGGCACCTCTGTCAGGCAGTTCATGTTGACAAACAGGACCTTGAGGC
ACTGTAGGAGGCTCACTTCTCTGGGCAGGCTCTTCAGGCGGTTCCCGCACAAGTTCAGGACCACGATCCG
GGTCAGTTTCCCCACCTCGGGGAGGGAGAACCCCGGAGCTGGTTGTGAGACAAATTGAGTTTCTGGACCC
CCGAAAAGCCCCCACAAAAAGCCG