1-DAV-202 Data Management 2023/24
Previously 2-INF-185 Data Source Integration
Difference between revisions of "Genomika 2017/18"
Jump to navigation
Jump to search
(Created page with "=Genomika= Stránka k predmetu 2-INF-269/15 Genomika, školský rok 2017/18 * cvičenie na prvý týždeň * #Predbežné informácie k...") |
|||
Line 150: | Line 150: | ||
=Genomika: cvičenie UCSC browser= | =Genomika: cvičenie UCSC browser= | ||
+ | Cvičenie na predmet [[Genomika]] <!-- CB04 a dalej --> | ||
+ | |||
+ | ==Základy browsera, gény== | ||
+ | * On-line grafický nástroj na prezeranie genómov | ||
+ | * Konfigurovateľný, veľa možností, ale pomerne málo organizmov | ||
+ | * V programe Firefox choďte na stránku UCSC genome browser http://genome-euro.ucsc.edu/ (európsky mirror stránky http://genome.ucsc.edu/ ) | ||
+ | * Hore v modrom menu zvoľte Genomes, potom zvoľte ľudský genóm verzia hg38. Do okienka <tt>search term</tt> zadajte HOXA2. Vo výsledkoch hľadania (Known genes) zvoľte gén homeobox A2 na chromozóme 7. | ||
+ | ** Pozrime si spolu túto stránku | ||
+ | ** V hornej časti sú ovládacie prvky na pohyb vľavo, vpravo, približovanie, vzďaľovanie | ||
+ | ** Pod tým schéma chromozómu, červeným vyznačená zobrazená oblasť | ||
+ | ** Pod tým obrázok vybranej oblasti, rôzne tracky | ||
+ | ** Pod tým zoznam všetkých trackov, dajú sa zapínať, vypínať a konfigurovať | ||
+ | ** Po kliknutí na obrázok sa často zobrazí ďalšia informácia o danom géne alebo inom zdroji dát (treba mať zapnuté na full alebo pack, inak prepína úroveň zobrazenia) | ||
+ | ** V génoch exóny hrubé, UTR tenšie, intróny vodorovné čiary | ||
+ | |||
+ | * '''Koľko má HOXA2 exónov? Na ktorom chromozóme a pozícii je? Pozor, je na opačnom vlákne. Ako je táto skutočnosť naznačená na obrázku?''' | ||
+ | * V tracku GENCODE kliknite na gén, mali by ste sa dostať na stránku popisujúcu jeho rôzne vlastnosti, pozrite si ju. | ||
+ | |||
+ | ==Dôležité tracky== | ||
+ | Tracky sú rozdelené do viacerých skupín | ||
+ | * Mapping and sequencing: kvalita sekvencie zostavenej z čítaní, základné vlastnosti ako napr. GC% | ||
+ | * Genes and Gene Predictions: známe gény z rôznych databáz, automatické predikcie | ||
+ | * Phenotype and Literature: gény a iné miesta v genóme spomínané v literatúre alebo v databázach o ľudských chorobách a pod. | ||
+ | * mRNA and EST: osekvenované mRNA sekvencie | ||
+ | * Expression: údaje o expresii génov v rôznych tkanivách, napr. GTEx | ||
+ | * Regulation: merania o regulácii aktivity génov (väzobné miesta transkripčných faktorov, histónové modifikácie) | ||
+ | * Comparative genomics: porovnanie viacerých genómov | ||
+ | ** PhyloP - uroven konzerovanosti danej bazy len na zaklade jedneho stlpca zarovnania | ||
+ | ** Element Conservation/Conserved Elements vysledky z phyloHMM phastCons, ktory berie do uvahy aj okolite stlpce | ||
+ | ** multiz celogenómové zarovnania | ||
+ | ** nets and chains: zodpovedajúce si úseky rôznych genómov | ||
+ | * Variation: populacna genomika a polymorfizmy (viac v starsich verziach ludskeho genomu) | ||
+ | * Repeats: casti genomu, ktore sa velakrat opakuju, ale aj segmentalne duplikacie | ||
+ | |||
+ | ==Verzie genómov, prechádzanie medzi verziami (liftOver)== | ||
+ | * Vráťte sa na UCSC genome browser http://genome-euro.ucsc.edu/ | ||
+ | * Pozrieme si niekoľko vecí týkajúcich sa sekvenovania a skladania genómov | ||
+ | * Hore v modrom menu zvoľte Genomes, časť Other | ||
+ | * Na ďalšej stránke zvoľte človeka a pomocou menu Human Assembly '''zistite, kedy boli pridané posledné dve verzie ľudského genómu (hg19 a hg38)''' | ||
+ | * Na tej istej stránke dole nájdete stručný popis zvolenej verzie genómu. | ||
+ | * Zapnite si tracky "Assembly" a "Gaps" a pozrite si región chr2:110,000,000-110,300,000 v hg19: [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg19&position=chr2%3A110000000-110300000] '''Aká dlhá je neosekvenovaná medzera (gap) v strede tohto regiónu?''' Približnú veľkosť môžete odčítať z obrázku, presnejší údaj zistíte kliknutím na čierny obdĺžnik zodpovedajúci tejto medzere (úplne presná dĺžka aj tak nebola známa, nakoľko nebola osekvenovaná). | ||
+ | * Cez menu položku View, In other genomes si pozrite, ako zobrazený úsek vyzerá vo verzii hg38. Ako sa zmenila dĺžka z pôvodných 300kb? | ||
+ | |||
+ | ==BLAT, prechádzanie medzi genómami rôznych druhov== | ||
+ | * Sekvencia uvedená nižšie vznikla sekvenovaním ľudskej mRNA | ||
+ | * Choďte na UCSC genome browser http://genome.ucsc.edu/ , na modrej lište zvoľte BLAT, zadajte túto sekvenciu a hľadajte ju v ľudskom genóme. '''Akú podobnosť (IDENTITY) má najsilnejší nájdený výskyt? Aký dlhý úsek genómu zasahuje? (SPAN).''' Všimnite si, že ostatné výskyty sú oveľa kratšie. | ||
+ | * V stĺpci ACTIONS si pomocou Details môžete pozrieť detaily zarovnania a pomocou Browser si pozrieť príslušný úsek genómu. | ||
+ | * V tomto úseku genómu si zapnite track '''Vertebrate net''' na full a kliknutím na farebnú čiaru na obrázku pre tento track zistite, '''na ktorom chromozóme sliepky sa vyskytuje homologický úsek.''' | ||
+ | * Skusme tu istu sekvenciu zarovnat ku genomu sliepky programom Blat: stlacte najprv na hornej modrej liste Genomes, zvolte Vertebrates a Chicken a potom na hornej liste BLAT. Do okienka zadajte tu istu sekvenciu. '''Akú podobnosť a dĺžku má najsilnejší nájdený výskyt teraz? Na ktorom je chromozóme?''' | ||
+ | |||
+ | ===Ľudská sekvencia pre BLAT=== | ||
+ | <pre> | ||
+ | AACCATGGGTATATACGACTCACTATAGGGGGATATCAGCTGGGATGGCAAATAATGATTTTATTTTGAC | ||
+ | TGATAGTGACCTGTTCGTTGCAACAAATTGATAAGCAATGCTTTCTTATAATGCCAACTTTGTACAAGAA | ||
+ | AGTTGGGCAGGTGTGTTTTTTGTCCTTCAGGTAGCCGAAGAGCATCTCCAGGCCCCCCTCCACCAGCTCC | ||
+ | GGCAGAGGCTTGGATAAAGGGTTGTGGGAAATGTGGAGCCCTTTGTCCATGGGATTCCAGGCGATCCTCA | ||
+ | CCAGTCTACACAGCAGGTGGAGTTCGCTCGGGAGGGTCTGGATGTCATTGTTGTTGAGGTTCAGCAGCTC | ||
+ | CAGGCTGGTGACCAGGCAAAGCGACCTCGGGAAGGAGTGGATGTTGTTGCCCTCTGCGATGAAGATCTGC | ||
+ | AGGCTGGCCAGGTGCTGGATGCTCTCAGCGATGTTTTCCAGGCGATTCGAGCCCACGTGCAAGAAAATCA | ||
+ | GTTCCTTCAGGGAGAACACACACATGGGGATGTGCGCGAAGAAGTTGTTGCTGAGGTTTAGCTTCCTCAG | ||
+ | TCTAGAGAGGTCGGCGAAGCATGCAGGGAGCTGGGACAGGCAGTTGTGCGACAAGCTCAGGACCTCCAGC | ||
+ | TTTCGGCACAAGCTCAGCTCGGCCGGCACCTCTGTCAGGCAGTTCATGTTGACAAACAGGACCTTGAGGC | ||
+ | ACTGTAGGAGGCTCACTTCTCTGGGCAGGCTCTTCAGGCGGTTCCCGCACAAGTTCAGGACCACGATCCG | ||
+ | GGTCAGTTTCCCCACCTCGGGGAGGGAGAACCCCGGAGCTGGTTGTGAGACAAATTGAGTTTCTGGACCC | ||
+ | CCGAAAAGCCCCCACAAAAAGCCG | ||
+ | </pre> | ||
+ | |||
+ | ==Table browser== | ||
+ | Genome browser is nice for manual browsing but also allows programmers to download data | ||
+ | * each track based on one or several tables in an SQL database | ||
+ | * you can download genomic sequences and data from these tables [http://hgdownload.cse.ucsc.edu/downloads.html] | ||
+ | * you can also write queries for a public SQL server [http://genome.ucsc.edu/goldenPath/help/mysql.html] or create queries using Table browser forms (blue bar: Tools->Table browser) | ||
+ | * conversely, you can also display your own data in "custom tracks" of the browser | ||
+ | |||
+ | Table browser examples | ||
+ | * Basic type of query: e.g. export all genes in the part of the genome displayed in the browser | ||
+ | * Several output formats, e.g.: | ||
+ | ** sequence: file of protein or DNA sequences of these genes (various settings) | ||
+ | ** GTF: coordinates of genes and their exons | ||
+ | ** Hyperlinks to genome browser: list of genes with links to the browser for each gene | ||
+ | ** Instead of export we can get summary statistics (number of items, how much sequence they cover) | ||
+ | * More complex query, "intersection" of two tables: e.g. all genes that are more than 50% covered by simple repeats, filtering | ||
+ | |||
=Predbežné informácie k štátniciam= | =Predbežné informácie k štátniciam= | ||
=Genomika: Informácie ku trackom= | =Genomika: Informácie ku trackom= | ||
=Genomika: Rozvojové projekty= | =Genomika: Rozvojové projekty= |
Revision as of 14:00, 20 February 2019
Contents
- 1 Genomika
- 2 Genomika: cvičenie UCSC browser
- 3 Predbežné informácie k štátniciam
- 4 Genomika: Informácie ku trackom
- 5 Genomika: Rozvojové projekty
Genomika
Stránka k predmetu 2-INF-269/15 Genomika, školský rok 2017/18
- cvičenie na prvý týždeň
- #Predbežné informácie k štátniciam
- #Genomika: Informácie ku trackom
- #Genomika: Rozvojové projekty
- Náš browser
Obsahové prerekvizity
- Metódy v bioinformatike a Integrácia dátových zdrojov
- Ak ste skúsení v práci na príkazovom riadku v Linuxe, Integráciu je možné brať aj súčasne s Genomikou
Ciele predmetu
Základné ciele:
- Vystaviť vás interdisciplinárnej komunikácii a spolupráci.
- Budovať schopnosť rýchlo sa oboznámiť s podstatnými znalosťami z vám neznámej oblasti, ktorá vám umožní efektívne komunikovať s klientami a kolegami, ktorí nie sú informatici.
- Rozvíjať schopnosti tímovej spolupráce a organizácie práce.
- Vyskúšať si projekt, kde nastupujete do "rozbehnutého vlaku" (práca s existujúcim softvérom s potrebou vývoja vlastných rozšírení).
Vedomostná náplň pre všetkých:
- Zoznámiť sa s modernými technológiami, ktoré sú podstatným zdrojom fenoménu "big data" a sú základom moderného medicínskeho výskumu.
Pre vážnych záujemcov o bioinformatiku:
- Vyskúšať si prácu s reálnymi biologickými dátami.
- Prísť do kontaktu s odborníkmi z prírodných vied.
Hodnotenie
- Písomná skúška: 50% (spoločná pre biológov aj informatikov)
- Práca skupiny ako celku: 25%
- (Preukázateľný) individuálny prínos k úspešnosti projektu: 25%
- Známky A: 90+, B: 80+, C: 70+, D: 60+, E: 50+
Poznámky k hodnoteniu cvičení:
- Obzvlášť malý alebo veľký podiel na práci skupiny môže vieť k individuálnej zmene váh(v extrémnych prípadoch môže individuálne hodnotenie tvoriť až 50% celej známky)
- Za každú fázu skupinového projektu (t.j. po každom stretnutí) vám budú pridelené čierne a/alebo červené body
- Červené body sú za splnené úlohy a ich počet odzrkadľuje kvalitu, kvantitu a náročnosť práce
- Čierne body sú za úlohy, ktoré vám boli priradené, ale ktoré ste nesplnili, obzvlášť ak od nich závisí ďalší postup ostatných členov skupiny.
- Čierne body môžu byť udelené aj za prístup narúšajúci úspešné napredovanie tímu(neospravedlnená neprítomnosť na stretnutí, narušenie práce spoločného servera a pod.)
- Individuálne hodnotenie je neklesajúca funkcia od počtu červených bodov a nerastúca od počtu čiernych.
Prednášky
- Spojené s predmetom N-mCBI-119/15 na Prírodovedeckej fakulte (spoločne s magisterskými študentami genetiky, molekulárnej biológie a biochémie)
- Prednášajúci:
- Peter Baráth (Chemický ústav SAV)
- Broňa Brejová (Katedra informatiky FMFI)
- Richard Kollár (Katedra aplikovanej matematiky a štatistiky FMFI)
- Martina Neboháčová (Katedra biochémie PriFUK)
- Jozef Nosek (Katedra biochémie PriFUK)
- Ľubomír Tomáška (Katedra genetiky PriFUK)
- Ivan Valent (Katedra fyzikálnej a teoretickej chémie PriFUK)
- Tomáš Vinař (Katedra aplikovanej informatiky FMFI)
- Moodle s materiálmi k prednáškam
- Učebnica čiernobiela, farebná, vo fakultnej knižnici na prezenčné použitie so signatúrou I-INF-N-20
Čo si máte odniesť z prednášky?
- Pochopiť podstatné myšlienky prezentácie / textu (o akej technológii sa bavíme, aký typ dát tam vystupuje, akým spôsobom ich získavame, aký je princíp fungovania)?
- Nie je podstatné (ani možné) na 100% ovládať terminológiu
- využívajte znalosti získané v MBI! (je dobré si pred prednáškou zopakovať relevantnú časť)
- treba sa preniesť nad fakt, že nie každému slovu budete rozumieť
- je ok sa na pár minút stratiť v detailoch (ale nie je ok sa stratiť na 70% prednášky)
- treba sa priebežne pýtať rozumné otázky smerujúce k vyjasneniu podstatných vecí
- (tréning k interdisciplinárnej komunikácii ide oboma smermi ;))
- Don't panic! Jediná vec, ktorá nie je v knihe, je Tomášova prednáška.
- Tréning v schopnosti rozlíšiť podstatné od nepodstatného (veľmi dôležitý do budúcnosti)
- V prípade veľkých problémov sa môžeme dohodnúť na konzultáciách ku konkrétnym otázkam
Cvičenia
- Cvičiaci Broňa Brejová a Tomáš Vinař
- Tvorba prehliadača genómov na báze softvéru UCSC genome browser pre vybrané genómy.
- Ak budú výsledky dobré, reálna šanca na využitie v medzinárodnej komunite!
- Dve skupiny (s rôznymi cieľmi), stretnutia cca každé dva týždne v rozvrhovanom čase.
Je toto reálny model niečoho s čím sa môžem stretnúť v praxi?
- Vo väčšine firiem nastupujete do rozbehnutého projektu.
- Nie je neobvyklé, že skupina ľudí odíde a zanechá po sebe nesúrodú dokumentáciu a rozrobenú prácu, na ktorej vy musíte pokračovať.
- Nie príliš schopný manažér.
- Firmy so stabilným produktom používajú zabehnuté technológie (z vášho pohľadu legacy postupy s prvkami zastaralých programovacích jazykov); nie je finančne ani časovo možné neustále refaktorovať na nové platformy
- V tomto projekte: hlavná časť softvéru v C/C++, Perl; databáza MySQL - jadro podporného softvéru vyvinuté na prelome tisícročí
- Ťažiskom projektu je vyhľadávanie, spracovanie a porozumenie dátam
- Vývoj softvéru je pomocný prvok s dôrazom na dosiahnutie konkrétneho cieľa; kľúčová je reprodukovateľnosť, vítaná je znovupoužiteľnosti v iných kontextoch
Typický priebeh cvičenia
- Krátke prezentácie členov tímu o postupe / dosiahnutí cieľov (vrátane prezentácie informácii, ktoré by mohli byť užitočné kolegom pri ich práci)
- Diskusia k aktuálnym problémom, brain storming ohľadom riešenia aktuálnych problémov
- Nové ciele, rozdelenie práce
- Začnete pracovať na nových cieľoch, cvičiaci pomôžu riešiť technické problémy / zodpovedať otázky. Z cvičenia by ste mali odchádzať s predstavou čo idete robiť a ako dlho vám to bude trvať.
- Po skončení cvičenia pokračujete individuálne do ďalšieho stretnutia (komunikácia v rámci skupiny je samozrejme vítaná).
Malassezia globosa a Malassezia sympodialis
- Budeme používať skratky malGlo a malSym
- Sú to mikroorganizmy, ktoré patria medzi huby (fungi).
- Bežne žijú na ľudskej pokožke, živia sa kožným mazom.
- Môžu spôsobovať problémy, ako lupiny vo vlasoch, ekzém, infekcie.
- Obrázky: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4069738/figure/F1/
- Saunders CW, Scheynius A, Heitman J. Malassezia fungi are specialized to live on skin and associated with dandruff, eczema, and other skin diseases. PLoS pathogens. 2012 Jun 21;8(6):e1002701. [1]
Malassezia globosa
- genóm publikovaný firmou Procter and Gamble, ktorá vyrába šampón Head and Shoulders, ktorý obsahuje antigungálne látky
- Xu J, Saunders CW, Hu P, Grant RA, Boekhout T, Kuramae EE, Kronstad JW, DeAngelis YM, Reeder NL, Johnstone KR, Leland M. Dandruff-associated Malassezia genomes reveal convergent and divergent virulence traits shared with plant and human fungal pathogens. Proceedings of the National Academy of Sciences. 2007 Nov 20;104(47):18730-5. [2]
- Wu G, Zhao H, Li C, Rajapakse MP, Wong WC, Xu J, Saunders CW, Reeder NL, Reilman RA, Scheynius A, Sun S. Genus-wide comparative genomics of Malassezia delineates its phylogeny, physiology, and niche adaptation on human skin. PLoS genetics. 2015 Nov 5;11(11):e1005614. [3]
- Genóm [4], proteíny [5], RNA-seq [6]
- Tím: Becza, Hraška, Jariabka, Krajčovič, Smolík, Šuppa, Zeleňák
Malassezia sympodialis
- Gioti A, Nystedt B, Li W, Xu J, Andersson A, Averette AF, Münch K, Wang X, Kappauf C, Kingsbury JM, Kraak B. Genomic insights into the atopic eczema-associated skin commensal yeast Malassezia sympodialis. MBio. 2013 Mar 1;4(1):e00572-12. [7]
- Zhu Y, Engström PG, Tellgren-Roth C, Baudo CD, Kennell JC, Sun S, Billmyre RB, Schröder MS, Andersson A, Holm T, Sigurgeirsson B. Proteogenomics produces comprehensive and highly accurate protein-coding gene annotation in a complete genome assembly of Malassezia sympodialis. Nucleic acids research. 2017 Jan 18;45(5):2629-43. [8]
- Genóm [9], proteíny [10], RNA-seq [11]
- Tím: Ižip, Mayer, Metohajrová, Novák, Rabatin, D. Simeunovič, R. Simeunovič
Ďalšie príbuzné genómy
Ǔlohy pre vás
- Skúste si spraviť cvičenie na prácu s UCSC prehliadačom
- Do pondelka 26.2.: poslať B. Brejovej email obsahujúci vaše meno, gmailové konto a githubové konto, ktoré chcete na predmete využívať, prijať pozvánku za člena Github projektu
- Rozmyslite si v skupinách aké spôsoby koordinácie chcete používať, návrhy nižšie
- Pre ďalšie dve prednášky je vhodné si z MBI zopakovať úvod do biológie pre informatikov (cvičenie) a prednášku o sekvenovaní a zostavovaní genómov
- 1.3. stretnutie malGlo, 8.3. stretnutie malSym
Koordinácia v rámci skupiny a s cvičiacimi
Každá skupina by si mala vytvoriť spôsob organizácie práce a jej výsledkov
- Mala by existovať verejne dostupná a prehľadná dokumentácia k všetkému, čo ste robili
- Kde ste stiahli dáta, ako ste ich spracovali (ideálne postupnosť všetkých relevantných príkazov), poznámky k problematickým krokom
- Ideálne v angličtine, ale stačia stručné poznámky
- Takisto by mali byť verejne prístupný archív zdrojových kódov všetkých programov, ktorý ste pre predmet napísali
Z minulého roku existuje projekt na GitHube https://github.com/bbrejova/genomika-2017
- Obsahuje skripty aj dokumentáciu vo forme wiki
- Odporúčame použiť, ak nemáte lepší nápad ako prácu zorganizovať
- Časti z minulého roka nemažte, môžete ich však nejako presunúť do priečinka a pod.
Denník skupiny
- Každá skupina má Google document, v ktorom sa na stretnutí spíšu dohodnuté úlohy a komu boli priradené a na ďalšom stretnutí aktuálny stav ich plnenia a pridelené body
- Môžete si tam písať aj ďalšie poznámky o aktuálnom stave prác a problémoch, na aké ste narazili
Predbežný plán cvičení
Časový plán sa ešte môže zmeniť podľa okolností
- 6.4. MalGlo (Becza, Hraška, Jariabka, Krajčovič, Smolík, Šuppa, Zeleňák)
- 12.4. MalSym (Ižip, Mayer, Metohajrová, Novák, Rabatin, D. Simeunovič, R. Simeunovič)
- 19.4. MalGlo
- 26.4. MalSym
- 3.5. nebude
- 10.5. MalGlo
- 17.5. MalSym
Genomika: cvičenie UCSC browser
Cvičenie na predmet Genomika
Základy browsera, gény
- On-line grafický nástroj na prezeranie genómov
- Konfigurovateľný, veľa možností, ale pomerne málo organizmov
- V programe Firefox choďte na stránku UCSC genome browser http://genome-euro.ucsc.edu/ (európsky mirror stránky http://genome.ucsc.edu/ )
- Hore v modrom menu zvoľte Genomes, potom zvoľte ľudský genóm verzia hg38. Do okienka search term zadajte HOXA2. Vo výsledkoch hľadania (Known genes) zvoľte gén homeobox A2 na chromozóme 7.
- Pozrime si spolu túto stránku
- V hornej časti sú ovládacie prvky na pohyb vľavo, vpravo, približovanie, vzďaľovanie
- Pod tým schéma chromozómu, červeným vyznačená zobrazená oblasť
- Pod tým obrázok vybranej oblasti, rôzne tracky
- Pod tým zoznam všetkých trackov, dajú sa zapínať, vypínať a konfigurovať
- Po kliknutí na obrázok sa často zobrazí ďalšia informácia o danom géne alebo inom zdroji dát (treba mať zapnuté na full alebo pack, inak prepína úroveň zobrazenia)
- V génoch exóny hrubé, UTR tenšie, intróny vodorovné čiary
- Koľko má HOXA2 exónov? Na ktorom chromozóme a pozícii je? Pozor, je na opačnom vlákne. Ako je táto skutočnosť naznačená na obrázku?
- V tracku GENCODE kliknite na gén, mali by ste sa dostať na stránku popisujúcu jeho rôzne vlastnosti, pozrite si ju.
Dôležité tracky
Tracky sú rozdelené do viacerých skupín
- Mapping and sequencing: kvalita sekvencie zostavenej z čítaní, základné vlastnosti ako napr. GC%
- Genes and Gene Predictions: známe gény z rôznych databáz, automatické predikcie
- Phenotype and Literature: gény a iné miesta v genóme spomínané v literatúre alebo v databázach o ľudských chorobách a pod.
- mRNA and EST: osekvenované mRNA sekvencie
- Expression: údaje o expresii génov v rôznych tkanivách, napr. GTEx
- Regulation: merania o regulácii aktivity génov (väzobné miesta transkripčných faktorov, histónové modifikácie)
- Comparative genomics: porovnanie viacerých genómov
- PhyloP - uroven konzerovanosti danej bazy len na zaklade jedneho stlpca zarovnania
- Element Conservation/Conserved Elements vysledky z phyloHMM phastCons, ktory berie do uvahy aj okolite stlpce
- multiz celogenómové zarovnania
- nets and chains: zodpovedajúce si úseky rôznych genómov
- Variation: populacna genomika a polymorfizmy (viac v starsich verziach ludskeho genomu)
- Repeats: casti genomu, ktore sa velakrat opakuju, ale aj segmentalne duplikacie
Verzie genómov, prechádzanie medzi verziami (liftOver)
- Vráťte sa na UCSC genome browser http://genome-euro.ucsc.edu/
- Pozrieme si niekoľko vecí týkajúcich sa sekvenovania a skladania genómov
- Hore v modrom menu zvoľte Genomes, časť Other
- Na ďalšej stránke zvoľte človeka a pomocou menu Human Assembly zistite, kedy boli pridané posledné dve verzie ľudského genómu (hg19 a hg38)
- Na tej istej stránke dole nájdete stručný popis zvolenej verzie genómu.
- Zapnite si tracky "Assembly" a "Gaps" a pozrite si región chr2:110,000,000-110,300,000 v hg19: [13] Aká dlhá je neosekvenovaná medzera (gap) v strede tohto regiónu? Približnú veľkosť môžete odčítať z obrázku, presnejší údaj zistíte kliknutím na čierny obdĺžnik zodpovedajúci tejto medzere (úplne presná dĺžka aj tak nebola známa, nakoľko nebola osekvenovaná).
- Cez menu položku View, In other genomes si pozrite, ako zobrazený úsek vyzerá vo verzii hg38. Ako sa zmenila dĺžka z pôvodných 300kb?
BLAT, prechádzanie medzi genómami rôznych druhov
- Sekvencia uvedená nižšie vznikla sekvenovaním ľudskej mRNA
- Choďte na UCSC genome browser http://genome.ucsc.edu/ , na modrej lište zvoľte BLAT, zadajte túto sekvenciu a hľadajte ju v ľudskom genóme. Akú podobnosť (IDENTITY) má najsilnejší nájdený výskyt? Aký dlhý úsek genómu zasahuje? (SPAN). Všimnite si, že ostatné výskyty sú oveľa kratšie.
- V stĺpci ACTIONS si pomocou Details môžete pozrieť detaily zarovnania a pomocou Browser si pozrieť príslušný úsek genómu.
- V tomto úseku genómu si zapnite track Vertebrate net na full a kliknutím na farebnú čiaru na obrázku pre tento track zistite, na ktorom chromozóme sliepky sa vyskytuje homologický úsek.
- Skusme tu istu sekvenciu zarovnat ku genomu sliepky programom Blat: stlacte najprv na hornej modrej liste Genomes, zvolte Vertebrates a Chicken a potom na hornej liste BLAT. Do okienka zadajte tu istu sekvenciu. Akú podobnosť a dĺžku má najsilnejší nájdený výskyt teraz? Na ktorom je chromozóme?
Ľudská sekvencia pre BLAT
AACCATGGGTATATACGACTCACTATAGGGGGATATCAGCTGGGATGGCAAATAATGATTTTATTTTGAC TGATAGTGACCTGTTCGTTGCAACAAATTGATAAGCAATGCTTTCTTATAATGCCAACTTTGTACAAGAA AGTTGGGCAGGTGTGTTTTTTGTCCTTCAGGTAGCCGAAGAGCATCTCCAGGCCCCCCTCCACCAGCTCC GGCAGAGGCTTGGATAAAGGGTTGTGGGAAATGTGGAGCCCTTTGTCCATGGGATTCCAGGCGATCCTCA CCAGTCTACACAGCAGGTGGAGTTCGCTCGGGAGGGTCTGGATGTCATTGTTGTTGAGGTTCAGCAGCTC CAGGCTGGTGACCAGGCAAAGCGACCTCGGGAAGGAGTGGATGTTGTTGCCCTCTGCGATGAAGATCTGC AGGCTGGCCAGGTGCTGGATGCTCTCAGCGATGTTTTCCAGGCGATTCGAGCCCACGTGCAAGAAAATCA GTTCCTTCAGGGAGAACACACACATGGGGATGTGCGCGAAGAAGTTGTTGCTGAGGTTTAGCTTCCTCAG TCTAGAGAGGTCGGCGAAGCATGCAGGGAGCTGGGACAGGCAGTTGTGCGACAAGCTCAGGACCTCCAGC TTTCGGCACAAGCTCAGCTCGGCCGGCACCTCTGTCAGGCAGTTCATGTTGACAAACAGGACCTTGAGGC ACTGTAGGAGGCTCACTTCTCTGGGCAGGCTCTTCAGGCGGTTCCCGCACAAGTTCAGGACCACGATCCG GGTCAGTTTCCCCACCTCGGGGAGGGAGAACCCCGGAGCTGGTTGTGAGACAAATTGAGTTTCTGGACCC CCGAAAAGCCCCCACAAAAAGCCG
Table browser
Genome browser is nice for manual browsing but also allows programmers to download data
- each track based on one or several tables in an SQL database
- you can download genomic sequences and data from these tables [14]
- you can also write queries for a public SQL server [15] or create queries using Table browser forms (blue bar: Tools->Table browser)
- conversely, you can also display your own data in "custom tracks" of the browser
Table browser examples
- Basic type of query: e.g. export all genes in the part of the genome displayed in the browser
- Several output formats, e.g.:
- sequence: file of protein or DNA sequences of these genes (various settings)
- GTF: coordinates of genes and their exons
- Hyperlinks to genome browser: list of genes with links to the browser for each gene
- Instead of export we can get summary statistics (number of items, how much sequence they cover)
- More complex query, "intersection" of two tables: e.g. all genes that are more than 50% covered by simple repeats, filtering