2-INF-185 Integrácia dátových zdrojov 2017/18

Materiály · Úvod · Pravidlá · Kontakt
Body z už opravených úloh nájdete na serveri v /grades/userid.txt
Dátumy odovzdania projektov:
1. termín: nedeľa 4.6. 22:00
2. termín: streda 20.6. 22:00
Oba termíny sú riadne, prvý je určený pre študentov, čo chcú mať predmet ukončený skôr. V oboch prípadoch sa pár dní po odvzdaní budú konať krátke osobné stretnutia s vyučujúcimi (diskusia k projektu a uzatváranie známky). Presné dni a časy dohodneme neskôr. Projekty odovzdajte podobne ako domáce úlohy do /submit/projekt


Genomika: cvičenie UCSC browser

From IDZ
Jump to: navigation, search

Cvičenie na predmet Genomika

Základy browsera, gény

  • On-line grafický nástroj na prezeranie genómov
  • Konfigurovateľný, veľa možností, ale pomerne málo organizmov
  • V programe Firefox choďte na stránku UCSC genome browser http://genome-euro.ucsc.edu/ (európsky mirror stránky http://genome.ucsc.edu/ )
  • Hore v modrom menu zvoľte Genomes, potom zvoľte ľudský genóm verzia hg38. Do okienka search term zadajte HOXA2. Vo výsledkoch hľadania (Known genes) zvoľte gén homeobox A2 na chromozóme 7.
    • Pozrime si spolu túto stránku
    • V hornej časti sú ovládacie prvky na pohyb vľavo, vpravo, približovanie, vzďaľovanie
    • Pod tým schéma chromozómu, červeným vyznačená zobrazená oblasť
    • Pod tým obrázok vybranej oblasti, rôzne tracky
    • Pod tým zoznam všetkých trackov, dajú sa zapínať, vypínať a konfigurovať
    • Po kliknutí na obrázok sa často zobrazí ďalšia informácia o danom géne alebo inom zdroji dát (treba mať zapnuté na full alebo pack, inak prepína úroveň zobrazenia)
    • V génoch exóny hrubé, UTR tenšie, intróny vodorovné čiary
  • Koľko má HOXA2 exónov? Na ktorom chromozóme a pozícii je? Pozor, je na opačnom vlákne. Ako je táto skutočnosť naznačená na obrázku?
  • V tracku GENCODE kliknite na gén, mali by ste sa dostať na stránku popisujúcu jeho rôzne vlastnosti, pozrite si ju.

Dôležité tracky

Tracky sú rozdelené do viacerých skupín

  • Mapping and sequencing: kvalita sekvencie zostavenej z čítaní, základné vlastnosti ako napr. GC%
  • Genes and Gene Predictions: známe gény z rôznych databáz, automatické predikcie
  • Phenotype and Literature: gény a iné miesta v genóme spomínané v literatúre alebo v databázach o ľudských chorobách a pod.
  • mRNA and EST: osekvenované mRNA sekvencie
  • Expression: údaje o expresii génov v rôznych tkanivách, napr. GTEx
  • Regulation: merania o regulácii aktivity génov (väzobné miesta transkripčných faktorov, histónové modifikácie)
  • Comparative genomics: porovnanie viacerých genómov
    • PhyloP - uroven konzerovanosti danej bazy len na zaklade jedneho stlpca zarovnania
    • Element Conservation/Conserved Elements vysledky z phyloHMM phastCons, ktory berie do uvahy aj okolite stlpce
    • multiz celogenómové zarovnania
    • nets and chains: zodpovedajúce si úseky rôznych genómov
  • Variation: populacna genomika a polymorfizmy (viac v starsich verziach ludskeho genomu)
  • Repeats: casti genomu, ktore sa velakrat opakuju, ale aj segmentalne duplikacie

Verzie genómov, prechádzanie medzi verziami (liftOver)

  • Vráťte sa na UCSC genome browser http://genome-euro.ucsc.edu/
  • Pozrieme si niekoľko vecí týkajúcich sa sekvenovania a skladania genómov
  • Hore v modrom menu zvoľte Genomes, časť Other
  • Na ďalšej stránke zvoľte človeka a pomocou menu Human Assembly zistite, kedy boli pridané posledné dve verzie ľudského genómu (hg19 a hg38)
  • Na tej istej stránke dole nájdete stručný popis zvolenej verzie genómu.
  • Zapnite si tracky "Assembly" a "Gaps" a pozrite si región chr2:110,000,000-110,300,000 v hg19: [1] Aká dlhá je neosekvenovaná medzera (gap) v strede tohto regiónu? Približnú veľkosť môžete odčítať z obrázku, presnejší údaj zistíte kliknutím na čierny obdĺžnik zodpovedajúci tejto medzere (úplne presná dĺžka aj tak nebola známa, nakoľko nebola osekvenovaná).
  • Cez menu položku View, In other genomes si pozrite, ako zobrazený úsek vyzerá vo verzii hg38. Ako sa zmenila dĺžka z pôvodných 300kb?

BLAT, prechádzanie medzi genómami rôznych druhov

  • Sekvencia uvedená nižšie vznikla sekvenovaním ľudskej mRNA
  • Choďte na UCSC genome browser http://genome.ucsc.edu/ , na modrej lište zvoľte BLAT, zadajte túto sekvenciu a hľadajte ju v ľudskom genóme. Akú podobnosť (IDENTITY) má najsilnejší nájdený výskyt? Aký dlhý úsek genómu zasahuje? (SPAN). Všimnite si, že ostatné výskyty sú oveľa kratšie.
  • V stĺpci ACTIONS si pomocou Details môžete pozrieť detaily zarovnania a pomocou Browser si pozrieť príslušný úsek genómu.
  • V tomto úseku genómu si zapnite track Vertebrate net na full a kliknutím na farebnú čiaru na obrázku pre tento track zistite, na ktorom chromozóme sliepky sa vyskytuje homologický úsek.
  • Skusme tu istu sekvenciu zarovnat ku genomu sliepky programom Blat: stlacte najprv na hornej modrej liste Genomes, zvolte Vertebrates a Chicken a potom na hornej liste BLAT. Do okienka zadajte tu istu sekvenciu. Akú podobnosť a dĺžku má najsilnejší nájdený výskyt teraz? Na ktorom je chromozóme?

Ľudská sekvencia pre BLAT

AACCATGGGTATATACGACTCACTATAGGGGGATATCAGCTGGGATGGCAAATAATGATTTTATTTTGAC
TGATAGTGACCTGTTCGTTGCAACAAATTGATAAGCAATGCTTTCTTATAATGCCAACTTTGTACAAGAA
AGTTGGGCAGGTGTGTTTTTTGTCCTTCAGGTAGCCGAAGAGCATCTCCAGGCCCCCCTCCACCAGCTCC
GGCAGAGGCTTGGATAAAGGGTTGTGGGAAATGTGGAGCCCTTTGTCCATGGGATTCCAGGCGATCCTCA
CCAGTCTACACAGCAGGTGGAGTTCGCTCGGGAGGGTCTGGATGTCATTGTTGTTGAGGTTCAGCAGCTC
CAGGCTGGTGACCAGGCAAAGCGACCTCGGGAAGGAGTGGATGTTGTTGCCCTCTGCGATGAAGATCTGC
AGGCTGGCCAGGTGCTGGATGCTCTCAGCGATGTTTTCCAGGCGATTCGAGCCCACGTGCAAGAAAATCA
GTTCCTTCAGGGAGAACACACACATGGGGATGTGCGCGAAGAAGTTGTTGCTGAGGTTTAGCTTCCTCAG
TCTAGAGAGGTCGGCGAAGCATGCAGGGAGCTGGGACAGGCAGTTGTGCGACAAGCTCAGGACCTCCAGC
TTTCGGCACAAGCTCAGCTCGGCCGGCACCTCTGTCAGGCAGTTCATGTTGACAAACAGGACCTTGAGGC
ACTGTAGGAGGCTCACTTCTCTGGGCAGGCTCTTCAGGCGGTTCCCGCACAAGTTCAGGACCACGATCCG
GGTCAGTTTCCCCACCTCGGGGAGGGAGAACCCCGGAGCTGGTTGTGAGACAAATTGAGTTTCTGGACCC
CCGAAAAGCCCCCACAAAAAGCCG

Table browser

Genome browser is nice for manual browsing but also allows programmers to download data

  • each track based on one or several tables in an SQL database
  • you can download genomic sequences and data from these tables [2]
  • you can also write queries for a public SQL server [3] or create queries using Table browser forms (blue bar: Tools->Table browser)
  • conversely, you can also display your own data in "custom tracks" of the browser

Table browser examples

  • Basic type of query: e.g. export all genes in the part of the genome displayed in the browser
  • Several output formats, e.g.:
    • sequence: file of protein or DNA sequences of these genes (various settings)
    • GTF: coordinates of genes and their exons
    • Hyperlinks to genome browser: list of genes with links to the browser for each gene
    • Instead of export we can get summary statistics (number of items, how much sequence they cover)
  • More complex query, "intersection" of two tables: e.g. all genes that are more than 50% covered by simple repeats, filtering