1-DAV-202 Data Management 2023/24
Previously 2-INF-185 Data Source Integration

Materials · Introduction · Rules · Contact
· Grades from marked homeworks are on the server in file /grades/userid.txt


Difference between revisions of "Genomika: cvičenie UCSC browser"

From MAD
Jump to navigation Jump to search
 
(4 intermediate revisions by the same user not shown)
Line 15: Line 15:
  
 
* '''Koľko má HOXA2 exónov? Na ktorom chromozóme a pozícii je? Pozor, je na opačnom vlákne. Ako je táto skutočnosť naznačená na obrázku?'''
 
* '''Koľko má HOXA2 exónov? Na ktorom chromozóme a pozícii je? Pozor, je na opačnom vlákne. Ako je táto skutočnosť naznačená na obrázku?'''
* V tracku GENCODE kliknite na gén, mali by ste sa dostať na stránku popisujúcu jeho rôzne vlastnosti.  
+
* V tracku GENCODE kliknite na gén, mali by ste sa dostať na stránku popisujúcu jeho rôzne vlastnosti, pozrite si ju.
** Na tejto stránke nájdite linku na stiahnutie proteínovej sekvencie. '''Aké sú prvé štyri aminokyseliny?'''
 
  
 
==Dôležité tracky==
 
==Dôležité tracky==
* Pozrime si aj ďalšie typy trackov, napr.
+
Tracky sú rozdelené do viacerých skupín
 
+
* Mapping and sequencing: kvalita sekvencie zostavenej z čítaní, základné vlastnosti ako napr. GC%
* Vsimnime si track Vertebrate Multiz Alignment & Conservation (100 Species)
+
* Genes and Gene Predictions: známe gény z rôznych databáz, automatické predikcie
** v spodnej casti tracku vidime zarovnania s roznymi inymi genomami
+
* Phenotype and Literature: gény a iné miesta v genóme spomínané v literatúre alebo v databázach o ľudských chorobách a pod.
** zapnime si v nastavaniach tracku zapnite  Element Conservation (phastCons) na full a Conserved Elements na dense
+
* mRNA and EST: osekvenované mRNA sekvencie
** v tomto tracku vidíme PhyloP, co zobrazuje uroven konzerovanosti danej bazy len na zaklade jedneho stlpca zarovnania a dva vysledky z phyloHMM phastCons, ktory berie do uvahy aj okolite stlpce
+
* Expression: údaje o expresii génov v rôznych tkanivách, napr. GTEx
* Konkretne cast Conserved elements zobrazuje konkretne useky, ktore su najvac konzervovane
+
* Regulation: merania o regulácii aktivity génov (väzobné miesta transkripčných faktorov, histónové modifikácie)
 
+
* Comparative genomics: porovnanie viacerých genómov
UCSC genome browser ma viacero trackov tykajucich sa populacnej genomiky a polymorfizmov
+
** PhyloP - uroven konzerovanosti danej bazy len na zaklade jedneho stlpca zarovnania
* Pozrime si napriklad region [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg19&position=chr2:174,862-436,468 chr2:174,862-436,468 v hg19]
+
** Element Conservation/Conserved Elements vysledky z phyloHMM phastCons, ktory berie do uvahy aj okolite stlpce
* V casti Phenotype and Disease Associations
+
** multiz celogenómové zarovnania
** GAD view (Genetic Association Database) obahuje asociacie oblasti k chorobam
+
** nets and chains: zodpovedajúce si úseky rôznych genómov
* V casti Variation and Repeats
+
* Variation: populacna genomika a polymorfizmy (viac v starsich verziach ludskeho genomu)
** HGDP Allele Freq (po kliknuti na SNP zobrazi mapu sveta s distribuciou alel)
+
* Repeats: casti genomu, ktore sa velakrat opakuju, ale aj segmentalne duplikacie
** "DGV Struct Var" (delecia, zmeny poctu kopii, ale nie prilis prehladne
 
** Genome Variants obsahuje genomy niekolkych ludi, napr Jima Watsona
 
* Takisto sa da pozriet genom ludi z jaskyne Denisova a Neandertalcov
 
 
 
V starsej verzii ludskeho genomu je aj trojuholnikovy graf linkage disequilibria
 
* [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg18&position=chr2:164,862-426,468 region vyssie premapovany do hg18]
 
* zapnite "HapMap LD Phased" na Full (cast Variation and Repeats)
 
* vsimnite si, ze miery LD sa medzi ludskymi podpopulaciami lisia (YRI: Nigeria; CEU: Europa; JPT+CHB: Japonsko, Cina)
 
  
 
==Verzie genómov, prechádzanie medzi verziami (liftOver)==
 
==Verzie genómov, prechádzanie medzi verziami (liftOver)==
Line 88: Line 79:
 
** GTF: coordinates of genes and their exons
 
** GTF: coordinates of genes and their exons
 
** Hyperlinks to genome browser: list of genes with links to the browser for each gene
 
** Hyperlinks to genome browser: list of genes with links to the browser for each gene
** Instead of expoert we can get summary statistics (number of items, how much sequence they cover)
+
** Instead of export we can get summary statistics (number of items, how much sequence they cover)
* More complex query, "intersection" of two tables: e.g. all genes that are more than 50% covered by simple repeats
+
* More complex query, "intersection" of two tables: e.g. all genes that are more than 50% covered by simple repeats, filtering
 
 
* Ak chceme zistit, kolko percent genomu tieto useky pokryvaju, ideme na modrej liste do casti Tools->Table browser, zvolime group Comparative genomics, track Conservation, table 100 Vert. El, region zvolime genome (v celom genome)  a stlacime tlacidlo Summary/statistics, dostaneme nieco taketo:
 
<TABLE border=1>
 
<TR><TD>item count</TD><TD ALIGN=RIGHT>10,350,729</TD></TR>
 
<TR><TD>item bases</TD><TD ALIGN=RIGHT>162,179,256 (5.32%)</TD></TR>
 
<TR><TD>item total</TD><TD ALIGN=RIGHT>162,179,256 (5.32%)</TD></TR>
 
<TR><TD>smallest item</TD><TD ALIGN=RIGHT>1</TD></TR>
 
<TR><TD>average item</TD><TD ALIGN=RIGHT>16</TD></TR>
 
<TR><TD>biggest item</TD><TD ALIGN=RIGHT>3,732</TD></TR>
 
<TR><TD>smallest score</TD><TD ALIGN=RIGHT>186</TD></TR>
 
<TR><TD>average score</TD><TD ALIGN=RIGHT>333</TD></TR>
 
<TR><TD>biggest score</TD><TD ALIGN=RIGHT>1,000</TD></TR>
 
</TABLE>
 
** Ak by nas zaujimali iba velmi dlhe "conserved elements",  Table browser stlacime tlacidlo Filter a na dalsej obrazovke do policka Free-form query dame '''chromEnd-chromStart>=1500'''
 
** Potom mozeme skusit Summary/Statistics alebo vystup typu Hyperlinks to genome browser a Get output - dostaneme zoznam tychto elementov a kazdy si mozeme jednym klikom pozriet v browseri, napr. taketo
 
*** [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg38&position=chr1:50201403-50203312 lod=24051 at chr1:50201403-50203312]
 
*** [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg38&position=chr1:55663689-55667047 lod=1899 at chr1:55663689-55667047] atd
 
 
 
* Pozrime si teraz ten is
 

Latest revision as of 13:25, 22 February 2018

Cvičenie na predmet Genomika

Základy browsera, gény

  • On-line grafický nástroj na prezeranie genómov
  • Konfigurovateľný, veľa možností, ale pomerne málo organizmov
  • V programe Firefox choďte na stránku UCSC genome browser http://genome-euro.ucsc.edu/ (európsky mirror stránky http://genome.ucsc.edu/ )
  • Hore v modrom menu zvoľte Genomes, potom zvoľte ľudský genóm verzia hg38. Do okienka search term zadajte HOXA2. Vo výsledkoch hľadania (Known genes) zvoľte gén homeobox A2 na chromozóme 7.
    • Pozrime si spolu túto stránku
    • V hornej časti sú ovládacie prvky na pohyb vľavo, vpravo, približovanie, vzďaľovanie
    • Pod tým schéma chromozómu, červeným vyznačená zobrazená oblasť
    • Pod tým obrázok vybranej oblasti, rôzne tracky
    • Pod tým zoznam všetkých trackov, dajú sa zapínať, vypínať a konfigurovať
    • Po kliknutí na obrázok sa často zobrazí ďalšia informácia o danom géne alebo inom zdroji dát (treba mať zapnuté na full alebo pack, inak prepína úroveň zobrazenia)
    • V génoch exóny hrubé, UTR tenšie, intróny vodorovné čiary
  • Koľko má HOXA2 exónov? Na ktorom chromozóme a pozícii je? Pozor, je na opačnom vlákne. Ako je táto skutočnosť naznačená na obrázku?
  • V tracku GENCODE kliknite na gén, mali by ste sa dostať na stránku popisujúcu jeho rôzne vlastnosti, pozrite si ju.

Dôležité tracky

Tracky sú rozdelené do viacerých skupín

  • Mapping and sequencing: kvalita sekvencie zostavenej z čítaní, základné vlastnosti ako napr. GC%
  • Genes and Gene Predictions: známe gény z rôznych databáz, automatické predikcie
  • Phenotype and Literature: gény a iné miesta v genóme spomínané v literatúre alebo v databázach o ľudských chorobách a pod.
  • mRNA and EST: osekvenované mRNA sekvencie
  • Expression: údaje o expresii génov v rôznych tkanivách, napr. GTEx
  • Regulation: merania o regulácii aktivity génov (väzobné miesta transkripčných faktorov, histónové modifikácie)
  • Comparative genomics: porovnanie viacerých genómov
    • PhyloP - uroven konzerovanosti danej bazy len na zaklade jedneho stlpca zarovnania
    • Element Conservation/Conserved Elements vysledky z phyloHMM phastCons, ktory berie do uvahy aj okolite stlpce
    • multiz celogenómové zarovnania
    • nets and chains: zodpovedajúce si úseky rôznych genómov
  • Variation: populacna genomika a polymorfizmy (viac v starsich verziach ludskeho genomu)
  • Repeats: casti genomu, ktore sa velakrat opakuju, ale aj segmentalne duplikacie

Verzie genómov, prechádzanie medzi verziami (liftOver)

  • Vráťte sa na UCSC genome browser http://genome-euro.ucsc.edu/
  • Pozrieme si niekoľko vecí týkajúcich sa sekvenovania a skladania genómov
  • Hore v modrom menu zvoľte Genomes, časť Other
  • Na ďalšej stránke zvoľte človeka a pomocou menu Human Assembly zistite, kedy boli pridané posledné dve verzie ľudského genómu (hg19 a hg38)
  • Na tej istej stránke dole nájdete stručný popis zvolenej verzie genómu.
  • Zapnite si tracky "Assembly" a "Gaps" a pozrite si región chr2:110,000,000-110,300,000 v hg19: [1] Aká dlhá je neosekvenovaná medzera (gap) v strede tohto regiónu? Približnú veľkosť môžete odčítať z obrázku, presnejší údaj zistíte kliknutím na čierny obdĺžnik zodpovedajúci tejto medzere (úplne presná dĺžka aj tak nebola známa, nakoľko nebola osekvenovaná).
  • Cez menu položku View, In other genomes si pozrite, ako zobrazený úsek vyzerá vo verzii hg38. Ako sa zmenila dĺžka z pôvodných 300kb?

BLAT, prechádzanie medzi genómami rôznych druhov

  • Sekvencia uvedená nižšie vznikla sekvenovaním ľudskej mRNA
  • Choďte na UCSC genome browser http://genome.ucsc.edu/ , na modrej lište zvoľte BLAT, zadajte túto sekvenciu a hľadajte ju v ľudskom genóme. Akú podobnosť (IDENTITY) má najsilnejší nájdený výskyt? Aký dlhý úsek genómu zasahuje? (SPAN). Všimnite si, že ostatné výskyty sú oveľa kratšie.
  • V stĺpci ACTIONS si pomocou Details môžete pozrieť detaily zarovnania a pomocou Browser si pozrieť príslušný úsek genómu.
  • V tomto úseku genómu si zapnite track Vertebrate net na full a kliknutím na farebnú čiaru na obrázku pre tento track zistite, na ktorom chromozóme sliepky sa vyskytuje homologický úsek.
  • Skusme tu istu sekvenciu zarovnat ku genomu sliepky programom Blat: stlacte najprv na hornej modrej liste Genomes, zvolte Vertebrates a Chicken a potom na hornej liste BLAT. Do okienka zadajte tu istu sekvenciu. Akú podobnosť a dĺžku má najsilnejší nájdený výskyt teraz? Na ktorom je chromozóme?

Ľudská sekvencia pre BLAT

AACCATGGGTATATACGACTCACTATAGGGGGATATCAGCTGGGATGGCAAATAATGATTTTATTTTGAC
TGATAGTGACCTGTTCGTTGCAACAAATTGATAAGCAATGCTTTCTTATAATGCCAACTTTGTACAAGAA
AGTTGGGCAGGTGTGTTTTTTGTCCTTCAGGTAGCCGAAGAGCATCTCCAGGCCCCCCTCCACCAGCTCC
GGCAGAGGCTTGGATAAAGGGTTGTGGGAAATGTGGAGCCCTTTGTCCATGGGATTCCAGGCGATCCTCA
CCAGTCTACACAGCAGGTGGAGTTCGCTCGGGAGGGTCTGGATGTCATTGTTGTTGAGGTTCAGCAGCTC
CAGGCTGGTGACCAGGCAAAGCGACCTCGGGAAGGAGTGGATGTTGTTGCCCTCTGCGATGAAGATCTGC
AGGCTGGCCAGGTGCTGGATGCTCTCAGCGATGTTTTCCAGGCGATTCGAGCCCACGTGCAAGAAAATCA
GTTCCTTCAGGGAGAACACACACATGGGGATGTGCGCGAAGAAGTTGTTGCTGAGGTTTAGCTTCCTCAG
TCTAGAGAGGTCGGCGAAGCATGCAGGGAGCTGGGACAGGCAGTTGTGCGACAAGCTCAGGACCTCCAGC
TTTCGGCACAAGCTCAGCTCGGCCGGCACCTCTGTCAGGCAGTTCATGTTGACAAACAGGACCTTGAGGC
ACTGTAGGAGGCTCACTTCTCTGGGCAGGCTCTTCAGGCGGTTCCCGCACAAGTTCAGGACCACGATCCG
GGTCAGTTTCCCCACCTCGGGGAGGGAGAACCCCGGAGCTGGTTGTGAGACAAATTGAGTTTCTGGACCC
CCGAAAAGCCCCCACAAAAAGCCG

Table browser

Genome browser is nice for manual browsing but also allows programmers to download data

  • each track based on one or several tables in an SQL database
  • you can download genomic sequences and data from these tables [2]
  • you can also write queries for a public SQL server [3] or create queries using Table browser forms (blue bar: Tools->Table browser)
  • conversely, you can also display your own data in "custom tracks" of the browser

Table browser examples

  • Basic type of query: e.g. export all genes in the part of the genome displayed in the browser
  • Several output formats, e.g.:
    • sequence: file of protein or DNA sequences of these genes (various settings)
    • GTF: coordinates of genes and their exons
    • Hyperlinks to genome browser: list of genes with links to the browser for each gene
    • Instead of export we can get summary statistics (number of items, how much sequence they cover)
  • More complex query, "intersection" of two tables: e.g. all genes that are more than 50% covered by simple repeats, filtering