1-DAV-202 Data Management 2023/24
Previously 2-INF-185 Data Source Integration
Difference between revisions of "Genomika: cvičenie UCSC browser"
Jump to navigation
Jump to search
(Created page with "==UCSC prehliadač genómov== ===Základy browsera, gény=== * On-line grafický nástroj na prezeranie genómov * Konfigurovateľný, veľa možností, ale pomerne málo org...") |
|||
(14 intermediate revisions by the same user not shown) | |||
Line 1: | Line 1: | ||
− | + | Cvičenie na predmet [[Genomika]] <!-- CB04 a dalej --> | |
− | + | ==Základy browsera, gény== | |
* On-line grafický nástroj na prezeranie genómov | * On-line grafický nástroj na prezeranie genómov | ||
* Konfigurovateľný, veľa možností, ale pomerne málo organizmov | * Konfigurovateľný, veľa možností, ale pomerne málo organizmov | ||
Line 15: | Line 15: | ||
* '''Koľko má HOXA2 exónov? Na ktorom chromozóme a pozícii je? Pozor, je na opačnom vlákne. Ako je táto skutočnosť naznačená na obrázku?''' | * '''Koľko má HOXA2 exónov? Na ktorom chromozóme a pozícii je? Pozor, je na opačnom vlákne. Ako je táto skutočnosť naznačená na obrázku?''' | ||
− | * V tracku GENCODE kliknite na gén, mali by ste sa dostať na stránku popisujúcu jeho rôzne vlastnosti. | + | * V tracku GENCODE kliknite na gén, mali by ste sa dostať na stránku popisujúcu jeho rôzne vlastnosti, pozrite si ju. |
− | |||
− | * | + | ==Dôležité tracky== |
+ | Tracky sú rozdelené do viacerých skupín | ||
+ | * Mapping and sequencing: kvalita sekvencie zostavenej z čítaní, základné vlastnosti ako napr. GC% | ||
+ | * Genes and Gene Predictions: známe gény z rôznych databáz, automatické predikcie | ||
+ | * Phenotype and Literature: gény a iné miesta v genóme spomínané v literatúre alebo v databázach o ľudských chorobách a pod. | ||
+ | * mRNA and EST: osekvenované mRNA sekvencie | ||
+ | * Expression: údaje o expresii génov v rôznych tkanivách, napr. GTEx | ||
+ | * Regulation: merania o regulácii aktivity génov (väzobné miesta transkripčných faktorov, histónové modifikácie) | ||
+ | * Comparative genomics: porovnanie viacerých genómov | ||
+ | ** PhyloP - uroven konzerovanosti danej bazy len na zaklade jedneho stlpca zarovnania | ||
+ | ** Element Conservation/Conserved Elements vysledky z phyloHMM phastCons, ktory berie do uvahy aj okolite stlpce | ||
+ | ** multiz celogenómové zarovnania | ||
+ | ** nets and chains: zodpovedajúce si úseky rôznych genómov | ||
+ | * Variation: populacna genomika a polymorfizmy (viac v starsich verziach ludskeho genomu) | ||
+ | * Repeats: casti genomu, ktore sa velakrat opakuju, ale aj segmentalne duplikacie | ||
− | + | ==Verzie genómov, prechádzanie medzi verziami (liftOver)== | |
* Vráťte sa na UCSC genome browser http://genome-euro.ucsc.edu/ | * Vráťte sa na UCSC genome browser http://genome-euro.ucsc.edu/ | ||
* Pozrieme si niekoľko vecí týkajúcich sa sekvenovania a skladania genómov | * Pozrieme si niekoľko vecí týkajúcich sa sekvenovania a skladania genómov | ||
Line 28: | Line 41: | ||
* Zapnite si tracky "Assembly" a "Gaps" a pozrite si región chr2:110,000,000-110,300,000 v hg19: [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg19&position=chr2%3A110000000-110300000] '''Aká dlhá je neosekvenovaná medzera (gap) v strede tohto regiónu?''' Približnú veľkosť môžete odčítať z obrázku, presnejší údaj zistíte kliknutím na čierny obdĺžnik zodpovedajúci tejto medzere (úplne presná dĺžka aj tak nebola známa, nakoľko nebola osekvenovaná). | * Zapnite si tracky "Assembly" a "Gaps" a pozrite si región chr2:110,000,000-110,300,000 v hg19: [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg19&position=chr2%3A110000000-110300000] '''Aká dlhá je neosekvenovaná medzera (gap) v strede tohto regiónu?''' Približnú veľkosť môžete odčítať z obrázku, presnejší údaj zistíte kliknutím na čierny obdĺžnik zodpovedajúci tejto medzere (úplne presná dĺžka aj tak nebola známa, nakoľko nebola osekvenovaná). | ||
* Cez menu položku View, In other genomes si pozrite, ako zobrazený úsek vyzerá vo verzii hg38. Ako sa zmenila dĺžka z pôvodných 300kb? | * Cez menu položku View, In other genomes si pozrite, ako zobrazený úsek vyzerá vo verzii hg38. Ako sa zmenila dĺžka z pôvodných 300kb? | ||
− | + | ||
− | * Sekvencia | + | ==BLAT, prechádzanie medzi genómami rôznych druhov== |
+ | * Sekvencia uvedená nižšie vznikla sekvenovaním ľudskej mRNA | ||
* Choďte na UCSC genome browser http://genome.ucsc.edu/ , na modrej lište zvoľte BLAT, zadajte túto sekvenciu a hľadajte ju v ľudskom genóme. '''Akú podobnosť (IDENTITY) má najsilnejší nájdený výskyt? Aký dlhý úsek genómu zasahuje? (SPAN).''' Všimnite si, že ostatné výskyty sú oveľa kratšie. | * Choďte na UCSC genome browser http://genome.ucsc.edu/ , na modrej lište zvoľte BLAT, zadajte túto sekvenciu a hľadajte ju v ľudskom genóme. '''Akú podobnosť (IDENTITY) má najsilnejší nájdený výskyt? Aký dlhý úsek genómu zasahuje? (SPAN).''' Všimnite si, že ostatné výskyty sú oveľa kratšie. | ||
* V stĺpci ACTIONS si pomocou Details môžete pozrieť detaily zarovnania a pomocou Browser si pozrieť príslušný úsek genómu. | * V stĺpci ACTIONS si pomocou Details môžete pozrieť detaily zarovnania a pomocou Browser si pozrieť príslušný úsek genómu. | ||
− | * V tomto úseku genómu si zapnite track Vertebrate net na full a kliknutím na farebnú čiaru na obrázku pre tento track zistite, '''na ktorom chromozóme sliepky sa vyskytuje homologický úsek.''' | + | * V tomto úseku genómu si zapnite track '''Vertebrate net''' na full a kliknutím na farebnú čiaru na obrázku pre tento track zistite, '''na ktorom chromozóme sliepky sa vyskytuje homologický úsek.''' |
* Skusme tu istu sekvenciu zarovnat ku genomu sliepky programom Blat: stlacte najprv na hornej modrej liste Genomes, zvolte Vertebrates a Chicken a potom na hornej liste BLAT. Do okienka zadajte tu istu sekvenciu. '''Akú podobnosť a dĺžku má najsilnejší nájdený výskyt teraz? Na ktorom je chromozóme?''' | * Skusme tu istu sekvenciu zarovnat ku genomu sliepky programom Blat: stlacte najprv na hornej modrej liste Genomes, zvolte Vertebrates a Chicken a potom na hornej liste BLAT. Do okienka zadajte tu istu sekvenciu. '''Akú podobnosť a dĺžku má najsilnejší nájdený výskyt teraz? Na ktorom je chromozóme?''' | ||
− | |||
− | |||
− | === | + | ===Ľudská sekvencia pre BLAT=== |
<pre> | <pre> | ||
AACCATGGGTATATACGACTCACTATAGGGGGATATCAGCTGGGATGGCAAATAATGATTTTATTTTGAC | AACCATGGGTATATACGACTCACTATAGGGGGATATCAGCTGGGATGGCAAATAATGATTTTATTTTGAC | ||
Line 53: | Line 65: | ||
CCGAAAAGCCCCCACAAAAAGCCG | CCGAAAAGCCCCCACAAAAAGCCG | ||
</pre> | </pre> | ||
+ | |||
+ | ==Table browser== | ||
+ | Genome browser is nice for manual browsing but also allows programmers to download data | ||
+ | * each track based on one or several tables in an SQL database | ||
+ | * you can download genomic sequences and data from these tables [http://hgdownload.cse.ucsc.edu/downloads.html] | ||
+ | * you can also write queries for a public SQL server [http://genome.ucsc.edu/goldenPath/help/mysql.html] or create queries using Table browser forms (blue bar: Tools->Table browser) | ||
+ | * conversely, you can also display your own data in "custom tracks" of the browser | ||
+ | |||
+ | Table browser examples | ||
+ | * Basic type of query: e.g. export all genes in the part of the genome displayed in the browser | ||
+ | * Several output formats, e.g.: | ||
+ | ** sequence: file of protein or DNA sequences of these genes (various settings) | ||
+ | ** GTF: coordinates of genes and their exons | ||
+ | ** Hyperlinks to genome browser: list of genes with links to the browser for each gene | ||
+ | ** Instead of export we can get summary statistics (number of items, how much sequence they cover) | ||
+ | * More complex query, "intersection" of two tables: e.g. all genes that are more than 50% covered by simple repeats, filtering |
Latest revision as of 12:25, 22 February 2018
Cvičenie na predmet Genomika
Contents
Základy browsera, gény
- On-line grafický nástroj na prezeranie genómov
- Konfigurovateľný, veľa možností, ale pomerne málo organizmov
- V programe Firefox choďte na stránku UCSC genome browser http://genome-euro.ucsc.edu/ (európsky mirror stránky http://genome.ucsc.edu/ )
- Hore v modrom menu zvoľte Genomes, potom zvoľte ľudský genóm verzia hg38. Do okienka search term zadajte HOXA2. Vo výsledkoch hľadania (Known genes) zvoľte gén homeobox A2 na chromozóme 7.
- Pozrime si spolu túto stránku
- V hornej časti sú ovládacie prvky na pohyb vľavo, vpravo, približovanie, vzďaľovanie
- Pod tým schéma chromozómu, červeným vyznačená zobrazená oblasť
- Pod tým obrázok vybranej oblasti, rôzne tracky
- Pod tým zoznam všetkých trackov, dajú sa zapínať, vypínať a konfigurovať
- Po kliknutí na obrázok sa často zobrazí ďalšia informácia o danom géne alebo inom zdroji dát (treba mať zapnuté na full alebo pack, inak prepína úroveň zobrazenia)
- V génoch exóny hrubé, UTR tenšie, intróny vodorovné čiary
- Koľko má HOXA2 exónov? Na ktorom chromozóme a pozícii je? Pozor, je na opačnom vlákne. Ako je táto skutočnosť naznačená na obrázku?
- V tracku GENCODE kliknite na gén, mali by ste sa dostať na stránku popisujúcu jeho rôzne vlastnosti, pozrite si ju.
Dôležité tracky
Tracky sú rozdelené do viacerých skupín
- Mapping and sequencing: kvalita sekvencie zostavenej z čítaní, základné vlastnosti ako napr. GC%
- Genes and Gene Predictions: známe gény z rôznych databáz, automatické predikcie
- Phenotype and Literature: gény a iné miesta v genóme spomínané v literatúre alebo v databázach o ľudských chorobách a pod.
- mRNA and EST: osekvenované mRNA sekvencie
- Expression: údaje o expresii génov v rôznych tkanivách, napr. GTEx
- Regulation: merania o regulácii aktivity génov (väzobné miesta transkripčných faktorov, histónové modifikácie)
- Comparative genomics: porovnanie viacerých genómov
- PhyloP - uroven konzerovanosti danej bazy len na zaklade jedneho stlpca zarovnania
- Element Conservation/Conserved Elements vysledky z phyloHMM phastCons, ktory berie do uvahy aj okolite stlpce
- multiz celogenómové zarovnania
- nets and chains: zodpovedajúce si úseky rôznych genómov
- Variation: populacna genomika a polymorfizmy (viac v starsich verziach ludskeho genomu)
- Repeats: casti genomu, ktore sa velakrat opakuju, ale aj segmentalne duplikacie
Verzie genómov, prechádzanie medzi verziami (liftOver)
- Vráťte sa na UCSC genome browser http://genome-euro.ucsc.edu/
- Pozrieme si niekoľko vecí týkajúcich sa sekvenovania a skladania genómov
- Hore v modrom menu zvoľte Genomes, časť Other
- Na ďalšej stránke zvoľte človeka a pomocou menu Human Assembly zistite, kedy boli pridané posledné dve verzie ľudského genómu (hg19 a hg38)
- Na tej istej stránke dole nájdete stručný popis zvolenej verzie genómu.
- Zapnite si tracky "Assembly" a "Gaps" a pozrite si región chr2:110,000,000-110,300,000 v hg19: [1] Aká dlhá je neosekvenovaná medzera (gap) v strede tohto regiónu? Približnú veľkosť môžete odčítať z obrázku, presnejší údaj zistíte kliknutím na čierny obdĺžnik zodpovedajúci tejto medzere (úplne presná dĺžka aj tak nebola známa, nakoľko nebola osekvenovaná).
- Cez menu položku View, In other genomes si pozrite, ako zobrazený úsek vyzerá vo verzii hg38. Ako sa zmenila dĺžka z pôvodných 300kb?
BLAT, prechádzanie medzi genómami rôznych druhov
- Sekvencia uvedená nižšie vznikla sekvenovaním ľudskej mRNA
- Choďte na UCSC genome browser http://genome.ucsc.edu/ , na modrej lište zvoľte BLAT, zadajte túto sekvenciu a hľadajte ju v ľudskom genóme. Akú podobnosť (IDENTITY) má najsilnejší nájdený výskyt? Aký dlhý úsek genómu zasahuje? (SPAN). Všimnite si, že ostatné výskyty sú oveľa kratšie.
- V stĺpci ACTIONS si pomocou Details môžete pozrieť detaily zarovnania a pomocou Browser si pozrieť príslušný úsek genómu.
- V tomto úseku genómu si zapnite track Vertebrate net na full a kliknutím na farebnú čiaru na obrázku pre tento track zistite, na ktorom chromozóme sliepky sa vyskytuje homologický úsek.
- Skusme tu istu sekvenciu zarovnat ku genomu sliepky programom Blat: stlacte najprv na hornej modrej liste Genomes, zvolte Vertebrates a Chicken a potom na hornej liste BLAT. Do okienka zadajte tu istu sekvenciu. Akú podobnosť a dĺžku má najsilnejší nájdený výskyt teraz? Na ktorom je chromozóme?
Ľudská sekvencia pre BLAT
AACCATGGGTATATACGACTCACTATAGGGGGATATCAGCTGGGATGGCAAATAATGATTTTATTTTGAC TGATAGTGACCTGTTCGTTGCAACAAATTGATAAGCAATGCTTTCTTATAATGCCAACTTTGTACAAGAA AGTTGGGCAGGTGTGTTTTTTGTCCTTCAGGTAGCCGAAGAGCATCTCCAGGCCCCCCTCCACCAGCTCC GGCAGAGGCTTGGATAAAGGGTTGTGGGAAATGTGGAGCCCTTTGTCCATGGGATTCCAGGCGATCCTCA CCAGTCTACACAGCAGGTGGAGTTCGCTCGGGAGGGTCTGGATGTCATTGTTGTTGAGGTTCAGCAGCTC CAGGCTGGTGACCAGGCAAAGCGACCTCGGGAAGGAGTGGATGTTGTTGCCCTCTGCGATGAAGATCTGC AGGCTGGCCAGGTGCTGGATGCTCTCAGCGATGTTTTCCAGGCGATTCGAGCCCACGTGCAAGAAAATCA GTTCCTTCAGGGAGAACACACACATGGGGATGTGCGCGAAGAAGTTGTTGCTGAGGTTTAGCTTCCTCAG TCTAGAGAGGTCGGCGAAGCATGCAGGGAGCTGGGACAGGCAGTTGTGCGACAAGCTCAGGACCTCCAGC TTTCGGCACAAGCTCAGCTCGGCCGGCACCTCTGTCAGGCAGTTCATGTTGACAAACAGGACCTTGAGGC ACTGTAGGAGGCTCACTTCTCTGGGCAGGCTCTTCAGGCGGTTCCCGCACAAGTTCAGGACCACGATCCG GGTCAGTTTCCCCACCTCGGGGAGGGAGAACCCCGGAGCTGGTTGTGAGACAAATTGAGTTTCTGGACCC CCGAAAAGCCCCCACAAAAAGCCG
Table browser
Genome browser is nice for manual browsing but also allows programmers to download data
- each track based on one or several tables in an SQL database
- you can download genomic sequences and data from these tables [2]
- you can also write queries for a public SQL server [3] or create queries using Table browser forms (blue bar: Tools->Table browser)
- conversely, you can also display your own data in "custom tracks" of the browser
Table browser examples
- Basic type of query: e.g. export all genes in the part of the genome displayed in the browser
- Several output formats, e.g.:
- sequence: file of protein or DNA sequences of these genes (various settings)
- GTF: coordinates of genes and their exons
- Hyperlinks to genome browser: list of genes with links to the browser for each gene
- Instead of export we can get summary statistics (number of items, how much sequence they cover)
- More complex query, "intersection" of two tables: e.g. all genes that are more than 50% covered by simple repeats, filtering