1-DAV-202 Data Management 2023/24
Previously 2-INF-185 Data Source Integration

Materials · Introduction · Rules · Contact
· Grades from marked homeworks are on the server in file /grades/userid.txt
· Dates of project submission and oral exams:
Early: submit project May 24 9:00am, oral exams May 27 1:00pm (limit 5 students).
Otherwise submit project June 11, 9:00am, oral exams June 18 and 21 (estimated 9:00am-1:00pm, schedule will be published before exam).
Sign up for one the exam days in AIS before June 11.
Remedial exams will take place in the last week of the exam period. Beware, there will not be much time to prepare a better project. Projects should be submitted as homeworks to /submit/project.
· Cloud homework is due on May 20 9:00am.


Difference between revisions of "Genomika 2017/18"

From MAD
Jump to navigation Jump to search
(Created page with "=Genomika= Stránka k predmetu 2-INF-269/15 Genomika, školský rok 2017/18 * cvičenie na prvý týždeň * #Predbežné informácie k...")
 
Line 150: Line 150:
  
 
=Genomika: cvičenie UCSC browser=
 
=Genomika: cvičenie UCSC browser=
 +
Cvičenie na predmet [[Genomika]] <!-- CB04 a dalej -->
 +
 +
==Základy browsera, gény==
 +
* On-line grafický nástroj na prezeranie genómov
 +
* Konfigurovateľný, veľa možností, ale pomerne málo organizmov
 +
* V programe Firefox choďte na stránku UCSC genome browser http://genome-euro.ucsc.edu/  (európsky mirror stránky http://genome.ucsc.edu/ )
 +
* Hore v modrom menu zvoľte Genomes, potom zvoľte ľudský genóm verzia hg38. Do okienka <tt>search term</tt> zadajte HOXA2. Vo výsledkoch hľadania (Known genes) zvoľte gén homeobox A2 na chromozóme 7.
 +
** Pozrime si spolu túto stránku
 +
** V hornej časti sú ovládacie prvky na pohyb vľavo, vpravo, približovanie, vzďaľovanie
 +
** Pod tým schéma chromozómu, červeným vyznačená zobrazená oblasť
 +
** Pod tým obrázok vybranej oblasti, rôzne tracky
 +
** Pod tým zoznam všetkých trackov, dajú sa zapínať, vypínať a konfigurovať
 +
** Po kliknutí na obrázok sa často zobrazí ďalšia informácia o danom géne alebo inom zdroji dát (treba mať zapnuté na full alebo pack, inak prepína úroveň zobrazenia)
 +
** V génoch exóny hrubé, UTR tenšie, intróny vodorovné čiary
 +
 +
* '''Koľko má HOXA2 exónov? Na ktorom chromozóme a pozícii je? Pozor, je na opačnom vlákne. Ako je táto skutočnosť naznačená na obrázku?'''
 +
* V tracku GENCODE kliknite na gén, mali by ste sa dostať na stránku popisujúcu jeho rôzne vlastnosti, pozrite si ju.
 +
 +
==Dôležité tracky==
 +
Tracky sú rozdelené do viacerých skupín
 +
* Mapping and sequencing: kvalita sekvencie zostavenej z čítaní, základné vlastnosti ako napr. GC%
 +
* Genes and Gene Predictions: známe gény z rôznych databáz, automatické predikcie
 +
* Phenotype and Literature: gény a iné miesta v genóme spomínané v literatúre alebo v databázach o ľudských chorobách a pod.
 +
* mRNA and EST: osekvenované mRNA sekvencie
 +
* Expression: údaje o expresii génov v rôznych tkanivách, napr. GTEx
 +
* Regulation: merania o regulácii aktivity génov (väzobné miesta transkripčných faktorov, histónové modifikácie)
 +
* Comparative genomics: porovnanie viacerých genómov
 +
** PhyloP - uroven konzerovanosti danej bazy len na zaklade jedneho stlpca zarovnania
 +
** Element Conservation/Conserved Elements vysledky z phyloHMM phastCons, ktory berie do uvahy aj okolite stlpce
 +
** multiz celogenómové zarovnania
 +
** nets and chains: zodpovedajúce si úseky rôznych genómov
 +
* Variation: populacna genomika a polymorfizmy (viac v starsich verziach ludskeho genomu)
 +
* Repeats: casti genomu, ktore sa velakrat opakuju, ale aj segmentalne duplikacie
 +
 +
==Verzie genómov, prechádzanie medzi verziami (liftOver)==
 +
* Vráťte sa na UCSC genome browser http://genome-euro.ucsc.edu/
 +
* Pozrieme si niekoľko vecí týkajúcich sa sekvenovania a skladania genómov
 +
* Hore v modrom menu zvoľte Genomes, časť Other
 +
* Na ďalšej stránke zvoľte človeka a pomocou menu Human Assembly '''zistite, kedy boli pridané posledné dve verzie ľudského genómu (hg19 a hg38)'''
 +
* Na tej istej stránke dole nájdete stručný popis zvolenej verzie genómu.
 +
* Zapnite si tracky "Assembly" a "Gaps" a pozrite si región chr2:110,000,000-110,300,000 v hg19: [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg19&position=chr2%3A110000000-110300000] '''Aká dlhá je neosekvenovaná medzera (gap) v strede tohto regiónu?''' Približnú veľkosť môžete odčítať z obrázku, presnejší údaj zistíte kliknutím na čierny obdĺžnik zodpovedajúci tejto medzere (úplne presná dĺžka aj tak nebola známa, nakoľko nebola osekvenovaná).
 +
* Cez menu položku View, In other genomes si pozrite, ako zobrazený úsek vyzerá vo verzii hg38. Ako sa zmenila dĺžka z pôvodných 300kb?
 +
 +
==BLAT, prechádzanie medzi genómami rôznych druhov==
 +
* Sekvencia uvedená nižšie vznikla sekvenovaním ľudskej mRNA
 +
* Choďte na UCSC genome browser  http://genome.ucsc.edu/ , na modrej lište zvoľte BLAT, zadajte túto sekvenciu a hľadajte ju v ľudskom genóme. '''Akú podobnosť (IDENTITY) má najsilnejší nájdený výskyt? Aký dlhý úsek genómu zasahuje? (SPAN).''' Všimnite si, že ostatné výskyty sú oveľa kratšie.
 +
* V stĺpci ACTIONS si pomocou Details môžete pozrieť detaily zarovnania a pomocou Browser si pozrieť príslušný úsek genómu.
 +
* V tomto úseku genómu si zapnite track '''Vertebrate net''' na full a kliknutím na farebnú čiaru na obrázku pre tento track zistite, '''na ktorom chromozóme sliepky sa vyskytuje homologický úsek.'''
 +
* Skusme tu istu sekvenciu zarovnat ku genomu sliepky programom Blat: stlacte najprv na hornej modrej liste Genomes, zvolte Vertebrates a Chicken a potom na hornej liste BLAT. Do okienka zadajte tu istu sekvenciu. '''Akú podobnosť a dĺžku má najsilnejší nájdený výskyt teraz? Na ktorom je chromozóme?'''
 +
 +
===Ľudská sekvencia pre BLAT===
 +
<pre>
 +
AACCATGGGTATATACGACTCACTATAGGGGGATATCAGCTGGGATGGCAAATAATGATTTTATTTTGAC
 +
TGATAGTGACCTGTTCGTTGCAACAAATTGATAAGCAATGCTTTCTTATAATGCCAACTTTGTACAAGAA
 +
AGTTGGGCAGGTGTGTTTTTTGTCCTTCAGGTAGCCGAAGAGCATCTCCAGGCCCCCCTCCACCAGCTCC
 +
GGCAGAGGCTTGGATAAAGGGTTGTGGGAAATGTGGAGCCCTTTGTCCATGGGATTCCAGGCGATCCTCA
 +
CCAGTCTACACAGCAGGTGGAGTTCGCTCGGGAGGGTCTGGATGTCATTGTTGTTGAGGTTCAGCAGCTC
 +
CAGGCTGGTGACCAGGCAAAGCGACCTCGGGAAGGAGTGGATGTTGTTGCCCTCTGCGATGAAGATCTGC
 +
AGGCTGGCCAGGTGCTGGATGCTCTCAGCGATGTTTTCCAGGCGATTCGAGCCCACGTGCAAGAAAATCA
 +
GTTCCTTCAGGGAGAACACACACATGGGGATGTGCGCGAAGAAGTTGTTGCTGAGGTTTAGCTTCCTCAG
 +
TCTAGAGAGGTCGGCGAAGCATGCAGGGAGCTGGGACAGGCAGTTGTGCGACAAGCTCAGGACCTCCAGC
 +
TTTCGGCACAAGCTCAGCTCGGCCGGCACCTCTGTCAGGCAGTTCATGTTGACAAACAGGACCTTGAGGC
 +
ACTGTAGGAGGCTCACTTCTCTGGGCAGGCTCTTCAGGCGGTTCCCGCACAAGTTCAGGACCACGATCCG
 +
GGTCAGTTTCCCCACCTCGGGGAGGGAGAACCCCGGAGCTGGTTGTGAGACAAATTGAGTTTCTGGACCC
 +
CCGAAAAGCCCCCACAAAAAGCCG
 +
</pre>
 +
 +
==Table browser==
 +
Genome browser is nice for manual browsing but also allows programmers to download data
 +
* each track based on one or several tables in an SQL database
 +
* you can download genomic sequences and data from these tables [http://hgdownload.cse.ucsc.edu/downloads.html]
 +
* you can also write queries for a public SQL server [http://genome.ucsc.edu/goldenPath/help/mysql.html] or create queries using Table browser forms (blue bar: Tools->Table browser)
 +
* conversely, you can also display your own data in "custom tracks" of the browser
 +
 +
Table browser examples
 +
* Basic type of query: e.g. export all genes in the part of the genome displayed in the browser
 +
* Several output formats, e.g.:
 +
** sequence: file of protein or DNA sequences of these genes (various settings)
 +
** GTF: coordinates of genes and their exons
 +
** Hyperlinks to genome browser: list of genes with links to the browser for each gene
 +
** Instead of export we can get summary statistics (number of items, how much sequence they cover)
 +
* More complex query, "intersection" of two tables: e.g. all genes that are more than 50% covered by simple repeats, filtering
 +
 
=Predbežné informácie k štátniciam=
 
=Predbežné informácie k štátniciam=
 
=Genomika: Informácie ku trackom=
 
=Genomika: Informácie ku trackom=
 
=Genomika: Rozvojové projekty=
 
=Genomika: Rozvojové projekty=

Revision as of 15:00, 20 February 2019

Genomika

Stránka k predmetu 2-INF-269/15 Genomika, školský rok 2017/18

Obsahové prerekvizity

  • Metódy v bioinformatike a Integrácia dátových zdrojov
  • Ak ste skúsení v práci na príkazovom riadku v Linuxe, Integráciu je možné brať aj súčasne s Genomikou

Ciele predmetu

Základné ciele:

  • Vystaviť vás interdisciplinárnej komunikácii a spolupráci.
  • Budovať schopnosť rýchlo sa oboznámiť s podstatnými znalosťami z vám neznámej oblasti, ktorá vám umožní efektívne komunikovať s klientami a kolegami, ktorí nie sú informatici.
  • Rozvíjať schopnosti tímovej spolupráce a organizácie práce.
  • Vyskúšať si projekt, kde nastupujete do "rozbehnutého vlaku" (práca s existujúcim softvérom s potrebou vývoja vlastných rozšírení).

Vedomostná náplň pre všetkých:

  • Zoznámiť sa s modernými technológiami, ktoré sú podstatným zdrojom fenoménu "big data" a sú základom moderného medicínskeho výskumu.

Pre vážnych záujemcov o bioinformatiku:

  • Vyskúšať si prácu s reálnymi biologickými dátami.
  • Prísť do kontaktu s odborníkmi z prírodných vied.

Hodnotenie

  • Písomná skúška: 50% (spoločná pre biológov aj informatikov)
  • Práca skupiny ako celku: 25%
  • (Preukázateľný) individuálny prínos k úspešnosti projektu: 25%
  • Známky A: 90+, B: 80+, C: 70+, D: 60+, E: 50+

Poznámky k hodnoteniu cvičení:

  • Obzvlášť malý alebo veľký podiel na práci skupiny môže vieť k individuálnej zmene váh(v extrémnych prípadoch môže individuálne hodnotenie tvoriť až 50% celej známky)
  • Za každú fázu skupinového projektu (t.j. po každom stretnutí) vám budú pridelené čierne a/alebo červené body
    • Červené body sú za splnené úlohy a ich počet odzrkadľuje kvalitu, kvantitu a náročnosť práce
    • Čierne body sú za úlohy, ktoré vám boli priradené, ale ktoré ste nesplnili, obzvlášť ak od nich závisí ďalší postup ostatných členov skupiny.
    • Čierne body môžu byť udelené aj za prístup narúšajúci úspešné napredovanie tímu(neospravedlnená neprítomnosť na stretnutí, narušenie práce spoločného servera a pod.)
    • Individuálne hodnotenie je neklesajúca funkcia od počtu červených bodov a nerastúca od počtu čiernych.

Prednášky

Čo si máte odniesť z prednášky?

  • Pochopiť podstatné myšlienky prezentácie / textu (o akej technológii sa bavíme, aký typ dát tam vystupuje, akým spôsobom ich získavame, aký je princíp fungovania)?
  • Nie je podstatné (ani možné) na 100% ovládať terminológiu
    • využívajte znalosti získané v MBI! (je dobré si pred prednáškou zopakovať relevantnú časť)
    • treba sa preniesť nad fakt, že nie každému slovu budete rozumieť
    • je ok sa na pár minút stratiť v detailoch (ale nie je ok sa stratiť na 70% prednášky)
    • treba sa priebežne pýtať rozumné otázky smerujúce k vyjasneniu podstatných vecí
    • (tréning k interdisciplinárnej komunikácii ide oboma smermi ;))
    • Don't panic! Jediná vec, ktorá nie je v knihe, je Tomášova prednáška.
  • Tréning v schopnosti rozlíšiť podstatné od nepodstatného (veľmi dôležitý do budúcnosti)
  • V prípade veľkých problémov sa môžeme dohodnúť na konzultáciách ku konkrétnym otázkam

Cvičenia

  • Cvičiaci Broňa Brejová a Tomáš Vinař
  • Tvorba prehliadača genómov na báze softvéru UCSC genome browser pre vybrané genómy.
  • Ak budú výsledky dobré, reálna šanca na využitie v medzinárodnej komunite!
  • Dve skupiny (s rôznymi cieľmi), stretnutia cca každé dva týždne v rozvrhovanom čase.

Je toto reálny model niečoho s čím sa môžem stretnúť v praxi?

  • Vo väčšine firiem nastupujete do rozbehnutého projektu.
  • Nie je neobvyklé, že skupina ľudí odíde a zanechá po sebe nesúrodú dokumentáciu a rozrobenú prácu, na ktorej vy musíte pokračovať.
  • Nie príliš schopný manažér.
  • Firmy so stabilným produktom používajú zabehnuté technológie (z vášho pohľadu legacy postupy s prvkami zastaralých programovacích jazykov); nie je finančne ani časovo možné neustále refaktorovať na nové platformy
  • V tomto projekte: hlavná časť softvéru v C/C++, Perl; databáza MySQL - jadro podporného softvéru vyvinuté na prelome tisícročí
  • Ťažiskom projektu je vyhľadávanie, spracovanie a porozumenie dátam
  • Vývoj softvéru je pomocný prvok s dôrazom na dosiahnutie konkrétneho cieľa; kľúčová je reprodukovateľnosť, vítaná je znovupoužiteľnosti v iných kontextoch

Typický priebeh cvičenia

  • Krátke prezentácie členov tímu o postupe / dosiahnutí cieľov (vrátane prezentácie informácii, ktoré by mohli byť užitočné kolegom pri ich práci)
  • Diskusia k aktuálnym problémom, brain storming ohľadom riešenia aktuálnych problémov
  • Nové ciele, rozdelenie práce
  • Začnete pracovať na nových cieľoch, cvičiaci pomôžu riešiť technické problémy / zodpovedať otázky. Z cvičenia by ste mali odchádzať s predstavou čo idete robiť a ako dlho vám to bude trvať.
  • Po skončení cvičenia pokračujete individuálne do ďalšieho stretnutia (komunikácia v rámci skupiny je samozrejme vítaná).


Malassezia globosa a Malassezia sympodialis

  • Budeme používať skratky malGlo a malSym
  • Sú to mikroorganizmy, ktoré patria medzi huby (fungi).
  • Bežne žijú na ľudskej pokožke, živia sa kožným mazom.
  • Môžu spôsobovať problémy, ako lupiny vo vlasoch, ekzém, infekcie.
  • Obrázky: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4069738/figure/F1/
  • Saunders CW, Scheynius A, Heitman J. Malassezia fungi are specialized to live on skin and associated with dandruff, eczema, and other skin diseases. PLoS pathogens. 2012 Jun 21;8(6):e1002701. [1]


Malassezia globosa

  • genóm publikovaný firmou Procter and Gamble, ktorá vyrába šampón Head and Shoulders, ktorý obsahuje antigungálne látky
  • Xu J, Saunders CW, Hu P, Grant RA, Boekhout T, Kuramae EE, Kronstad JW, DeAngelis YM, Reeder NL, Johnstone KR, Leland M. Dandruff-associated Malassezia genomes reveal convergent and divergent virulence traits shared with plant and human fungal pathogens. Proceedings of the National Academy of Sciences. 2007 Nov 20;104(47):18730-5. [2]
  • Wu G, Zhao H, Li C, Rajapakse MP, Wong WC, Xu J, Saunders CW, Reeder NL, Reilman RA, Scheynius A, Sun S. Genus-wide comparative genomics of Malassezia delineates its phylogeny, physiology, and niche adaptation on human skin. PLoS genetics. 2015 Nov 5;11(11):e1005614. [3]
  • Genóm [4], proteíny [5], RNA-seq [6]
  • Tím: Becza, Hraška, Jariabka, Krajčovič, Smolík, Šuppa, Zeleňák

Malassezia sympodialis

  • Gioti A, Nystedt B, Li W, Xu J, Andersson A, Averette AF, Münch K, Wang X, Kappauf C, Kingsbury JM, Kraak B. Genomic insights into the atopic eczema-associated skin commensal yeast Malassezia sympodialis. MBio. 2013 Mar 1;4(1):e00572-12. [7]
  • Zhu Y, Engström PG, Tellgren-Roth C, Baudo CD, Kennell JC, Sun S, Billmyre RB, Schröder MS, Andersson A, Holm T, Sigurgeirsson B. Proteogenomics produces comprehensive and highly accurate protein-coding gene annotation in a complete genome assembly of Malassezia sympodialis. Nucleic acids research. 2017 Jan 18;45(5):2629-43. [8]
  • Genóm [9], proteíny [10], RNA-seq [11]
  • Tím: Ižip, Mayer, Metohajrová, Novák, Rabatin, D. Simeunovič, R. Simeunovič

Ďalšie príbuzné genómy

Ǔlohy pre vás

  • Skúste si spraviť cvičenie na prácu s UCSC prehliadačom
  • Do pondelka 26.2.: poslať B. Brejovej email obsahujúci vaše meno, gmailové konto a githubové konto, ktoré chcete na predmete využívať, prijať pozvánku za člena Github projektu
  • Rozmyslite si v skupinách aké spôsoby koordinácie chcete používať, návrhy nižšie
  • Pre ďalšie dve prednášky je vhodné si z MBI zopakovať úvod do biológie pre informatikov (cvičenie) a prednášku o sekvenovaní a zostavovaní genómov
  • 1.3. stretnutie malGlo, 8.3. stretnutie malSym

Koordinácia v rámci skupiny a s cvičiacimi

Každá skupina by si mala vytvoriť spôsob organizácie práce a jej výsledkov

  • Mala by existovať verejne dostupná a prehľadná dokumentácia k všetkému, čo ste robili
    • Kde ste stiahli dáta, ako ste ich spracovali (ideálne postupnosť všetkých relevantných príkazov), poznámky k problematickým krokom
    • Ideálne v angličtine, ale stačia stručné poznámky
  • Takisto by mali byť verejne prístupný archív zdrojových kódov všetkých programov, ktorý ste pre predmet napísali

Z minulého roku existuje projekt na GitHube https://github.com/bbrejova/genomika-2017

  • Obsahuje skripty aj dokumentáciu vo forme wiki
  • Odporúčame použiť, ak nemáte lepší nápad ako prácu zorganizovať
  • Časti z minulého roka nemažte, môžete ich však nejako presunúť do priečinka a pod.

Denník skupiny

  • Každá skupina má Google document, v ktorom sa na stretnutí spíšu dohodnuté úlohy a komu boli priradené a na ďalšom stretnutí aktuálny stav ich plnenia a pridelené body
  • Môžete si tam písať aj ďalšie poznámky o aktuálnom stave prác a problémoch, na aké ste narazili

Predbežný plán cvičení

Časový plán sa ešte môže zmeniť podľa okolností

  • 6.4. MalGlo (Becza, Hraška, Jariabka, Krajčovič, Smolík, Šuppa, Zeleňák)
  • 12.4. MalSym (Ižip, Mayer, Metohajrová, Novák, Rabatin, D. Simeunovič, R. Simeunovič)
  • 19.4. MalGlo
  • 26.4. MalSym
  • 3.5. nebude
  • 10.5. MalGlo
  • 17.5. MalSym

Genomika: cvičenie UCSC browser

Cvičenie na predmet Genomika

Základy browsera, gény

  • On-line grafický nástroj na prezeranie genómov
  • Konfigurovateľný, veľa možností, ale pomerne málo organizmov
  • V programe Firefox choďte na stránku UCSC genome browser http://genome-euro.ucsc.edu/ (európsky mirror stránky http://genome.ucsc.edu/ )
  • Hore v modrom menu zvoľte Genomes, potom zvoľte ľudský genóm verzia hg38. Do okienka search term zadajte HOXA2. Vo výsledkoch hľadania (Known genes) zvoľte gén homeobox A2 na chromozóme 7.
    • Pozrime si spolu túto stránku
    • V hornej časti sú ovládacie prvky na pohyb vľavo, vpravo, približovanie, vzďaľovanie
    • Pod tým schéma chromozómu, červeným vyznačená zobrazená oblasť
    • Pod tým obrázok vybranej oblasti, rôzne tracky
    • Pod tým zoznam všetkých trackov, dajú sa zapínať, vypínať a konfigurovať
    • Po kliknutí na obrázok sa často zobrazí ďalšia informácia o danom géne alebo inom zdroji dát (treba mať zapnuté na full alebo pack, inak prepína úroveň zobrazenia)
    • V génoch exóny hrubé, UTR tenšie, intróny vodorovné čiary
  • Koľko má HOXA2 exónov? Na ktorom chromozóme a pozícii je? Pozor, je na opačnom vlákne. Ako je táto skutočnosť naznačená na obrázku?
  • V tracku GENCODE kliknite na gén, mali by ste sa dostať na stránku popisujúcu jeho rôzne vlastnosti, pozrite si ju.

Dôležité tracky

Tracky sú rozdelené do viacerých skupín

  • Mapping and sequencing: kvalita sekvencie zostavenej z čítaní, základné vlastnosti ako napr. GC%
  • Genes and Gene Predictions: známe gény z rôznych databáz, automatické predikcie
  • Phenotype and Literature: gény a iné miesta v genóme spomínané v literatúre alebo v databázach o ľudských chorobách a pod.
  • mRNA and EST: osekvenované mRNA sekvencie
  • Expression: údaje o expresii génov v rôznych tkanivách, napr. GTEx
  • Regulation: merania o regulácii aktivity génov (väzobné miesta transkripčných faktorov, histónové modifikácie)
  • Comparative genomics: porovnanie viacerých genómov
    • PhyloP - uroven konzerovanosti danej bazy len na zaklade jedneho stlpca zarovnania
    • Element Conservation/Conserved Elements vysledky z phyloHMM phastCons, ktory berie do uvahy aj okolite stlpce
    • multiz celogenómové zarovnania
    • nets and chains: zodpovedajúce si úseky rôznych genómov
  • Variation: populacna genomika a polymorfizmy (viac v starsich verziach ludskeho genomu)
  • Repeats: casti genomu, ktore sa velakrat opakuju, ale aj segmentalne duplikacie

Verzie genómov, prechádzanie medzi verziami (liftOver)

  • Vráťte sa na UCSC genome browser http://genome-euro.ucsc.edu/
  • Pozrieme si niekoľko vecí týkajúcich sa sekvenovania a skladania genómov
  • Hore v modrom menu zvoľte Genomes, časť Other
  • Na ďalšej stránke zvoľte človeka a pomocou menu Human Assembly zistite, kedy boli pridané posledné dve verzie ľudského genómu (hg19 a hg38)
  • Na tej istej stránke dole nájdete stručný popis zvolenej verzie genómu.
  • Zapnite si tracky "Assembly" a "Gaps" a pozrite si región chr2:110,000,000-110,300,000 v hg19: [13] Aká dlhá je neosekvenovaná medzera (gap) v strede tohto regiónu? Približnú veľkosť môžete odčítať z obrázku, presnejší údaj zistíte kliknutím na čierny obdĺžnik zodpovedajúci tejto medzere (úplne presná dĺžka aj tak nebola známa, nakoľko nebola osekvenovaná).
  • Cez menu položku View, In other genomes si pozrite, ako zobrazený úsek vyzerá vo verzii hg38. Ako sa zmenila dĺžka z pôvodných 300kb?

BLAT, prechádzanie medzi genómami rôznych druhov

  • Sekvencia uvedená nižšie vznikla sekvenovaním ľudskej mRNA
  • Choďte na UCSC genome browser http://genome.ucsc.edu/ , na modrej lište zvoľte BLAT, zadajte túto sekvenciu a hľadajte ju v ľudskom genóme. Akú podobnosť (IDENTITY) má najsilnejší nájdený výskyt? Aký dlhý úsek genómu zasahuje? (SPAN). Všimnite si, že ostatné výskyty sú oveľa kratšie.
  • V stĺpci ACTIONS si pomocou Details môžete pozrieť detaily zarovnania a pomocou Browser si pozrieť príslušný úsek genómu.
  • V tomto úseku genómu si zapnite track Vertebrate net na full a kliknutím na farebnú čiaru na obrázku pre tento track zistite, na ktorom chromozóme sliepky sa vyskytuje homologický úsek.
  • Skusme tu istu sekvenciu zarovnat ku genomu sliepky programom Blat: stlacte najprv na hornej modrej liste Genomes, zvolte Vertebrates a Chicken a potom na hornej liste BLAT. Do okienka zadajte tu istu sekvenciu. Akú podobnosť a dĺžku má najsilnejší nájdený výskyt teraz? Na ktorom je chromozóme?

Ľudská sekvencia pre BLAT

AACCATGGGTATATACGACTCACTATAGGGGGATATCAGCTGGGATGGCAAATAATGATTTTATTTTGAC
TGATAGTGACCTGTTCGTTGCAACAAATTGATAAGCAATGCTTTCTTATAATGCCAACTTTGTACAAGAA
AGTTGGGCAGGTGTGTTTTTTGTCCTTCAGGTAGCCGAAGAGCATCTCCAGGCCCCCCTCCACCAGCTCC
GGCAGAGGCTTGGATAAAGGGTTGTGGGAAATGTGGAGCCCTTTGTCCATGGGATTCCAGGCGATCCTCA
CCAGTCTACACAGCAGGTGGAGTTCGCTCGGGAGGGTCTGGATGTCATTGTTGTTGAGGTTCAGCAGCTC
CAGGCTGGTGACCAGGCAAAGCGACCTCGGGAAGGAGTGGATGTTGTTGCCCTCTGCGATGAAGATCTGC
AGGCTGGCCAGGTGCTGGATGCTCTCAGCGATGTTTTCCAGGCGATTCGAGCCCACGTGCAAGAAAATCA
GTTCCTTCAGGGAGAACACACACATGGGGATGTGCGCGAAGAAGTTGTTGCTGAGGTTTAGCTTCCTCAG
TCTAGAGAGGTCGGCGAAGCATGCAGGGAGCTGGGACAGGCAGTTGTGCGACAAGCTCAGGACCTCCAGC
TTTCGGCACAAGCTCAGCTCGGCCGGCACCTCTGTCAGGCAGTTCATGTTGACAAACAGGACCTTGAGGC
ACTGTAGGAGGCTCACTTCTCTGGGCAGGCTCTTCAGGCGGTTCCCGCACAAGTTCAGGACCACGATCCG
GGTCAGTTTCCCCACCTCGGGGAGGGAGAACCCCGGAGCTGGTTGTGAGACAAATTGAGTTTCTGGACCC
CCGAAAAGCCCCCACAAAAAGCCG

Table browser

Genome browser is nice for manual browsing but also allows programmers to download data

  • each track based on one or several tables in an SQL database
  • you can download genomic sequences and data from these tables [14]
  • you can also write queries for a public SQL server [15] or create queries using Table browser forms (blue bar: Tools->Table browser)
  • conversely, you can also display your own data in "custom tracks" of the browser

Table browser examples

  • Basic type of query: e.g. export all genes in the part of the genome displayed in the browser
  • Several output formats, e.g.:
    • sequence: file of protein or DNA sequences of these genes (various settings)
    • GTF: coordinates of genes and their exons
    • Hyperlinks to genome browser: list of genes with links to the browser for each gene
    • Instead of export we can get summary statistics (number of items, how much sequence they cover)
  • More complex query, "intersection" of two tables: e.g. all genes that are more than 50% covered by simple repeats, filtering

Predbežné informácie k štátniciam

Genomika: Informácie ku trackom

Genomika: Rozvojové projekty