CI-en-db

Obsah

1 Introduction to bioinformatics databases and on-line tools
2 Summerschool 2011

Introduction to bioinformatics databases and on-line tools

The goal of this excercise is to

see results of bioinformatics research in the form of on-line tools used by many biologists
get to know some basic tools in case you might want to try your algorithms on biology data
review some of the topics from the lectures

NCBI, Genbank, Pubmed, blast

National Center for Biotechnology Information http://www.ncbi.nlm.nih.gov/
Collects publicly available data in molecular biology
We can search for keywords in various databases
BLAST finds alignments of query sequence and a specified sequence database
- convenient, because no need to download large database, but also very slow
Try sequence below at http://blast.ncbi.nlm.nih.gov/Blast.cgi
- the sequence is from the human genome but we will try to find its homolog in chicken
- choose nucleotide blast, database reference genomic sequence, organism chicken (taxid:9031), program blastn)
- on which chromosome is the best chicken homolog, what is alignment length, score, E-value, identity level?

AACCATGGGTATATACGACTCACTATAGGGGGATATCAGCTGGGATGGCAAATAATGATTTTATTTTGAC
TGATAGTGACCTGTTCGTTGCAACAAATTGATAAGCAATGCTTTCTTATAATGCCAACTTTGTACAAGAA
AGTTGGGCAGGTGTGTTTTTTGTCCTTCAGGTAGCCGAAGAGCATCTCCAGGCCCCCCTCCACCAGCTCC
GGCAGAGGCTTGGATAAAGGGTTGTGGGAAATGTGGAGCCCTTTGTCCATGGGATTCCAGGCGATCCTCA
CCAGTCTACACAGCAGGTGGAGTTCGCTCGGGAGGGTCTGGATGTCATTGTTGTTGAGGTTCAGCAGCTC
CAGGCTGGTGACCAGGCAAAGCGACCTCGGGAAGGAGTGGATGTTGTTGCCCTCTGCGATGAAGATCTGC
AGGCTGGCCAGGTGCTGGATGCTCTCAGCGATGTTTTCCAGGCGATTCGAGCCCACGTGCAAGAAAATCA
GTTCCTTCAGGGAGAACACACACATGGGGATGTGCGCGAAGAAGTTGTTGCTGAGGTTTAGCTTCCTCAG
TCTAGAGAGGTCGGCGAAGCATGCAGGGAGCTGGGACAGGCAGTTGTGCGACAAGCTCAGGACCTCCAGC
TTTCGGCACAAGCTCAGCTCGGCCGGCACCTCTGTCAGGCAGTTCATGTTGACAAACAGGACCTTGAGGC
ACTGTAGGAGGCTCACTTCTCTGGGCAGGCTCTTCAGGCGGTTCCCGCACAAGTTCAGGACCACGATCCG
GGTCAGTTTCCCCACCTCGGGGAGGGAGAACCCCGGAGCTGGTTGTGAGACAAATTGAGTTTCTGGACCC
CCGAAAAGCCCCCACAAAAAGCCG

UCSC genome browser

http://genome.ucsc.edu/
nice interface for browsing genomes, lot of data for some genomes (particularly human), but not all sequenced genomes represented
also allows custom queries and data download

Blat

Instead of BLAST, UCSC genome borwser uses faster but less sensitive BLAT (good for the same or very closely related species)
Go to http//genome.ucsc.edu/, choose Blat in the top blue menu bar, enter DNA sequence above, search in the human genome
- Akú podobnosť (IDENTITY) má najsilnejší nájdený výskyt? Aký dlhý úsek genómu zasahuje? (SPAN). Všimnite si, že ostatné výskyty sú oveľa kratšie.
V stĺpci ACTIONS si pomocou Details môžete pozrieť detaily zarovnania a pomocou Browser si pozrieť príslušný úsek genómu.
V tomto úseku genómu si zapnite track Vertebrate net na full a kliknutím na farebnú čiaru na obrázku pre tento track zistite, na ktorom chromozóme kuraťa sa vyskytuje homologický úsek.
Skusme tu istu sekvenciu namapovat do genomu sliepky: stlacte najprv na hornej modrej liste Genomes, zvolte Vertebrates a Chicken a potom na hornej liste BLAT. Do okienka zadajte tu istu sekvenciu. Akú podobnosť a dĺžku má najsilnejší nájdený výskyt teraz? Na ktorom je chromozóme?
Ako sa to porovna s hodnotami, ktore sme dostali pomocou BLASTu na NCBI?

Sekvenovanie

Hore v modrom menu zvoľte Genomes
Na ďalšej stránke zvoľte človeka a v menu Assembly zistite, kedy boli pridané posledné dve verzie ľudského genómu (hg19 a hg38)
Na tej istej stránke dole nájdete stručný popis zvolenej verzie genómu. Pre ktoré oblasti genómu máme v hg19 viacero alternatívnych verzií?
Zadajte región chr21:31,200,000-31,350,000 v hg19
Zapnite si tracky Mapability a RepeatMasker na "full"
Mapability: nakoľko sa daný úsek opakuje v genóme a či teda vieme jednoznačne jeho ready namapovať pri použití Next generation sequencing
Ako a prečo sa pri rôznych dĺžkach readov líšia? (Keď kliknete na linku "Mapability", môžete si prečítať bližšie detaily.)
Približne v strede zobrazeného regiónu je pokles mapovateľnosti. Akému typu opakovania zodpovedá? (pozrite track RepeatMasker)
Zapnite si tracky "Assembly" a "Gaps" a pozrite si región chr2:110,000,000-110,300,000. Aká dlhá je neosekvenovaná medzera (gap) v strede tohto regiónu? Približnú veľkosť môžete odčítať z obrázku, presnejší údaj zistíte kliknutím na čierny obdĺžnik zodpovedajúci tejto medzere (úplne presná dĺžka aj tak nebola známa, nakoľko nebola osekvenovaná).

Geny

Zvolte starsiu verziu ludskeho genomu hg18, ktora ma viac informacii
Do okienka position zadajte gen MAGEA2B a potom zvolte jeden jeho vyskyt (ma dva vyskyty)
- Dostanete sa tam aj touto linkou: [1]
Ak date 3x zoom out, mozete si vsimnut, ze tento gen ma viacero foriem zostrihu, ktore sa ale lisia iba v 5' UTR
Vela veci sa mozete dozvediet klikanim na rozne casti broswera: napr, kliknutim na gen si mozete precitat o jeho funkcii, kliknutim na listu ku tracku (lavy okraj obazku) sa dozviete viac o tracku a mozete nastavovat parametre zobrazenia

Komparativna genomika

V casti multiz alignments vidite zarovnania k roznym inym genomom (da sa zapinat, ze ku ktorym). Mozete si pozriet, ako sa uroven zarovnania zmeni ked sa priblizujeme a vzdalujeme (zoom in/zoom out).
Ked sa priblizite spat na gen MAGEA2B a potom tak, aby ste boli na urovni "base", t.j. zobrazenych cca 100bp, v obdlzniku multiz alignment uvidite zarovnanie s homologickym usekom v inych genomoch. Konkretne v MAGEA2B vidime pomerne dost rozdielov v proteine medzi clovekom a makakom rezus, vdaka ktorym bol zrejme klasifikovany ako pod pozitivnym vyberom.
V casti conservation by PhyloP vidime graf toho, ako silne su zachovane jednotlive stlpce zarovnania
Da sa zapnut track Placental Chain/Net a pozriet sa na ktorych chromozomoch je ortologicky usek v inych genomoch

Objavenie génu HAR1 pomocou komparatívnej genomiky

Pollard KS, Salama SR, Lambert N, et al. (September 2006). "An RNA gene expressed during cortical development evolved rapidly in humans". Nature 443 (7108): 167–72. doi:10.1038/nature05113. PMID 16915236. pdf
Zobrali všetky regióny dĺžky aspoň 100bp s > 96% podobnosťou medzi šimpanzom a myšou/potkanom (35,000)
Porovnali s ostatnými cicavcami, zistili, ktoré majú veľa mutáci v človeku, ale málo inde (pravdepodobnostný model)
49 štatisticky významných regiónov, 96% nekódujúcich oblastiach
Najvýznamnejší HAR1: 118nt, 18 substitúcii u človeka, očakávali by sme 0.27. Iba 2 zmeny medzi šimpanzom a sliepkou (310 miliónov rokov), ale nebol nájdený v rybách a žabe.
Nezdá sa byť polymorfný u človeka
Prekrývajúce sa RNA gény HAR1R a HAR1F
HAR1F je exprimovaný v neokortexe u 7 a 9 týždenných embrií, neskôr aj v iných častiach mozgu (u človeka aj iných primátov)
Všetky substitúcie v človeku A/T->C/G, stabilnejšia RNA štruktúra (ale tiež sú blízko k telomére, kde je viacej takýchto mutácii kvôli rekombinácii a biased gene conversion)
Môžete si pozrieť tento region v browseri: chr20:61,203,911-61,204,071 (hg18), pricom ak sa este priblizite, uvidite zarovnanie aj s bazami a mozete vidiet, ze vela zmien je specifickych pre cloveka
Vynimkou je slon, niektore zmeny v slonovi su sposobene nizkou kvalitou sekvencie. Ked pomocou nastroja In other genomes (convert) v polozke View na hornej liste premapujete do novsej verzie ludskeho genomu (hg19), uvidite, ze aj v najnovsej verzii genomu slona su mnohe zmeny, nechyba tam uz vsak cast sekvencie, ako vo verzii pouzitej v hg18.

Práca s tabuľkami, sťahovanie anotácií

Položka Tables na hornej lište umožnuje robiť rafinované veci s tabuľkami, ktoré obsahujú súradnice génov a pod.
Základná vec: vyexportovať napr. všetky gény v zobrazenom výseku v niektorom formáte:
- sequence: fasta súbor proteínov, génov alebo mRNA s rôznymi nastaveniami
- GTF: súradnice
- Hyperlinks to genome browser: klikacia stránka
Namiesto exportu si môžeme pozrieť rôzne štatistiky

Zložitejšie: prienik dvoch tabuliek, napr. gény, ktoré sú viac než 50% pokryté simple repeats
- V intersection zvolíme group: Variation and repeats, track: RepeatMasker, nastavíme records that have at least 50% overlap with RepeatMasker
- V summary/statistics zistíme, kolko ich je v genóme, môžeme si ich preklikať cez Hyperlinks to genome browser

Filter na tabuľku, napr. gény, ktoré majú v názve ribosomal (postup pre drozofilu):
- V casti hg19.kgXref based filters políčko description dáme *ribosomal*

Populacna genomika v UCSC genome browseri

UCSC genome browser ma viacero trackov tykajucich sa populacnej genomiky a polymorfizmov

Pozrite si napriklad region chr2:174,862-436,468 v hg19
V casti Phenotype and Disease Associations si zapnite GAD view
V casti Variation and Repeats si zapnite
- HGDP Allele Freq na Pack (po kliknuti na SNP zobrazi mapu sveta s distribuciou alel)
- "DGV Struct Var" na Pack
Track Genome Variants obsahuje genomy niekolkych ludi, napr Jima Watsona
Takisto sa da pozriet genom ludi z jaskyne Denisova a Neandertalcov

V starsej verzii ludskeho genomu je aj trojuholnikovy graf linkage disequilibria

region vyssie premapovany do hg18
zapnite "HapMap LD Phased" na Full (cast Variation and Repeats)
vsimnite si, ze miery LD sa medzi ludskymi podpopulaciami lisia (YRI: Nigeria; CEU: Europa; JPT+CHB: Japonsko, Cina)

Browser diverzity u S.cerevisae:

[2]

Fylogeneticke stromy, mobyle portal

V UCSC browseri mozeme ziskavat viacnasobne zarovnania jednotlivych genov (nukleotidy alebo proteiny). Nasledujuci postup nemusite robit, subor si stiahnite tu: http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb06/cb06-aln.fa
- UCSC browseri si pozrieme usek ludskeho genomu chr6:136,214,527-136,558,402 s genom PDE7B (phosphodiesterase 7B)
- Na modrej liste zvolime Tables, v nej RefSeq genes, zaklikneme Region: position, a Output fomat: CDS FASTA alignment a stlacime Get output
- Na dalsej obrazovke zaklikneme show nucleotides. Z primatov zvolime chimp, rhesus, tarsier, z inych cicavcov mouse, rat, dog, elephant a z dalsich organizmov opposum, platypus, chicken, lizard, stlacime Get output.
- Vystup ulozime do suboru, z mien sekvencii zmazeme spolocny prefix NM_018945_, pripadne celkovo prepiseme mena na anglicke nazvy

Skusme zostavit strom na stranke http://mobyle.pasteur.fr/cgi-bin/portal.py
Pouzijeme program quicktree, metodu neighbor joining, bootstrap 100
Na zobrazenie stromu vysledok dalej prezenieme cez zobrazovacie programy drawtree alebo newicktops (zvolit v menu pri tlacidle further analysis)
- Vysledok z drawtree, nezakoreneny, nezobrazuje bootstrap hodnoty
- Vysledok z newicktops, zakoreneny na nahodnom mieste (nie spravne) zobrazuje bootstrap hodnoty
- v drawtree sme nastavili sme formát výstupu MS-Windows Bitmap a X,Y resolution aspoň 1000, v newicktops sme nastavili show bootstrap values
"Spravny strom" [3] v nastaveniach Conservation track-u v UCSC browseri (podla clanku Murphy WJ, Eizirik E, O'Brien SJ, Madsen O, Scally M, Douady CJ, Teeling E, Ryder OA, Stanhope MJ, de Jong WW, Springer MS. Resolution of the early placental mammal radiation using Bayesian phylogenetics. Science. 2001 Dec 14;294(5550):2348-51.)
Nas strom ma long branch attraction (zle postavenie hlodavcov, ktori maju dlhu vetvu aj slona, co moze byt zapricene sekvenovacimi chybami).
Ine programy, ktore mozete skusit na mobyle
- phyml: metoda maximalnej vierohodnosti (daju sa nastavit detaily modelu, bootstraps, ktory ale moze dost dlho trvat, typy operacii na strome pri heuristickom hladani najlepsieho stromu)
- dnapars alebo protpars na parsimony
- viacnasobne zarovnanie pomocou clustalw alebo modernejsou alternativou muscle
- Ak chcete skusat zarovnania, zacnite z nezarovnanych sekvencii: http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb06/cb06-seq.fa

Gene expression

Data o expresii ludskych genov v roznych tkanivach a podobne v UCSC genome browseri

Chodte na stranku http://genome.ucsc.edu/, najdite PTPRZ1 gen v ludskom genome
Zvolte Tools->Gene Sorter, sort by nechajme Expression (GNF Atlas 2), search PTPRZ1
- Dostane tabulku genov s podobny profilom expresie ako PTPRZ1 (červená je vysoká expresia, zelená nízka)

Chceme zistiť, či v tomto zozname je nadreprezentovaná nejaká funkčná kategória
- Potrebujeme najskôr získať zoznam genov bez dalsich udajov
- Stlacte configure, tlacidlom hide all zrusite vsetky zaskrtnute typy informacie a zakrtnite iba Name, stlačíte submit
- Potom stlačte tlačidlo text a dostanete čisto zoznam mien génov v textovom formáte
- V prípade problémov ho nájdete ho aj tu
http://biit.cs.ut.ee/gprofiler/ mena genov skopirujme do policka Query, stlacte g:Profile!
- Vo vyslednej tabulke je kazdy riadok jedna funkcna kategoria, v ktorej su geny s tymto profilom expresie nadreprezentovane, kazdy stlpec jeden gen. Mena kategorii su uplne vpravo.
Co by sme na zaklade nadreprezentovanych kategorii usudzovali o tomto gene?
Najdite tento gen v Uniprote (http://www.uniprot.org/), potvrdzuje nase domnienky?

Vratme sa do genome browsera, najdime si PTPRZ1 gen v genome
V browseri su rozne tracky tykajuce sa expresie, napr. GNF Atlas 2. Precitajte si, co je v tomto tracku zobrazene, zapnite si ho a pozrite si expresiu okolitych genov okolo PTPRZ1
Kliknite na gen v tracku UCSC known genes. V tabulke uvidite zase prehlad expresie v roznych tkanivach (podla GNF Atlasu), linku na Visigene.

NCBI Gene Expression Omnibus http://www.ncbi.nlm.nih.gov/geo/

Databaza gene expression dat na NCBI
Do okienka Data sets zadajme GDS2925
Mali by sme dostat Various weak organic acids effect on anaerobic yeast chemostat cultures
Mozeme si pozriet zakladne udaje, napr. citation, platform
Link "Expression profiles" nam zobrazi grafy pre rozne geny
Pri kazdom profile mozeme kliknut na profile neighbors, aby sme videli geny s podobnym profilom
Data analysis tools, cast Cluster heatmaps, K-means, skuste rozne pocty clustrov

Sekvenčné motívy, program MEME

Vazobne miesta transkripcnych faktorov sa casto reprezentuju ako sekvencne motivy
Ak mame skupinu sekvencii, mozeme hladat motiv, ktory maju spolocny
Znamy program na tento problem je MEME
Chodte na stranku http://meme.nbcr.net/
Zvolte nastroj MEME a do okienka "actual sequences" zadajte tieto sekvencie
Pozrite si ostatne nastavenia. Co asi robia?
Ak server pocita dlho, mozete si pozriet vysledky tu

Uniprot

Prehladnejsi pohlad na proteiny, vela linkov na ine databazy, cast vytvarana rucne
- Pozrieme sa na enzým Bis(5'-adenosyl)-triphosphatase
- Nájdime ho na stránke http://www.uniprot.org/ pod názvom FHIT_HUMAN
- Pozrime si podrobne jeho stránku, ktoré časti boli predpovedané bioinformatickými metódami z prednášky?
- Všimnime si Pfam doménu a pozrime si jej stránku, do akej super-rodiny (klanu) patrí?

Summerschool 2011

Pfam domain database

Pfam database http://pfam.sanger.ac.uk/ contains profile HMMs of protein domain families. Use Sequence search at this webpage to find which domains are in our protein.

Then study in more detail zf-C4 domain which should be among the results. In Summary tab we can see description of the domain as well as Gene ontology (GO) terms. In HMM logo tab we can see the graphical representation of the HMM for this family. Which amino acid is most frequent at positions 3 and 6 of this domain?

PDB dababase for protein structures

Use Sequence search at http://www.rcsb.org/ to find the closest homolog with known structure. You see an overview of the structure, download the file with coordinates, but also can find e.g. the paper where the structure was published and secondary structure (alpha helices, beta sheets).

Uniprot database of proteins

Uniprot http://www.uniprot.org/ organizes known information about function, structure and other aspects of individual proteins from all organisms. Use BLAST at this webpage to find which protein was used in this excercise (it should have 100% sequence identity in BLAST results). Which protein it comes from and what is its name? Proteins denoted by golden star in BLAST results have detailed information available. Which is the closest homolog with the star?

UCSCS genome browser

The browser http://genome.ucsc.edu/ allows us to explore the gene encoding this protein and its genomic context. Enter the protein sequence to BLAT search in the blue bar and find its closest homolog in the human genome. Which chromosome is the gene at? How many exons does it have? Switch on track Placental Chain/Net in Comparative Genomics section and find out which mouse chromosome contains homolog of this gene (color key of chromosomes is located below the main figure).