1-BIN-301, 2-AIN-501 Methods in Bioinformatics, 2023/24
CB10: Rozdiel medzi revíziami
Z MBI
(→CB07) |
(→Objavenie génu HAR1 pomocou komparatívnej genomiky) |
||
(5 intermediate revisions by the same user not shown) | |||
Riadok 1: | Riadok 1: | ||
− | == | + | ==RNA štruktúra== |
+ | * Znama databaza rodin RNA genov je Rfam: http://rfam.xfam.org/ | ||
+ | * Najdite si v nej rodinu RF00015 (U4 spliceosomal RNA) | ||
+ | * V casti Secondary structure si mozete pozriet obrazky farebne kodovane podla roznych kriterii | ||
+ | ** Skuste pochopit, co jednotlive obrazky a ich farby znamenaju | ||
+ | * Jedna z mnohych ludskych kopii je tato: | ||
+ | <pre> | ||
+ | AGCTTTGCGCAGTGGCAGTATCGTAGCCAATGAGGTTTATCCGAGGCGCG | ||
+ | ATTATTGCTAATTGAAAACTTTTCCCAATACCCCGCCATGACGACTTGAA | ||
+ | ATATAGTCGGCATTGGCAATTTTTGACAGTCTCTACGGAGA | ||
+ | </pre> | ||
+ | * Skuste ju najst v ludskom genome nastrojom BLAT v [http://genome-euro.ucsc.edu UCSC genome browseri] | ||
+ | * Pozrite si tracky GENCODE genes, conservation, RepeatMasker v jej okoli | ||
+ | * Vo verzii hg19 (kam sa viete z inej verzii dostat cez horne menu View->In Other Genomes) je track "CSHL Sm RNA-seq" ktory obsahuje RNASeq kratkych RNA z roznych casti buniek, zapnite si v jeho nastaveniach aj zobrazenie RNA z jadra (nucleus) | ||
+ | * Zadajte sekvenciu na RNAfold serveri [http://rna.tbi.univie.ac.at/cgi-bin/RNAWebSuite/RNAfold.cgi] | ||
+ | * Ak vypocet dlho trva, pozrite si vysledok [http://rna.tbi.univie.ac.at//cgi-bin/RNAWebSuite/RNAfold.cgi?PAGE=3&ID=fdr_TwjicB tu] | ||
+ | * Podoba sa na strukturu zobrazenu v Rfame? v com sa lisi? | ||
− | + | * RNA dizajn: mozete sa skusit zahrat na stranke http://www.eternagame.org/web/ | |
− | + | ==PSI BLAST== | |
− | * | + | * Toto cvičenie je z časti inšpirované stránkou [http://www.ncbi.nlm.nih.gov/Class/FieldGuide/problem_set.html] |
+ | * Budeme uvažovať vzdialene podobné enzýmy | ||
+ | ** Bis(5'-adenosyl)-triphosphatase ([http://www.uniprot.org/uniprot/P49789 Uniprot]) | ||
+ | ** Galactose-1-phosphate uridylyltransferase (GALT/GAL7) ([http://www.uniprot.org/uniprot/P31764 Uniprot]) | ||
+ | ** Ich domény patria v databáze Pfam do toho istého klanu | ||
+ | * Skúsme nájsť túto podobnosť v BLASTe: http://blast.ncbi.nlm.nih.gov/ v časti proteíny, zvoľme databázu Swissport, ako Query zadajme Accesion nášho proteínu P49789, spustime program PSI-BLAST | ||
+ | * V prvom kole PSI-BLAST spúšťa bežný BLASTP | ||
+ | * GAL gén (konkrétne GAL7_HAEIN, accession P31764) sa nachádza medzi výsledkami, ale má príliš vysokú E-value | ||
+ | * Spustíme teraz druhú iteráciu PSI-BLAST, ktorá zostaví profil z proteínov s nízkou E-value v prvej iterácii | ||
+ | * Aká je E-value nájdeného zarovnania? | ||
+ | * Ak by výpočet dlho trval, výsledky sú tu: [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb08/psi-blast1.html 1. kolo], [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb08/psi-blast2.html 2. kolo] | ||
+ | ==Nadreprezentácia, Uniprot (cvičenie pri počítači)== | ||
+ | Data o expresii ludskych genov v roznych tkanivach a podobne v '''UCSC genome browseri''' | ||
+ | * Chodte na genome browser http://genome-euro.ucsc.edu/ | ||
+ | * Zvolte ''Tools->Gene Sorter'', ''sort by'' nechajme ''Expression (GTEx)'', a do okienka ''search'' zadajme identifikator genu ''PTPRZ1'' | ||
+ | ** Dostane tabulku genov s podobnym profilom expresie ako PTPRZ1 (červená je vysoká expresia, zelená nízka) | ||
+ | ** Zoznam tychto genov v textovom formate najdete [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb08/zoznam_genov.txt tu] | ||
+ | * http://biit.cs.ut.ee/gprofiler/ mena genov skopirujme do policka ''Query'', stlacte g:Profile! | ||
+ | ** Ak by výpočet dlho trval, nájdete ho aj [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb08/g_Profiler.html tu] | ||
+ | ** Vo výslednej tabuľke je každý riadok jedna funkcna kategoria, v ktorej su geny s tymto profilom expresie nadreprezentovane, kazdy stlpec jeden gen. | ||
+ | ** V spodnej casti tabuly su aj asociacie k chorobam a k transkripcnym faktorom, ktore by mohli prislusne geny regulovat | ||
+ | * Co by sme na zaklade nadreprezentovanych kategorii usudzovali o gene PTPRZ1? | ||
− | * | + | * Najdite tento gen v Uniprote (http://www.uniprot.org/), potvrdzuje nase domnienky? |
− | * | + | ** O mnohých údajoch na stránke sme sa rozprávali na prednáške (GO kategórie, domény, sekundárna a 3D štruktúra) |
− | * | + | ** na veľa miestach na stránke je uvedené aj odkiaľ jednotlivé údaje pochádzajú |
− | + | ** Všimnime si Pfam domény a pozrime si ich stránku | |
− | ** | + | |
− | * | + | |
− | * | + | |
− | + | ||
− | * | + | * Vratme sa do genome browsera, najdime si PTPRZ1 gen v genome [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg38&position=chr7%3A121873089-122062036] |
− | + | * V browseri su rozne tracky tykajuce sa expresie, napr. GTEx. Precitajte si, co je v tomto tracku zobrazene, zapnite si ho a pozrite si expresiu okolitych genov okolo PTPRZ1 | |
− | + | * Kliknite na gen v tracku UCSC known genes. V tabulke uvidite zase prehlad expresie v roznych tkanivach (podla GTEx) | |
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | ** | + | |
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
==Objavenie génu HAR1 pomocou komparatívnej genomiky== | ==Objavenie génu HAR1 pomocou komparatívnej genomiky== | ||
Riadok 86: | Riadok 91: | ||
==Kvasinkové transkripčné faktory v SGD== | ==Kvasinkové transkripčné faktory v SGD== | ||
− | * Yeast genome database SGD obsahuje podrobne stranky pre jednotlive transkripcne faktory | + | * Yeast genome database SGD obsahuje pomerne podrobne stranky pre jednotlive transkripcne faktory |
* Pozrime si stranku pre transkripcny faktor GAL4 [http://www.yeastgenome.org/locus/S000006169/regulation] | * Pozrime si stranku pre transkripcny faktor GAL4 [http://www.yeastgenome.org/locus/S000006169/regulation] | ||
− | + | ==Uniprot== | |
+ | * Prehladnejsi pohlad na proteiny, vela linkov na ine databazy, cast vytvarana rucne | ||
+ | ** Pozrieme sa na známy koronavírusový proteín Spike | ||
+ | ** Nájdime ho na stránke http://www.uniprot.org/ pod názvom SPIKE_SARS2 | ||
+ | ** Pozrime si podrobne jeho stránku, ktoré časti boli predpovedané bioinformatickými metódami z prednášky? | ||
+ | ** Všimnime si niektorú Pfam doménu a pozrime si jej stránku | ||
==Nussinovovej algoritmus (nerobili sme)== | ==Nussinovovej algoritmus (nerobili sme)== |
Verzia zo dňa a času 18:04, 30. november 2022
Obsah
RNA štruktúra
- Znama databaza rodin RNA genov je Rfam: http://rfam.xfam.org/
- Najdite si v nej rodinu RF00015 (U4 spliceosomal RNA)
- V casti Secondary structure si mozete pozriet obrazky farebne kodovane podla roznych kriterii
- Skuste pochopit, co jednotlive obrazky a ich farby znamenaju
- Jedna z mnohych ludskych kopii je tato:
AGCTTTGCGCAGTGGCAGTATCGTAGCCAATGAGGTTTATCCGAGGCGCG ATTATTGCTAATTGAAAACTTTTCCCAATACCCCGCCATGACGACTTGAA ATATAGTCGGCATTGGCAATTTTTGACAGTCTCTACGGAGA
- Skuste ju najst v ludskom genome nastrojom BLAT v UCSC genome browseri
- Pozrite si tracky GENCODE genes, conservation, RepeatMasker v jej okoli
- Vo verzii hg19 (kam sa viete z inej verzii dostat cez horne menu View->In Other Genomes) je track "CSHL Sm RNA-seq" ktory obsahuje RNASeq kratkych RNA z roznych casti buniek, zapnite si v jeho nastaveniach aj zobrazenie RNA z jadra (nucleus)
- Zadajte sekvenciu na RNAfold serveri [1]
- Ak vypocet dlho trva, pozrite si vysledok tu
- Podoba sa na strukturu zobrazenu v Rfame? v com sa lisi?
- RNA dizajn: mozete sa skusit zahrat na stranke http://www.eternagame.org/web/
PSI BLAST
- Toto cvičenie je z časti inšpirované stránkou [2]
- Budeme uvažovať vzdialene podobné enzýmy
- Skúsme nájsť túto podobnosť v BLASTe: http://blast.ncbi.nlm.nih.gov/ v časti proteíny, zvoľme databázu Swissport, ako Query zadajme Accesion nášho proteínu P49789, spustime program PSI-BLAST
- V prvom kole PSI-BLAST spúšťa bežný BLASTP
- GAL gén (konkrétne GAL7_HAEIN, accession P31764) sa nachádza medzi výsledkami, ale má príliš vysokú E-value
- Spustíme teraz druhú iteráciu PSI-BLAST, ktorá zostaví profil z proteínov s nízkou E-value v prvej iterácii
- Aká je E-value nájdeného zarovnania?
- Ak by výpočet dlho trval, výsledky sú tu: 1. kolo, 2. kolo
Nadreprezentácia, Uniprot (cvičenie pri počítači)
Data o expresii ludskych genov v roznych tkanivach a podobne v UCSC genome browseri
- Chodte na genome browser http://genome-euro.ucsc.edu/
- Zvolte Tools->Gene Sorter, sort by nechajme Expression (GTEx), a do okienka search zadajme identifikator genu PTPRZ1
- Dostane tabulku genov s podobnym profilom expresie ako PTPRZ1 (červená je vysoká expresia, zelená nízka)
- Zoznam tychto genov v textovom formate najdete tu
- http://biit.cs.ut.ee/gprofiler/ mena genov skopirujme do policka Query, stlacte g:Profile!
- Ak by výpočet dlho trval, nájdete ho aj tu
- Vo výslednej tabuľke je každý riadok jedna funkcna kategoria, v ktorej su geny s tymto profilom expresie nadreprezentovane, kazdy stlpec jeden gen.
- V spodnej casti tabuly su aj asociacie k chorobam a k transkripcnym faktorom, ktore by mohli prislusne geny regulovat
- Co by sme na zaklade nadreprezentovanych kategorii usudzovali o gene PTPRZ1?
- Najdite tento gen v Uniprote (http://www.uniprot.org/), potvrdzuje nase domnienky?
- O mnohých údajoch na stránke sme sa rozprávali na prednáške (GO kategórie, domény, sekundárna a 3D štruktúra)
- na veľa miestach na stránke je uvedené aj odkiaľ jednotlivé údaje pochádzajú
- Všimnime si Pfam domény a pozrime si ich stránku
- Vratme sa do genome browsera, najdime si PTPRZ1 gen v genome [3]
- V browseri su rozne tracky tykajuce sa expresie, napr. GTEx. Precitajte si, co je v tomto tracku zobrazene, zapnite si ho a pozrite si expresiu okolitych genov okolo PTPRZ1
- Kliknite na gen v tracku UCSC known genes. V tabulke uvidite zase prehlad expresie v roznych tkanivach (podla GTEx)
Objavenie génu HAR1 pomocou komparatívnej genomiky
- Pollard KS, Salama SR, Lambert N, et al. (September 2006). "An RNA gene expressed during cortical development evolved rapidly in humans". Nature 443 (7108): 167–72. doi:10.1038/nature05113. PMID 16915236. pdf
- Zobrali všetky regióny dĺžky aspoň 100bp s > 96% podobnosťou medzi šimpanzom a myšou/potkanom (35,000)
- Porovnali s ostatnými cicavcami, zistili, ktoré majú veľa mutáci v človeku, ale málo inde (pravdepodobnostný model)
- 49 štatisticky významných regiónov, 96% nekódujúcich oblastiach
- Najvýznamnejší HAR1: 118nt, 18 substitúcii u človeka, očakávali by sme 0.27. Iba 2 zmeny medzi šimpanzom a sliepkou (310 miliónov rokov), ale nebol nájdený v rybách a žabe.
- Nezdá sa byť polymorfný u človeka
- Prekrývajúce sa RNA gény HAR1A a HAR1B
- HAR1A je exprimovaný v neokortexe u 7 a 9 týždenných embrií, neskôr aj v iných častiach mozgu (u človeka aj iných primátov)
- Všetky substitúcie v človeku A/T->C/G, stabilnejšia RNA štruktúra (ale tiež sú blízko k telomére, kde je viacej takýchto mutácii kvôli rekombinácii a biased gene conversion)
Cvičenie pri počítači
- Môžete si pozrieť tento region v browseri: chr20:63102114-63102274 (hg38), pricom ak sa este priblizite, uvidite zarovnanie aj s bazami a mozete vidiet, ze vela zmien je specifickych pre cloveka
Expresia génov
NCBI Gene Expression Omnibus http://www.ncbi.nlm.nih.gov/geo/
- Databaza gene expression dat na NCBI
- Do Search okienka zadajme GDS2925
- Mali by sme dostat dataset Various weak organic acids effect on anaerobic yeast chemostat cultures
- Mozeme si pozriet zakladne udaje, napr. citation, platform
- Link "Expression profiles" nam zobrazi grafy pre rozne geny
- Pri kazdom profile mozeme kliknut na profile neighbors, aby sme videli geny s podobnym profilom
- Data analysis tools, cast Cluster heatmaps, K-means, skuste rozne pocty clustrov
Sekvenčné motívy, program MEME
- Vazobne miesta transkripcnych faktorov sa casto reprezentuju ako sekvencne motivy
- Ak mame skupinu sekvencii, mozeme hladat motiv, ktory maju spolocny
- Znamy program na tento problem je MEME
- Chodte na stranku http://meme-suite.org/
- Zvolte nastroj MEME a v casti Input the primary sequences zvolte Type in sequences a zadajte tieto sekvencie
- Pozrite si ostatne nastavenia. Co asi robia?
- Ak server pocita dlho, mozete si pozriet vysledky tu
Kvasinkové transkripčné faktory v SGD
- Yeast genome database SGD obsahuje pomerne podrobne stranky pre jednotlive transkripcne faktory
- Pozrime si stranku pre transkripcny faktor GAL4 [4]
Uniprot
- Prehladnejsi pohlad na proteiny, vela linkov na ine databazy, cast vytvarana rucne
- Pozrieme sa na známy koronavírusový proteín Spike
- Nájdime ho na stránke http://www.uniprot.org/ pod názvom SPIKE_SARS2
- Pozrime si podrobne jeho stránku, ktoré časti boli predpovedané bioinformatickými metódami z prednášky?
- Všimnime si niektorú Pfam doménu a pozrime si jej stránku
Nussinovovej algoritmus (nerobili sme)
Z cvičných príkladov na skúšku
- Vyplňte maticu dynamického programovania (Nussinovovej algoritmus) pre nájdenie najväčšieho počtu dobre uzátvorkovaných spárovaných báz v RNA sekvencii GAACUUCACUGA (dovoľujeme len komplementárne páry A-U, C-G) a nakreslite sekundárnu štruktúru, ktorú algoritmus našiel.
G A A C U U C A C U G A 0 0 0 1 1 2 3 3 3 4 4 4 G 0 0 0 1 2 2 2 2 3 4 4 A 0 0 1 1 1 2 2 2 3 4 A 0 0 0 0 1 1 1 2 3 C 0 0 0 1 1 1 2 3 U 0 0 1 1 1 2 3 U 0 0 0 1 2 2 C 0 0 1 1 1 A 0 0 1 1 C 0 0 1 U 0 0 G 0 A
- Ako by sme algoritmus upravili, aby dlzka slucky na konci helixu bola vzdy aspon 3?