1-BIN-301, 2-AIN-501 Methods in Bioinformatics, 2022/23
CB10: Rozdiel medzi revíziami
Z MBI
(7 intermediate revisions by the same user not shown) | |||
Riadok 1: | Riadok 1: | ||
− | ==Nussinovovej algoritmus== | + | ==Gény, evolúcia a komparatívna genomika v UCSC genome browseri (cvičenie pri počítači)== |
+ | |||
+ | K hladaniu genov pozri aj prezentaciu {{pdf|Cb-gene}} | ||
+ | |||
+ | Histónové modifikácie | ||
+ | * A. Barski, S. Cuddapah, K. Cui, T. Roh, D. Schones, Z. Wang, G. Wei, I. Chepelev, K. Zhao (2007) High-Resolution Profiling of Histone Methylations in the Human Genome Cell, Volume 129, Issue 4, Pages 823-837 [http://www.columbia.edu/cu/biology/courses/w3034/LACpapers/barskiMethylSolexCell07.pdf pdf] | ||
+ | |||
+ | |||
+ | * Zobrazme si gén CLCA4 [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg38&position=chr1%3A86538658-86589173] | ||
+ | * Zapnite si štandardnú sadu track-ov | ||
+ | * Po kliknutí na gén si môžete prečítať o jeho funkcii, po kliknutí na ľavú lištu alebo na názov tracku v zozname na spodku stránky si môžete prečítať viac o tracku a meniť nastavenia | ||
+ | * V tracku RefSeq genes si všimnite, že v tejto databáze má tento gén dve formy zostrihu, jedna z nich sa považuje za nekódujúcu, pretína sa aj s necharakterizovanou nekódujúcou RNA na opačnom vlákne | ||
+ | ** Track RefSeq a jeho subtrack RefSeq Curated treba zapnut na pack | ||
+ | * Nižšie vidíte track H3K27Ac Mark (Often Found Near Regulatory Elements) on 7 cell lines from ENCODE, kde bola táto histónová modifikácia v okolí génu detegovaná? | ||
+ | * Všimnite si aj track DNase I Hypersensitivity, ktorý zobrazuje otvorený chromatin, prístupný pre viazanie transkripčných faktorov. Všimnite si jeho súvis s H3K27Ac trackom | ||
+ | * Obidva tracky sú súčasťou tracku ENCODE regulation, v ktorom si môžete zapnúť aj ďalšie pod-tracky | ||
+ | * Takisto v tracku GTEx vidíme, v ktorých tkanivách je gén exprimovaný, porovnajte s okolitými génmi | ||
+ | |||
+ | |||
+ | * Vsimnime si track Vertebrate Multiz Alignment & Conservation (100 Species) | ||
+ | ** v spodnej casti tracku vidime zarovnania s roznymi inymi genomami | ||
+ | ** v nastaveniach tracku zapnite Element Conservation (phastCons) na full a Conserved Elements na dense | ||
+ | ** v tomto tracku vidíme PhyloP, co zobrazuje uroven konzerovanosti danej bazy len na zaklade jedneho stlpca zarovnania a dva vysledky z phyloHMM phastCons, ktory berie do uvahy aj okolite stlpce | ||
+ | * Konkretne cast Conserved elements zobrazuje konkretne useky, ktore su najvac konzervovane | ||
+ | ** Ak chceme zistit, kolko percent genomu tieto useky pokryvaju, ideme na modrej liste do casti Tools->Table browser, zvolime group Comparative genomics, track Conservation, table 100 Vert. El, region zvolime genome (v celom genome) a stlacime tlacidlo Summary/statistics, dostaneme nieco taketo: | ||
+ | <TABLE border=1> | ||
+ | <TR><TD>item count</TD><TD ALIGN=RIGHT>10,350,729</TD></TR> | ||
+ | <TR><TD>item bases</TD><TD ALIGN=RIGHT>162,179,256 (5.32%)</TD></TR> | ||
+ | <TR><TD>item total</TD><TD ALIGN=RIGHT>162,179,256 (5.32%)</TD></TR> | ||
+ | <TR><TD>smallest item</TD><TD ALIGN=RIGHT>1</TD></TR> | ||
+ | <TR><TD>average item</TD><TD ALIGN=RIGHT>16</TD></TR> | ||
+ | <TR><TD>biggest item</TD><TD ALIGN=RIGHT>3,732</TD></TR> | ||
+ | <TR><TD>smallest score</TD><TD ALIGN=RIGHT>186</TD></TR> | ||
+ | <TR><TD>average score</TD><TD ALIGN=RIGHT>333</TD></TR> | ||
+ | <TR><TD>biggest score</TD><TD ALIGN=RIGHT>1,000</TD></TR> | ||
+ | </TABLE> | ||
+ | ** Ak by nas zaujimali iba velmi dlhe "conserved elements", v Table browser stlacime tlacidlo Filter a na dalsej obrazovke do policka Free-form query dame '''chromEnd-chromStart>=1500''' | ||
+ | ** Potom mozeme skusit Summary/Statistics alebo vystup typu Hyperlinks to genome browser a Get output - dostaneme zoznam tychto elementov a kazdy si mozeme jednym klikom pozriet v browseri, napr. taketo | ||
+ | *** [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg38&position=chr1:50201403-50203312 lod=24051 at chr1:50201403-50203312] | ||
+ | *** [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg38&position=chr1:55663689-55667047 lod=1899 at chr1:55663689-55667047] atd | ||
+ | |||
+ | * Pozrime si teraz ten isty gen CLCA4 v starsej verzii genomu hg18 [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg18&position=chr1%3A86776929-86827444] | ||
+ | ** V casti Genes and Gene Prediction Tracks zapnite track Pos Sel Genes, ktory obsahuje geny s '''pozitivnym vyberom''' (cervenou, pripadne slabsie fialovou a modrou) | ||
+ | ** Ked kliknete na cerveny obdlznik pre tento gen, uvidite, v ktorych castiach fylogenetickeho stromu bol detegovany pozitivny vyber | ||
+ | ** Po priblizeni do jedneho z exonov [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg18&position=chr1%3A86805823-86805917] vidite dosledky nesynonymnych mutacii | ||
+ | |||
+ | Poznamka: Existuju aj webservery na predikciu pozitivneho vyberu, napriklad tieto dva: | ||
+ | * [http://selecton.tau.ac.il/ Selecton], [http://www.tau.ac.il/~talp/publications/selecton2007.pdf clanok] | ||
+ | * [http://www.datamonkey.org/ Data monkey] [http://mbe.oxfordjournals.org/cgi/content/abstract/22/5/1208 clanok] | ||
+ | * Skusili sme na Selecton poslat CLCA4 zo 7 cicavcov, subor tu: [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb07/clca4.mfa] | ||
+ | ** vysledky [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb07/clca4-selecton.html] a [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb07/clca4-omega.txt] (metoda ale odporuca aspon 10 homologov) | ||
+ | |||
+ | ==Objavenie génu HAR1 pomocou komparatívnej genomiky== | ||
+ | * {{cite journal |author=Pollard KS, Salama SR, Lambert N, ''et al.'' |title=An RNA gene expressed during cortical development evolved rapidly in humans |journal=Nature |volume=443 |issue=7108 |pages=167–72 |year=2006 |month=September |pmid=16915236 |doi=10.1038/nature05113 |url=}} [http://ribonode.ucsc.edu/Pubs/Pollard_etal06.pdf pdf] | ||
+ | * Zobrali všetky regióny dĺžky aspoň 100bp s > 96% podobnosťou medzi šimpanzom a myšou/potkanom (35,000) | ||
+ | * Porovnali s ostatnými cicavcami, zistili, ktoré majú veľa mutáci v človeku, ale málo inde (pravdepodobnostný model) | ||
+ | * 49 štatisticky významných regiónov, 96% nekódujúcich oblastiach | ||
+ | * Najvýznamnejší HAR1: 118nt, 18 substitúcii u človeka, očakávali by sme 0.27. Iba 2 zmeny medzi šimpanzom a sliepkou (310 miliónov rokov), ale nebol nájdený v rybách a žabe. | ||
+ | * Nezdá sa byť polymorfný u človeka | ||
+ | * Prekrývajúce sa RNA gény HAR1A a HAR1B | ||
+ | * HAR1A je exprimovaný v neokortexe u 7 a 9 týždenných embrií, neskôr aj v iných častiach mozgu (u človeka aj iných primátov) | ||
+ | * Všetky substitúcie v človeku A/T->C/G, stabilnejšia RNA štruktúra (ale tiež sú blízko k telomére, kde je viacej takýchto mutácii kvôli rekombinácii a biased gene conversion) | ||
+ | |||
+ | ===Cvičenie pri počítači=== | ||
+ | * Môžete si pozrieť tento region v browseri: [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg38&position=chr20%3A63102114-63102274 '''chr20:63102114-63102274''' (hg38)], pricom ak sa este priblizite, uvidite zarovnanie aj s bazami a mozete vidiet, ze vela zmien je specifickych pre cloveka | ||
+ | |||
+ | ==Uniprot== | ||
+ | * Prehladnejsi pohlad na proteiny, vela linkov na ine databazy, cast vytvarana rucne | ||
+ | ** Pozrieme sa na známy koronavírusový proteín Spike | ||
+ | ** Nájdime ho na stránke http://www.uniprot.org/ pod názvom SPIKE_SARS2 | ||
+ | ** Pozrime si podrobne jeho stránku, ktoré časti boli predpovedané bioinformatickými metódami z prednášky? | ||
+ | ** Všimnime si niektorú Pfam doménu a pozrime si jej stránku | ||
+ | |||
+ | ==Nussinovovej algoritmus (nerobili sme)== | ||
Z cvičných príkladov na skúšku | Z cvičných príkladov na skúšku | ||
* Vyplňte maticu dynamického programovania (Nussinovovej algoritmus) pre nájdenie najväčšieho počtu dobre uzátvorkovaných spárovaných báz v RNA sekvencii GAACUUCACUGA (dovoľujeme len komplementárne páry A-U, C-G) a nakreslite sekundárnu štruktúru, ktorú algoritmus našiel. | * Vyplňte maticu dynamického programovania (Nussinovovej algoritmus) pre nájdenie najväčšieho počtu dobre uzátvorkovaných spárovaných báz v RNA sekvencii GAACUUCACUGA (dovoľujeme len komplementárne páry A-U, C-G) a nakreslite sekundárnu štruktúru, ktorú algoritmus našiel. | ||
− | |||
<pre> | <pre> | ||
G A A C U U C A C U G A | G A A C U U C A C U G A | ||
Riadok 19: | Riadok 91: | ||
0 A | 0 A | ||
</pre> | </pre> | ||
− | |||
* Ako by sme algoritmus upravili, aby dlzka slucky na konci helixu bola vzdy aspon 3? | * Ako by sme algoritmus upravili, aby dlzka slucky na konci helixu bola vzdy aspon 3? | ||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− |
Verzia zo dňa a času 13:36, 9. december 2021
Obsah
Gény, evolúcia a komparatívna genomika v UCSC genome browseri (cvičenie pri počítači)
K hladaniu genov pozri aj prezentaciu pdf
Histónové modifikácie
- A. Barski, S. Cuddapah, K. Cui, T. Roh, D. Schones, Z. Wang, G. Wei, I. Chepelev, K. Zhao (2007) High-Resolution Profiling of Histone Methylations in the Human Genome Cell, Volume 129, Issue 4, Pages 823-837 pdf
- Zobrazme si gén CLCA4 [1]
- Zapnite si štandardnú sadu track-ov
- Po kliknutí na gén si môžete prečítať o jeho funkcii, po kliknutí na ľavú lištu alebo na názov tracku v zozname na spodku stránky si môžete prečítať viac o tracku a meniť nastavenia
- V tracku RefSeq genes si všimnite, že v tejto databáze má tento gén dve formy zostrihu, jedna z nich sa považuje za nekódujúcu, pretína sa aj s necharakterizovanou nekódujúcou RNA na opačnom vlákne
- Track RefSeq a jeho subtrack RefSeq Curated treba zapnut na pack
- Nižšie vidíte track H3K27Ac Mark (Often Found Near Regulatory Elements) on 7 cell lines from ENCODE, kde bola táto histónová modifikácia v okolí génu detegovaná?
- Všimnite si aj track DNase I Hypersensitivity, ktorý zobrazuje otvorený chromatin, prístupný pre viazanie transkripčných faktorov. Všimnite si jeho súvis s H3K27Ac trackom
- Obidva tracky sú súčasťou tracku ENCODE regulation, v ktorom si môžete zapnúť aj ďalšie pod-tracky
- Takisto v tracku GTEx vidíme, v ktorých tkanivách je gén exprimovaný, porovnajte s okolitými génmi
- Vsimnime si track Vertebrate Multiz Alignment & Conservation (100 Species)
- v spodnej casti tracku vidime zarovnania s roznymi inymi genomami
- v nastaveniach tracku zapnite Element Conservation (phastCons) na full a Conserved Elements na dense
- v tomto tracku vidíme PhyloP, co zobrazuje uroven konzerovanosti danej bazy len na zaklade jedneho stlpca zarovnania a dva vysledky z phyloHMM phastCons, ktory berie do uvahy aj okolite stlpce
- Konkretne cast Conserved elements zobrazuje konkretne useky, ktore su najvac konzervovane
- Ak chceme zistit, kolko percent genomu tieto useky pokryvaju, ideme na modrej liste do casti Tools->Table browser, zvolime group Comparative genomics, track Conservation, table 100 Vert. El, region zvolime genome (v celom genome) a stlacime tlacidlo Summary/statistics, dostaneme nieco taketo:
item count | 10,350,729 |
item bases | 162,179,256 (5.32%) |
item total | 162,179,256 (5.32%) |
smallest item | 1 |
average item | 16 |
biggest item | 3,732 |
smallest score | 186 |
average score | 333 |
biggest score | 1,000 |
- Ak by nas zaujimali iba velmi dlhe "conserved elements", v Table browser stlacime tlacidlo Filter a na dalsej obrazovke do policka Free-form query dame chromEnd-chromStart>=1500
- Potom mozeme skusit Summary/Statistics alebo vystup typu Hyperlinks to genome browser a Get output - dostaneme zoznam tychto elementov a kazdy si mozeme jednym klikom pozriet v browseri, napr. taketo
- Pozrime si teraz ten isty gen CLCA4 v starsej verzii genomu hg18 [2]
- V casti Genes and Gene Prediction Tracks zapnite track Pos Sel Genes, ktory obsahuje geny s pozitivnym vyberom (cervenou, pripadne slabsie fialovou a modrou)
- Ked kliknete na cerveny obdlznik pre tento gen, uvidite, v ktorych castiach fylogenetickeho stromu bol detegovany pozitivny vyber
- Po priblizeni do jedneho z exonov [3] vidite dosledky nesynonymnych mutacii
Poznamka: Existuju aj webservery na predikciu pozitivneho vyberu, napriklad tieto dva:
- Selecton, clanok
- Data monkey clanok
- Skusili sme na Selecton poslat CLCA4 zo 7 cicavcov, subor tu: [4]
Objavenie génu HAR1 pomocou komparatívnej genomiky
- Pollard KS, Salama SR, Lambert N, et al. (September 2006). "An RNA gene expressed during cortical development evolved rapidly in humans". Nature 443 (7108): 167–72. doi:10.1038/nature05113. PMID 16915236. pdf
- Zobrali všetky regióny dĺžky aspoň 100bp s > 96% podobnosťou medzi šimpanzom a myšou/potkanom (35,000)
- Porovnali s ostatnými cicavcami, zistili, ktoré majú veľa mutáci v človeku, ale málo inde (pravdepodobnostný model)
- 49 štatisticky významných regiónov, 96% nekódujúcich oblastiach
- Najvýznamnejší HAR1: 118nt, 18 substitúcii u človeka, očakávali by sme 0.27. Iba 2 zmeny medzi šimpanzom a sliepkou (310 miliónov rokov), ale nebol nájdený v rybách a žabe.
- Nezdá sa byť polymorfný u človeka
- Prekrývajúce sa RNA gény HAR1A a HAR1B
- HAR1A je exprimovaný v neokortexe u 7 a 9 týždenných embrií, neskôr aj v iných častiach mozgu (u človeka aj iných primátov)
- Všetky substitúcie v človeku A/T->C/G, stabilnejšia RNA štruktúra (ale tiež sú blízko k telomére, kde je viacej takýchto mutácii kvôli rekombinácii a biased gene conversion)
Cvičenie pri počítači
- Môžete si pozrieť tento region v browseri: chr20:63102114-63102274 (hg38), pricom ak sa este priblizite, uvidite zarovnanie aj s bazami a mozete vidiet, ze vela zmien je specifickych pre cloveka
Uniprot
- Prehladnejsi pohlad na proteiny, vela linkov na ine databazy, cast vytvarana rucne
- Pozrieme sa na známy koronavírusový proteín Spike
- Nájdime ho na stránke http://www.uniprot.org/ pod názvom SPIKE_SARS2
- Pozrime si podrobne jeho stránku, ktoré časti boli predpovedané bioinformatickými metódami z prednášky?
- Všimnime si niektorú Pfam doménu a pozrime si jej stránku
Nussinovovej algoritmus (nerobili sme)
Z cvičných príkladov na skúšku
- Vyplňte maticu dynamického programovania (Nussinovovej algoritmus) pre nájdenie najväčšieho počtu dobre uzátvorkovaných spárovaných báz v RNA sekvencii GAACUUCACUGA (dovoľujeme len komplementárne páry A-U, C-G) a nakreslite sekundárnu štruktúru, ktorú algoritmus našiel.
G A A C U U C A C U G A 0 0 0 1 1 2 3 3 3 4 4 4 G 0 0 0 1 2 2 2 2 3 4 4 A 0 0 1 1 1 2 2 2 3 4 A 0 0 0 0 1 1 1 2 3 C 0 0 0 1 1 1 2 3 U 0 0 1 1 1 2 3 U 0 0 0 1 2 2 C 0 0 1 1 1 A 0 0 1 1 C 0 0 1 U 0 0 G 0 A
- Ako by sme algoritmus upravili, aby dlzka slucky na konci helixu bola vzdy aspon 3?