CB12
Z MBI
Obsah
Zhrnutie semestra a úvod do teórie grafov
- vid prezentacie k cviceniu
Uniprot
- Prehladnejsi pohlad na proteiny, vela linkov na ine databazy, cast vytvarana rucne
- Pozrieme sa na známy koronavírusový proteín Spike
- Nájdime ho na stránke http://www.uniprot.org/ pod názvom SPIKE_SARS2
- Pozrime si podrobne jeho stránku, ktoré časti boli predpovedané bioinformatickými metódami z prednášky?
- Všimnime si niektorú Pfam doménu a pozrime si jej stránku
PSI BLAST
- Toto cvičenie je z časti inšpirované stránkou [1]
- Budeme uvažovať vzdialene podobné enzýmy
- Skúsme nájsť túto podobnosť v BLASTe: http://blast.ncbi.nlm.nih.gov/ v časti proteíny, zvoľme databázu Swissport, ako Query zadajme Accesion nášho proteínu P49789, spustime program PSI-BLAST
- V prvom kole PSI-BLAST spúšťa bežný BLASTP
- GAL gén (konkrétne GAL7_HAEIN, accession P31764) sa nachádza medzi výsledkami, ale má príliš vysokú E-value
- Spustíme teraz druhú iteráciu PSI-BLAST, ktorá zostaví profil z proteínov s nízkou E-value v prvej iterácii
- Aká je E-value nájdeného zarovnania?
- Ak by výpočet dlho trval, výsledky sú tu: 1. kolo, 2. kolo
Populacna genomika v UCSC genome browseri
Zopar zaujimavych polymorfizmov v ludskom genome
- SNP rs1815739 CC: SNPedia, genome browser
- SNP rs12255372 GT: SNPedia, genome browser
- SNP rs2472297 TT: SNPedia, genome browser
- Ďalšie zaujímavé SNPy: rs10427255 CC, rs671 GG, rs713598 GG, rs17822931 CT, rs4988235 CC, rs1042725 CC, rs7495174 AA, rs1426654 AA, rs4481887 AG
- V browseri si vsimnite tracky (specificke pre verziu genomu hg19):
- HGDP Allele Freq s mapou sveta s distribuciou alel
- Genome Variants obsahuje genomy niekolkych ludi, napr Jima Watsona
- Takisto sa da pozriet genom ludi z jaskyne Denisova a Neandertalcov
UCSC genome browser ma aj dalsie tracky tykajuce sa populacnej genomiky a polymorfizmov
- Pozrime si napriklad region chr2:46,570,000-46,630,000 v hg38
- V casti Phenotype and Disease Associations
- napr. ClinGen CNVs a ClinVar Variants obsahuju asociacie variantov k chorobam
- GWAS Catalog sú výsledky GWAS štúdií
V starsej verzii ludskeho genomu hg18 je aj trojuholnikovy graf vazbovej nerovnovahy
- region chr2:164,862-426,468 v hg18
- zapnite "HapMap LD Phased" na Full (cast Variation and Repeats)
- vsimnite si, ze miery LD sa medzi ludskymi podpopulaciami lisia (YRI: Nigeria; CEU: Europa; JPT+CHB: Japonsko, Cina)
Gény, evolúcia a komparatívna genomika v UCSC genome browseri (cvičenie pri počítači)
- Zobrazme si gén CLCA4 [2]
- Zapnite si štandardnú sadu track-ov
- Po kliknutí na gén si môžete prečítať o jeho funkcii, po kliknutí na ľavú lištu alebo na názov tracku v zozname na spodku stránky si môžete prečítať viac o tracku a meniť nastavenia
- V tracku RefSeq genes si všimnite, že v tejto databáze má tento gén dve formy zostrihu, jedna z nich sa považuje za nekódujúcu, pretína sa aj s necharakterizovanou nekódujúcou RNA na opačnom vlákne
- Track RefSeq a jeho subtrack RefSeq Curated treba zapnut na pack
- Nižšie vidíte track H3K27Ac Mark (Often Found Near Regulatory Elements) on 7 cell lines from ENCODE, kde bola táto histónová modifikácia v okolí génu detegovaná?
- Všimnite si aj track DNase I Hypersensitivity, ktorý zobrazuje otvorený chromatin, prístupný pre viazanie transkripčných faktorov. Všimnite si jeho súvis s H3K27Ac trackom
- Obidva tracky sú súčasťou tracku ENCODE regulation, v ktorom si môžete zapnúť aj ďalšie pod-tracky
- Vsimnime si track Vertebrate Multiz Alignment & Conservation (100 Species)
- v spodnej casti tracku vidime zarovnania s roznymi inymi genomami
- v nastaveniach tracku zapnite Element Conservation (phastCons) na full a Conserved Elements na dense
- v tomto tracku vidíme PhyloP, co zobrazuje uroven konzerovanosti danej bazy len na zaklade jedneho stlpca zarovnania a dva vysledky z phyloHMM phastCons, ktory berie do uvahy aj okolite stlpce
- Konkretne cast Conserved elements zobrazuje konkretne useky, ktore su najvac konzervovane
- Ak chceme zistit, kolko percent genomu tieto useky pokryvaju, ideme na modrej liste do casti Tools->Table browser, zvolime group Comparative genomics, track Conservation, table 100 Vert. El, region zvolime genome (v celom genome) a stlacime tlacidlo Summary/statistics, dostaneme nieco taketo:
item count | 10,350,729 |
item bases | 162,179,256 (5.32%) |
item total | 162,179,256 (5.32%) |
smallest item | 1 |
average item | 16 |
biggest item | 3,732 |
smallest score | 186 |
average score | 333 |
biggest score | 1,000 |
- Ak by nas zaujimali iba velmi dlhe "conserved elements", v Table browser stlacime tlacidlo Filter a na dalsej obrazovke do policka Free-form query dame chromEnd-chromStart>=1500
- Potom mozeme skusit Summary/Statistics alebo vystup typu Hyperlinks to genome browser a Get output - dostaneme zoznam tychto elementov a kazdy si mozeme jednym klikom pozriet v browseri, napr. taketo
- Pozrime si teraz ten isty gen CLCA4 v starsej verzii genomu hg18 [3]
- V casti Genes and Gene Prediction Tracks zapnite track Pos Sel Genes, ktory obsahuje geny s pozitivnym vyberom (cervenou, pripadne slabsie fialovou a modrou)
- Ked kliknete na cerveny obdlznik pre tento gen, uvidite, v ktorych castiach fylogenetickeho stromu bol detegovany pozitivny vyber
- Po priblizeni do jedneho z exonov [4] vidite dosledky nesynonymnych mutacii
Poznamka: Existuju aj webservery na predikciu pozitivneho vyberu, napriklad tieto dva: