1-BIN-301, 2-AIN-501 Methods in Bioinformatics

Website moved to https://fmfi-compbio.github.io/mbi/


CB12

Z MBI
Prejsť na: navigácia, hľadanie

Zhrnutie semestra a úvod do teórie grafov

  • vid prezentacie k cviceniu


Populacna genomika v UCSC genome browseri

Zopar zaujimavych polymorfizmov v ludskom genome

  • SNP rs1815739 CC: SNPedia, genome browser
  • SNP rs12255372 GT: SNPedia, genome browser
  • SNP rs2472297 TT: SNPedia, genome browser
  • Ďalšie zaujímavé SNPy: rs10427255 CC, rs671 GG, rs713598 GG, rs17822931 CT, rs4988235 CC, rs1042725 CC, rs7495174 AA, rs1426654 AA, rs4481887 AG
  • V browseri si vsimnite tracky (specificke pre verziu genomu hg19):
    • HGDP Allele Freq s mapou sveta s distribuciou alel
    • Genome Variants obsahuje genomy niekolkych ludi, napr Jima Watsona
    • Takisto sa da pozriet genom ludi z jaskyne Denisova a Neandertalcov

UCSC genome browser ma aj dalsie tracky tykajuce sa populacnej genomiky a polymorfizmov

  • Pozrime si napriklad region chr2:46,570,000-46,630,000 v hg38
  • V casti Phenotype and Disease Associations
    • napr. ClinGen CNVs a ClinVar Variants obsahuju asociacie variantov k chorobam
    • GWAS Catalog sú výsledky GWAS štúdií


V starsej verzii ludskeho genomu hg18 je aj trojuholnikovy graf vazbovej nerovnovahy

  • region chr2:164,862-426,468 v hg18
  • zapnite "HapMap LD Phased" na Full (cast Variation and Repeats)
  • vsimnite si, ze miery LD sa medzi ludskymi podpopulaciami lisia (YRI: Nigeria; CEU: Europa; JPT+CHB: Japonsko, Cina)

Sekvenčné motívy, program MEME

  • Vazobne miesta transkripcnych faktorov sa casto reprezentuju ako sekvencne motivy
  • Ak mame skupinu sekvencii, mozeme hladat motiv, ktory maju spolocny
  • Znamy program na tento problem je MEME
  • Chodte na stranku http://meme-suite.org/
  • Zvolte nastroj MEME a v casti Input the primary sequences zvolte Type in sequences a zadajte tieto sekvencie
  • Pozrite si ostatne nastavenia. Co asi robia?
  • Ak server pocita dlho, mozete si pozriet vysledky tu

Gény, evolúcia a komparatívna genomika v UCSC genome browseri (cvičenie pri počítači)

  • Zobrazme si gén CLCA4 [1]
  • Zapnite si štandardnú sadu track-ov
  • Po kliknutí na gén si môžete prečítať o jeho funkcii, po kliknutí na ľavú lištu alebo na názov tracku v zozname na spodku stránky si môžete prečítať viac o tracku a meniť nastavenia
  • V tracku RefSeq genes si všimnite, že v tejto databáze má tento gén dve formy zostrihu, jedna z nich sa považuje za nekódujúcu, pretína sa aj s necharakterizovanou nekódujúcou RNA na opačnom vlákne
    • Track RefSeq a jeho subtrack RefSeq Curated treba zapnut na pack
  • Nižšie vidíte track H3K27Ac Mark (Often Found Near Regulatory Elements) on 7 cell lines from ENCODE, kde bola táto histónová modifikácia v okolí génu detegovaná?
  • Všimnite si aj track DNase I Hypersensitivity, ktorý zobrazuje otvorený chromatin, prístupný pre viazanie transkripčných faktorov. Všimnite si jeho súvis s H3K27Ac trackom
  • Obidva tracky sú súčasťou tracku ENCODE regulation, v ktorom si môžete zapnúť aj ďalšie pod-tracky
  • Vsimnime si track Vertebrate Multiz Alignment & Conservation (100 Species)
    • v spodnej casti tracku vidime zarovnania s roznymi inymi genomami
    • v nastaveniach tracku zapnite Element Conservation (phastCons) na full a Conserved Elements na dense
    • v tomto tracku vidíme PhyloP, co zobrazuje uroven konzerovanosti danej bazy len na zaklade jedneho stlpca zarovnania a dva vysledky z phyloHMM phastCons, ktory berie do uvahy aj okolite stlpce
  • Konkretne cast Conserved elements zobrazuje konkretne useky, ktore su najvac konzervovane
    • Ak chceme zistit, kolko percent genomu tieto useky pokryvaju, ideme na modrej liste do casti Tools->Table browser, zvolime group Comparative genomics, track Conservation, table 100 Vert. El, region zvolime genome (v celom genome) a stlacime tlacidlo Summary/statistics, dostaneme nieco taketo:
item count10,350,729
item bases162,179,256 (5.32%)
item total162,179,256 (5.32%)
smallest item1
average item16
biggest item3,732
smallest score186
average score333
biggest score1,000
    • Ak by nas zaujimali iba velmi dlhe "conserved elements", v Table browser stlacime tlacidlo Filter a na dalsej obrazovke do policka Free-form query dame chromEnd-chromStart>=1500
    • Potom mozeme skusit Summary/Statistics alebo vystup typu Hyperlinks to genome browser a Get output - dostaneme zoznam tychto elementov a kazdy si mozeme jednym klikom pozriet v browseri, napr. taketo
  • Pozrime si teraz ten isty gen CLCA4 v starsej verzii genomu hg18 [2]
    • V casti Genes and Gene Prediction Tracks zapnite track Pos Sel Genes, ktory obsahuje geny s pozitivnym vyberom (cervenou, pripadne slabsie fialovou a modrou)
    • Ked kliknete na cerveny obdlznik pre tento gen, uvidite, v ktorych castiach fylogenetickeho stromu bol detegovany pozitivny vyber
    • Po priblizeni do jedneho z exonov [3] vidite dosledky nesynonymnych mutacii

Poznamka: Existuju aj webservery na predikciu pozitivneho vyberu, napriklad tieto dva: