1-BIN-301, 2-AIN-501 Methods in Bioinformatics

Website moved to https://fmfi-compbio.github.io/mbi/


CB12: Rozdiel medzi revíziami

Z MBI
Prejsť na: navigácia, hľadanie
(Sekvenovanie v UCSC genome browseri)
(Staršie cvičenia)
 
(7 intermediate revisions by the same user not shown)
Riadok 2: Riadok 2:
 
* vid prezentacie k cviceniu
 
* vid prezentacie k cviceniu
  
==Uniprot==
 
* Prehladnejsi pohlad na proteiny, vela linkov na ine databazy, cast vytvarana rucne
 
** Pozrieme sa na známy koronavírusový proteín Spike
 
** Nájdime ho na stránke http://www.uniprot.org/ pod názvom SPIKE_SARS2
 
** Pozrime si podrobne jeho stránku, ktoré časti boli predpovedané bioinformatickými metódami z prednášky?
 
** Všimnime si niektorú Pfam doménu a pozrime si jej stránku
 
 
==PSI BLAST==
 
* Toto cvičenie je z časti inšpirované stránkou [http://www.ncbi.nlm.nih.gov/Class/FieldGuide/problem_set.html]
 
* Budeme uvažovať vzdialene podobné enzýmy
 
** Bis(5'-adenosyl)-triphosphatase ([http://www.uniprot.org/uniprot/P49789 Uniprot])
 
** Galactose-1-phosphate uridylyltransferase (GALT/GAL7) ([http://www.uniprot.org/uniprot/P31764 Uniprot])
 
** Ich domény patria v databáze Pfam do toho istého klanu
 
* Skúsme nájsť túto podobnosť v BLASTe: http://blast.ncbi.nlm.nih.gov/ v časti proteíny, zvoľme databázu Swissport, ako Query zadajme Accesion nášho proteínu P49789, spustime program PSI-BLAST
 
* V prvom kole PSI-BLAST spúšťa bežný BLASTP
 
* GAL gén (konkrétne GAL7_HAEIN, accession P31764) sa nachádza medzi výsledkami, ale má príliš vysokú E-value
 
* Spustíme teraz druhú iteráciu PSI-BLAST, ktorá zostaví profil z proteínov s nízkou E-value v prvej iterácii
 
* Aká je E-value nájdeného zarovnania?
 
* Ak by výpočet dlho trval, výsledky sú tu: [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb08/psi-blast1.html 1. kolo], [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb08/psi-blast2.html 2. kolo]
 
  
 
==Populacna genomika v UCSC genome browseri==
 
==Populacna genomika v UCSC genome browseri==
Riadok 37: Riadok 18:
 
* Pozrime si napriklad region [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg38&position=chr2:46,570,000-46,630,000 chr2:46,570,000-46,630,000 v hg38]
 
* Pozrime si napriklad region [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg38&position=chr2:46,570,000-46,630,000 chr2:46,570,000-46,630,000 v hg38]
 
* V casti Phenotype and Disease Associations  
 
* V casti Phenotype and Disease Associations  
** napr. ClinGen CNVs a ClinVar Variants obsahuju asociacie variantov k chorobam
+
** napr. OMIM Alleles obsahuju asociacie variantov k chorobam
 
** GWAS Catalog sú výsledky GWAS štúdií
 
** GWAS Catalog sú výsledky GWAS štúdií
  
Riadok 46: Riadok 27:
 
* vsimnite si, ze miery LD sa medzi ludskymi podpopulaciami lisia (YRI: Nigeria; CEU: Europa; JPT+CHB: Japonsko, Cina)
 
* vsimnite si, ze miery LD sa medzi ludskymi podpopulaciami lisia (YRI: Nigeria; CEU: Europa; JPT+CHB: Japonsko, Cina)
  
==Gény, evolúcia a komparatívna genomika v UCSC genome browseri (cvičenie pri počítači)==
+
==Sekvenčné motívy, program MEME==
 
+
* Zobrazme si gén CLCA4 [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg38&position=chr1%3A86538658-86589173]
+
* Zapnite si štandardnú sadu track-ov
+
* Po kliknutí na gén si môžete prečítať o jeho funkcii, po kliknutí na ľavú lištu alebo na názov tracku v zozname na spodku stránky si môžete prečítať viac o tracku a meniť nastavenia
+
* V tracku RefSeq genes si všimnite, že v tejto databáze má tento gén dve formy zostrihu, jedna z nich sa považuje za nekódujúcu, pretína sa aj s necharakterizovanou nekódujúcou RNA na opačnom vlákne
+
** Track RefSeq a jeho subtrack RefSeq Curated treba zapnut na pack
+
* Nižšie vidíte track H3K27Ac Mark (Often Found Near Regulatory Elements) on 7 cell lines from ENCODE, kde bola táto histónová modifikácia v okolí génu detegovaná?
+
* Všimnite si aj track DNase I Hypersensitivity, ktorý zobrazuje otvorený chromatin, prístupný pre viazanie transkripčných faktorov. Všimnite si jeho súvis s H3K27Ac trackom
+
* Obidva tracky sú súčasťou tracku ENCODE regulation, v ktorom si môžete zapnúť aj ďalšie pod-tracky
+
 
+
* Vsimnime si track Vertebrate Multiz Alignment & Conservation (100 Species)
+
** v spodnej casti tracku vidime zarovnania s roznymi inymi genomami
+
** v nastaveniach tracku zapnite Element Conservation (phastCons) na full a Conserved Elements na dense
+
** v tomto tracku vidíme PhyloP, co zobrazuje uroven konzerovanosti danej bazy len na zaklade jedneho stlpca zarovnania a dva vysledky z phyloHMM phastCons, ktory berie do uvahy aj okolite stlpce
+
* Konkretne cast Conserved elements zobrazuje konkretne useky, ktore su najvac konzervovane
+
** Ak chceme zistit, kolko percent genomu tieto useky pokryvaju, ideme na modrej liste do casti Tools->Table browser, zvolime group Comparative genomics, track Conservation, table 100 Vert. El, region zvolime genome (v celom genome)  a stlacime tlacidlo Summary/statistics, dostaneme nieco taketo:
+
<TABLE border=1>
+
<TR><TD>item count</TD><TD ALIGN=RIGHT>10,350,729</TD></TR>
+
<TR><TD>item bases</TD><TD ALIGN=RIGHT>162,179,256 (5.32%)</TD></TR>
+
<TR><TD>item total</TD><TD ALIGN=RIGHT>162,179,256 (5.32%)</TD></TR>
+
<TR><TD>smallest item</TD><TD ALIGN=RIGHT>1</TD></TR>
+
<TR><TD>average item</TD><TD ALIGN=RIGHT>16</TD></TR>
+
<TR><TD>biggest item</TD><TD ALIGN=RIGHT>3,732</TD></TR>
+
<TR><TD>smallest score</TD><TD ALIGN=RIGHT>186</TD></TR>
+
<TR><TD>average score</TD><TD ALIGN=RIGHT>333</TD></TR>
+
<TR><TD>biggest score</TD><TD ALIGN=RIGHT>1,000</TD></TR>
+
</TABLE>
+
** Ak by nas zaujimali iba velmi dlhe "conserved elements", v Table browser stlacime tlacidlo Filter a na dalsej obrazovke do policka Free-form query dame '''chromEnd-chromStart>=1500'''
+
** Potom mozeme skusit Summary/Statistics alebo vystup typu Hyperlinks to genome browser a Get output - dostaneme zoznam tychto elementov a kazdy si mozeme jednym klikom pozriet v browseri, napr. taketo
+
*** [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg38&position=chr1:50201403-50203312 lod=24051 at chr1:50201403-50203312]
+
*** [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg38&position=chr1:55663689-55667047 lod=1899 at chr1:55663689-55667047] atd
+
 
+
* Pozrime si teraz ten isty gen CLCA4 v starsej verzii genomu hg18 [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg18&position=chr1%3A86776929-86827444]
+
** V casti Genes and Gene Prediction Tracks zapnite track Pos Sel Genes, ktory obsahuje geny s '''pozitivnym vyberom''' (cervenou, pripadne slabsie fialovou a modrou)
+
** Ked kliknete na cerveny obdlznik pre tento gen, uvidite, v ktorych castiach fylogenetickeho stromu bol detegovany pozitivny vyber
+
** Po priblizeni do jedneho z exonov [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg18&position=chr1%3A86805823-86805917] vidite dosledky nesynonymnych mutacii
+
 
+
Poznamka: Existuju aj webservery na predikciu pozitivneho vyberu, napriklad tieto dva:
+
* [http://selecton.tau.ac.il/ Selecton], [http://www.tau.ac.il/~talp/publications/selecton2007.pdf clanok]
+
* [http://www.datamonkey.org/ Data monkey] [http://mbe.oxfordjournals.org/cgi/content/abstract/22/5/1208 clanok]
+
* Skusili sme na Selecton poslat CLCA4 zo 7 cicavcov, subor tu: [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb07/clca4.mfa]
+
** vysledky [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb07/clca4-selecton.html] a [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb07/clca4-omega.txt] (metoda ale odporuca aspon 10 homologov)
+
 
+
==Ukážka práce v Linuxe==
+
 
+
===Prvá časť - príprava===
+
 
+
* Prihláste sa na server podľa pokynov.
+
* Potom spúšťajte jednotlivé príkazy podľa pokynov nižšie.
+
* Odporúčame príkazy kopírovať myšou (v internetovom prehliadači vysvietiť, stlačiť Ctrl-C, v konzole Ctrl-Shift-V)
+
 
+
 
+
<pre>
+
# riadky začínajúce mrežou # sú komentáre, netreba ich spúšťať
+
 
+
# Dôležité: v príkazoch nižšie xx nahraďte vašim číslom skupiny, napr. 01
+
mkdir xx
+
cd xx
+
# príkaz mkdir (make directory) vytvoril priečinok
+
# príkaz cd (change directory) zmenil váš aktuálny priečinok na tento nový
+
 
+
# v konzole by ste mali mať user@server:~/xx$
+
# kde xx je číslo vašej skupiny, napr. 01
+
 
+
# stiahneme si súbor s dátami zo stránky
+
wget http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb12.zip
+
# rozzipujeme ho
+
unzip cb12.zip
+
</pre>
+
 
+
===Druhá časť - skladanie genómov, mapovanie čítaní, zarovnanie===
+
<pre>
+
# prejdeme na priečinok s prvou časťou ohľadom sekvenovania
+
cd 1-seq
+
 
+
# ls vypíše zoznam súborov v priečinku
+
ls
+
# ls -l vypíše dlhšiu informáciu (long)
+
ls -l
+
# ls -lSh usporiada súbory podľa veľkosti (Size) a veľkosti vypíše priateľskejšie pre ľudí (human)
+
ls -lSh
+
 
+
# mali by sme vidieť kúsok sekvencie z E.coli (prípona .fasta)
+
# a 2 súbory zo sekvenovania prístrojom Illumina Miseq  (prípona .fastaq.gz)
+
# tieto súbory obsahujú čítania z vyššie uvedeného kúsku genómu
+
 
+
 
+
# ideme skladať genóm, bude to trvať dlho, preto to chceme spustiť na pozadí
+
# aby sme mohli medzitým robiť niečo iné
+
screen # stlačte Enter
+
# spustite skladanie programom spades
+
spades.py -t 1 -m 1 --pe1-1 miseq_R1.fastq.gz --pe1-2 miseq_R2.fastq.gz -o spades > spades.log
+
# stlačte naraz Ctrl-a potom d
+
# spades teraz beží na pozadí
+
 
+
# príkaz top zobrazí bežiace procesy
+
# ukončíte ho stlačením q (quit)
+
top
+
 
+
# príkaz less umožňuje prezerať si obsah textového súboru
+
# aj príkaz less ukončíte stlačením q, šípkami sa pohybujete po súbore
+
less ref.fasta
+
# čítania sú komprimované, preto namiesto less použijeme zless
+
zless miseq_R1.fastq.gz
+
# tieto príkazy spočítajú počet riadkov - ako z toho zistíme počet čítaní?
+
zcat miseq_R1.fastq.gz | wc -l
+
zcat miseq_R2.fastq.gz | wc -l
+
 
+
# keď spades skončí, vrátime sa do screen a ukončíme ho
+
screen -r
+
# exit ukončí screen
+
exit
+
 
+
# spades dal výstup do podpriečinku spades, pozrime si ho
+
ls spades
+
# skopírujeme si hlavný výsledok do nášho priečinka (cp = copy)
+
cp -ip spades/contigs.fasta spades.fasta
+
less spades.fasta
+
# pozrime si hlavičky jednotlivých sekvencií vo fasta súbore
+
grep '>' spades.fasta
+
 
+
# programom last si spravíme dotplot referencia vs. naše skladanie
+
# 1) vytvorenie indexu pre referenciu
+
lastdb ref.fasta ref.fasta
+
# 2) samotné zarovnanie
+
lastal -f TAB ref.fasta spades.fasta > aln.tab
+
# 3) vytvorenie obrázku s dotplotom
+
last-dotplot aln.tab aln.png
+
 
+
# a ešte dotplot referencia vs. referencia
+
# 2) samotné zarovnanie (index už máme)
+
lastal -f TAB ref.fasta ref.fasta > aln2.tab
+
# 3) vytvorenie obrázku s dotplotom
+
last-dotplot aln2.tab aln2.png
+
 
+
# pozrieme si dotploty programom eog
+
eog aln.png &
+
eog aln2.png &
+
 
+
 
+
# zarovnajme čítania k referenčnému genómu v 4 krokoch
+
# 1) indexovanie fasta súboru
+
bwa index ref.fasta
+
# 2) samotné zarovnávanie čítaní programom bwa
+
bwa mem ref.fasta miseq_R1.fastq.gz miseq_R2.fastq.gz > ref-miseq.sam
+
# 3) zmeníme textový sam formát na binárny bam formát
+
samtools view -S -b ref-miseq.sam | samtools sort - ref-miseq
+
# 4) vytvoríme index bam súboru
+
samtools index ref-miseq.bam
+
 
+
# pozrime sa na zoznam súborov od najnovšieho po najstarší
+
ls -lth
+
# sam súbor so zarovnaniami sa dá pozrieť, ale nie je veľmi prehľadný
+
less ref-miseq.sam
+
 
+
 
+
# vytvoríme aj zarovnanie nášho poskladaného genómu k referencii vo formáte bam
+
samtools faidx ref.fasta
+
lastal ref.fasta spades.fasta -E1e-20 | maf-convert sam > ref-spades.sam
+
samtools view -S -b -t ref.fasta.fai ref-spades.sam | samtools sort - ref-spades
+
samtools index ref-spades.bam
+
 
+
# výsledky si zobrazíme v grafickom prehliadači igv
+
# obdoba genome browsera, ktorú si môžete nainštalovať na vašom počítači
+
# POZOR: POTREBUJE VEĽA PAMÄTE, SPUSTÍME IBA JEDEN NARAZ
+
igv -g ref.fasta
+
# pomocou Menu->File->Load from File otvorte ref-spades.bam a ref-miseq.bam
+
# pozrime si región ecoli-frag:224,000-244,000
+
#  Vidíte jednotlivé kontigy? Sedí tento pohľad s dotplotom?
+
# a potom bližšie ecoli-frag:227,300-227,600
+
#  Všimnite si sekvenačné chyby rozdiely medzi referenciou a kontigmi
+
</pre>
+
 
+
===Tretia časť - hľadanie génov, RNA-seq===
+
<pre>
+
# v druhom cvičení si vyskúšame hľadanie génov
+
# najskôr sa presuňme do druhého priečinku
+
cd ../2-genes
+
 
+
# pozrime si, aké máme súbory
+
ls -lSh
+
# mali by sme mať kúsok referenčného genómu huby Aspergillus nidulans
+
# fastq súbor s čítaniami z RNA-seq pre tento kúsok referencie
+
# gff súbor s anotáciou génov z databázy
+
  
# spustíme hľadač génov Augustus 2x:
+
* Vazobne miesta transkripcnych faktorov sa casto reprezentuju ako sekvencne motivy
# raz s parametrami priamo pre A.nidulans a raz s parametrami pre ľudský genóm
+
* Ak mame skupinu sekvencii, mozeme hladat motiv, ktory maju spolocny
augustus --species=anidulans ref2.fasta > augustus-anidulans.gtf
+
* Znamy program na tento problem je MEME
augustus --species=human ref2.fasta > augustus-human.gtf
+
* Chodte na stranku http://meme-suite.org/
 +
* Zvolte nastroj MEME a v casti ''Input the primary sequences'' zvolte ''Type in sequences'' a zadajte [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb11/seq.fa tieto sekvencie]
 +
* Pozrite si ostatne nastavenia. Co asi robia?
 +
* Ak server pocita dlho, mozete si pozriet vysledky [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb11/MEME.html tu]
  
# RNA-seq zarovnáme k sekvencii nástrojom tophat2 (podporuje intróny)
+
==Kvasinkové transkripčné faktory v SGD==
bowtie2-build ref2.fasta ref2.fasta
+
* Yeast genome database SGD obsahuje pomerne podrobne stranky pre jednotlive transkripcne faktory
tophat2 -i 10 -I 10000 --max-multihits 1 --output-dir rnaseq ref2.fasta rnaseq.fastq
+
* Pozrime si stranku pre transkripcny faktor GAL4 [http://www.yeastgenome.org/locus/S000006169/regulation]
samtools sort rnaseq/accepted_hits.bam rnaseq
+
samtools index rnaseq.bam
+
  
# predikcie génov a RNA-seq si pozrieme v igv
+
==Staršie cvičenia==
igv -g ref2.fasta
+
* Nadreprezentácia [[CB08#Nadreprezent.C3.A1cia_.28cvi.C4.8Denie_pri_po.C4.8D.C3.ADta.C4.8Di.29|link]]
# v igv si otvorte annot.gff, augustus-anidulans.gtf, augustus-human.gtf, rnaseq.bam
+
# - ktoré parametre Augustusu dali presnejšie predpovede (za predpokladu, že anotácia je správna)
+
# - pozrite si zblízka niektorý gén s vysokou expresiou (napr. druhy gen sprava),
+
#  mali by ste vidieť čítania podporujúce intróny
+
</pre>
+

Aktuálna revízia z 10:47, 7. december 2023

Zhrnutie semestra a úvod do teórie grafov

  • vid prezentacie k cviceniu


Populacna genomika v UCSC genome browseri

Zopar zaujimavych polymorfizmov v ludskom genome

  • SNP rs1815739 CC: SNPedia, genome browser
  • SNP rs12255372 GT: SNPedia, genome browser
  • SNP rs2472297 TT: SNPedia, genome browser
  • Ďalšie zaujímavé SNPy: rs10427255 CC, rs671 GG, rs713598 GG, rs17822931 CT, rs4988235 CC, rs1042725 CC, rs7495174 AA, rs1426654 AA, rs4481887 AG
  • V browseri si vsimnite tracky (specificke pre verziu genomu hg19):
    • HGDP Allele Freq s mapou sveta s distribuciou alel
    • Genome Variants obsahuje genomy niekolkych ludi, napr Jima Watsona
    • Takisto sa da pozriet genom ludi z jaskyne Denisova a Neandertalcov

UCSC genome browser ma aj dalsie tracky tykajuce sa populacnej genomiky a polymorfizmov

  • Pozrime si napriklad region chr2:46,570,000-46,630,000 v hg38
  • V casti Phenotype and Disease Associations
    • napr. OMIM Alleles obsahuju asociacie variantov k chorobam
    • GWAS Catalog sú výsledky GWAS štúdií


V starsej verzii ludskeho genomu hg18 je aj trojuholnikovy graf vazbovej nerovnovahy

  • region chr2:164,862-426,468 v hg18
  • zapnite "HapMap LD Phased" na Full (cast Variation and Repeats)
  • vsimnite si, ze miery LD sa medzi ludskymi podpopulaciami lisia (YRI: Nigeria; CEU: Europa; JPT+CHB: Japonsko, Cina)

Sekvenčné motívy, program MEME

  • Vazobne miesta transkripcnych faktorov sa casto reprezentuju ako sekvencne motivy
  • Ak mame skupinu sekvencii, mozeme hladat motiv, ktory maju spolocny
  • Znamy program na tento problem je MEME
  • Chodte na stranku http://meme-suite.org/
  • Zvolte nastroj MEME a v casti Input the primary sequences zvolte Type in sequences a zadajte tieto sekvencie
  • Pozrite si ostatne nastavenia. Co asi robia?
  • Ak server pocita dlho, mozete si pozriet vysledky tu

Kvasinkové transkripčné faktory v SGD

  • Yeast genome database SGD obsahuje pomerne podrobne stranky pre jednotlive transkripcne faktory
  • Pozrime si stranku pre transkripcny faktor GAL4 [1]

Staršie cvičenia

  • Nadreprezentácia link