1-BIN-301, 2-AIN-501 Methods in Bioinformatics

Website moved to https://fmfi-compbio.github.io/mbi/


CB11: Rozdiel medzi revíziami

Z MBI
Prejsť na: navigácia, hľadanie
(Vytvorená stránka „==Populacna genomika v UCSC genome browseri== ===Zopar zaujimavych polymorfizmov v ludskom genome=== * SNP rs1815739 CC: [http://www.snpedia.com/index.php/Rs1815739 SN...“)
 
(Prvá časť - príprava)
 
(14 intermediate revisions by the same user not shown)
Riadok 1: Riadok 1:
==Populacna genomika v UCSC genome browseri==
+
==Ukážka práce v Linuxe==
  
===Zopar zaujimavych polymorfizmov v ludskom genome===
+
===Prvá časť - príprava===
* SNP rs1815739 CC:  [http://www.snpedia.com/index.php/Rs1815739 SNPedia], [http://genome.ucsc.edu/cgi-bin/hgTracks?db=hg19&position=chr11:66327845-66328345&hgS_doOtherUser=submit&hgS_otherUserName=Brona&hgS_otherUserSessionName=DOD2016 genome browser]
+
* SNP rs12255372 GT: [http://www.snpedia.com/index.php/Rs12255372 SNPedia], [http://genome.ucsc.edu/cgi-bin/hgTracks?db=hg19&position=chr10:114808652-114809152&hgS_doOtherUser=submit&hgS_otherUserName=Brona&hgS_otherUserSessionName=DOD2016 genome browser]
+
* SNP rs2472297 TT: [http://www.snpedia.com/index.php/Rs2472297 SNPedia], [http://genome.ucsc.edu/cgi-bin/hgTracks?db=hg19&position=chr15:75027630-75028130&hgS_doOtherUser=submit&hgS_otherUserName=Brona&hgS_otherUserSessionName=DOD2016 genome browser]
+
* Ďalšie zaujímavé SNPy: rs10427255 CC, rs671 GG, rs713598 GG, rs17822931 CT, rs4988235 CC, rs1042725 CC, rs7495174 AA, rs1426654 AA, rs4481887 AG
+
* V browseri si vsimnite tracky (specificke pre veziu genomu hg19):
+
** HGDP Allele Freq s mapou sveta s distribuciou alel
+
** Genome Variants obsahuje genomy niekolkych ludi, napr Jima Watsona
+
** Takisto sa da pozriet genom ludi z jaskyne Denisova a Neandertalcov
+
  
UCSC genome browser ma aj dalsie tracky tykajuce sa populacnej genomiky a polymorfizmov
+
* Prihláste sa na server podľa pokynov.
* Pozrime si napriklad region [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg38&position=chr2:46,570,000-46,630,000 chr2:46,570,000-46,630,000 v hg38]
+
* Potom spúšťajte jednotlivé príkazy podľa pokynov nižšie.
* V casti Phenotype and Disease Associations
+
* Odporúčame príkazy kopírovať myšou (v internetovom prehliadači vysvietiť, stlačiť Ctrl-C, v konzole Ctrl-Shift-V)
** napr. ClinGen CNVs a ClinVar Variants obsahuju asociacie variantov k chorobam
+
** GWAS Catalog sú výsledky GWAS štúdií
+
  
  
V starsej verzii ludskeho genomu hg18 je aj trojuholnikovy graf vazbovej nerovnovahy
+
<pre>
* [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg18&position=chr2:164,862-426,468 region chr2:164,862-426,468 v hg18]
+
# riadky začínajúce mrežou # sú komentáre, netreba ich spúšťať
* zapnite "HapMap LD Phased" na Full (cast Variation and Repeats)
+
* vsimnite si, ze miery LD sa medzi ludskymi podpopulaciami lisia (YRI: Nigeria; CEU: Europa; JPT+CHB: Japonsko, Cina)
+
  
 +
# Dôležité: v príkazoch nižšie xx nahraďte vašimi iniciálkami, napr. bb
 +
mkdir xx
 +
cd xx
 +
# príkaz mkdir (make directory) vytvoril priečinok
 +
# príkaz cd (change directory) zmenil váš aktuálny priečinok na tento nový
  
==RNA štruktúra==
+
# v konzole by ste mali mať user@server:~/xx$
* Znama databaza rodin RNA genov je Rfam: http://rfam.xfam.org/
+
# kde xx je číslo vašej skupiny, napr. 01
* Najdite si v nej rodinu RF00015 (U4 spliceosomal RNA)
+
 
* V casti Secondary structure si mozete pozriet obrazky farebne kodovane podla roznych kriterii
+
# stiahneme si súbor s dátami zo stránky
** Skuste pochopit, co jednotlive obrazky a ich farby znamenaju
+
wget http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb12.zip
* Jedna z mnohych ludskych kopii je tato:
+
# rozzipujeme ho
<pre>
+
unzip cb12.zip
AGCTTTGCGCAGTGGCAGTATCGTAGCCAATGAGGTTTATCCGAGGCGCG
+
ATTATTGCTAATTGAAAACTTTTCCCAATACCCCGCCATGACGACTTGAA
+
ATATAGTCGGCATTGGCAATTTTTGACAGTCTCTACGGAGA
+
 
</pre>
 
</pre>
* Skuste ju najst v ludskom genome nastrojom BLAT v [http://genome-euro.ucsc.edu UCSC genome browseri]
 
* Pozrite si tracky GENCODE genes, conservation, RepeatMasker v jej okoli
 
* Vo verzii hg19 (kam sa viete z inej verzii dostat cez horne menu View->In Other Genomes) je track "CSHL Sm RNA-seq" ktory obsahuje RNASeq kratkych RNA z roznych casti buniek, zapnite si v jeho nastaveniach aj zobrazenie RNA z jadra (nucleus)
 
* Zadajte sekvenciu na RNAfold serveri [http://rna.tbi.univie.ac.at/cgi-bin/RNAWebSuite/RNAfold.cgi]
 
* Ak vypocet dlho trva, pozrite si vysledok [http://rna.tbi.univie.ac.at//cgi-bin/RNAWebSuite/RNAfold.cgi?PAGE=3&ID=fdr_TwjicB tu]
 
* Podoba sa na strukturu zobrazenu v Rfame? v com sa lisi?
 
  
* RNA dizajn: mozete sa skusit zahrat na stranke http://www.eternagame.org/web/
+
===Druhá časť - skladanie genómov, mapovanie čítaní, zarovnanie===
 +
<pre>
 +
# prejdeme na priečinok s prvou časťou ohľadom sekvenovania
 +
cd 1-seq
  
 +
# ls vypíše zoznam súborov v priečinku
 +
ls
 +
# ls -l vypíše dlhšiu informáciu (long)
 +
ls -l
 +
# ls -lSh usporiada súbory podľa veľkosti (Size) a veľkosti vypíše priateľskejšie pre ľudí (human)
 +
ls -lSh
  
 +
# mali by sme vidieť kúsok sekvencie z E.coli (prípona .fasta)
 +
# a 2 súbory zo sekvenovania prístrojom Illumina Miseq  (prípona .fastaq.gz)
 +
# tieto súbory obsahujú čítania z vyššie uvedeného kúsku genómu
  
==Expresia génov==
 
'''NCBI Gene Expression Omnibus''' http://www.ncbi.nlm.nih.gov/geo/
 
* Databaza gene expression dat na NCBI
 
* Do Search okienka zadajme ''GDS2925''
 
* Mali by sme dostat dataset ''Various weak organic acids effect on anaerobic yeast chemostat cultures''
 
* Mozeme si pozriet zakladne udaje, napr. citation, platform
 
* Link "Expression profiles" nam zobrazi grafy pre rozne geny
 
* Pri kazdom profile mozeme kliknut na profile neighbors, aby sme videli geny s podobnym profilom
 
* Data analysis tools, cast Cluster heatmaps, K-means, skuste rozne pocty clustrov
 
** napr. [http://www.ncbi.nlm.nih.gov/geo/gds/analyze/kmeans2.cgi?&ID=GDS2925&dist=1&method=0&PC=1&NC=5&k=4 K=4] a [http://www.ncbi.nlm.nih.gov/geo/gds/analyze/kmeans2.cgi?&ID=GDS2925&dist=1&method=0&PC=1&NC=5&k=5 K=5] pre Pearsonovu korelaciu
 
** mozeme is pozriet aj hierarchicke zhlukovanie
 
  
==Sekvenčné motívy, program MEME==
+
# ideme skladať genóm, bude to trvať dlho, preto to chceme spustiť na pozadí
 +
# aby sme mohli medzitým robiť niečo iné
 +
screen # stlačte Enter
 +
# spustite skladanie programom spades
 +
spades.py -t 1 -m 1 --pe1-1 miseq_R1.fastq.gz --pe1-2 miseq_R2.fastq.gz -o spades > spades.log
 +
# stlačte naraz Ctrl-a potom d
 +
# spades teraz beží na pozadí
  
* Vazobne miesta transkripcnych faktorov sa casto reprezentuju ako sekvencne motivy
+
# príkaz top zobrazí bežiace procesy
* Ak mame skupinu sekvencii, mozeme hladat motiv, ktory maju spolocny
+
# ukončíte ho stlačením q (quit)
* Znamy program na tento problem je MEME
+
top
* Chodte na stranku http://meme-suite.org/
+
* Zvolte nastroj MEME a v casti ''Input the primary sequences'' zvolte ''Type in sequences'' a zadajte [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb11/seq.fa tieto sekvencie]
+
* Pozrite si ostatne nastavenia. Co asi robia?
+
* Ak server pocita dlho, mozete si pozriet vysledky [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb11/MEME.html tu]
+
  
==Kvasinkové transkripčné faktory v SGD==
+
# príkaz less umožňuje prezerať si obsah textového súboru
* Yeast genome database SGD obsahuje pomerne podrobne stranky pre jednotlive transkripcne faktory
+
# aj príkaz less ukončíte stlačením q, šípkami sa pohybujete po súbore
* Pozrime si stranku pre transkripcny faktor GAL4 [http://www.yeastgenome.org/locus/S000006169/regulation]
+
less ref.fasta
 +
# čítania sú komprimované, preto namiesto less použijeme zless
 +
zless miseq_R1.fastq.gz
 +
# tieto príkazy spočítajú počet riadkov - ako z toho zistíme počet čítaní?
 +
zcat miseq_R1.fastq.gz | wc -l
 +
zcat miseq_R2.fastq.gz | wc -l
  
==PSI BLAST==
+
# keď spades skončí, vrátime sa do screen a ukončíme ho
* Toto cvičenie je z časti inšpirované stránkou [http://www.ncbi.nlm.nih.gov/Class/FieldGuide/problem_set.html]
+
screen -r
* Budeme uvažovať vzdialene podobné enzýmy
+
# exit ukončí screen
** Bis(5'-adenosyl)-triphosphatase ([http://www.uniprot.org/uniprot/P49789 Uniprot])
+
exit
** Galactose-1-phosphate uridylyltransferase (GALT/GAL7) ([http://www.uniprot.org/uniprot/P31764 Uniprot])
+
 
** Ich domény patria v databáze Pfam do toho istého klanu
+
# spades dal výstup do podpriečinku spades, pozrime si ho
* Skúsme nájsť túto podobnosť v BLASTe: http://blast.ncbi.nlm.nih.gov/ v časti proteíny, zvoľme databázu Swissport, ako Query zadajme Accesion nášho proteínu P49789, spustime program PSI-BLAST
+
ls spades
* V prvom kole PSI-BLAST spúšťa bežný BLASTP
+
# skopírujeme si hlavný výsledok do nášho priečinka (cp = copy)
* GAL gén (konkrétne GAL7_HAEIN, accession P31764) sa nachádza medzi výsledkami, ale má príliš vysokú E-value
+
cp -ip spades/contigs.fasta spades.fasta
* Spustíme teraz druhú iteráciu PSI-BLAST, ktorá zostaví profil z proteínov s nízkou E-value v prvej iterácii
+
less spades.fasta
* Aká je E-value nájdeného zarovnania?
+
# pozrime si hlavičky jednotlivých sekvencií vo fasta súbore
* Ak by výpočet dlho trval, výsledky sú tu: [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb08/psi-blast1.html 1. kolo], [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb08/psi-blast2.html 2. kolo]
+
grep '>' spades.fasta
 +
 
 +
# programom last si spravíme dotplot referencia vs. naše skladanie
 +
# 1) vytvorenie indexu pre referenciu
 +
lastdb ref.fasta ref.fasta
 +
# 2) samotné zarovnanie
 +
lastal -f TAB ref.fasta spades.fasta > aln.tab
 +
# 3) vytvorenie obrázku s dotplotom
 +
last-dotplot aln.tab aln.png
 +
 
 +
# a ešte dotplot referencia vs. referencia
 +
# 2) samotné zarovnanie (index už máme)
 +
lastal -f TAB ref.fasta ref.fasta > aln2.tab
 +
# 3) vytvorenie obrázku s dotplotom
 +
last-dotplot aln2.tab aln2.png
 +
 
 +
# pozrieme si dotploty programom eog
 +
eog aln.png &
 +
eog aln2.png &
 +
 
 +
 
 +
# zarovnajme čítania k referenčnému genómu v 4 krokoch
 +
# 1) indexovanie fasta súboru
 +
bwa index ref.fasta
 +
# 2) samotné zarovnávanie čítaní programom bwa
 +
bwa mem ref.fasta miseq_R1.fastq.gz miseq_R2.fastq.gz > ref-miseq.sam
 +
# 3) zmeníme textový sam formát na binárny bam formát
 +
samtools view -S -b ref-miseq.sam | samtools sort - -o ref-miseq.bam
 +
# 4) vytvoríme index bam súboru
 +
samtools index ref-miseq.bam
 +
 
 +
# pozrime sa na zoznam súborov od najnovšieho po najstarší
 +
ls -lth
 +
# sam súbor so zarovnaniami sa dá pozrieť, ale nie je veľmi prehľadný
 +
less ref-miseq.sam
 +
 
 +
 
 +
# vytvoríme aj zarovnanie nášho poskladaného genómu k referencii vo formáte bam
 +
samtools faidx ref.fasta
 +
lastal ref.fasta spades.fasta -E1e-20 | maf-convert sam > ref-spades.sam
 +
samtools view -S -b -t ref.fasta.fai ref-spades.sam | samtools sort - -o ref-spades.bam
 +
samtools index ref-spades.bam
 +
 
 +
# výsledky si zobrazíme v grafickom prehliadači igv
 +
# obdoba genome browsera, ktorú si môžete nainštalovať na vašom počítači
 +
# POZOR: POTREBUJE VEĽA PAMÄTE, SPUSTÍME IBA JEDEN NARAZ
 +
igv -g ref.fasta
 +
# pomocou Menu->File->Load from File otvorte ref-spades.bam a ref-miseq.bam
 +
# pozrime si región ecoli-frag:224,000-244,000
 +
#  Vidíte jednotlivé kontigy? Sedí tento pohľad s dotplotom?
 +
# a potom bližšie ecoli-frag:227,300-227,600
 +
#  Všimnite si sekvenačné chyby rozdiely medzi referenciou a kontigmi
 +
</pre>
 +
 
 +
===Tretia časť - hľadanie génov, RNA-seq===
 +
<pre>
 +
# v druhom cvičení si vyskúšame hľadanie génov
 +
# najskôr sa presuňme do druhého priečinku
 +
cd ../2-genes
 +
 
 +
# pozrime si, aké máme súbory
 +
ls -lSh
 +
# mali by sme mať kúsok referenčného genómu huby Aspergillus nidulans
 +
# fastq súbor s čítaniami z RNA-seq pre tento kúsok referencie
 +
# gff súbor s anotáciou génov z databázy
 +
 
 +
# spustíme hľadač génov Augustus 2x:
 +
# raz s parametrami priamo pre A.nidulans a raz s parametrami pre ľudský genóm
 +
augustus --species=anidulans ref2.fasta > augustus-anidulans.gtf
 +
augustus --species=human ref2.fasta > augustus-human.gtf
 +
 
 +
# RNA-seq zarovnáme k sekvencii nástrojom tophat2 (podporuje intróny)
 +
bowtie2-build ref2.fasta ref2.fasta
 +
tophat2 -i 10 -I 10000 --max-multihits 1 --output-dir rnaseq ref2.fasta rnaseq.fastq
 +
samtools sort rnaseq/accepted_hits.bam rnaseq
 +
samtools index rnaseq.bam
 +
 
 +
# predikcie génov a RNA-seq si pozrieme v igv
 +
igv -g ref2.fasta
 +
# v igv si otvorte annot.gff, augustus-anidulans.gtf, augustus-human.gtf, rnaseq.bam
 +
# - ktoré parametre Augustusu dali presnejšie predpovede (za predpokladu, že anotácia je správna)
 +
# - pozrite si zblízka niektorý gén s vysokou expresiou (napr. druhy gen sprava),
 +
#  mali by ste vidieť čítania podporujúce intróny
 +
</pre>

Aktuálna revízia z 14:13, 16. november 2023

Ukážka práce v Linuxe

Prvá časť - príprava

  • Prihláste sa na server podľa pokynov.
  • Potom spúšťajte jednotlivé príkazy podľa pokynov nižšie.
  • Odporúčame príkazy kopírovať myšou (v internetovom prehliadači vysvietiť, stlačiť Ctrl-C, v konzole Ctrl-Shift-V)


# riadky začínajúce mrežou # sú komentáre, netreba ich spúšťať

# Dôležité: v príkazoch nižšie xx nahraďte vašimi iniciálkami, napr. bb
mkdir xx
cd xx
# príkaz mkdir (make directory) vytvoril priečinok
# príkaz cd (change directory) zmenil váš aktuálny priečinok na tento nový

# v konzole by ste mali mať user@server:~/xx$
# kde xx je číslo vašej skupiny, napr. 01

# stiahneme si súbor s dátami zo stránky
wget http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb12.zip
# rozzipujeme ho
unzip cb12.zip

Druhá časť - skladanie genómov, mapovanie čítaní, zarovnanie

# prejdeme na priečinok s prvou časťou ohľadom sekvenovania
cd 1-seq

# ls vypíše zoznam súborov v priečinku
ls
# ls -l vypíše dlhšiu informáciu (long)
ls -l
# ls -lSh usporiada súbory podľa veľkosti (Size) a veľkosti vypíše priateľskejšie pre ľudí (human)
ls -lSh

# mali by sme vidieť kúsok sekvencie z E.coli (prípona .fasta)
# a 2 súbory zo sekvenovania prístrojom Illumina Miseq  (prípona .fastaq.gz)
# tieto súbory obsahujú čítania z vyššie uvedeného kúsku genómu


# ideme skladať genóm, bude to trvať dlho, preto to chceme spustiť na pozadí
# aby sme mohli medzitým robiť niečo iné
screen # stlačte Enter
# spustite skladanie programom spades
spades.py -t 1 -m 1 --pe1-1 miseq_R1.fastq.gz --pe1-2 miseq_R2.fastq.gz -o spades > spades.log
# stlačte naraz Ctrl-a potom d
# spades teraz beží na pozadí

# príkaz top zobrazí bežiace procesy
# ukončíte ho stlačením q (quit)
top

# príkaz less umožňuje prezerať si obsah textového súboru
# aj príkaz less ukončíte stlačením q, šípkami sa pohybujete po súbore
less ref.fasta
# čítania sú komprimované, preto namiesto less použijeme zless
zless miseq_R1.fastq.gz
# tieto príkazy spočítajú počet riadkov - ako z toho zistíme počet čítaní?
zcat miseq_R1.fastq.gz | wc -l 
zcat miseq_R2.fastq.gz | wc -l 

# keď spades skončí, vrátime sa do screen a ukončíme ho
screen -r
# exit ukončí screen
exit

# spades dal výstup do podpriečinku spades, pozrime si ho
ls spades
# skopírujeme si hlavný výsledok do nášho priečinka (cp = copy)
cp -ip spades/contigs.fasta spades.fasta
less spades.fasta
# pozrime si hlavičky jednotlivých sekvencií vo fasta súbore
grep '>' spades.fasta

# programom last si spravíme dotplot referencia vs. naše skladanie
# 1) vytvorenie indexu pre referenciu
lastdb ref.fasta ref.fasta 
# 2) samotné zarovnanie
lastal -f TAB ref.fasta spades.fasta > aln.tab
# 3) vytvorenie obrázku s dotplotom
last-dotplot aln.tab aln.png

# a ešte dotplot referencia vs. referencia
# 2) samotné zarovnanie (index už máme)
lastal -f TAB ref.fasta ref.fasta > aln2.tab
# 3) vytvorenie obrázku s dotplotom
last-dotplot aln2.tab aln2.png

# pozrieme si dotploty programom eog
eog aln.png &
eog aln2.png &


# zarovnajme čítania k referenčnému genómu v 4 krokoch
# 1) indexovanie fasta súboru
bwa index ref.fasta
# 2) samotné zarovnávanie čítaní programom bwa
bwa mem ref.fasta miseq_R1.fastq.gz miseq_R2.fastq.gz > ref-miseq.sam
# 3) zmeníme textový sam formát na binárny bam formát
samtools view -S -b ref-miseq.sam | samtools sort - -o ref-miseq.bam
# 4) vytvoríme index bam súboru
samtools index ref-miseq.bam

# pozrime sa na zoznam súborov od najnovšieho po najstarší
ls -lth
# sam súbor so zarovnaniami sa dá pozrieť, ale nie je veľmi prehľadný
less ref-miseq.sam


# vytvoríme aj zarovnanie nášho poskladaného genómu k referencii vo formáte bam
samtools faidx ref.fasta
lastal ref.fasta spades.fasta -E1e-20 | maf-convert sam > ref-spades.sam
samtools view -S -b -t ref.fasta.fai ref-spades.sam | samtools sort - -o ref-spades.bam
samtools index ref-spades.bam

# výsledky si zobrazíme v grafickom prehliadači igv 
# obdoba genome browsera, ktorú si môžete nainštalovať na vašom počítači
# POZOR: POTREBUJE VEĽA PAMÄTE, SPUSTÍME IBA JEDEN NARAZ
igv -g ref.fasta
# pomocou Menu->File->Load from File otvorte ref-spades.bam a ref-miseq.bam
# pozrime si región ecoli-frag:224,000-244,000
#   Vidíte jednotlivé kontigy? Sedí tento pohľad s dotplotom? 
# a potom bližšie ecoli-frag:227,300-227,600
#   Všimnite si sekvenačné chyby rozdiely medzi referenciou a kontigmi

Tretia časť - hľadanie génov, RNA-seq

# v druhom cvičení si vyskúšame hľadanie génov
# najskôr sa presuňme do druhého priečinku
cd ../2-genes

# pozrime si, aké máme súbory
ls -lSh
# mali by sme mať kúsok referenčného genómu huby Aspergillus nidulans 
# fastq súbor s čítaniami z RNA-seq pre tento kúsok referencie
# gff súbor s anotáciou génov z databázy

# spustíme hľadač génov Augustus 2x:
# raz s parametrami priamo pre A.nidulans a raz s parametrami pre ľudský genóm
augustus --species=anidulans ref2.fasta > augustus-anidulans.gtf
augustus --species=human ref2.fasta > augustus-human.gtf

# RNA-seq zarovnáme k sekvencii nástrojom tophat2 (podporuje intróny)
bowtie2-build ref2.fasta ref2.fasta
tophat2 -i 10 -I 10000 --max-multihits 1 --output-dir rnaseq ref2.fasta rnaseq.fastq
samtools sort rnaseq/accepted_hits.bam rnaseq
samtools index rnaseq.bam

# predikcie génov a RNA-seq si pozrieme v igv
igv -g ref2.fasta
# v igv si otvorte annot.gff, augustus-anidulans.gtf, augustus-human.gtf, rnaseq.bam
# - ktoré parametre Augustusu dali presnejšie predpovede (za predpokladu, že anotácia je správna)
# - pozrite si zblízka niektorý gén s vysokou expresiou (napr. druhy gen sprava), 
#   mali by ste vidieť čítania podporujúce intróny