1-BIN-301, 2-AIN-501 Methods in Bioinformatics

Website moved to https://fmfi-compbio.github.io/mbi/


CB12: Rozdiel medzi revíziami

Z MBI
Prejsť na: navigácia, hľadanie
(Vytvorená stránka „=CB12= ==Zhrnutie semestra== * vid prezentacia k cviceniu ==Uvod do teorie grafov== * vid prezentacia k cviceniu ==Ukážka práce v Linuxe== ===Prvá časť - prípr...“)
 
(Staršie cvičenia)
 
(9 intermediate revisions by the same user not shown)
Riadok 1: Riadok 1:
=CB12=
+
==Zhrnutie semestra a úvod do teórie grafov==
==Zhrnutie semestra==
+
* vid prezentacie k cviceniu
* vid prezentacia k cviceniu
+
  
==Uvod do teorie grafov==
 
* vid prezentacia k cviceniu
 
  
==Ukážka práce v Linuxe==
+
==Populacna genomika v UCSC genome browseri==
  
===Prvá časť - príprava===
+
===Zopar zaujimavych polymorfizmov v ludskom genome===
 +
* SNP rs1815739 CC:  [http://www.snpedia.com/index.php/Rs1815739 SNPedia], [http://genome.ucsc.edu/cgi-bin/hgTracks?db=hg19&position=chr11:66327845-66328345&hgS_doOtherUser=submit&hgS_otherUserName=Brona&hgS_otherUserSessionName=DOD2016 genome browser]
 +
* SNP rs12255372 GT: [http://www.snpedia.com/index.php/Rs12255372 SNPedia], [http://genome.ucsc.edu/cgi-bin/hgTracks?db=hg19&position=chr10:114808652-114809152&hgS_doOtherUser=submit&hgS_otherUserName=Brona&hgS_otherUserSessionName=DOD2016 genome browser]
 +
* SNP rs2472297 TT: [http://www.snpedia.com/index.php/Rs2472297 SNPedia], [http://genome.ucsc.edu/cgi-bin/hgTracks?db=hg19&position=chr15:75027630-75028130&hgS_doOtherUser=submit&hgS_otherUserName=Brona&hgS_otherUserSessionName=DOD2016 genome browser]
 +
* Ďalšie zaujímavé SNPy: rs10427255 CC, rs671 GG, rs713598 GG, rs17822931 CT, rs4988235 CC, rs1042725 CC, rs7495174 AA, rs1426654 AA, rs4481887 AG
 +
* V browseri si vsimnite tracky (specificke pre verziu genomu hg19):
 +
** HGDP Allele Freq s mapou sveta s distribuciou alel
 +
** Genome Variants obsahuje genomy niekolkych ludi, napr Jima Watsona
 +
** Takisto sa da pozriet genom ludi z jaskyne Denisova a Neandertalcov
  
* Prihláste sa na server podľa pokynov.
+
UCSC genome browser ma aj dalsie tracky tykajuce sa populacnej genomiky a polymorfizmov
* Potom spúšťajte jednotlivé príkazy podľa pokynov nižšie.
+
* Pozrime si napriklad region [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg38&position=chr2:46,570,000-46,630,000 chr2:46,570,000-46,630,000 v hg38]
* Odporúčame príkazy kopírovať myšou (v internetovom prehliadači vysvietiť, stlačiť Ctrl-C, v konzole Ctrl-Shift-V)
+
* V casti Phenotype and Disease Associations
 +
** napr. OMIM Alleles obsahuju asociacie variantov k chorobam
 +
** GWAS Catalog sú výsledky GWAS štúdií
  
  
<pre>
+
V starsej verzii ludskeho genomu hg18 je aj trojuholnikovy graf vazbovej nerovnovahy
# riadky začínajúce mrežou # sú komentáre, netreba ich spúšťať
+
* [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg18&position=chr2:164,862-426,468 region chr2:164,862-426,468 v hg18]
 +
* zapnite "HapMap LD Phased" na Full (cast Variation and Repeats)
 +
* vsimnite si, ze miery LD sa medzi ludskymi podpopulaciami lisia (YRI: Nigeria; CEU: Europa; JPT+CHB: Japonsko, Cina)
  
# Dôležité: v príkazoch nižšie xx nahraďte vašim číslom skupiny, napr. 01
+
==Sekvenčné motívy, program MEME==
mkdir xx
+
cd xx
+
# príkaz mkdir (make directory) vytvoril priečinok
+
# príkaz cd (change directory) zmenil váš aktuálny priečinok na tento nový
+
  
# v konzole by ste mali mať user@server:~/xx$
+
* Vazobne miesta transkripcnych faktorov sa casto reprezentuju ako sekvencne motivy
# kde xx je číslo vašej skupiny, napr. 01
+
* Ak mame skupinu sekvencii, mozeme hladat motiv, ktory maju spolocny
 +
* Znamy program na tento problem je MEME
 +
* Chodte na stranku http://meme-suite.org/
 +
* Zvolte nastroj MEME a v casti ''Input the primary sequences'' zvolte ''Type in sequences'' a zadajte [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb11/seq.fa tieto sekvencie]
 +
* Pozrite si ostatne nastavenia. Co asi robia?
 +
* Ak server pocita dlho, mozete si pozriet vysledky [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb11/MEME.html tu]
  
# stiahneme si súbor s dátami zo stránky
+
==Kvasinkové transkripčné faktory v SGD==
wget http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb12.zip
+
* Yeast genome database SGD obsahuje pomerne podrobne stranky pre jednotlive transkripcne faktory
# rozzipujeme ho
+
* Pozrime si stranku pre transkripcny faktor GAL4 [http://www.yeastgenome.org/locus/S000006169/regulation]
unzip cb12.zip
+
</pre>
+
  
===Druhá časť - skladanie genómov, mapovanie čítaní, zarovnanie===
+
==Staršie cvičenia==
<pre>
+
* Nadreprezentácia [[CB08#Nadreprezent.C3.A1cia_.28cvi.C4.8Denie_pri_po.C4.8D.C3.ADta.C4.8Di.29|link]]
# prejdeme na priečinok s prvou časťou ohľadom sekvenovania
+
cd 1-seq
+
 
+
# ls vypíše zoznam súborov v priečinku
+
ls
+
# ls -l vypíše dlhšiu informáciu (long)
+
ls -l
+
# ls -lSh usporiada súbory podľa veľkosti (Size) a veľkosti vypíše priateľskejšie pre ľudí (human)
+
ls -lSh
+
 
+
# mali by sme vidieť kúsok sekvencie z E.coli (prípona .fasta)
+
# a 2 súbory zo sekvenovania prístrojom Illumina Miseq  (prípona .fastaq.gz)
+
# tieto súbory obsahujú čítania z vyššie uvedeného kúsku genómu
+
 
+
 
+
# ideme skladať genóm, bude to trvať dlho, preto to chceme spustiť na pozadí
+
# aby sme mohli medzitým robiť niečo iné
+
screen # stlačte Enter
+
# spustite skladanie programom spades
+
spades.py -t 1 -m 1 --pe1-1 miseq_R1.fastq.gz --pe1-2 miseq_R2.fastq.gz -o spades > spades.log
+
# stlačte naraz Ctrl-a potom d
+
# spades teraz beží na pozadí
+
 
+
# príkaz top zobrazí bežiace procesy
+
# ukončíte ho stlačením q (quit)
+
top
+
 
+
# príkaz less umožňuje prezerať si obsah textového súboru
+
# aj príkaz less ukončíte stlačením q, šípkami sa pohybujete po súbore
+
less ref.fasta
+
# čítania sú komprimované, preto namiesto less použijeme zless
+
zless miseq_R1.fastq.gz
+
# tieto príkazy spočítajú počet riadkov - ako z toho zistíme počet čítaní?
+
zcat miseq_R1.fastq.gz | wc -l
+
zcat miseq_R2.fastq.gz | wc -l
+
 
+
# keď spades skončí, vrátime sa do screen a ukončíme ho
+
screen -r
+
# exit ukončí screen
+
exit
+
 
+
# spades dal výstup do podpriečinku spades, pozrime si ho
+
ls spades
+
# skopírujeme si hlavný výsledok do nášho priečinka (cp = copy)
+
cp -ip spades/contigs.fasta spades.fasta
+
less spades.fasta
+
# pozrime si hlavičky jednotlivých sekvencií vo fasta súbore
+
grep '>' spades.fasta
+
 
+
# programom last si spravíme dotplot referencia vs. naše skladanie
+
# 1) vytvorenie indexu pre referenciu
+
lastdb ref.fasta ref.fasta
+
# 2) samotné zarovnanie
+
lastal -f TAB ref.fasta spades.fasta > aln.tab
+
# 3) vytvorenie obrázku s dotplotom
+
last-dotplot aln.tab aln.png
+
 
+
# a ešte dotplot referencia vs. referencia
+
# 2) samotné zarovnanie (index už máme)
+
lastal -f TAB ref.fasta ref.fasta > aln2.tab
+
# 3) vytvorenie obrázku s dotplotom
+
last-dotplot aln2.tab aln2.png
+
 
+
# pozrieme si dotploty programom eog
+
eog aln.png &
+
eog aln2.png &
+
 
+
 
+
# zarovnajme čítania k referenčnému genómu v 4 krokoch
+
# 1) indexovanie fasta súboru
+
bwa index ref.fasta
+
# 2) samotné zarovnávanie čítaní programom bwa
+
bwa mem ref.fasta miseq_R1.fastq.gz miseq_R2.fastq.gz > ref-miseq.sam
+
# 3) zmeníme textový sam formát na binárny bam formát
+
samtools view -S -b ref-miseq.sam | samtools sort - ref-miseq
+
# 4) vytvoríme index bam súboru
+
samtools index ref-miseq.bam
+
 
+
# pozrime sa na zoznam súborov od najnovšieho po najstarší
+
ls -lth
+
# sam súbor so zarovnaniami sa dá pozrieť, ale nie je veľmi prehľadný
+
less ref-miseq.sam
+
 
+
 
+
# vytvoríme aj zarovnanie nášho poskladaného genómu k referencii vo formáte bam
+
samtools faidx ref.fasta
+
lastal ref.fasta spades.fasta -E1e-20 | maf-convert sam > ref-spades.sam
+
samtools view -S -b -t ref.fasta.fai ref-spades.sam | samtools sort - ref-spades
+
samtools index ref-spades.bam
+
 
+
# výsledky si zobrazíme v grafickom prehliadači igv
+
# obdoba genome browsera, ktorú si môžete nainštalovať na vašom počítači
+
# POZOR: POTREBUJE VEĽA PAMÄTE, SPUSTÍME IBA JEDEN NARAZ
+
igv -g ref.fasta
+
# pomocou Menu->File->Load from File otvorte ref-spades.bam a ref-miseq.bam
+
# pozrime si región ecoli-frag:224,000-244,000
+
#  Vidíte jednotlivé kontigy? Sedí tento pohľad s dotplotom?
+
# a potom bližšie ecoli-frag:227,300-227,600
+
#  Všimnite si sekvenačné chyby rozdiely medzi referenciou a kontigmi
+
</pre>
+
 
+
===Tretia časť - hľadanie génov, RNA-seq===
+
<pre>
+
# v druhom cvičení si vyskúšame hľadanie génov
+
# najskôr sa presuňme do druhého priečinku
+
cd ../2-genes
+
 
+
# pozrime si, aké máme súbory
+
ls -lSh
+
# mali by sme mať kúsok referenčného genómu huby Aspergillus nidulans
+
# fastq súbor s čítaniami z RNA-seq pre tento kúsok referencie
+
# gff súbor s anotáciou génov z databázy
+
 
+
# spustíme hľadač génov Augustus 2x:
+
# raz s parametrami priamo pre A.nidulans a raz s parametrami pre ľudský genóm
+
augustus --species=anidulans ref2.fasta > augustus-anidulans.gtf
+
augustus --species=human ref2.fasta > augustus-human.gtf
+
 
+
# RNA-seq zarovnáme k sekvencii nástrojom tophat2 (podporuje intróny)
+
bowtie2-build ref2.fasta ref2.fasta
+
tophat2 -i 10 -I 10000 --max-multihits 1 --output-dir rnaseq ref2.fasta rnaseq.fastq
+
samtools sort rnaseq/accepted_hits.bam rnaseq
+
samtools index rnaseq.bam
+
 
+
# predikcie génov a RNA-seq si pozrieme v igv
+
igv -g ref2.fasta
+
# v igv si otvorte annot.gff, augustus-anidulans.gtf, augustus-human.gtf, rnaseq.bam
+
# - ktoré parametre Augustusu dali presnejšie predpovede (za predpokladu, že anotácia je správna)
+
# - pozrite si zblízka niektorý gén s vysokou expresiou (napr. druhy gen sprava),
+
#  mali by ste vidieť čítania podporujúce intróny
+
</pre>
+

Aktuálna revízia z 10:47, 7. december 2023

Zhrnutie semestra a úvod do teórie grafov

  • vid prezentacie k cviceniu


Populacna genomika v UCSC genome browseri

Zopar zaujimavych polymorfizmov v ludskom genome

  • SNP rs1815739 CC: SNPedia, genome browser
  • SNP rs12255372 GT: SNPedia, genome browser
  • SNP rs2472297 TT: SNPedia, genome browser
  • Ďalšie zaujímavé SNPy: rs10427255 CC, rs671 GG, rs713598 GG, rs17822931 CT, rs4988235 CC, rs1042725 CC, rs7495174 AA, rs1426654 AA, rs4481887 AG
  • V browseri si vsimnite tracky (specificke pre verziu genomu hg19):
    • HGDP Allele Freq s mapou sveta s distribuciou alel
    • Genome Variants obsahuje genomy niekolkych ludi, napr Jima Watsona
    • Takisto sa da pozriet genom ludi z jaskyne Denisova a Neandertalcov

UCSC genome browser ma aj dalsie tracky tykajuce sa populacnej genomiky a polymorfizmov

  • Pozrime si napriklad region chr2:46,570,000-46,630,000 v hg38
  • V casti Phenotype and Disease Associations
    • napr. OMIM Alleles obsahuju asociacie variantov k chorobam
    • GWAS Catalog sú výsledky GWAS štúdií


V starsej verzii ludskeho genomu hg18 je aj trojuholnikovy graf vazbovej nerovnovahy

  • region chr2:164,862-426,468 v hg18
  • zapnite "HapMap LD Phased" na Full (cast Variation and Repeats)
  • vsimnite si, ze miery LD sa medzi ludskymi podpopulaciami lisia (YRI: Nigeria; CEU: Europa; JPT+CHB: Japonsko, Cina)

Sekvenčné motívy, program MEME

  • Vazobne miesta transkripcnych faktorov sa casto reprezentuju ako sekvencne motivy
  • Ak mame skupinu sekvencii, mozeme hladat motiv, ktory maju spolocny
  • Znamy program na tento problem je MEME
  • Chodte na stranku http://meme-suite.org/
  • Zvolte nastroj MEME a v casti Input the primary sequences zvolte Type in sequences a zadajte tieto sekvencie
  • Pozrite si ostatne nastavenia. Co asi robia?
  • Ak server pocita dlho, mozete si pozriet vysledky tu

Kvasinkové transkripčné faktory v SGD

  • Yeast genome database SGD obsahuje pomerne podrobne stranky pre jednotlive transkripcne faktory
  • Pozrime si stranku pre transkripcny faktor GAL4 [1]

Staršie cvičenia

  • Nadreprezentácia link