1-BIN-301, 2-AIN-501 Methods in Bioinformatics, 2023/24

Introduction · Rules · Tasks and dates · Materials · Moodle
Quizzes can be found in Moodle.
Homework assignments and journal club papers can be found in Tasks and dates.
Exam rules, example questions and syllabus
Groups for journal club have each their own group in Moodle.


CB11: Rozdiel medzi revíziami

Z MBI
Prejsť na: navigácia, hľadanie
(Zopar zaujimavych polymorfizmov v ludskom genome)
(Druhá časť - skladanie genómov, mapovanie čítaní, zarovnanie)
(10 intermediate revisions by the same user not shown)
Riadok 1: Riadok 1:
==Populacna genomika v UCSC genome browseri==
+
==Ukážka práce v Linuxe==
  
===Zopar zaujimavych polymorfizmov v ludskom genome===
+
===Prvá časť - príprava===
* SNP rs1815739 CC:  [http://www.snpedia.com/index.php/Rs1815739 SNPedia], [http://genome.ucsc.edu/cgi-bin/hgTracks?db=hg19&position=chr11:66327845-66328345&hgS_doOtherUser=submit&hgS_otherUserName=Brona&hgS_otherUserSessionName=DOD2016 genome browser]
+
* SNP rs12255372 GT: [http://www.snpedia.com/index.php/Rs12255372 SNPedia], [http://genome.ucsc.edu/cgi-bin/hgTracks?db=hg19&position=chr10:114808652-114809152&hgS_doOtherUser=submit&hgS_otherUserName=Brona&hgS_otherUserSessionName=DOD2016 genome browser]
+
* SNP rs2472297 TT: [http://www.snpedia.com/index.php/Rs2472297 SNPedia], [http://genome.ucsc.edu/cgi-bin/hgTracks?db=hg19&position=chr15:75027630-75028130&hgS_doOtherUser=submit&hgS_otherUserName=Brona&hgS_otherUserSessionName=DOD2016 genome browser]
+
* Ďalšie zaujímavé SNPy: rs10427255 CC, rs671 GG, rs713598 GG, rs17822931 CT, rs4988235 CC, rs1042725 CC, rs7495174 AA, rs1426654 AA, rs4481887 AG
+
* V browseri si vsimnite tracky (specificke pre verziu genomu hg19):
+
** HGDP Allele Freq s mapou sveta s distribuciou alel
+
** Genome Variants obsahuje genomy niekolkych ludi, napr Jima Watsona
+
** Takisto sa da pozriet genom ludi z jaskyne Denisova a Neandertalcov
+
  
UCSC genome browser ma aj dalsie tracky tykajuce sa populacnej genomiky a polymorfizmov
+
* Prihláste sa na server podľa pokynov.
* Pozrime si napriklad region [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg38&position=chr2:46,570,000-46,630,000 chr2:46,570,000-46,630,000 v hg38]
+
* Potom spúšťajte jednotlivé príkazy podľa pokynov nižšie.
* V casti Phenotype and Disease Associations
+
* Odporúčame príkazy kopírovať myšou (v internetovom prehliadači vysvietiť, stlačiť Ctrl-C, v konzole Ctrl-Shift-V)
** napr. ClinGen CNVs a ClinVar Variants obsahuju asociacie variantov k chorobam
+
** GWAS Catalog sú výsledky GWAS štúdií
+
  
  
V starsej verzii ludskeho genomu hg18 je aj trojuholnikovy graf vazbovej nerovnovahy
 
* [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg18&position=chr2:164,862-426,468 region chr2:164,862-426,468 v hg18]
 
* zapnite "HapMap LD Phased" na Full (cast Variation and Repeats)
 
* vsimnite si, ze miery LD sa medzi ludskymi podpopulaciami lisia (YRI: Nigeria; CEU: Europa; JPT+CHB: Japonsko, Cina)
 
 
==RNA štruktúra==
 
* Znama databaza rodin RNA genov je Rfam: http://rfam.xfam.org/
 
* Najdite si v nej rodinu RF00015 (U4 spliceosomal RNA)
 
* V casti Secondary structure si mozete pozriet obrazky farebne kodovane podla roznych kriterii
 
** Skuste pochopit, co jednotlive obrazky a ich farby znamenaju
 
* Jedna z mnohych ludskych kopii je tato:
 
 
<pre>
 
<pre>
AGCTTTGCGCAGTGGCAGTATCGTAGCCAATGAGGTTTATCCGAGGCGCG
+
# riadky začínajúce mrežou # sú komentáre, netreba ich spúšťať
ATTATTGCTAATTGAAAACTTTTCCCAATACCCCGCCATGACGACTTGAA
+
 
ATATAGTCGGCATTGGCAATTTTTGACAGTCTCTACGGAGA
+
# Dôležité: v príkazoch nižšie xx nahraďte vašim číslom skupiny, napr. 01
 +
mkdir xx
 +
cd xx
 +
# príkaz mkdir (make directory) vytvoril priečinok
 +
# príkaz cd (change directory) zmenil váš aktuálny priečinok na tento nový
 +
 
 +
# v konzole by ste mali mať user@server:~/xx$
 +
# kde xx je číslo vašej skupiny, napr. 01
 +
 
 +
# stiahneme si súbor s dátami zo stránky
 +
wget http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb12.zip
 +
# rozzipujeme ho
 +
unzip cb12.zip
 
</pre>
 
</pre>
* Skuste ju najst v ludskom genome nastrojom BLAT v [http://genome-euro.ucsc.edu UCSC genome browseri]
 
* Pozrite si tracky GENCODE genes, conservation, RepeatMasker v jej okoli
 
* Vo verzii hg19 (kam sa viete z inej verzii dostat cez horne menu View->In Other Genomes) je track "CSHL Sm RNA-seq" ktory obsahuje RNASeq kratkych RNA z roznych casti buniek, zapnite si v jeho nastaveniach aj zobrazenie RNA z jadra (nucleus)
 
* Zadajte sekvenciu na RNAfold serveri [http://rna.tbi.univie.ac.at/cgi-bin/RNAWebSuite/RNAfold.cgi]
 
* Ak vypocet dlho trva, pozrite si vysledok [http://rna.tbi.univie.ac.at//cgi-bin/RNAWebSuite/RNAfold.cgi?PAGE=3&ID=fdr_TwjicB tu]
 
* Podoba sa na strukturu zobrazenu v Rfame? v com sa lisi?
 
  
* RNA dizajn: mozete sa skusit zahrat na stranke http://www.eternagame.org/web/
+
===Druhá časť - skladanie genómov, mapovanie čítaní, zarovnanie===
 +
<pre>
 +
# prejdeme na priečinok s prvou časťou ohľadom sekvenovania
 +
cd 1-seq
  
 +
# ls vypíše zoznam súborov v priečinku
 +
ls
 +
# ls -l vypíše dlhšiu informáciu (long)
 +
ls -l
 +
# ls -lSh usporiada súbory podľa veľkosti (Size) a veľkosti vypíše priateľskejšie pre ľudí (human)
 +
ls -lSh
  
 +
# mali by sme vidieť kúsok sekvencie z E.coli (prípona .fasta)
 +
# a 2 súbory zo sekvenovania prístrojom Illumina Miseq  (prípona .fastaq.gz)
 +
# tieto súbory obsahujú čítania z vyššie uvedeného kúsku genómu
  
==Expresia génov==
 
'''NCBI Gene Expression Omnibus''' http://www.ncbi.nlm.nih.gov/geo/
 
* Databaza gene expression dat na NCBI
 
* Do Search okienka zadajme ''GDS2925''
 
* Mali by sme dostat dataset ''Various weak organic acids effect on anaerobic yeast chemostat cultures''
 
* Mozeme si pozriet zakladne udaje, napr. citation, platform
 
* Link "Expression profiles" nam zobrazi grafy pre rozne geny
 
* Pri kazdom profile mozeme kliknut na profile neighbors, aby sme videli geny s podobnym profilom
 
* Data analysis tools, cast Cluster heatmaps, K-means, skuste rozne pocty clustrov
 
** napr. [http://www.ncbi.nlm.nih.gov/geo/gds/analyze/kmeans2.cgi?&ID=GDS2925&dist=1&method=0&PC=1&NC=5&k=4 K=4] a [http://www.ncbi.nlm.nih.gov/geo/gds/analyze/kmeans2.cgi?&ID=GDS2925&dist=1&method=0&PC=1&NC=5&k=5 K=5] pre Pearsonovu korelaciu
 
** mozeme is pozriet aj hierarchicke zhlukovanie
 
  
==Sekvenčné motívy, program MEME==
+
# ideme skladať genóm, bude to trvať dlho, preto to chceme spustiť na pozadí
 +
# aby sme mohli medzitým robiť niečo iné
 +
screen # stlačte Enter
 +
# spustite skladanie programom spades
 +
spades.py -t 1 -m 1 --pe1-1 miseq_R1.fastq.gz --pe1-2 miseq_R2.fastq.gz -o spades > spades.log
 +
# stlačte naraz Ctrl-a potom d
 +
# spades teraz beží na pozadí
  
* Vazobne miesta transkripcnych faktorov sa casto reprezentuju ako sekvencne motivy
+
# príkaz top zobrazí bežiace procesy
* Ak mame skupinu sekvencii, mozeme hladat motiv, ktory maju spolocny
+
# ukončíte ho stlačením q (quit)
* Znamy program na tento problem je MEME
+
top
* Chodte na stranku http://meme-suite.org/
+
* Zvolte nastroj MEME a v casti ''Input the primary sequences'' zvolte ''Type in sequences'' a zadajte [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb11/seq.fa tieto sekvencie]
+
* Pozrite si ostatne nastavenia. Co asi robia?
+
* Ak server pocita dlho, mozete si pozriet vysledky [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb11/MEME.html tu]
+
  
==Kvasinkové transkripčné faktory v SGD==
+
# príkaz less umožňuje prezerať si obsah textového súboru
* Yeast genome database SGD obsahuje pomerne podrobne stranky pre jednotlive transkripcne faktory
+
# aj príkaz less ukončíte stlačením q, šípkami sa pohybujete po súbore
* Pozrime si stranku pre transkripcny faktor GAL4 [http://www.yeastgenome.org/locus/S000006169/regulation]
+
less ref.fasta
 +
# čítania sú komprimované, preto namiesto less použijeme zless
 +
zless miseq_R1.fastq.gz
 +
# tieto príkazy spočítajú počet riadkov - ako z toho zistíme počet čítaní?
 +
zcat miseq_R1.fastq.gz | wc -l
 +
zcat miseq_R2.fastq.gz | wc -l
  
==PSI BLAST==
+
# keď spades skončí, vrátime sa do screen a ukončíme ho
* Toto cvičenie je z časti inšpirované stránkou [http://www.ncbi.nlm.nih.gov/Class/FieldGuide/problem_set.html]
+
screen -r
* Budeme uvažovať vzdialene podobné enzýmy
+
# exit ukončí screen
** Bis(5'-adenosyl)-triphosphatase ([http://www.uniprot.org/uniprot/P49789 Uniprot])
+
exit
** Galactose-1-phosphate uridylyltransferase (GALT/GAL7) ([http://www.uniprot.org/uniprot/P31764 Uniprot])
+
** Ich domény patria v databáze Pfam do toho istého klanu
+
* Skúsme nájsť túto podobnosť v BLASTe: http://blast.ncbi.nlm.nih.gov/ v časti proteíny, zvoľme databázu Swissport, ako Query zadajme Accesion nášho proteínu P49789, spustime program PSI-BLAST
+
* V prvom kole PSI-BLAST spúšťa bežný BLASTP
+
* GAL gén (konkrétne GAL7_HAEIN, accession P31764) sa nachádza medzi výsledkami, ale má príliš vysokú E-value
+
* Spustíme teraz druhú iteráciu PSI-BLAST, ktorá zostaví profil z proteínov s nízkou E-value v prvej iterácii
+
* Aká je E-value nájdeného zarovnania?
+
* Ak by výpočet dlho trval, výsledky sú tu: [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb08/psi-blast1.html 1. kolo], [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb08/psi-blast2.html 2. kolo]
+
  
==Proteíny, Uniprot==
+
# spades dal výstup do podpriečinku spades, pozrime si ho
* Pozrime si protein PTPRZ1 z minuleho cvicenia v databaze Uniprot [http://www.uniprot.org/]
+
ls spades
* [[CB07#G.C3.A9ny.2C_evol.C3.BAcia_a_komparat.C3.ADvna_genomika_v_UCSC_genome_browseri_.28cvi.C4.8Denie_pri_po.C4.8D.C3.ADta.C4.8Di.29| Cvičenie ku génom]], {{pdf|Cb-gene}}
+
# skopírujeme si hlavný výsledok do nášho priečinka (cp = copy)
 +
cp -ip spades/contigs.fasta spades.fasta
 +
less spades.fasta
 +
# pozrime si hlavičky jednotlivých sekvencií vo fasta súbore
 +
grep '>' spades.fasta
 +
 
 +
# programom last si spravíme dotplot referencia vs. naše skladanie
 +
# 1) vytvorenie indexu pre referenciu
 +
lastdb ref.fasta ref.fasta
 +
# 2) samotné zarovnanie
 +
lastal -f TAB ref.fasta spades.fasta > aln.tab
 +
# 3) vytvorenie obrázku s dotplotom
 +
last-dotplot aln.tab aln.png
 +
 
 +
# a ešte dotplot referencia vs. referencia
 +
# 2) samotné zarovnanie (index už máme)
 +
lastal -f TAB ref.fasta ref.fasta > aln2.tab
 +
# 3) vytvorenie obrázku s dotplotom
 +
last-dotplot aln2.tab aln2.png
 +
 
 +
# pozrieme si dotploty programom eog
 +
eog aln.png &
 +
eog aln2.png &
 +
 
 +
 
 +
# zarovnajme čítania k referenčnému genómu v 4 krokoch
 +
# 1) indexovanie fasta súboru
 +
bwa index ref.fasta
 +
# 2) samotné zarovnávanie čítaní programom bwa
 +
bwa mem ref.fasta miseq_R1.fastq.gz miseq_R2.fastq.gz > ref-miseq.sam
 +
# 3) zmeníme textový sam formát na binárny bam formát
 +
samtools view -S -b ref-miseq.sam | samtools sort - -o ref-miseq.bam
 +
# 4) vytvoríme index bam súboru
 +
samtools index ref-miseq.bam
 +
 
 +
# pozrime sa na zoznam súborov od najnovšieho po najstarší
 +
ls -lth
 +
# sam súbor so zarovnaniami sa dá pozrieť, ale nie je veľmi prehľadný
 +
less ref-miseq.sam
 +
 
 +
 
 +
# vytvoríme aj zarovnanie nášho poskladaného genómu k referencii vo formáte bam
 +
samtools faidx ref.fasta
 +
lastal ref.fasta spades.fasta -E1e-20 | maf-convert sam > ref-spades.sam
 +
samtools view -S -b -t ref.fasta.fai ref-spades.sam | samtools sort - -o ref-spades.bam
 +
samtools index ref-spades.bam
 +
 
 +
# výsledky si zobrazíme v grafickom prehliadači igv
 +
# obdoba genome browsera, ktorú si môžete nainštalovať na vašom počítači
 +
# POZOR: POTREBUJE VEĽA PAMÄTE, SPUSTÍME IBA JEDEN NARAZ
 +
igv -g ref.fasta
 +
# pomocou Menu->File->Load from File otvorte ref-spades.bam a ref-miseq.bam
 +
# pozrime si región ecoli-frag:224,000-244,000
 +
#  Vidíte jednotlivé kontigy? Sedí tento pohľad s dotplotom?
 +
# a potom bližšie ecoli-frag:227,300-227,600
 +
#  Všimnite si sekvenačné chyby rozdiely medzi referenciou a kontigmi
 +
</pre>
 +
 
 +
===Tretia časť - hľadanie génov, RNA-seq===
 +
<pre>
 +
# v druhom cvičení si vyskúšame hľadanie génov
 +
# najskôr sa presuňme do druhého priečinku
 +
cd ../2-genes
 +
 
 +
# pozrime si, aké máme súbory
 +
ls -lSh
 +
# mali by sme mať kúsok referenčného genómu huby Aspergillus nidulans
 +
# fastq súbor s čítaniami z RNA-seq pre tento kúsok referencie
 +
# gff súbor s anotáciou génov z databázy
 +
 
 +
# spustíme hľadač génov Augustus 2x:
 +
# raz s parametrami priamo pre A.nidulans a raz s parametrami pre ľudský genóm
 +
augustus --species=anidulans ref2.fasta > augustus-anidulans.gtf
 +
augustus --species=human ref2.fasta > augustus-human.gtf
 +
 
 +
# RNA-seq zarovnáme k sekvencii nástrojom tophat2 (podporuje intróny)
 +
bowtie2-build ref2.fasta ref2.fasta
 +
tophat2 -i 10 -I 10000 --max-multihits 1 --output-dir rnaseq ref2.fasta rnaseq.fastq
 +
samtools sort rnaseq/accepted_hits.bam rnaseq
 +
samtools index rnaseq.bam
 +
 
 +
# predikcie génov a RNA-seq si pozrieme v igv
 +
igv -g ref2.fasta
 +
# v igv si otvorte annot.gff, augustus-anidulans.gtf, augustus-human.gtf, rnaseq.bam
 +
# - ktoré parametre Augustusu dali presnejšie predpovede (za predpokladu, že anotácia je správna)
 +
# - pozrite si zblízka niektorý gén s vysokou expresiou (napr. druhy gen sprava),
 +
#  mali by ste vidieť čítania podporujúce intróny
 +
</pre>

Verzia zo dňa a času 13:14, 8. december 2022

Ukážka práce v Linuxe

Prvá časť - príprava

  • Prihláste sa na server podľa pokynov.
  • Potom spúšťajte jednotlivé príkazy podľa pokynov nižšie.
  • Odporúčame príkazy kopírovať myšou (v internetovom prehliadači vysvietiť, stlačiť Ctrl-C, v konzole Ctrl-Shift-V)


# riadky začínajúce mrežou # sú komentáre, netreba ich spúšťať

# Dôležité: v príkazoch nižšie xx nahraďte vašim číslom skupiny, napr. 01
mkdir xx
cd xx
# príkaz mkdir (make directory) vytvoril priečinok
# príkaz cd (change directory) zmenil váš aktuálny priečinok na tento nový

# v konzole by ste mali mať user@server:~/xx$
# kde xx je číslo vašej skupiny, napr. 01

# stiahneme si súbor s dátami zo stránky
wget http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb12.zip
# rozzipujeme ho
unzip cb12.zip

Druhá časť - skladanie genómov, mapovanie čítaní, zarovnanie

# prejdeme na priečinok s prvou časťou ohľadom sekvenovania
cd 1-seq

# ls vypíše zoznam súborov v priečinku
ls
# ls -l vypíše dlhšiu informáciu (long)
ls -l
# ls -lSh usporiada súbory podľa veľkosti (Size) a veľkosti vypíše priateľskejšie pre ľudí (human)
ls -lSh

# mali by sme vidieť kúsok sekvencie z E.coli (prípona .fasta)
# a 2 súbory zo sekvenovania prístrojom Illumina Miseq  (prípona .fastaq.gz)
# tieto súbory obsahujú čítania z vyššie uvedeného kúsku genómu


# ideme skladať genóm, bude to trvať dlho, preto to chceme spustiť na pozadí
# aby sme mohli medzitým robiť niečo iné
screen # stlačte Enter
# spustite skladanie programom spades
spades.py -t 1 -m 1 --pe1-1 miseq_R1.fastq.gz --pe1-2 miseq_R2.fastq.gz -o spades > spades.log
# stlačte naraz Ctrl-a potom d
# spades teraz beží na pozadí

# príkaz top zobrazí bežiace procesy
# ukončíte ho stlačením q (quit)
top

# príkaz less umožňuje prezerať si obsah textového súboru
# aj príkaz less ukončíte stlačením q, šípkami sa pohybujete po súbore
less ref.fasta
# čítania sú komprimované, preto namiesto less použijeme zless
zless miseq_R1.fastq.gz
# tieto príkazy spočítajú počet riadkov - ako z toho zistíme počet čítaní?
zcat miseq_R1.fastq.gz | wc -l 
zcat miseq_R2.fastq.gz | wc -l 

# keď spades skončí, vrátime sa do screen a ukončíme ho
screen -r
# exit ukončí screen
exit

# spades dal výstup do podpriečinku spades, pozrime si ho
ls spades
# skopírujeme si hlavný výsledok do nášho priečinka (cp = copy)
cp -ip spades/contigs.fasta spades.fasta
less spades.fasta
# pozrime si hlavičky jednotlivých sekvencií vo fasta súbore
grep '>' spades.fasta

# programom last si spravíme dotplot referencia vs. naše skladanie
# 1) vytvorenie indexu pre referenciu
lastdb ref.fasta ref.fasta 
# 2) samotné zarovnanie
lastal -f TAB ref.fasta spades.fasta > aln.tab
# 3) vytvorenie obrázku s dotplotom
last-dotplot aln.tab aln.png

# a ešte dotplot referencia vs. referencia
# 2) samotné zarovnanie (index už máme)
lastal -f TAB ref.fasta ref.fasta > aln2.tab
# 3) vytvorenie obrázku s dotplotom
last-dotplot aln2.tab aln2.png

# pozrieme si dotploty programom eog
eog aln.png &
eog aln2.png &


# zarovnajme čítania k referenčnému genómu v 4 krokoch
# 1) indexovanie fasta súboru
bwa index ref.fasta
# 2) samotné zarovnávanie čítaní programom bwa
bwa mem ref.fasta miseq_R1.fastq.gz miseq_R2.fastq.gz > ref-miseq.sam
# 3) zmeníme textový sam formát na binárny bam formát
samtools view -S -b ref-miseq.sam | samtools sort - -o ref-miseq.bam
# 4) vytvoríme index bam súboru
samtools index ref-miseq.bam

# pozrime sa na zoznam súborov od najnovšieho po najstarší
ls -lth
# sam súbor so zarovnaniami sa dá pozrieť, ale nie je veľmi prehľadný
less ref-miseq.sam


# vytvoríme aj zarovnanie nášho poskladaného genómu k referencii vo formáte bam
samtools faidx ref.fasta
lastal ref.fasta spades.fasta -E1e-20 | maf-convert sam > ref-spades.sam
samtools view -S -b -t ref.fasta.fai ref-spades.sam | samtools sort - -o ref-spades.bam
samtools index ref-spades.bam

# výsledky si zobrazíme v grafickom prehliadači igv 
# obdoba genome browsera, ktorú si môžete nainštalovať na vašom počítači
# POZOR: POTREBUJE VEĽA PAMÄTE, SPUSTÍME IBA JEDEN NARAZ
igv -g ref.fasta
# pomocou Menu->File->Load from File otvorte ref-spades.bam a ref-miseq.bam
# pozrime si región ecoli-frag:224,000-244,000
#   Vidíte jednotlivé kontigy? Sedí tento pohľad s dotplotom? 
# a potom bližšie ecoli-frag:227,300-227,600
#   Všimnite si sekvenačné chyby rozdiely medzi referenciou a kontigmi

Tretia časť - hľadanie génov, RNA-seq

# v druhom cvičení si vyskúšame hľadanie génov
# najskôr sa presuňme do druhého priečinku
cd ../2-genes

# pozrime si, aké máme súbory
ls -lSh
# mali by sme mať kúsok referenčného genómu huby Aspergillus nidulans 
# fastq súbor s čítaniami z RNA-seq pre tento kúsok referencie
# gff súbor s anotáciou génov z databázy

# spustíme hľadač génov Augustus 2x:
# raz s parametrami priamo pre A.nidulans a raz s parametrami pre ľudský genóm
augustus --species=anidulans ref2.fasta > augustus-anidulans.gtf
augustus --species=human ref2.fasta > augustus-human.gtf

# RNA-seq zarovnáme k sekvencii nástrojom tophat2 (podporuje intróny)
bowtie2-build ref2.fasta ref2.fasta
tophat2 -i 10 -I 10000 --max-multihits 1 --output-dir rnaseq ref2.fasta rnaseq.fastq
samtools sort rnaseq/accepted_hits.bam rnaseq
samtools index rnaseq.bam

# predikcie génov a RNA-seq si pozrieme v igv
igv -g ref2.fasta
# v igv si otvorte annot.gff, augustus-anidulans.gtf, augustus-human.gtf, rnaseq.bam
# - ktoré parametre Augustusu dali presnejšie predpovede (za predpokladu, že anotácia je správna)
# - pozrite si zblízka niektorý gén s vysokou expresiou (napr. druhy gen sprava), 
#   mali by ste vidieť čítania podporujúce intróny