CB12: Rozdiel medzi revíziami

Verzia zo dňa a času 13:04, 8. december 2022

Obsah

1 Zhrnutie semestra a úvod do teórie grafov
2 Uniprot
3 PSI BLAST
4 Populacna genomika v UCSC genome browseri
- 4.1 Zopar zaujimavych polymorfizmov v ludskom genome
5 Gény, evolúcia a komparatívna genomika v UCSC genome browseri (cvičenie pri počítači)

Zhrnutie semestra a úvod do teórie grafov

vid prezentacie k cviceniu

Uniprot

Prehladnejsi pohlad na proteiny, vela linkov na ine databazy, cast vytvarana rucne
- Pozrieme sa na známy koronavírusový proteín Spike
- Nájdime ho na stránke http://www.uniprot.org/ pod názvom SPIKE_SARS2
- Pozrime si podrobne jeho stránku, ktoré časti boli predpovedané bioinformatickými metódami z prednášky?
- Všimnime si niektorú Pfam doménu a pozrime si jej stránku

PSI BLAST

Toto cvičenie je z časti inšpirované stránkou [1]
Budeme uvažovať vzdialene podobné enzýmy
- Bis(5'-adenosyl)-triphosphatase (Uniprot)
- Galactose-1-phosphate uridylyltransferase (GALT/GAL7) (Uniprot)
- Ich domény patria v databáze Pfam do toho istého klanu
Skúsme nájsť túto podobnosť v BLASTe: http://blast.ncbi.nlm.nih.gov/ v časti proteíny, zvoľme databázu Swissport, ako Query zadajme Accesion nášho proteínu P49789, spustime program PSI-BLAST
V prvom kole PSI-BLAST spúšťa bežný BLASTP
GAL gén (konkrétne GAL7_HAEIN, accession P31764) sa nachádza medzi výsledkami, ale má príliš vysokú E-value
Spustíme teraz druhú iteráciu PSI-BLAST, ktorá zostaví profil z proteínov s nízkou E-value v prvej iterácii
Aká je E-value nájdeného zarovnania?
Ak by výpočet dlho trval, výsledky sú tu: 1. kolo, 2. kolo

Populacna genomika v UCSC genome browseri

Zopar zaujimavych polymorfizmov v ludskom genome

SNP rs1815739 CC: SNPedia, genome browser
SNP rs12255372 GT: SNPedia, genome browser
SNP rs2472297 TT: SNPedia, genome browser
Ďalšie zaujímavé SNPy: rs10427255 CC, rs671 GG, rs713598 GG, rs17822931 CT, rs4988235 CC, rs1042725 CC, rs7495174 AA, rs1426654 AA, rs4481887 AG
V browseri si vsimnite tracky (specificke pre verziu genomu hg19):
- HGDP Allele Freq s mapou sveta s distribuciou alel
- Genome Variants obsahuje genomy niekolkych ludi, napr Jima Watsona
- Takisto sa da pozriet genom ludi z jaskyne Denisova a Neandertalcov

UCSC genome browser ma aj dalsie tracky tykajuce sa populacnej genomiky a polymorfizmov

Pozrime si napriklad region chr2:46,570,000-46,630,000 v hg38
V casti Phenotype and Disease Associations
- napr. ClinGen CNVs a ClinVar Variants obsahuju asociacie variantov k chorobam
- GWAS Catalog sú výsledky GWAS štúdií

V starsej verzii ludskeho genomu hg18 je aj trojuholnikovy graf vazbovej nerovnovahy

region chr2:164,862-426,468 v hg18
zapnite "HapMap LD Phased" na Full (cast Variation and Repeats)
vsimnite si, ze miery LD sa medzi ludskymi podpopulaciami lisia (YRI: Nigeria; CEU: Europa; JPT+CHB: Japonsko, Cina)

Gény, evolúcia a komparatívna genomika v UCSC genome browseri (cvičenie pri počítači)

Zobrazme si gén CLCA4 [2]
Zapnite si štandardnú sadu track-ov
Po kliknutí na gén si môžete prečítať o jeho funkcii, po kliknutí na ľavú lištu alebo na názov tracku v zozname na spodku stránky si môžete prečítať viac o tracku a meniť nastavenia
V tracku RefSeq genes si všimnite, že v tejto databáze má tento gén dve formy zostrihu, jedna z nich sa považuje za nekódujúcu, pretína sa aj s necharakterizovanou nekódujúcou RNA na opačnom vlákne
- Track RefSeq a jeho subtrack RefSeq Curated treba zapnut na pack
Nižšie vidíte track H3K27Ac Mark (Often Found Near Regulatory Elements) on 7 cell lines from ENCODE, kde bola táto histónová modifikácia v okolí génu detegovaná?
Všimnite si aj track DNase I Hypersensitivity, ktorý zobrazuje otvorený chromatin, prístupný pre viazanie transkripčných faktorov. Všimnite si jeho súvis s H3K27Ac trackom
Obidva tracky sú súčasťou tracku ENCODE regulation, v ktorom si môžete zapnúť aj ďalšie pod-tracky

Vsimnime si track Vertebrate Multiz Alignment & Conservation (100 Species)
- v spodnej casti tracku vidime zarovnania s roznymi inymi genomami
- v nastaveniach tracku zapnite Element Conservation (phastCons) na full a Conserved Elements na dense
- v tomto tracku vidíme PhyloP, co zobrazuje uroven konzerovanosti danej bazy len na zaklade jedneho stlpca zarovnania a dva vysledky z phyloHMM phastCons, ktory berie do uvahy aj okolite stlpce
Konkretne cast Conserved elements zobrazuje konkretne useky, ktore su najvac konzervovane
- Ak chceme zistit, kolko percent genomu tieto useky pokryvaju, ideme na modrej liste do casti Tools->Table browser, zvolime group Comparative genomics, track Conservation, table 100 Vert. El, region zvolime genome (v celom genome) a stlacime tlacidlo Summary/statistics, dostaneme nieco taketo:

item count	10,350,729
item bases	162,179,256 (5.32%)
item total	162,179,256 (5.32%)
smallest item	1
average item	16
biggest item	3,732
smallest score	186
average score	333
biggest score	1,000

- Ak by nas zaujimali iba velmi dlhe "conserved elements", v Table browser stlacime tlacidlo Filter a na dalsej obrazovke do policka Free-form query dame chromEnd-chromStart>=1500
- Potom mozeme skusit Summary/Statistics alebo vystup typu Hyperlinks to genome browser a Get output - dostaneme zoznam tychto elementov a kazdy si mozeme jednym klikom pozriet v browseri, napr. taketo
  - lod=24051 at chr1:50201403-50203312
  - lod=1899 at chr1:55663689-55667047 atd

Pozrime si teraz ten isty gen CLCA4 v starsej verzii genomu hg18 [3]
- V casti Genes and Gene Prediction Tracks zapnite track Pos Sel Genes, ktory obsahuje geny s pozitivnym vyberom (cervenou, pripadne slabsie fialovou a modrou)
- Ked kliknete na cerveny obdlznik pre tento gen, uvidite, v ktorych castiach fylogenetickeho stromu bol detegovany pozitivny vyber
- Po priblizeni do jedneho z exonov [4] vidite dosledky nesynonymnych mutacii

Poznamka: Existuju aj webservery na predikciu pozitivneho vyberu, napriklad tieto dva:

Selecton, clanok
Data monkey clanok
Skusili sme na Selecton poslat CLCA4 zo 7 cicavcov, subor tu: [5]
- vysledky [6] a [7] (metoda ale odporuca aspon 10 homologov)

CB12: Rozdiel medzi revíziami

Verzia zo dňa a času 13:04, 8. december 2022

Obsah

Zhrnutie semestra a úvod do teórie grafov

Uniprot

PSI BLAST

Populacna genomika v UCSC genome browseri

Zopar zaujimavych polymorfizmov v ludskom genome

Gény, evolúcia a komparatívna genomika v UCSC genome browseri (cvičenie pri počítači)

Navigačné menu

Osobné nástroje

Menné priestory

Varianty

Zobrazení

Operácie

Hľadať

Navigácia

Nástroje

@@ Riadok 1: / Riadok 1: @@
-=CB12=
+==Zhrnutie semestra a úvod do teórie grafov==
-==Zhrnutie semestra==
+* vid prezentacie k cviceniu
-* vid prezentacia k cviceniu
-==Uvod do teorie grafov==
+==Uniprot==
-* vid prezentacia k cviceniu
+* Prehladnejsi pohlad na proteiny, vela linkov na ine databazy, cast vytvarana rucne
+** Pozrieme sa na známy koronavírusový proteín Spike
+** Nájdime ho na stránke http://www.uniprot.org/ pod názvom SPIKE_SARS2
+** Pozrime si podrobne jeho stránku, ktoré časti boli predpovedané bioinformatickými metódami z prednášky?
+** Všimnime si niektorú Pfam doménu a pozrime si jej stránku
-==Ukážka práce v Linuxe==
+==PSI BLAST==
+* Toto cvičenie je z časti inšpirované stránkou [http://www.ncbi.nlm.nih.gov/Class/FieldGuide/problem_set.html]
+* Budeme uvažovať vzdialene podobné enzýmy
+** Bis(5'-adenosyl)-triphosphatase ([http://www.uniprot.org/uniprot/P49789 Uniprot])
+** Galactose-1-phosphate uridylyltransferase (GALT/GAL7) ([http://www.uniprot.org/uniprot/P31764 Uniprot])
+** Ich domény patria v databáze Pfam do toho istého klanu
+* Skúsme nájsť túto podobnosť v BLASTe: http://blast.ncbi.nlm.nih.gov/ v časti proteíny, zvoľme databázu Swissport, ako Query zadajme Accesion nášho proteínu P49789, spustime program PSI-BLAST
+* V prvom kole PSI-BLAST spúšťa bežný BLASTP
+* GAL gén (konkrétne GAL7_HAEIN, accession P31764) sa nachádza medzi výsledkami, ale má príliš vysokú E-value
+* Spustíme teraz druhú iteráciu PSI-BLAST, ktorá zostaví profil z proteínov s nízkou E-value v prvej iterácii
+* Aká je E-value nájdeného zarovnania?
+* Ak by výpočet dlho trval, výsledky sú tu: [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb08/psi-blast1.html 1. kolo], [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb08/psi-blast2.html 2. kolo]
-===Prvá časť - príprava===
+==Populacna genomika v UCSC genome browseri==
-* Prihláste sa na server podľa pokynov.
+===Zopar zaujimavych polymorfizmov v ludskom genome===
-* Potom spúšťajte jednotlivé príkazy podľa pokynov nižšie.
+* SNP rs1815739 CC:  [http://www.snpedia.com/index.php/Rs1815739 SNPedia], [http://genome.ucsc.edu/cgi-bin/hgTracks?db=hg19&position=chr11:66327845-66328345&hgS_doOtherUser=submit&hgS_otherUserName=Brona&hgS_otherUserSessionName=DOD2016 genome browser]
-* Odporúčame príkazy kopírovať myšou (v internetovom prehliadači vysvietiť, stlačiť Ctrl-C, v konzole Ctrl-Shift-V)
+* SNP rs12255372 GT: [http://www.snpedia.com/index.php/Rs12255372 SNPedia], [http://genome.ucsc.edu/cgi-bin/hgTracks?db=hg19&position=chr10:114808652-114809152&hgS_doOtherUser=submit&hgS_otherUserName=Brona&hgS_otherUserSessionName=DOD2016 genome browser]
+* SNP rs2472297 TT: [http://www.snpedia.com/index.php/Rs2472297 SNPedia], [http://genome.ucsc.edu/cgi-bin/hgTracks?db=hg19&position=chr15:75027630-75028130&hgS_doOtherUser=submit&hgS_otherUserName=Brona&hgS_otherUserSessionName=DOD2016 genome browser]
+* Ďalšie zaujímavé SNPy: rs10427255 CC, rs671 GG, rs713598 GG, rs17822931 CT, rs4988235 CC, rs1042725 CC, rs7495174 AA, rs1426654 AA, rs4481887 AG
+* V browseri si vsimnite tracky (specificke pre verziu genomu hg19):
+** HGDP Allele Freq s mapou sveta s distribuciou alel
+** Genome Variants obsahuje genomy niekolkych ludi, napr Jima Watsona
+** Takisto sa da pozriet genom ludi z jaskyne Denisova a Neandertalcov
+UCSC genome browser ma aj dalsie tracky tykajuce sa populacnej genomiky a polymorfizmov
+* Pozrime si napriklad region [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg38&position=chr2:46,570,000-46,630,000 chr2:46,570,000-46,630,000 v hg38]
+* V casti Phenotype and Disease Associations
+** napr. ClinGen CNVs a ClinVar Variants obsahuju asociacie variantov k chorobam
+** GWAS Catalog sú výsledky GWAS štúdií
-<pre>
-# riadky začínajúce mrežou # sú komentáre, netreba ich spúšťať
-# Dôležité: v príkazoch nižšie xx nahraďte vašim číslom skupiny, napr. 01
+V starsej verzii ludskeho genomu hg18 je aj trojuholnikovy graf vazbovej nerovnovahy
-mkdir xx
+* [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg18&position=chr2:164,862-426,468 region chr2:164,862-426,468 v hg18]
-cd xx
+* zapnite "HapMap LD Phased" na Full (cast Variation and Repeats)
-# príkaz mkdir (make directory) vytvoril priečinok
+* vsimnite si, ze miery LD sa medzi ludskymi podpopulaciami lisia (YRI: Nigeria; CEU: Europa; JPT+CHB: Japonsko, Cina)
-# príkaz cd (change directory) zmenil váš aktuálny priečinok na tento nový
-# v konzole by ste mali mať user@server:~/xx$
+==Gény, evolúcia a komparatívna genomika v UCSC genome browseri (cvičenie pri počítači)==
-# kde xx je číslo vašej skupiny, napr. 01
-# stiahneme si súbor s dátami zo stránky
+* Zobrazme si gén CLCA4 [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg38&position=chr1%3A86538658-86589173]
-wget http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb12.zip
+* Zapnite si štandardnú sadu track-ov
-# rozzipujeme ho
+* Po kliknutí na gén si môžete prečítať o jeho funkcii, po kliknutí na ľavú lištu alebo na názov tracku v zozname na spodku stránky si môžete prečítať viac o tracku a meniť nastavenia
-unzip cb12.zip
+* V tracku RefSeq genes si všimnite, že v tejto databáze má tento gén dve formy zostrihu, jedna z nich sa považuje za nekódujúcu, pretína sa aj s necharakterizovanou nekódujúcou RNA na opačnom vlákne
-</pre>
+** Track RefSeq a jeho subtrack RefSeq Curated treba zapnut na pack
+* Nižšie vidíte track H3K27Ac Mark (Often Found Near Regulatory Elements) on 7 cell lines from ENCODE, kde bola táto histónová modifikácia v okolí génu detegovaná?
+* Všimnite si aj track DNase I Hypersensitivity, ktorý zobrazuje otvorený chromatin, prístupný pre viazanie transkripčných faktorov. Všimnite si jeho súvis s H3K27Ac trackom
+* Obidva tracky sú súčasťou tracku ENCODE regulation, v ktorom si môžete zapnúť aj ďalšie pod-tracky
-===Druhá časť - skladanie genómov, mapovanie čítaní, zarovnanie===
+* Vsimnime si track Vertebrate Multiz Alignment & Conservation (100 Species)
-<pre>
+** v spodnej casti tracku vidime zarovnania s roznymi inymi genomami
-# prejdeme na priečinok s prvou časťou ohľadom sekvenovania
+** v nastaveniach tracku zapnite Element Conservation (phastCons) na full a Conserved Elements na dense
-cd 1-seq
+** v tomto tracku vidíme PhyloP, co zobrazuje uroven konzerovanosti danej bazy len na zaklade jedneho stlpca zarovnania a dva vysledky z phyloHMM phastCons, ktory berie do uvahy aj okolite stlpce
+* Konkretne cast Conserved elements zobrazuje konkretne useky, ktore su najvac konzervovane
+** Ak chceme zistit, kolko percent genomu tieto useky pokryvaju, ideme na modrej liste do casti Tools->Table browser, zvolime group Comparative genomics, track Conservation, table 100 Vert. El, region zvolime genome (v celom genome)  a stlacime tlacidlo Summary/statistics, dostaneme nieco taketo:
+<TABLE border=1>
+<TR><TD>item count</TD><TD ALIGN=RIGHT>10,350,729</TD></TR>
+<TR><TD>item bases</TD><TD ALIGN=RIGHT>162,179,256 (5.32%)</TD></TR>
+<TR><TD>item total</TD><TD ALIGN=RIGHT>162,179,256 (5.32%)</TD></TR>
+<TR><TD>smallest item</TD><TD ALIGN=RIGHT>1</TD></TR>
+<TR><TD>average item</TD><TD ALIGN=RIGHT>16</TD></TR>
+<TR><TD>biggest item</TD><TD ALIGN=RIGHT>3,732</TD></TR>
+<TR><TD>smallest score</TD><TD ALIGN=RIGHT>186</TD></TR>
+<TR><TD>average score</TD><TD ALIGN=RIGHT>333</TD></TR>
+<TR><TD>biggest score</TD><TD ALIGN=RIGHT>1,000</TD></TR>
+</TABLE>
+** Ak by nas zaujimali iba velmi dlhe "conserved elements", v Table browser stlacime tlacidlo Filter a na dalsej obrazovke do policka Free-form query dame '''chromEnd-chromStart>=1500'''
+** Potom mozeme skusit Summary/Statistics alebo vystup typu Hyperlinks to genome browser a Get output - dostaneme zoznam tychto elementov a kazdy si mozeme jednym klikom pozriet v browseri, napr. taketo
+*** [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg38&position=chr1:50201403-50203312 lod=24051 at chr1:50201403-50203312]
+*** [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg38&position=chr1:55663689-55667047 lod=1899 at chr1:55663689-55667047] atd
-# ls vypíše zoznam súborov v priečinku
+* Pozrime si teraz ten isty gen CLCA4 v starsej verzii genomu hg18 [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg18&position=chr1%3A86776929-86827444]
-ls
+** V casti Genes and Gene Prediction Tracks zapnite track Pos Sel Genes, ktory obsahuje geny s '''pozitivnym vyberom''' (cervenou, pripadne slabsie fialovou a modrou)
-# ls -l vypíše dlhšiu informáciu (long)
+** Ked kliknete na cerveny obdlznik pre tento gen, uvidite, v ktorych castiach fylogenetickeho stromu bol detegovany pozitivny vyber
-ls -l
+** Po priblizeni do jedneho z exonov [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg18&position=chr1%3A86805823-86805917] vidite dosledky nesynonymnych mutacii
-# ls -lSh usporiada súbory podľa veľkosti (Size) a veľkosti vypíše priateľskejšie pre ľudí (human)
-ls -lSh
-# mali by sme vidieť kúsok sekvencie z E.coli (prípona .fasta)
+Poznamka: Existuju aj webservery na predikciu pozitivneho vyberu, napriklad tieto dva:
-# a 2 súbory zo sekvenovania prístrojom Illumina Miseq  (prípona .fastaq.gz)
+* [http://selecton.tau.ac.il/ Selecton], [http://www.tau.ac.il/~talp/publications/selecton2007.pdf clanok]
-# tieto súbory obsahujú čítania z vyššie uvedeného kúsku genómu
+* [http://www.datamonkey.org/ Data monkey] [http://mbe.oxfordjournals.org/cgi/content/abstract/22/5/1208 clanok]
+* Skusili sme na Selecton poslat CLCA4 zo 7 cicavcov, subor tu: [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb07/clca4.mfa]
+** vysledky [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb07/clca4-selecton.html] a [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb07/clca4-omega.txt] (metoda ale odporuca aspon 10 homologov)
-# ideme skladať genóm, bude to trvať dlho, preto to chceme spustiť na pozadí
-# aby sme mohli medzitým robiť niečo iné
-screen # stlačte Enter
-# spustite skladanie programom spades
-spades.py -t 1 -m 1 --pe1-1 miseq_R1.fastq.gz --pe1-2 miseq_R2.fastq.gz -o spades > spades.log
-# stlačte naraz Ctrl-a potom d
-# spades teraz beží na pozadí
-# príkaz top zobrazí bežiace procesy
-# ukončíte ho stlačením q (quit)
-top
-# príkaz less umožňuje prezerať si obsah textového súboru
-# aj príkaz less ukončíte stlačením q, šípkami sa pohybujete po súbore
-less ref.fasta
-# čítania sú komprimované, preto namiesto less použijeme zless
-zless miseq_R1.fastq.gz
-# tieto príkazy spočítajú počet riadkov - ako z toho zistíme počet čítaní?
-zcat miseq_R1.fastq.gz | wc -l
-zcat miseq_R2.fastq.gz | wc -l
-# keď spades skončí, vrátime sa do screen a ukončíme ho
-screen -r
-# exit ukončí screen
-exit
-# spades dal výstup do podpriečinku spades, pozrime si ho
-ls spades
-# skopírujeme si hlavný výsledok do nášho priečinka (cp = copy)
-cp -ip spades/contigs.fasta spades.fasta
-less spades.fasta
-# pozrime si hlavičky jednotlivých sekvencií vo fasta súbore
-grep '>' spades.fasta
-# programom last si spravíme dotplot referencia vs. naše skladanie
-# 1) vytvorenie indexu pre referenciu
-lastdb ref.fasta ref.fasta
-# 2) samotné zarovnanie
-lastal -f TAB ref.fasta spades.fasta > aln.tab
-# 3) vytvorenie obrázku s dotplotom
-last-dotplot aln.tab aln.png
-# a ešte dotplot referencia vs. referencia
-# 2) samotné zarovnanie (index už máme)
-lastal -f TAB ref.fasta ref.fasta > aln2.tab
-# 3) vytvorenie obrázku s dotplotom
-last-dotplot aln2.tab aln2.png
-# pozrieme si dotploty programom eog
-eog aln.png &
-eog aln2.png &
-# zarovnajme čítania k referenčnému genómu v 4 krokoch
-# 1) indexovanie fasta súboru
-bwa index ref.fasta
-# 2) samotné zarovnávanie čítaní programom bwa
-bwa mem ref.fasta miseq_R1.fastq.gz miseq_R2.fastq.gz > ref-miseq.sam
-# 3) zmeníme textový sam formát na binárny bam formát
-samtools view -S -b ref-miseq.sam | samtools sort - ref-miseq
-# 4) vytvoríme index bam súboru
-samtools index ref-miseq.bam
-# pozrime sa na zoznam súborov od najnovšieho po najstarší
-ls -lth
-# sam súbor so zarovnaniami sa dá pozrieť, ale nie je veľmi prehľadný
-less ref-miseq.sam
-# vytvoríme aj zarovnanie nášho poskladaného genómu k referencii vo formáte bam
-samtools faidx ref.fasta
-lastal ref.fasta spades.fasta -E1e-20 | maf-convert sam > ref-spades.sam
-samtools view -S -b -t ref.fasta.fai ref-spades.sam | samtools sort - ref-spades
-samtools index ref-spades.bam
-# výsledky si zobrazíme v grafickom prehliadači igv
-# obdoba genome browsera, ktorú si môžete nainštalovať na vašom počítači
-# POZOR: POTREBUJE VEĽA PAMÄTE, SPUSTÍME IBA JEDEN NARAZ
-igv -g ref.fasta
-# pomocou Menu->File->Load from File otvorte ref-spades.bam a ref-miseq.bam
-# pozrime si región ecoli-frag:224,000-244,000
-#   Vidíte jednotlivé kontigy? Sedí tento pohľad s dotplotom?
-# a potom bližšie ecoli-frag:227,300-227,600
-#   Všimnite si sekvenačné chyby rozdiely medzi referenciou a kontigmi
-</pre>
-===Tretia časť - hľadanie génov, RNA-seq===
-<pre>
-# v druhom cvičení si vyskúšame hľadanie génov
-# najskôr sa presuňme do druhého priečinku
-cd ../2-genes
-# pozrime si, aké máme súbory
-ls -lSh
-# mali by sme mať kúsok referenčného genómu huby Aspergillus nidulans
-# fastq súbor s čítaniami z RNA-seq pre tento kúsok referencie
-# gff súbor s anotáciou génov z databázy
-# spustíme hľadač génov Augustus 2x:
-# raz s parametrami priamo pre A.nidulans a raz s parametrami pre ľudský genóm
-augustus --species=anidulans ref2.fasta > augustus-anidulans.gtf
-augustus --species=human ref2.fasta > augustus-human.gtf
-# RNA-seq zarovnáme k sekvencii nástrojom tophat2 (podporuje intróny)
-bowtie2-build ref2.fasta ref2.fasta
-tophat2 -i 10 -I 10000 --max-multihits 1 --output-dir rnaseq ref2.fasta rnaseq.fastq
-samtools sort rnaseq/accepted_hits.bam rnaseq
-samtools index rnaseq.bam
-# predikcie génov a RNA-seq si pozrieme v igv
-igv -g ref2.fasta
-# v igv si otvorte annot.gff, augustus-anidulans.gtf, augustus-human.gtf, rnaseq.bam
-# - ktoré parametre Augustusu dali presnejšie predpovede (za predpokladu, že anotácia je správna)
-# - pozrite si zblízka niektorý gén s vysokou expresiou (napr. druhy gen sprava),
-#   mali by ste vidieť čítania podporujúce intróny
-</pre>