|
|
(7 intermediate revisions by the same user not shown) |
Riadok 2: |
Riadok 2: |
| * vid prezentacie k cviceniu | | * vid prezentacie k cviceniu |
| | | |
− | ==Uniprot==
| |
− | * Prehladnejsi pohlad na proteiny, vela linkov na ine databazy, cast vytvarana rucne
| |
− | ** Pozrieme sa na známy koronavírusový proteín Spike
| |
− | ** Nájdime ho na stránke http://www.uniprot.org/ pod názvom SPIKE_SARS2
| |
− | ** Pozrime si podrobne jeho stránku, ktoré časti boli predpovedané bioinformatickými metódami z prednášky?
| |
− | ** Všimnime si niektorú Pfam doménu a pozrime si jej stránku
| |
− |
| |
− | ==PSI BLAST==
| |
− | * Toto cvičenie je z časti inšpirované stránkou [http://www.ncbi.nlm.nih.gov/Class/FieldGuide/problem_set.html]
| |
− | * Budeme uvažovať vzdialene podobné enzýmy
| |
− | ** Bis(5'-adenosyl)-triphosphatase ([http://www.uniprot.org/uniprot/P49789 Uniprot])
| |
− | ** Galactose-1-phosphate uridylyltransferase (GALT/GAL7) ([http://www.uniprot.org/uniprot/P31764 Uniprot])
| |
− | ** Ich domény patria v databáze Pfam do toho istého klanu
| |
− | * Skúsme nájsť túto podobnosť v BLASTe: http://blast.ncbi.nlm.nih.gov/ v časti proteíny, zvoľme databázu Swissport, ako Query zadajme Accesion nášho proteínu P49789, spustime program PSI-BLAST
| |
− | * V prvom kole PSI-BLAST spúšťa bežný BLASTP
| |
− | * GAL gén (konkrétne GAL7_HAEIN, accession P31764) sa nachádza medzi výsledkami, ale má príliš vysokú E-value
| |
− | * Spustíme teraz druhú iteráciu PSI-BLAST, ktorá zostaví profil z proteínov s nízkou E-value v prvej iterácii
| |
− | * Aká je E-value nájdeného zarovnania?
| |
− | * Ak by výpočet dlho trval, výsledky sú tu: [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb08/psi-blast1.html 1. kolo], [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb08/psi-blast2.html 2. kolo]
| |
| | | |
| ==Populacna genomika v UCSC genome browseri== | | ==Populacna genomika v UCSC genome browseri== |
Riadok 37: |
Riadok 18: |
| * Pozrime si napriklad region [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg38&position=chr2:46,570,000-46,630,000 chr2:46,570,000-46,630,000 v hg38] | | * Pozrime si napriklad region [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg38&position=chr2:46,570,000-46,630,000 chr2:46,570,000-46,630,000 v hg38] |
| * V casti Phenotype and Disease Associations | | * V casti Phenotype and Disease Associations |
− | ** napr. ClinGen CNVs a ClinVar Variants obsahuju asociacie variantov k chorobam | + | ** napr. OMIM Alleles obsahuju asociacie variantov k chorobam |
| ** GWAS Catalog sú výsledky GWAS štúdií | | ** GWAS Catalog sú výsledky GWAS štúdií |
| | | |
Riadok 46: |
Riadok 27: |
| * vsimnite si, ze miery LD sa medzi ludskymi podpopulaciami lisia (YRI: Nigeria; CEU: Europa; JPT+CHB: Japonsko, Cina) | | * vsimnite si, ze miery LD sa medzi ludskymi podpopulaciami lisia (YRI: Nigeria; CEU: Europa; JPT+CHB: Japonsko, Cina) |
| | | |
− | ==Gény, evolúcia a komparatívna genomika v UCSC genome browseri (cvičenie pri počítači)== | + | ==Sekvenčné motívy, program MEME== |
− | | + | |
− | * Zobrazme si gén CLCA4 [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg38&position=chr1%3A86538658-86589173]
| + | |
− | * Zapnite si štandardnú sadu track-ov
| + | |
− | * Po kliknutí na gén si môžete prečítať o jeho funkcii, po kliknutí na ľavú lištu alebo na názov tracku v zozname na spodku stránky si môžete prečítať viac o tracku a meniť nastavenia
| + | |
− | * V tracku RefSeq genes si všimnite, že v tejto databáze má tento gén dve formy zostrihu, jedna z nich sa považuje za nekódujúcu, pretína sa aj s necharakterizovanou nekódujúcou RNA na opačnom vlákne
| + | |
− | ** Track RefSeq a jeho subtrack RefSeq Curated treba zapnut na pack
| + | |
− | * Nižšie vidíte track H3K27Ac Mark (Often Found Near Regulatory Elements) on 7 cell lines from ENCODE, kde bola táto histónová modifikácia v okolí génu detegovaná?
| + | |
− | * Všimnite si aj track DNase I Hypersensitivity, ktorý zobrazuje otvorený chromatin, prístupný pre viazanie transkripčných faktorov. Všimnite si jeho súvis s H3K27Ac trackom
| + | |
− | * Obidva tracky sú súčasťou tracku ENCODE regulation, v ktorom si môžete zapnúť aj ďalšie pod-tracky
| + | |
− | | + | |
− | * Vsimnime si track Vertebrate Multiz Alignment & Conservation (100 Species)
| + | |
− | ** v spodnej casti tracku vidime zarovnania s roznymi inymi genomami
| + | |
− | ** v nastaveniach tracku zapnite Element Conservation (phastCons) na full a Conserved Elements na dense
| + | |
− | ** v tomto tracku vidíme PhyloP, co zobrazuje uroven konzerovanosti danej bazy len na zaklade jedneho stlpca zarovnania a dva vysledky z phyloHMM phastCons, ktory berie do uvahy aj okolite stlpce
| + | |
− | * Konkretne cast Conserved elements zobrazuje konkretne useky, ktore su najvac konzervovane
| + | |
− | ** Ak chceme zistit, kolko percent genomu tieto useky pokryvaju, ideme na modrej liste do casti Tools->Table browser, zvolime group Comparative genomics, track Conservation, table 100 Vert. El, region zvolime genome (v celom genome) a stlacime tlacidlo Summary/statistics, dostaneme nieco taketo:
| + | |
− | <TABLE border=1>
| + | |
− | <TR><TD>item count</TD><TD ALIGN=RIGHT>10,350,729</TD></TR>
| + | |
− | <TR><TD>item bases</TD><TD ALIGN=RIGHT>162,179,256 (5.32%)</TD></TR>
| + | |
− | <TR><TD>item total</TD><TD ALIGN=RIGHT>162,179,256 (5.32%)</TD></TR>
| + | |
− | <TR><TD>smallest item</TD><TD ALIGN=RIGHT>1</TD></TR>
| + | |
− | <TR><TD>average item</TD><TD ALIGN=RIGHT>16</TD></TR>
| + | |
− | <TR><TD>biggest item</TD><TD ALIGN=RIGHT>3,732</TD></TR>
| + | |
− | <TR><TD>smallest score</TD><TD ALIGN=RIGHT>186</TD></TR>
| + | |
− | <TR><TD>average score</TD><TD ALIGN=RIGHT>333</TD></TR>
| + | |
− | <TR><TD>biggest score</TD><TD ALIGN=RIGHT>1,000</TD></TR>
| + | |
− | </TABLE>
| + | |
− | ** Ak by nas zaujimali iba velmi dlhe "conserved elements", v Table browser stlacime tlacidlo Filter a na dalsej obrazovke do policka Free-form query dame '''chromEnd-chromStart>=1500'''
| + | |
− | ** Potom mozeme skusit Summary/Statistics alebo vystup typu Hyperlinks to genome browser a Get output - dostaneme zoznam tychto elementov a kazdy si mozeme jednym klikom pozriet v browseri, napr. taketo
| + | |
− | *** [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg38&position=chr1:50201403-50203312 lod=24051 at chr1:50201403-50203312]
| + | |
− | *** [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg38&position=chr1:55663689-55667047 lod=1899 at chr1:55663689-55667047] atd
| + | |
− | | + | |
− | * Pozrime si teraz ten isty gen CLCA4 v starsej verzii genomu hg18 [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg18&position=chr1%3A86776929-86827444]
| + | |
− | ** V casti Genes and Gene Prediction Tracks zapnite track Pos Sel Genes, ktory obsahuje geny s '''pozitivnym vyberom''' (cervenou, pripadne slabsie fialovou a modrou)
| + | |
− | ** Ked kliknete na cerveny obdlznik pre tento gen, uvidite, v ktorych castiach fylogenetickeho stromu bol detegovany pozitivny vyber
| + | |
− | ** Po priblizeni do jedneho z exonov [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg18&position=chr1%3A86805823-86805917] vidite dosledky nesynonymnych mutacii
| + | |
− | | + | |
− | Poznamka: Existuju aj webservery na predikciu pozitivneho vyberu, napriklad tieto dva:
| + | |
− | * [http://selecton.tau.ac.il/ Selecton], [http://www.tau.ac.il/~talp/publications/selecton2007.pdf clanok]
| + | |
− | * [http://www.datamonkey.org/ Data monkey] [http://mbe.oxfordjournals.org/cgi/content/abstract/22/5/1208 clanok]
| + | |
− | * Skusili sme na Selecton poslat CLCA4 zo 7 cicavcov, subor tu: [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb07/clca4.mfa]
| + | |
− | ** vysledky [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb07/clca4-selecton.html] a [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb07/clca4-omega.txt] (metoda ale odporuca aspon 10 homologov)
| + | |
− | | + | |
− | ==Ukážka práce v Linuxe==
| + | |
− | | + | |
− | ===Prvá časť - príprava===
| + | |
− | | + | |
− | * Prihláste sa na server podľa pokynov.
| + | |
− | * Potom spúšťajte jednotlivé príkazy podľa pokynov nižšie.
| + | |
− | * Odporúčame príkazy kopírovať myšou (v internetovom prehliadači vysvietiť, stlačiť Ctrl-C, v konzole Ctrl-Shift-V)
| + | |
− | | + | |
− | | + | |
− | <pre>
| + | |
− | # riadky začínajúce mrežou # sú komentáre, netreba ich spúšťať
| + | |
− | | + | |
− | # Dôležité: v príkazoch nižšie xx nahraďte vašim číslom skupiny, napr. 01
| + | |
− | mkdir xx
| + | |
− | cd xx
| + | |
− | # príkaz mkdir (make directory) vytvoril priečinok
| + | |
− | # príkaz cd (change directory) zmenil váš aktuálny priečinok na tento nový
| + | |
− | | + | |
− | # v konzole by ste mali mať user@server:~/xx$
| + | |
− | # kde xx je číslo vašej skupiny, napr. 01
| + | |
− | | + | |
− | # stiahneme si súbor s dátami zo stránky
| + | |
− | wget http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb12.zip
| + | |
− | # rozzipujeme ho
| + | |
− | unzip cb12.zip
| + | |
− | </pre>
| + | |
− | | + | |
− | ===Druhá časť - skladanie genómov, mapovanie čítaní, zarovnanie===
| + | |
− | <pre>
| + | |
− | # prejdeme na priečinok s prvou časťou ohľadom sekvenovania
| + | |
− | cd 1-seq
| + | |
− | | + | |
− | # ls vypíše zoznam súborov v priečinku
| + | |
− | ls
| + | |
− | # ls -l vypíše dlhšiu informáciu (long)
| + | |
− | ls -l
| + | |
− | # ls -lSh usporiada súbory podľa veľkosti (Size) a veľkosti vypíše priateľskejšie pre ľudí (human)
| + | |
− | ls -lSh
| + | |
− | | + | |
− | # mali by sme vidieť kúsok sekvencie z E.coli (prípona .fasta)
| + | |
− | # a 2 súbory zo sekvenovania prístrojom Illumina Miseq (prípona .fastaq.gz)
| + | |
− | # tieto súbory obsahujú čítania z vyššie uvedeného kúsku genómu
| + | |
− | | + | |
− | | + | |
− | # ideme skladať genóm, bude to trvať dlho, preto to chceme spustiť na pozadí
| + | |
− | # aby sme mohli medzitým robiť niečo iné
| + | |
− | screen # stlačte Enter
| + | |
− | # spustite skladanie programom spades
| + | |
− | spades.py -t 1 -m 1 --pe1-1 miseq_R1.fastq.gz --pe1-2 miseq_R2.fastq.gz -o spades > spades.log
| + | |
− | # stlačte naraz Ctrl-a potom d
| + | |
− | # spades teraz beží na pozadí
| + | |
− | | + | |
− | # príkaz top zobrazí bežiace procesy
| + | |
− | # ukončíte ho stlačením q (quit)
| + | |
− | top
| + | |
− | | + | |
− | # príkaz less umožňuje prezerať si obsah textového súboru
| + | |
− | # aj príkaz less ukončíte stlačením q, šípkami sa pohybujete po súbore
| + | |
− | less ref.fasta
| + | |
− | # čítania sú komprimované, preto namiesto less použijeme zless
| + | |
− | zless miseq_R1.fastq.gz
| + | |
− | # tieto príkazy spočítajú počet riadkov - ako z toho zistíme počet čítaní?
| + | |
− | zcat miseq_R1.fastq.gz | wc -l
| + | |
− | zcat miseq_R2.fastq.gz | wc -l
| + | |
− | | + | |
− | # keď spades skončí, vrátime sa do screen a ukončíme ho
| + | |
− | screen -r
| + | |
− | # exit ukončí screen
| + | |
− | exit
| + | |
− | | + | |
− | # spades dal výstup do podpriečinku spades, pozrime si ho
| + | |
− | ls spades
| + | |
− | # skopírujeme si hlavný výsledok do nášho priečinka (cp = copy)
| + | |
− | cp -ip spades/contigs.fasta spades.fasta
| + | |
− | less spades.fasta
| + | |
− | # pozrime si hlavičky jednotlivých sekvencií vo fasta súbore
| + | |
− | grep '>' spades.fasta
| + | |
− | | + | |
− | # programom last si spravíme dotplot referencia vs. naše skladanie
| + | |
− | # 1) vytvorenie indexu pre referenciu
| + | |
− | lastdb ref.fasta ref.fasta
| + | |
− | # 2) samotné zarovnanie
| + | |
− | lastal -f TAB ref.fasta spades.fasta > aln.tab
| + | |
− | # 3) vytvorenie obrázku s dotplotom
| + | |
− | last-dotplot aln.tab aln.png
| + | |
− | | + | |
− | # a ešte dotplot referencia vs. referencia
| + | |
− | # 2) samotné zarovnanie (index už máme)
| + | |
− | lastal -f TAB ref.fasta ref.fasta > aln2.tab
| + | |
− | # 3) vytvorenie obrázku s dotplotom
| + | |
− | last-dotplot aln2.tab aln2.png
| + | |
− | | + | |
− | # pozrieme si dotploty programom eog
| + | |
− | eog aln.png &
| + | |
− | eog aln2.png &
| + | |
− | | + | |
− | | + | |
− | # zarovnajme čítania k referenčnému genómu v 4 krokoch
| + | |
− | # 1) indexovanie fasta súboru
| + | |
− | bwa index ref.fasta
| + | |
− | # 2) samotné zarovnávanie čítaní programom bwa
| + | |
− | bwa mem ref.fasta miseq_R1.fastq.gz miseq_R2.fastq.gz > ref-miseq.sam
| + | |
− | # 3) zmeníme textový sam formát na binárny bam formát
| + | |
− | samtools view -S -b ref-miseq.sam | samtools sort - ref-miseq
| + | |
− | # 4) vytvoríme index bam súboru
| + | |
− | samtools index ref-miseq.bam
| + | |
− | | + | |
− | # pozrime sa na zoznam súborov od najnovšieho po najstarší
| + | |
− | ls -lth
| + | |
− | # sam súbor so zarovnaniami sa dá pozrieť, ale nie je veľmi prehľadný
| + | |
− | less ref-miseq.sam
| + | |
− | | + | |
− | | + | |
− | # vytvoríme aj zarovnanie nášho poskladaného genómu k referencii vo formáte bam
| + | |
− | samtools faidx ref.fasta
| + | |
− | lastal ref.fasta spades.fasta -E1e-20 | maf-convert sam > ref-spades.sam
| + | |
− | samtools view -S -b -t ref.fasta.fai ref-spades.sam | samtools sort - ref-spades
| + | |
− | samtools index ref-spades.bam
| + | |
− | | + | |
− | # výsledky si zobrazíme v grafickom prehliadači igv
| + | |
− | # obdoba genome browsera, ktorú si môžete nainštalovať na vašom počítači
| + | |
− | # POZOR: POTREBUJE VEĽA PAMÄTE, SPUSTÍME IBA JEDEN NARAZ
| + | |
− | igv -g ref.fasta
| + | |
− | # pomocou Menu->File->Load from File otvorte ref-spades.bam a ref-miseq.bam
| + | |
− | # pozrime si región ecoli-frag:224,000-244,000
| + | |
− | # Vidíte jednotlivé kontigy? Sedí tento pohľad s dotplotom?
| + | |
− | # a potom bližšie ecoli-frag:227,300-227,600
| + | |
− | # Všimnite si sekvenačné chyby rozdiely medzi referenciou a kontigmi
| + | |
− | </pre>
| + | |
− | | + | |
− | ===Tretia časť - hľadanie génov, RNA-seq===
| + | |
− | <pre>
| + | |
− | # v druhom cvičení si vyskúšame hľadanie génov
| + | |
− | # najskôr sa presuňme do druhého priečinku
| + | |
− | cd ../2-genes
| + | |
− | | + | |
− | # pozrime si, aké máme súbory
| + | |
− | ls -lSh
| + | |
− | # mali by sme mať kúsok referenčného genómu huby Aspergillus nidulans
| + | |
− | # fastq súbor s čítaniami z RNA-seq pre tento kúsok referencie
| + | |
− | # gff súbor s anotáciou génov z databázy
| + | |
| | | |
− | # spustíme hľadač génov Augustus 2x:
| + | * Vazobne miesta transkripcnych faktorov sa casto reprezentuju ako sekvencne motivy |
− | # raz s parametrami priamo pre A.nidulans a raz s parametrami pre ľudský genóm
| + | * Ak mame skupinu sekvencii, mozeme hladat motiv, ktory maju spolocny |
− | augustus --species=anidulans ref2.fasta > augustus-anidulans.gtf
| + | * Znamy program na tento problem je MEME |
− | augustus --species=human ref2.fasta > augustus-human.gtf
| + | * Chodte na stranku http://meme-suite.org/ |
| + | * Zvolte nastroj MEME a v casti ''Input the primary sequences'' zvolte ''Type in sequences'' a zadajte [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb11/seq.fa tieto sekvencie] |
| + | * Pozrite si ostatne nastavenia. Co asi robia? |
| + | * Ak server pocita dlho, mozete si pozriet vysledky [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb11/MEME.html tu] |
| | | |
− | # RNA-seq zarovnáme k sekvencii nástrojom tophat2 (podporuje intróny)
| + | ==Kvasinkové transkripčné faktory v SGD== |
− | bowtie2-build ref2.fasta ref2.fasta
| + | * Yeast genome database SGD obsahuje pomerne podrobne stranky pre jednotlive transkripcne faktory |
− | tophat2 -i 10 -I 10000 --max-multihits 1 --output-dir rnaseq ref2.fasta rnaseq.fastq
| + | * Pozrime si stranku pre transkripcny faktor GAL4 [http://www.yeastgenome.org/locus/S000006169/regulation] |
− | samtools sort rnaseq/accepted_hits.bam rnaseq
| + | |
− | samtools index rnaseq.bam
| + | |
| | | |
− | # predikcie génov a RNA-seq si pozrieme v igv
| + | ==Staršie cvičenia== |
− | igv -g ref2.fasta
| + | * Nadreprezentácia [[CB08#Nadreprezent.C3.A1cia_.28cvi.C4.8Denie_pri_po.C4.8D.C3.ADta.C4.8Di.29|link]] |
− | # v igv si otvorte annot.gff, augustus-anidulans.gtf, augustus-human.gtf, rnaseq.bam | + | |
− | # - ktoré parametre Augustusu dali presnejšie predpovede (za predpokladu, že anotácia je správna)
| + | |
− | # - pozrite si zblízka niektorý gén s vysokou expresiou (napr. druhy gen sprava),
| + | |
− | # mali by ste vidieť čítania podporujúce intróny
| + | |
− | </pre>
| + | |
UCSC genome browser ma aj dalsie tracky tykajuce sa populacnej genomiky a polymorfizmov