1-BIN-301, 2-AIN-501 Methods in Bioinformatics

Website moved to https://fmfi-compbio.github.io/mbi/


CB12: Rozdiel medzi revíziami

Z MBI
Prejsť na: navigácia, hľadanie
(CB12)
(Staršie cvičenia)
 
(8 intermediate revisions by the same user not shown)
Riadok 2: Riadok 2:
 
* vid prezentacie k cviceniu
 
* vid prezentacie k cviceniu
  
==Uniprot==
 
* Prehladnejsi pohlad na proteiny, vela linkov na ine databazy, cast vytvarana rucne
 
** Pozrieme sa na známy koronavírusový proteín Spike
 
** Nájdime ho na stránke http://www.uniprot.org/ pod názvom SPIKE_SARS2
 
** Pozrime si podrobne jeho stránku, ktoré časti boli predpovedané bioinformatickými metódami z prednášky?
 
** Všimnime si niektorú Pfam doménu a pozrime si jej stránku
 
  
==PSI BLAST==
+
==Populacna genomika v UCSC genome browseri==
* Toto cvičenie je z časti inšpirované stránkou [http://www.ncbi.nlm.nih.gov/Class/FieldGuide/problem_set.html]
+
* Budeme uvažovať vzdialene podobné enzýmy
+
** Bis(5'-adenosyl)-triphosphatase ([http://www.uniprot.org/uniprot/P49789 Uniprot])
+
** Galactose-1-phosphate uridylyltransferase (GALT/GAL7) ([http://www.uniprot.org/uniprot/P31764 Uniprot])
+
** Ich domény patria v databáze Pfam do toho istého klanu
+
* Skúsme nájsť túto podobnosť v BLASTe: http://blast.ncbi.nlm.nih.gov/ v časti proteíny, zvoľme databázu Swissport, ako Query zadajme Accesion nášho proteínu P49789, spustime program PSI-BLAST
+
* V prvom kole PSI-BLAST spúšťa bežný BLASTP
+
* GAL gén (konkrétne GAL7_HAEIN, accession P31764) sa nachádza medzi výsledkami, ale má príliš vysokú E-value
+
* Spustíme teraz druhú iteráciu PSI-BLAST, ktorá zostaví profil z proteínov s nízkou E-value v prvej iterácii
+
* Aká je E-value nájdeného zarovnania?
+
* Ak by výpočet dlho trval, výsledky sú tu: [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb08/psi-blast1.html 1. kolo], [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb08/psi-blast2.html 2. kolo]
+
  
==Sekvenovanie v UCSC genome browseri==
+
===Zopar zaujimavych polymorfizmov v ludskom genome===
* Vráťte sa na UCSC genome browser http://genome-euro.ucsc.edu/
+
* SNP rs1815739 CC:  [http://www.snpedia.com/index.php/Rs1815739 SNPedia], [http://genome.ucsc.edu/cgi-bin/hgTracks?db=hg19&position=chr11:66327845-66328345&hgS_doOtherUser=submit&hgS_otherUserName=Brona&hgS_otherUserSessionName=DOD2016 genome browser]
* Pozrieme si niekoľko vecí týkajúcich sa sekvenovania a skladania genómov
+
* SNP rs12255372 GT: [http://www.snpedia.com/index.php/Rs12255372 SNPedia], [http://genome.ucsc.edu/cgi-bin/hgTracks?db=hg19&position=chr10:114808652-114809152&hgS_doOtherUser=submit&hgS_otherUserName=Brona&hgS_otherUserSessionName=DOD2016 genome browser]
* Hore v modrom menu zvoľte Genomes, časť Other
+
* SNP rs2472297 TT: [http://www.snpedia.com/index.php/Rs2472297 SNPedia], [http://genome.ucsc.edu/cgi-bin/hgTracks?db=hg19&position=chr15:75027630-75028130&hgS_doOtherUser=submit&hgS_otherUserName=Brona&hgS_otherUserSessionName=DOD2016 genome browser]
* Na ďalšej stránke zvoľte človeka a pomocou menu Human Assembly '''zistite, kedy boli pridané posledné dve verzie ľudského genómu (hg19 a hg38)'''
+
* Ďalšie zaujímavé SNPy: rs10427255 CC, rs671 GG, rs713598 GG, rs17822931 CT, rs4988235 CC, rs1042725 CC, rs7495174 AA, rs1426654 AA, rs4481887 AG
* Na tej istej stránke dole nájdete stručný popis zvolenej verzie genómu. '''Pre ktoré oblasti genómu máme v hg38 najviac alternatívnych verzií? (haplotypes)'''
+
* V browseri si vsimnite tracky (specificke pre verziu genomu hg19):
* Prejdite na región chr21:31,250,000-31,300,000 v hg19  touto linkou: [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg19&position=chr21%3A31250000-31300000]
+
** HGDP Allele Freq s mapou sveta s distribuciou alel
* Zapnite si tracky Mapability a RepeatMasker na "full"
+
** Genome Variants obsahuje genomy niekolkych ludi, napr Jima Watsona
* Mapability: nakoľko sa daný úsek opakuje v genóme a či teda vieme jednoznačne jeho čítania namapovať pri použití Next generation sequencing
+
** Takisto sa da pozriet genom ludi z jaskyne Denisova a Neandertalcov
* Ako a prečo sa  pri rôznych dĺžkach čítaní líšia? (Keď kliknete na linku "Mapability", môžete si prečítať bližšie detaily.)
+
* Približne v strede zobrazeného regiónu je pokles mapovateľnosti. '''Akému typu opakovania zodpovedá?''' (pozrite track RepeatMasker)
+
* Zapnite si tracky "Assembly" a "Gaps" a pozrite si región chr2:110,000,000-110,300,000 v hg19: [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg19&position=chr2%3A110000000-110300000] '''Aká dlhá je neosekvenovaná medzera (gap) v strede tohto regiónu?''' Približnú veľkosť môžete odčítať z obrázku, presnejší údaj zistíte kliknutím na čierny obdĺžnik zodpovedajúci tejto medzere (úplne presná dĺžka aj tak nebola známa, nakoľko nebola osekvenovaná).
+
* Cez menu položku View, In other genomes si pozrite, ako zobrazený úsek vyzerá vo verzii hg38. Ako sa zmenila dĺžka z pôvodných 300kb?
+
* Prejdite na genóm Rhesus, verzia rheMac2, región chr7:59,022,000-59,024,000 [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=rheMac2&position=chr7%3A59022000-59024000], zapnite si tracky Contigs, Gaps, Quality scores
+
* '''Aké typy problémov v kvalite sekvencie v tomto regióne vidíte?'''
+
** Opäť si môžete pozrieť, či sa problémy odstránili a ako sa zmenila dĺžka sekvencie v najnovšej verzii rheMac8
+
  
==Gény, evolúcia a komparatívna genomika v UCSC genome browseri (cvičenie pri počítači)==
+
UCSC genome browser ma aj dalsie tracky tykajuce sa populacnej genomiky a polymorfizmov
 +
* Pozrime si napriklad region [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg38&position=chr2:46,570,000-46,630,000 chr2:46,570,000-46,630,000 v hg38]
 +
* V casti Phenotype and Disease Associations
 +
** napr. OMIM Alleles obsahuju asociacie variantov k chorobam
 +
** GWAS Catalog sú výsledky GWAS štúdií
  
* Zobrazme si gén CLCA4 [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg38&position=chr1%3A86538658-86589173]
 
* Zapnite si štandardnú sadu track-ov
 
* Po kliknutí na gén si môžete prečítať o jeho funkcii, po kliknutí na ľavú lištu alebo na názov tracku v zozname na spodku stránky si môžete prečítať viac o tracku a meniť nastavenia
 
* V tracku RefSeq genes si všimnite, že v tejto databáze má tento gén dve formy zostrihu, jedna z nich sa považuje za nekódujúcu, pretína sa aj s necharakterizovanou nekódujúcou RNA na opačnom vlákne
 
** Track RefSeq a jeho subtrack RefSeq Curated treba zapnut na pack
 
* Nižšie vidíte track H3K27Ac Mark (Often Found Near Regulatory Elements) on 7 cell lines from ENCODE, kde bola táto histónová modifikácia v okolí génu detegovaná?
 
* Všimnite si aj track DNase I Hypersensitivity, ktorý zobrazuje otvorený chromatin, prístupný pre viazanie transkripčných faktorov. Všimnite si jeho súvis s H3K27Ac trackom
 
* Obidva tracky sú súčasťou tracku ENCODE regulation, v ktorom si môžete zapnúť aj ďalšie pod-tracky
 
  
* Vsimnime si track Vertebrate Multiz Alignment & Conservation (100 Species)
+
V starsej verzii ludskeho genomu hg18 je aj trojuholnikovy graf vazbovej nerovnovahy
** v spodnej casti tracku vidime zarovnania s roznymi inymi genomami
+
* [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg18&position=chr2:164,862-426,468 region chr2:164,862-426,468 v hg18]  
** v nastaveniach tracku zapnite Element Conservation (phastCons) na full a Conserved Elements na dense
+
* zapnite "HapMap LD Phased" na Full (cast Variation and Repeats)
** v tomto tracku vidíme PhyloP, co zobrazuje uroven konzerovanosti danej bazy len na zaklade jedneho stlpca zarovnania a dva vysledky z phyloHMM phastCons, ktory berie do uvahy aj okolite stlpce
+
* vsimnite si, ze miery LD sa medzi ludskymi podpopulaciami lisia (YRI: Nigeria; CEU: Europa; JPT+CHB: Japonsko, Cina)
* Konkretne cast Conserved elements zobrazuje konkretne useky, ktore su najvac konzervovane
+
** Ak chceme zistit, kolko percent genomu tieto useky pokryvaju, ideme na modrej liste do casti Tools->Table browser, zvolime group Comparative genomics, track Conservation, table 100 Vert. El, region zvolime genome (v celom genome)  a stlacime tlacidlo Summary/statistics, dostaneme nieco taketo:
+
<TABLE border=1>
+
<TR><TD>item count</TD><TD ALIGN=RIGHT>10,350,729</TD></TR>
+
<TR><TD>item bases</TD><TD ALIGN=RIGHT>162,179,256 (5.32%)</TD></TR>
+
<TR><TD>item total</TD><TD ALIGN=RIGHT>162,179,256 (5.32%)</TD></TR>
+
<TR><TD>smallest item</TD><TD ALIGN=RIGHT>1</TD></TR>
+
<TR><TD>average item</TD><TD ALIGN=RIGHT>16</TD></TR>
+
<TR><TD>biggest item</TD><TD ALIGN=RIGHT>3,732</TD></TR>
+
<TR><TD>smallest score</TD><TD ALIGN=RIGHT>186</TD></TR>
+
<TR><TD>average score</TD><TD ALIGN=RIGHT>333</TD></TR>
+
<TR><TD>biggest score</TD><TD ALIGN=RIGHT>1,000</TD></TR>
+
</TABLE>
+
** Ak by nas zaujimali iba velmi dlhe "conserved elements", v Table browser stlacime tlacidlo Filter a na dalsej obrazovke do policka Free-form query dame '''chromEnd-chromStart>=1500'''
+
** Potom mozeme skusit Summary/Statistics alebo vystup typu Hyperlinks to genome browser a Get output - dostaneme zoznam tychto elementov a kazdy si mozeme jednym klikom pozriet v browseri, napr. taketo
+
*** [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg38&position=chr1:50201403-50203312 lod=24051 at chr1:50201403-50203312]
+
*** [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg38&position=chr1:55663689-55667047 lod=1899 at chr1:55663689-55667047] atd
+
  
* Pozrime si teraz ten isty gen CLCA4 v starsej verzii genomu hg18 [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg18&position=chr1%3A86776929-86827444]
+
==Sekvenčné motívy, program MEME==
** V casti Genes and Gene Prediction Tracks zapnite track Pos Sel Genes, ktory obsahuje geny s '''pozitivnym vyberom''' (cervenou, pripadne slabsie fialovou a modrou)
+
** Ked kliknete na cerveny obdlznik pre tento gen, uvidite, v ktorych castiach fylogenetickeho stromu bol detegovany pozitivny vyber
+
** Po priblizeni do jedneho z exonov [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg18&position=chr1%3A86805823-86805917] vidite dosledky nesynonymnych mutacii
+
  
Poznamka: Existuju aj webservery na predikciu pozitivneho vyberu, napriklad tieto dva:
+
* Vazobne miesta transkripcnych faktorov sa casto reprezentuju ako sekvencne motivy
* [http://selecton.tau.ac.il/ Selecton], [http://www.tau.ac.il/~talp/publications/selecton2007.pdf clanok]
+
* Ak mame skupinu sekvencii, mozeme hladat motiv, ktory maju spolocny
* [http://www.datamonkey.org/ Data monkey] [http://mbe.oxfordjournals.org/cgi/content/abstract/22/5/1208 clanok]
+
* Znamy program na tento problem je MEME
* Skusili sme na Selecton poslat CLCA4 zo 7 cicavcov, subor tu: [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb07/clca4.mfa]
+
* Chodte na stranku http://meme-suite.org/
** vysledky [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb07/clca4-selecton.html] a [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb07/clca4-omega.txt] (metoda ale odporuca aspon 10 homologov)
+
* Zvolte nastroj MEME a v casti ''Input the primary sequences'' zvolte ''Type in sequences'' a zadajte [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb11/seq.fa tieto sekvencie]  
 +
* Pozrite si ostatne nastavenia. Co asi robia?
 +
* Ak server pocita dlho, mozete si pozriet vysledky [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb11/MEME.html tu]
  
==Ukážka práce v Linuxe==
+
==Kvasinkové transkripčné faktory v SGD==
 +
* Yeast genome database SGD obsahuje pomerne podrobne stranky pre jednotlive transkripcne faktory
 +
* Pozrime si stranku pre transkripcny faktor GAL4 [http://www.yeastgenome.org/locus/S000006169/regulation]
  
===Prvá časť - príprava===
+
==Staršie cvičenia==
 
+
* Nadreprezentácia [[CB08#Nadreprezent.C3.A1cia_.28cvi.C4.8Denie_pri_po.C4.8D.C3.ADta.C4.8Di.29|link]]
* Prihláste sa na server podľa pokynov.
+
* Potom spúšťajte jednotlivé príkazy podľa pokynov nižšie.
+
* Odporúčame príkazy kopírovať myšou (v internetovom prehliadači vysvietiť, stlačiť Ctrl-C, v konzole Ctrl-Shift-V)
+
 
+
 
+
<pre>
+
# riadky začínajúce mrežou # sú komentáre, netreba ich spúšťať
+
 
+
# Dôležité: v príkazoch nižšie xx nahraďte vašim číslom skupiny, napr. 01
+
mkdir xx
+
cd xx
+
# príkaz mkdir (make directory) vytvoril priečinok
+
# príkaz cd (change directory) zmenil váš aktuálny priečinok na tento nový
+
 
+
# v konzole by ste mali mať user@server:~/xx$
+
# kde xx je číslo vašej skupiny, napr. 01
+
 
+
# stiahneme si súbor s dátami zo stránky
+
wget http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb12.zip
+
# rozzipujeme ho
+
unzip cb12.zip
+
</pre>
+
 
+
===Druhá časť - skladanie genómov, mapovanie čítaní, zarovnanie===
+
<pre>
+
# prejdeme na priečinok s prvou časťou ohľadom sekvenovania
+
cd 1-seq
+
 
+
# ls vypíše zoznam súborov v priečinku
+
ls
+
# ls -l vypíše dlhšiu informáciu (long)
+
ls -l
+
# ls -lSh usporiada súbory podľa veľkosti (Size) a veľkosti vypíše priateľskejšie pre ľudí (human)
+
ls -lSh
+
 
+
# mali by sme vidieť kúsok sekvencie z E.coli (prípona .fasta)
+
# a 2 súbory zo sekvenovania prístrojom Illumina Miseq  (prípona .fastaq.gz)
+
# tieto súbory obsahujú čítania z vyššie uvedeného kúsku genómu
+
 
+
 
+
# ideme skladať genóm, bude to trvať dlho, preto to chceme spustiť na pozadí
+
# aby sme mohli medzitým robiť niečo iné
+
screen # stlačte Enter
+
# spustite skladanie programom spades
+
spades.py -t 1 -m 1 --pe1-1 miseq_R1.fastq.gz --pe1-2 miseq_R2.fastq.gz -o spades > spades.log
+
# stlačte naraz Ctrl-a potom d
+
# spades teraz beží na pozadí
+
 
+
# príkaz top zobrazí bežiace procesy
+
# ukončíte ho stlačením q (quit)
+
top
+
 
+
# príkaz less umožňuje prezerať si obsah textového súboru
+
# aj príkaz less ukončíte stlačením q, šípkami sa pohybujete po súbore
+
less ref.fasta
+
# čítania sú komprimované, preto namiesto less použijeme zless
+
zless miseq_R1.fastq.gz
+
# tieto príkazy spočítajú počet riadkov - ako z toho zistíme počet čítaní?
+
zcat miseq_R1.fastq.gz | wc -l
+
zcat miseq_R2.fastq.gz | wc -l
+
 
+
# keď spades skončí, vrátime sa do screen a ukončíme ho
+
screen -r
+
# exit ukončí screen
+
exit
+
 
+
# spades dal výstup do podpriečinku spades, pozrime si ho
+
ls spades
+
# skopírujeme si hlavný výsledok do nášho priečinka (cp = copy)
+
cp -ip spades/contigs.fasta spades.fasta
+
less spades.fasta
+
# pozrime si hlavičky jednotlivých sekvencií vo fasta súbore
+
grep '>' spades.fasta
+
 
+
# programom last si spravíme dotplot referencia vs. naše skladanie
+
# 1) vytvorenie indexu pre referenciu
+
lastdb ref.fasta ref.fasta
+
# 2) samotné zarovnanie
+
lastal -f TAB ref.fasta spades.fasta > aln.tab
+
# 3) vytvorenie obrázku s dotplotom
+
last-dotplot aln.tab aln.png
+
 
+
# a ešte dotplot referencia vs. referencia
+
# 2) samotné zarovnanie (index už máme)
+
lastal -f TAB ref.fasta ref.fasta > aln2.tab
+
# 3) vytvorenie obrázku s dotplotom
+
last-dotplot aln2.tab aln2.png
+
 
+
# pozrieme si dotploty programom eog
+
eog aln.png &
+
eog aln2.png &
+
 
+
 
+
# zarovnajme čítania k referenčnému genómu v 4 krokoch
+
# 1) indexovanie fasta súboru
+
bwa index ref.fasta
+
# 2) samotné zarovnávanie čítaní programom bwa
+
bwa mem ref.fasta miseq_R1.fastq.gz miseq_R2.fastq.gz > ref-miseq.sam
+
# 3) zmeníme textový sam formát na binárny bam formát
+
samtools view -S -b ref-miseq.sam | samtools sort - ref-miseq
+
# 4) vytvoríme index bam súboru
+
samtools index ref-miseq.bam
+
 
+
# pozrime sa na zoznam súborov od najnovšieho po najstarší
+
ls -lth
+
# sam súbor so zarovnaniami sa dá pozrieť, ale nie je veľmi prehľadný
+
less ref-miseq.sam
+
 
+
 
+
# vytvoríme aj zarovnanie nášho poskladaného genómu k referencii vo formáte bam
+
samtools faidx ref.fasta
+
lastal ref.fasta spades.fasta -E1e-20 | maf-convert sam > ref-spades.sam
+
samtools view -S -b -t ref.fasta.fai ref-spades.sam | samtools sort - ref-spades
+
samtools index ref-spades.bam
+
 
+
# výsledky si zobrazíme v grafickom prehliadači igv
+
# obdoba genome browsera, ktorú si môžete nainštalovať na vašom počítači
+
# POZOR: POTREBUJE VEĽA PAMÄTE, SPUSTÍME IBA JEDEN NARAZ
+
igv -g ref.fasta
+
# pomocou Menu->File->Load from File otvorte ref-spades.bam a ref-miseq.bam
+
# pozrime si región ecoli-frag:224,000-244,000
+
#  Vidíte jednotlivé kontigy? Sedí tento pohľad s dotplotom?
+
# a potom bližšie ecoli-frag:227,300-227,600
+
#  Všimnite si sekvenačné chyby rozdiely medzi referenciou a kontigmi
+
</pre>
+
 
+
===Tretia časť - hľadanie génov, RNA-seq===
+
<pre>
+
# v druhom cvičení si vyskúšame hľadanie génov
+
# najskôr sa presuňme do druhého priečinku
+
cd ../2-genes
+
 
+
# pozrime si, aké máme súbory
+
ls -lSh
+
# mali by sme mať kúsok referenčného genómu huby Aspergillus nidulans
+
# fastq súbor s čítaniami z RNA-seq pre tento kúsok referencie
+
# gff súbor s anotáciou génov z databázy
+
 
+
# spustíme hľadač génov Augustus 2x:
+
# raz s parametrami priamo pre A.nidulans a raz s parametrami pre ľudský genóm
+
augustus --species=anidulans ref2.fasta > augustus-anidulans.gtf
+
augustus --species=human ref2.fasta > augustus-human.gtf
+
 
+
# RNA-seq zarovnáme k sekvencii nástrojom tophat2 (podporuje intróny)
+
bowtie2-build ref2.fasta ref2.fasta
+
tophat2 -i 10 -I 10000 --max-multihits 1 --output-dir rnaseq ref2.fasta rnaseq.fastq
+
samtools sort rnaseq/accepted_hits.bam rnaseq
+
samtools index rnaseq.bam
+
 
+
# predikcie génov a RNA-seq si pozrieme v igv
+
igv -g ref2.fasta
+
# v igv si otvorte annot.gff, augustus-anidulans.gtf, augustus-human.gtf, rnaseq.bam
+
# - ktoré parametre Augustusu dali presnejšie predpovede (za predpokladu, že anotácia je správna)
+
# - pozrite si zblízka niektorý gén s vysokou expresiou (napr. druhy gen sprava),
+
#  mali by ste vidieť čítania podporujúce intróny
+
</pre>
+

Aktuálna revízia z 10:47, 7. december 2023

Zhrnutie semestra a úvod do teórie grafov

  • vid prezentacie k cviceniu


Populacna genomika v UCSC genome browseri

Zopar zaujimavych polymorfizmov v ludskom genome

  • SNP rs1815739 CC: SNPedia, genome browser
  • SNP rs12255372 GT: SNPedia, genome browser
  • SNP rs2472297 TT: SNPedia, genome browser
  • Ďalšie zaujímavé SNPy: rs10427255 CC, rs671 GG, rs713598 GG, rs17822931 CT, rs4988235 CC, rs1042725 CC, rs7495174 AA, rs1426654 AA, rs4481887 AG
  • V browseri si vsimnite tracky (specificke pre verziu genomu hg19):
    • HGDP Allele Freq s mapou sveta s distribuciou alel
    • Genome Variants obsahuje genomy niekolkych ludi, napr Jima Watsona
    • Takisto sa da pozriet genom ludi z jaskyne Denisova a Neandertalcov

UCSC genome browser ma aj dalsie tracky tykajuce sa populacnej genomiky a polymorfizmov

  • Pozrime si napriklad region chr2:46,570,000-46,630,000 v hg38
  • V casti Phenotype and Disease Associations
    • napr. OMIM Alleles obsahuju asociacie variantov k chorobam
    • GWAS Catalog sú výsledky GWAS štúdií


V starsej verzii ludskeho genomu hg18 je aj trojuholnikovy graf vazbovej nerovnovahy

  • region chr2:164,862-426,468 v hg18
  • zapnite "HapMap LD Phased" na Full (cast Variation and Repeats)
  • vsimnite si, ze miery LD sa medzi ludskymi podpopulaciami lisia (YRI: Nigeria; CEU: Europa; JPT+CHB: Japonsko, Cina)

Sekvenčné motívy, program MEME

  • Vazobne miesta transkripcnych faktorov sa casto reprezentuju ako sekvencne motivy
  • Ak mame skupinu sekvencii, mozeme hladat motiv, ktory maju spolocny
  • Znamy program na tento problem je MEME
  • Chodte na stranku http://meme-suite.org/
  • Zvolte nastroj MEME a v casti Input the primary sequences zvolte Type in sequences a zadajte tieto sekvencie
  • Pozrite si ostatne nastavenia. Co asi robia?
  • Ak server pocita dlho, mozete si pozriet vysledky tu

Kvasinkové transkripčné faktory v SGD

  • Yeast genome database SGD obsahuje pomerne podrobne stranky pre jednotlive transkripcne faktory
  • Pozrime si stranku pre transkripcny faktor GAL4 [1]

Staršie cvičenia

  • Nadreprezentácia link