1-BIN-301, 2-AIN-501 Methods in Bioinformatics, 2023/24

Introduction · Rules · Tasks and dates · Materials · Moodle
Quizzes can be found in Moodle.
Homework assignments and journal club papers can be found in Tasks and dates.
Exam rules, example questions and syllabus
Groups for journal club have each their own group in Moodle.


CB10: Rozdiel medzi revíziami

Z MBI
Prejsť na: navigácia, hľadanie
(Gény, evolúcia a komparatívna genomika v UCSC genome browseri (cvičenie pri počítači))
(Objavenie génu HAR1 pomocou komparatívnej genomiky)
(3 intermediate revisions by the same user not shown)
Riadok 1: Riadok 1:
==Gény, evolúcia a komparatívna genomika v UCSC genome browseri (cvičenie pri počítači)==
+
==RNA štruktúra==
 +
* Znama databaza rodin RNA genov je Rfam: http://rfam.xfam.org/
 +
* Najdite si v nej rodinu RF00015 (U4 spliceosomal RNA)
 +
* V casti Secondary structure si mozete pozriet obrazky farebne kodovane podla roznych kriterii
 +
** Skuste pochopit, co jednotlive obrazky a ich farby znamenaju
 +
* Jedna z mnohych ludskych kopii je tato:
 +
<pre>
 +
AGCTTTGCGCAGTGGCAGTATCGTAGCCAATGAGGTTTATCCGAGGCGCG
 +
ATTATTGCTAATTGAAAACTTTTCCCAATACCCCGCCATGACGACTTGAA
 +
ATATAGTCGGCATTGGCAATTTTTGACAGTCTCTACGGAGA
 +
</pre>
 +
* Skuste ju najst v ludskom genome nastrojom BLAT v [http://genome-euro.ucsc.edu UCSC genome browseri]
 +
* Pozrite si tracky GENCODE genes, conservation, RepeatMasker v jej okoli
 +
* Vo verzii hg19 (kam sa viete z inej verzii dostat cez horne menu View->In Other Genomes) je track "CSHL Sm RNA-seq" ktory obsahuje RNASeq kratkych RNA z roznych casti buniek, zapnite si v jeho nastaveniach aj zobrazenie RNA z jadra (nucleus)
 +
* Zadajte sekvenciu na RNAfold serveri [http://rna.tbi.univie.ac.at/cgi-bin/RNAWebSuite/RNAfold.cgi]
 +
* Ak vypocet dlho trva, pozrite si vysledok [http://rna.tbi.univie.ac.at//cgi-bin/RNAWebSuite/RNAfold.cgi?PAGE=3&ID=fdr_TwjicB tu]
 +
* Podoba sa na strukturu zobrazenu v Rfame? v com sa lisi?
  
K hladaniu genov pozri aj prezentaciu {{pdf|Cb-gene}}
+
* RNA dizajn: mozete sa skusit zahrat na stranke http://www.eternagame.org/web/
  
Histónové modifikácie
+
==PSI BLAST==
* A. Barski, S. Cuddapah, K. Cui, T. Roh, D. Schones, Z. Wang, G. Wei, I. Chepelev, K. Zhao (2007) High-Resolution Profiling of Histone Methylations in the Human Genome Cell, Volume 129, Issue 4, Pages 823-837 [http://www.columbia.edu/cu/biology/courses/w3034/LACpapers/barskiMethylSolexCell07.pdf pdf]
+
* Toto cvičenie je z časti inšpirované stránkou [http://www.ncbi.nlm.nih.gov/Class/FieldGuide/problem_set.html]
 +
* Budeme uvažovať vzdialene podobné enzýmy
 +
** Bis(5'-adenosyl)-triphosphatase ([http://www.uniprot.org/uniprot/P49789 Uniprot])
 +
** Galactose-1-phosphate uridylyltransferase (GALT/GAL7) ([http://www.uniprot.org/uniprot/P31764 Uniprot])
 +
** Ich domény patria v databáze Pfam do toho istého klanu
 +
* Skúsme nájsť túto podobnosť v BLASTe: http://blast.ncbi.nlm.nih.gov/ v časti proteíny, zvoľme databázu Swissport, ako Query zadajme Accesion nášho proteínu P49789, spustime program PSI-BLAST
 +
* V prvom kole PSI-BLAST spúšťa bežný BLASTP
 +
* GAL gén (konkrétne GAL7_HAEIN, accession P31764) sa nachádza medzi výsledkami, ale má príliš vysokú E-value
 +
* Spustíme teraz druhú iteráciu PSI-BLAST, ktorá zostaví profil z proteínov s nízkou E-value v prvej iterácii
 +
* Aká je E-value nájdeného zarovnania?
 +
* Ak by výpočet dlho trval, výsledky sú tu: [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb08/psi-blast1.html 1. kolo], [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb08/psi-blast2.html 2. kolo]
  
 +
==Nadreprezentácia, Uniprot (cvičenie pri počítači)==
 +
Data o expresii ludskych genov v roznych tkanivach a podobne v '''UCSC genome browseri'''
 +
* Chodte na genome browser http://genome-euro.ucsc.edu/
 +
* Zvolte ''Tools->Gene Sorter'', ''sort by'' nechajme ''Expression (GTEx)'', a do okienka ''search'' zadajme identifikator genu ''PTPRZ1''
 +
** Dostane tabulku genov s podobnym profilom expresie ako PTPRZ1 (červená je vysoká expresia, zelená nízka)
 +
** Zoznam tychto genov v textovom formate najdete [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb08/zoznam_genov.txt tu]
 +
* http://biit.cs.ut.ee/gprofiler/ mena genov skopirujme do policka ''Query'', stlacte g:Profile!
 +
** Ak by výpočet dlho trval, nájdete ho aj [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb08/g_Profiler.html tu]
 +
** Vo výslednej tabuľke je každý riadok jedna funkcna kategoria, v ktorej su geny s tymto profilom expresie nadreprezentovane, kazdy stlpec jeden gen.
 +
** V spodnej casti tabuly su aj asociacie k chorobam a k transkripcnym faktorom, ktore by mohli prislusne geny regulovat
 +
* Co by sme na zaklade nadreprezentovanych kategorii usudzovali o gene PTPRZ1?
  
* Zobrazme si gén CLCA4 [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg38&position=chr1%3A86538658-86589173]
+
* Najdite tento gen v Uniprote (http://www.uniprot.org/), potvrdzuje nase domnienky?
* Zapnite si štandardnú sadu track-ov
+
** O mnohých údajoch na stránke sme sa rozprávali na prednáške (GO kategórie, domény, sekundárna a 3D štruktúra)
* Po kliknutí na gén si môžete prečítať o jeho funkcii, po kliknutí na ľavú lištu alebo na názov tracku v zozname na spodku stránky si môžete prečítať viac o tracku a meniť nastavenia
+
** na veľa miestach na stránke je uvedené aj odkiaľ jednotlivé údaje pochádzajú
* V tracku RefSeq genes si všimnite, že v tejto databáze má tento gén dve formy zostrihu, jedna z nich sa považuje za nekódujúcu, pretína sa aj s necharakterizovanou nekódujúcou RNA na opačnom vlákne
+
** Všimnime si Pfam domény a pozrime si ich stránku
** Track RefSeq a jeho subtrack RefSeq Curated treba zapnut na pack
+
* Nižšie vidíte track H3K27Ac Mark (Often Found Near Regulatory Elements) on 7 cell lines from ENCODE, kde bola táto histónová modifikácia v okolí génu detegovaná?
+
* Všimnite si aj track DNase I Hypersensitivity, ktorý zobrazuje otvorený chromatin, prístupný pre viazanie transkripčných faktorov. Všimnite si jeho súvis s H3K27Ac trackom
+
* Obidva tracky sú súčasťou tracku ENCODE regulation, v ktorom si môžete zapnúť aj ďalšie pod-tracky
+
* Takisto v tracku GTEx vidíme, v ktorých tkanivách je gén exprimovaný, porovnajte s okolitými génmi
+
  
 +
* Vratme sa do genome browsera, najdime si PTPRZ1 gen v genome [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg38&position=chr7%3A121873089-122062036]
 +
* V browseri su rozne tracky tykajuce sa expresie, napr. GTEx. Precitajte si, co je v tomto tracku zobrazene, zapnite si ho a pozrite si expresiu okolitych genov okolo PTPRZ1
 +
* Kliknite na gen v tracku UCSC known genes. V tabulke uvidite zase prehlad expresie v roznych tkanivach (podla GTEx)
  
* Vsimnime si track Vertebrate Multiz Alignment & Conservation (100 Species)
 
** v spodnej casti tracku vidime zarovnania s roznymi inymi genomami
 
** v nastaveniach tracku zapnite Element Conservation (phastCons) na full a Conserved Elements na dense
 
** v tomto tracku vidíme PhyloP, co zobrazuje uroven konzerovanosti danej bazy len na zaklade jedneho stlpca zarovnania a dva vysledky z phyloHMM phastCons, ktory berie do uvahy aj okolite stlpce
 
* Konkretne cast Conserved elements zobrazuje konkretne useky, ktore su najvac konzervovane
 
** Ak chceme zistit, kolko percent genomu tieto useky pokryvaju, ideme na modrej liste do casti Tools->Table browser, zvolime group Comparative genomics, track Conservation, table 100 Vert. El, region zvolime genome (v celom genome)  a stlacime tlacidlo Summary/statistics, dostaneme nieco taketo:
 
<TABLE border=1>
 
<TR><TD>item count</TD><TD ALIGN=RIGHT>10,350,729</TD></TR>
 
<TR><TD>item bases</TD><TD ALIGN=RIGHT>162,179,256 (5.32%)</TD></TR>
 
<TR><TD>item total</TD><TD ALIGN=RIGHT>162,179,256 (5.32%)</TD></TR>
 
<TR><TD>smallest item</TD><TD ALIGN=RIGHT>1</TD></TR>
 
<TR><TD>average item</TD><TD ALIGN=RIGHT>16</TD></TR>
 
<TR><TD>biggest item</TD><TD ALIGN=RIGHT>3,732</TD></TR>
 
<TR><TD>smallest score</TD><TD ALIGN=RIGHT>186</TD></TR>
 
<TR><TD>average score</TD><TD ALIGN=RIGHT>333</TD></TR>
 
<TR><TD>biggest score</TD><TD ALIGN=RIGHT>1,000</TD></TR>
 
</TABLE>
 
** Ak by nas zaujimali iba velmi dlhe "conserved elements", v Table browser stlacime tlacidlo Filter a na dalsej obrazovke do policka Free-form query dame '''chromEnd-chromStart>=1500'''
 
** Potom mozeme skusit Summary/Statistics alebo vystup typu Hyperlinks to genome browser a Get output - dostaneme zoznam tychto elementov a kazdy si mozeme jednym klikom pozriet v browseri, napr. taketo
 
*** [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg38&position=chr1:50201403-50203312 lod=24051 at chr1:50201403-50203312]
 
*** [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg38&position=chr1:55663689-55667047 lod=1899 at chr1:55663689-55667047] atd
 
 
* Pozrime si teraz ten isty gen CLCA4 v starsej verzii genomu hg18 [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg18&position=chr1%3A86776929-86827444]
 
** V casti Genes and Gene Prediction Tracks zapnite track Pos Sel Genes, ktory obsahuje geny s '''pozitivnym vyberom''' (cervenou, pripadne slabsie fialovou a modrou)
 
** Ked kliknete na cerveny obdlznik pre tento gen, uvidite, v ktorych castiach fylogenetickeho stromu bol detegovany pozitivny vyber
 
** Po priblizeni do jedneho z exonov [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg18&position=chr1%3A86805823-86805917] vidite dosledky nesynonymnych mutacii
 
 
Poznamka: Existuju aj webservery na predikciu pozitivneho vyberu, napriklad tieto dva:
 
* [http://selecton.tau.ac.il/ Selecton], [http://www.tau.ac.il/~talp/publications/selecton2007.pdf clanok]
 
* [http://www.datamonkey.org/ Data monkey] [http://mbe.oxfordjournals.org/cgi/content/abstract/22/5/1208 clanok]
 
* Skusili sme na Selecton poslat CLCA4 zo 7 cicavcov, subor tu: [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb07/clca4.mfa]
 
** vysledky [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb07/clca4-selecton.html] a [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb07/clca4-omega.txt] (metoda ale odporuca aspon 10 homologov)
 
  
 
==Objavenie génu HAR1 pomocou komparatívnej genomiky==
 
==Objavenie génu HAR1 pomocou komparatívnej genomiky==
Riadok 64: Riadok 67:
 
===Cvičenie pri počítači===
 
===Cvičenie pri počítači===
 
* Môžete si pozrieť tento region v browseri: [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg38&position=chr20%3A63102114-63102274 '''chr20:63102114-63102274''' (hg38)], pricom ak sa este priblizite, uvidite zarovnanie aj s bazami a mozete vidiet, ze vela zmien je specifickych pre cloveka
 
* Môžete si pozrieť tento region v browseri: [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg38&position=chr20%3A63102114-63102274 '''chr20:63102114-63102274''' (hg38)], pricom ak sa este priblizite, uvidite zarovnanie aj s bazami a mozete vidiet, ze vela zmien je specifickych pre cloveka
 
==Uniprot==
 
* Prehladnejsi pohlad na proteiny, vela linkov na ine databazy, cast vytvarana rucne
 
** Pozrieme sa na známy koronavírusový proteín Spike
 
** Nájdime ho na stránke http://www.uniprot.org/ pod názvom SPIKE_SARS2
 
** Pozrime si podrobne jeho stránku, ktoré časti boli predpovedané bioinformatickými metódami z prednášky?
 
** Všimnime si niektorú Pfam doménu a pozrime si jej stránku
 
 
==PSI BLAST==
 
* Toto cvičenie je z časti inšpirované stránkou [http://www.ncbi.nlm.nih.gov/Class/FieldGuide/problem_set.html]
 
* Budeme uvažovať vzdialene podobné enzýmy
 
** Bis(5'-adenosyl)-triphosphatase ([http://www.uniprot.org/uniprot/P49789 Uniprot])
 
** Galactose-1-phosphate uridylyltransferase (GALT/GAL7) ([http://www.uniprot.org/uniprot/P31764 Uniprot])
 
** Ich domény patria v databáze Pfam do toho istého klanu
 
* Skúsme nájsť túto podobnosť v BLASTe: http://blast.ncbi.nlm.nih.gov/ v časti proteíny, zvoľme databázu Swissport, ako Query zadajme Accesion nášho proteínu P49789, spustime program PSI-BLAST
 
* V prvom kole PSI-BLAST spúšťa bežný BLASTP
 
* GAL gén (konkrétne GAL7_HAEIN, accession P31764) sa nachádza medzi výsledkami, ale má príliš vysokú E-value
 
* Spustíme teraz druhú iteráciu PSI-BLAST, ktorá zostaví profil z proteínov s nízkou E-value v prvej iterácii
 
* Aká je E-value nájdeného zarovnania?
 
* Ak by výpočet dlho trval, výsledky sú tu: [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb08/psi-blast1.html 1. kolo], [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb08/psi-blast2.html 2. kolo]
 
  
 
==Expresia génov==
 
==Expresia génov==
Riadok 108: Riadok 91:
  
 
==Kvasinkové transkripčné faktory v SGD==
 
==Kvasinkové transkripčné faktory v SGD==
* Yeast genome database SGD obsahuje podrobne stranky pre jednotlive transkripcne faktory
+
* Yeast genome database SGD obsahuje pomerne podrobne stranky pre jednotlive transkripcne faktory
 
* Pozrime si stranku pre transkripcny faktor GAL4 [http://www.yeastgenome.org/locus/S000006169/regulation]
 
* Pozrime si stranku pre transkripcny faktor GAL4 [http://www.yeastgenome.org/locus/S000006169/regulation]
  
 
+
==Uniprot==
 +
* Prehladnejsi pohlad na proteiny, vela linkov na ine databazy, cast vytvarana rucne
 +
** Pozrieme sa na známy koronavírusový proteín Spike
 +
** Nájdime ho na stránke http://www.uniprot.org/ pod názvom SPIKE_SARS2
 +
** Pozrime si podrobne jeho stránku, ktoré časti boli predpovedané bioinformatickými metódami z prednášky?
 +
** Všimnime si niektorú Pfam doménu a pozrime si jej stránku
  
 
==Nussinovovej algoritmus (nerobili sme)==
 
==Nussinovovej algoritmus (nerobili sme)==

Verzia zo dňa a času 18:04, 30. november 2022

RNA štruktúra

  • Znama databaza rodin RNA genov je Rfam: http://rfam.xfam.org/
  • Najdite si v nej rodinu RF00015 (U4 spliceosomal RNA)
  • V casti Secondary structure si mozete pozriet obrazky farebne kodovane podla roznych kriterii
    • Skuste pochopit, co jednotlive obrazky a ich farby znamenaju
  • Jedna z mnohych ludskych kopii je tato:
AGCTTTGCGCAGTGGCAGTATCGTAGCCAATGAGGTTTATCCGAGGCGCG
ATTATTGCTAATTGAAAACTTTTCCCAATACCCCGCCATGACGACTTGAA
ATATAGTCGGCATTGGCAATTTTTGACAGTCTCTACGGAGA
  • Skuste ju najst v ludskom genome nastrojom BLAT v UCSC genome browseri
  • Pozrite si tracky GENCODE genes, conservation, RepeatMasker v jej okoli
  • Vo verzii hg19 (kam sa viete z inej verzii dostat cez horne menu View->In Other Genomes) je track "CSHL Sm RNA-seq" ktory obsahuje RNASeq kratkych RNA z roznych casti buniek, zapnite si v jeho nastaveniach aj zobrazenie RNA z jadra (nucleus)
  • Zadajte sekvenciu na RNAfold serveri [1]
  • Ak vypocet dlho trva, pozrite si vysledok tu
  • Podoba sa na strukturu zobrazenu v Rfame? v com sa lisi?

PSI BLAST

  • Toto cvičenie je z časti inšpirované stránkou [2]
  • Budeme uvažovať vzdialene podobné enzýmy
    • Bis(5'-adenosyl)-triphosphatase (Uniprot)
    • Galactose-1-phosphate uridylyltransferase (GALT/GAL7) (Uniprot)
    • Ich domény patria v databáze Pfam do toho istého klanu
  • Skúsme nájsť túto podobnosť v BLASTe: http://blast.ncbi.nlm.nih.gov/ v časti proteíny, zvoľme databázu Swissport, ako Query zadajme Accesion nášho proteínu P49789, spustime program PSI-BLAST
  • V prvom kole PSI-BLAST spúšťa bežný BLASTP
  • GAL gén (konkrétne GAL7_HAEIN, accession P31764) sa nachádza medzi výsledkami, ale má príliš vysokú E-value
  • Spustíme teraz druhú iteráciu PSI-BLAST, ktorá zostaví profil z proteínov s nízkou E-value v prvej iterácii
  • Aká je E-value nájdeného zarovnania?
  • Ak by výpočet dlho trval, výsledky sú tu: 1. kolo, 2. kolo

Nadreprezentácia, Uniprot (cvičenie pri počítači)

Data o expresii ludskych genov v roznych tkanivach a podobne v UCSC genome browseri

  • Chodte na genome browser http://genome-euro.ucsc.edu/
  • Zvolte Tools->Gene Sorter, sort by nechajme Expression (GTEx), a do okienka search zadajme identifikator genu PTPRZ1
    • Dostane tabulku genov s podobnym profilom expresie ako PTPRZ1 (červená je vysoká expresia, zelená nízka)
    • Zoznam tychto genov v textovom formate najdete tu
  • http://biit.cs.ut.ee/gprofiler/ mena genov skopirujme do policka Query, stlacte g:Profile!
    • Ak by výpočet dlho trval, nájdete ho aj tu
    • Vo výslednej tabuľke je každý riadok jedna funkcna kategoria, v ktorej su geny s tymto profilom expresie nadreprezentovane, kazdy stlpec jeden gen.
    • V spodnej casti tabuly su aj asociacie k chorobam a k transkripcnym faktorom, ktore by mohli prislusne geny regulovat
  • Co by sme na zaklade nadreprezentovanych kategorii usudzovali o gene PTPRZ1?
  • Najdite tento gen v Uniprote (http://www.uniprot.org/), potvrdzuje nase domnienky?
    • O mnohých údajoch na stránke sme sa rozprávali na prednáške (GO kategórie, domény, sekundárna a 3D štruktúra)
    • na veľa miestach na stránke je uvedené aj odkiaľ jednotlivé údaje pochádzajú
    • Všimnime si Pfam domény a pozrime si ich stránku
  • Vratme sa do genome browsera, najdime si PTPRZ1 gen v genome [3]
  • V browseri su rozne tracky tykajuce sa expresie, napr. GTEx. Precitajte si, co je v tomto tracku zobrazene, zapnite si ho a pozrite si expresiu okolitych genov okolo PTPRZ1
  • Kliknite na gen v tracku UCSC known genes. V tabulke uvidite zase prehlad expresie v roznych tkanivach (podla GTEx)


Objavenie génu HAR1 pomocou komparatívnej genomiky

  • Pollard KS, Salama SR, Lambert N, et al. (September 2006). "An RNA gene expressed during cortical development evolved rapidly in humans". Nature 443 (7108): 167–72. doi:10.1038/nature05113. PMID 16915236. pdf
  • Zobrali všetky regióny dĺžky aspoň 100bp s > 96% podobnosťou medzi šimpanzom a myšou/potkanom (35,000)
  • Porovnali s ostatnými cicavcami, zistili, ktoré majú veľa mutáci v človeku, ale málo inde (pravdepodobnostný model)
  • 49 štatisticky významných regiónov, 96% nekódujúcich oblastiach
  • Najvýznamnejší HAR1: 118nt, 18 substitúcii u človeka, očakávali by sme 0.27. Iba 2 zmeny medzi šimpanzom a sliepkou (310 miliónov rokov), ale nebol nájdený v rybách a žabe.
  • Nezdá sa byť polymorfný u človeka
  • Prekrývajúce sa RNA gény HAR1A a HAR1B
  • HAR1A je exprimovaný v neokortexe u 7 a 9 týždenných embrií, neskôr aj v iných častiach mozgu (u človeka aj iných primátov)
  • Všetky substitúcie v človeku A/T->C/G, stabilnejšia RNA štruktúra (ale tiež sú blízko k telomére, kde je viacej takýchto mutácii kvôli rekombinácii a biased gene conversion)

Cvičenie pri počítači

  • Môžete si pozrieť tento region v browseri: chr20:63102114-63102274 (hg38), pricom ak sa este priblizite, uvidite zarovnanie aj s bazami a mozete vidiet, ze vela zmien je specifickych pre cloveka

Expresia génov

NCBI Gene Expression Omnibus http://www.ncbi.nlm.nih.gov/geo/

  • Databaza gene expression dat na NCBI
  • Do Search okienka zadajme GDS2925
  • Mali by sme dostat dataset Various weak organic acids effect on anaerobic yeast chemostat cultures
  • Mozeme si pozriet zakladne udaje, napr. citation, platform
  • Link "Expression profiles" nam zobrazi grafy pre rozne geny
  • Pri kazdom profile mozeme kliknut na profile neighbors, aby sme videli geny s podobnym profilom
  • Data analysis tools, cast Cluster heatmaps, K-means, skuste rozne pocty clustrov
    • napr. K=4 a K=5 pre Pearsonovu korelaciu
    • mozeme is pozriet aj hierarchicke zhlukovanie

Sekvenčné motívy, program MEME

  • Vazobne miesta transkripcnych faktorov sa casto reprezentuju ako sekvencne motivy
  • Ak mame skupinu sekvencii, mozeme hladat motiv, ktory maju spolocny
  • Znamy program na tento problem je MEME
  • Chodte na stranku http://meme-suite.org/
  • Zvolte nastroj MEME a v casti Input the primary sequences zvolte Type in sequences a zadajte tieto sekvencie
  • Pozrite si ostatne nastavenia. Co asi robia?
  • Ak server pocita dlho, mozete si pozriet vysledky tu

Kvasinkové transkripčné faktory v SGD

  • Yeast genome database SGD obsahuje pomerne podrobne stranky pre jednotlive transkripcne faktory
  • Pozrime si stranku pre transkripcny faktor GAL4 [4]

Uniprot

  • Prehladnejsi pohlad na proteiny, vela linkov na ine databazy, cast vytvarana rucne
    • Pozrieme sa na známy koronavírusový proteín Spike
    • Nájdime ho na stránke http://www.uniprot.org/ pod názvom SPIKE_SARS2
    • Pozrime si podrobne jeho stránku, ktoré časti boli predpovedané bioinformatickými metódami z prednášky?
    • Všimnime si niektorú Pfam doménu a pozrime si jej stránku

Nussinovovej algoritmus (nerobili sme)

Z cvičných príkladov na skúšku

  • Vyplňte maticu dynamického programovania (Nussinovovej algoritmus) pre nájdenie najväčšieho počtu dobre uzátvorkovaných spárovaných báz v RNA sekvencii GAACUUCACUGA (dovoľujeme len komplementárne páry A-U, C-G) a nakreslite sekundárnu štruktúru, ktorú algoritmus našiel.
 G A A C U U C A C U G A
 0 0 0 1 1 2 3 3 3 4 4 4  G
   0 0 0 1 2 2 2 2 3 4 4  A
     0 0 1 1 1 2 2 2 3 4  A
       0 0 0 0 1 1 1 2 3  C
         0 0 0 1 1 1 2 3  U
           0 0 1 1 1 2 3  U
             0 0 0 1 2 2  C
               0 0 1 1 1  A
                 0 0 1 1  C
                   0 0 1  U
                     0 0  G
                       0  A
  • Ako by sme algoritmus upravili, aby dlzka slucky na konci helixu bola vzdy aspon 3?