1-BIN-301, 2-AIN-501 Methods in Bioinformatics, 2023/24

Introduction · Rules · Tasks and dates · Materials · Moodle
Quizzes can be found in Moodle.
Homework assignments and journal club papers can be found in Tasks and dates.
Exam rules, example questions and syllabus
Groups for journal club have each their own group in Moodle.


CB10: Rozdiel medzi revíziami

Z MBI
Prejsť na: navigácia, hľadanie
(Kvasinkové transkripčné faktory v SGD)
 
(12 intermediate revisions by the same user not shown)
Riadok 1: Riadok 1:
 +
==PSI BLAST a Pfam==
 +
<!-- * Toto cvičenie je z časti inšpirované stránkou [http://www.ncbi.nlm.nih.gov/Class/FieldGuide/problem_set.html] -->
 +
* Budeme uvažovať tri vzdialene podobné enzýmy
 +
** Bis(5'-adenosyl)-triphosphatase (FHIT) u človeka, accession P49789 ([https://www.uniprot.org/uniprot/P49789 Uniprot])
 +
** Adenosine 5'-monophosphoramidase HNT1 u kvasinky Saccharomyces cerevisiae, ([https://www.uniprot.org/uniprot/Q9BX68 Uniprot])
 +
** Galactose-1-phosphate uridylyltransferase u baktérie Haemophilus influenzae (GAL-1-P) ([https://www.uniprot.org/uniprot/P31764 Uniprot])
 +
** FHIT a HNT1 majú doménu HIT ([https://www.ebi.ac.uk/interpro/entry/pfam/PF01230/ Pfam]).
 +
** GAL-1-P má domény [https://www.ebi.ac.uk/interpro/entry/pfam/PF02744/ GalP_UDP_tr_C] a [https://www.ebi.ac.uk/interpro/entry/pfam/PF01087/ GalP_UDP_transf]. Tieto domény patria v databáze Pfam do toho istého [https://www.ebi.ac.uk/interpro/set/pfam/CL0265/ klanu] ako HIT.
 +
* Pozrime si doménu HIT na stránke databázy Interpro [https://www.ebi.ac.uk/interpro/entry/pfam/PF01230/], hlavne časť Signature
 +
 +
 +
* Skúsme nájsť podobnosť medzi týmito proteínmi v BLASTe: https://blast.ncbi.nlm.nih.gov/ v časti proteíny, zvoľme databázu '''Swissprot''', ako Query zadajme Accession proteínu FHIT '''P49789''', spustime program '''PSI-BLAST''', E-value zvýšená na '''0.1'''.
 +
* V prvom kole PSI-BLAST spúšťa bežný BLASTP
 +
* Vidíte medzi výsledkami HNT1 a GAL-1-P? S akou E-hodnotou?
 +
* Spustíme teraz druhú iteráciu PSI-BLAST, ktorá zostaví profil z proteínov s nízkou E-hodnotou v prvej iterácii
 +
* Ako sa zmenili výsledky pre HNT1 a GAL-1-P?
 +
 +
* Ak by výpočet dlho trval, výsledky sú tu:
 +
** [https://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Get&RID=NBT1XHKA016 1. kolo]
 +
** [https://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Get&RID=NBT71PSK013 2. kolo]
 +
 +
=Budeme robiť na neskoršom cvičení=
 +
==RNA štruktúra==
 +
* Znama databaza rodin RNA genov je Rfam: http://rfam.xfam.org/
 +
* Najdite si v nej rodinu RF00015 (U4 spliceosomal RNA)
 +
* V casti Secondary structure si mozete pozriet obrazky farebne kodovane podla roznych kriterii
 +
** Skuste pochopit, co jednotlive obrazky a ich farby znamenaju
 +
* Jedna z mnohych ludskych kopii je tato:
 +
<pre>
 +
AGCTTTGCGCAGTGGCAGTATCGTAGCCAATGAGGTTTATCCGAGGCGCG
 +
ATTATTGCTAATTGAAAACTTTTCCCAATACCCCGCCATGACGACTTGAA
 +
ATATAGTCGGCATTGGCAATTTTTGACAGTCTCTACGGAGA
 +
</pre>
 +
* Skuste ju najst v ludskom genome nastrojom BLAT v [http://genome-euro.ucsc.edu UCSC genome browseri]
 +
* Pozrite si tracky GENCODE genes, conservation, RepeatMasker v jej okoli
 +
* Vo verzii hg19 (kam sa viete z inej verzii dostat cez horne menu View->In Other Genomes) je track "CSHL Sm RNA-seq" ktory obsahuje RNASeq kratkych RNA z roznych casti buniek, zapnite si v jeho nastaveniach aj zobrazenie RNA z jadra (nucleus)
 +
* Zadajte sekvenciu na RNAfold serveri [http://rna.tbi.univie.ac.at/cgi-bin/RNAWebSuite/RNAfold.cgi]
 +
* Ak vypocet dlho trva, pozrite si vysledok [http://rna.tbi.univie.ac.at//cgi-bin/RNAWebSuite/RNAfold.cgi?PAGE=3&ID=fdr_TwjicB tu]
 +
* Podoba sa na strukturu zobrazenu v Rfame? v com sa lisi?
 +
 +
* RNA dizajn: mozete sa skusit zahrat na stranke http://www.eternagame.org/web/
 +
 +
==Objavenie génu HAR1 pomocou komparatívnej genomiky==
 +
* {{cite journal |author=Pollard KS, Salama SR, Lambert N, ''et al.'' |title=An RNA gene expressed during cortical development evolved rapidly in humans |journal=Nature |volume=443 |issue=7108 |pages=167–72 |year=2006 |month=September |pmid=16915236 |doi=10.1038/nature05113 |url=}} [http://ribonode.ucsc.edu/Pubs/Pollard_etal06.pdf pdf]
 +
* Zobrali všetky regióny dĺžky aspoň 100bp s > 96% podobnosťou medzi šimpanzom a myšou/potkanom (35,000)
 +
* Porovnali s ostatnými cicavcami, zistili, ktoré majú veľa mutáci v človeku, ale málo inde (pravdepodobnostný model)
 +
* 49 štatisticky významných regiónov, 96% nekódujúcich oblastiach
 +
* Najvýznamnejší HAR1: 118nt, 18 substitúcii u človeka, očakávali by sme 0.27. Iba 2 zmeny medzi šimpanzom a sliepkou (310 miliónov rokov), ale nebol nájdený v rybách a žabe.
 +
* Nezdá sa byť polymorfný u človeka
 +
* Prekrývajúce sa RNA gény HAR1A a HAR1B
 +
* HAR1A je exprimovaný v neokortexe u 7 a 9 týždenných embrií, neskôr aj v iných častiach mozgu (u človeka aj iných primátov)
 +
* Všetky substitúcie v človeku A/T->C/G, stabilnejšia RNA štruktúra (ale tiež sú blízko k telomére, kde je viacej takýchto mutácii kvôli rekombinácii a biased gene conversion)
 +
 +
===Cvičenie pri počítači===
 +
* Môžete si pozrieť tento region v browseri: [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg38&position=chr20%3A63102114-63102274 '''chr20:63102114-63102274''' (hg38)], pricom ak sa este priblizite, uvidite zarovnanie aj s bazami a mozete vidiet, ze vela zmien je specifickych pre cloveka
 +
 +
==Expresia génov==
 +
'''NCBI Gene Expression Omnibus''' http://www.ncbi.nlm.nih.gov/geo/
 +
* Databaza gene expression dat na NCBI
 +
* Do Search okienka zadajme ''GDS2925''
 +
* Mali by sme dostat dataset ''Various weak organic acids effect on anaerobic yeast chemostat cultures''
 +
* Mozeme si pozriet zakladne udaje, napr. citation, platform
 +
* Link "Expression profiles" nam zobrazi grafy pre rozne geny
 +
* Pri kazdom profile mozeme kliknut na profile neighbors, aby sme videli geny s podobnym profilom
 +
* Data analysis tools, cast Cluster heatmaps, K-means, skuste rozne pocty clustrov
 +
** napr. [http://www.ncbi.nlm.nih.gov/geo/gds/analyze/kmeans2.cgi?&ID=GDS2925&dist=1&method=0&PC=1&NC=5&k=4 K=4] a [http://www.ncbi.nlm.nih.gov/geo/gds/analyze/kmeans2.cgi?&ID=GDS2925&dist=1&method=0&PC=1&NC=5&k=5 K=5] pre Pearsonovu korelaciu
 +
** mozeme is pozriet aj hierarchicke zhlukovanie
 +
 +
==Sekvenčné motívy, program MEME==
 +
 +
* Vazobne miesta transkripcnych faktorov sa casto reprezentuju ako sekvencne motivy
 +
* Ak mame skupinu sekvencii, mozeme hladat motiv, ktory maju spolocny
 +
* Znamy program na tento problem je MEME
 +
* Chodte na stranku http://meme-suite.org/
 +
* Zvolte nastroj MEME a v casti ''Input the primary sequences'' zvolte ''Type in sequences'' a zadajte [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb11/seq.fa tieto sekvencie]
 +
* Pozrite si ostatne nastavenia. Co asi robia?
 +
* Ak server pocita dlho, mozete si pozriet vysledky [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb11/MEME.html tu]
 +
 
==Nussinovovej algoritmus (nerobili sme)==
 
==Nussinovovej algoritmus (nerobili sme)==
  

Aktuálna revízia z 10:47, 7. december 2023

PSI BLAST a Pfam

  • Budeme uvažovať tri vzdialene podobné enzýmy
    • Bis(5'-adenosyl)-triphosphatase (FHIT) u človeka, accession P49789 (Uniprot)
    • Adenosine 5'-monophosphoramidase HNT1 u kvasinky Saccharomyces cerevisiae, (Uniprot)
    • Galactose-1-phosphate uridylyltransferase u baktérie Haemophilus influenzae (GAL-1-P) (Uniprot)
    • FHIT a HNT1 majú doménu HIT (Pfam).
    • GAL-1-P má domény GalP_UDP_tr_C a GalP_UDP_transf. Tieto domény patria v databáze Pfam do toho istého klanu ako HIT.
  • Pozrime si doménu HIT na stránke databázy Interpro [1], hlavne časť Signature


  • Skúsme nájsť podobnosť medzi týmito proteínmi v BLASTe: https://blast.ncbi.nlm.nih.gov/ v časti proteíny, zvoľme databázu Swissprot, ako Query zadajme Accession proteínu FHIT P49789, spustime program PSI-BLAST, E-value zvýšená na 0.1.
  • V prvom kole PSI-BLAST spúšťa bežný BLASTP
  • Vidíte medzi výsledkami HNT1 a GAL-1-P? S akou E-hodnotou?
  • Spustíme teraz druhú iteráciu PSI-BLAST, ktorá zostaví profil z proteínov s nízkou E-hodnotou v prvej iterácii
  • Ako sa zmenili výsledky pre HNT1 a GAL-1-P?

Budeme robiť na neskoršom cvičení

RNA štruktúra

  • Znama databaza rodin RNA genov je Rfam: http://rfam.xfam.org/
  • Najdite si v nej rodinu RF00015 (U4 spliceosomal RNA)
  • V casti Secondary structure si mozete pozriet obrazky farebne kodovane podla roznych kriterii
    • Skuste pochopit, co jednotlive obrazky a ich farby znamenaju
  • Jedna z mnohych ludskych kopii je tato:
AGCTTTGCGCAGTGGCAGTATCGTAGCCAATGAGGTTTATCCGAGGCGCG
ATTATTGCTAATTGAAAACTTTTCCCAATACCCCGCCATGACGACTTGAA
ATATAGTCGGCATTGGCAATTTTTGACAGTCTCTACGGAGA
  • Skuste ju najst v ludskom genome nastrojom BLAT v UCSC genome browseri
  • Pozrite si tracky GENCODE genes, conservation, RepeatMasker v jej okoli
  • Vo verzii hg19 (kam sa viete z inej verzii dostat cez horne menu View->In Other Genomes) je track "CSHL Sm RNA-seq" ktory obsahuje RNASeq kratkych RNA z roznych casti buniek, zapnite si v jeho nastaveniach aj zobrazenie RNA z jadra (nucleus)
  • Zadajte sekvenciu na RNAfold serveri [2]
  • Ak vypocet dlho trva, pozrite si vysledok tu
  • Podoba sa na strukturu zobrazenu v Rfame? v com sa lisi?

Objavenie génu HAR1 pomocou komparatívnej genomiky

  • Pollard KS, Salama SR, Lambert N, et al. (September 2006). "An RNA gene expressed during cortical development evolved rapidly in humans". Nature 443 (7108): 167–72. doi:10.1038/nature05113. PMID 16915236. pdf
  • Zobrali všetky regióny dĺžky aspoň 100bp s > 96% podobnosťou medzi šimpanzom a myšou/potkanom (35,000)
  • Porovnali s ostatnými cicavcami, zistili, ktoré majú veľa mutáci v človeku, ale málo inde (pravdepodobnostný model)
  • 49 štatisticky významných regiónov, 96% nekódujúcich oblastiach
  • Najvýznamnejší HAR1: 118nt, 18 substitúcii u človeka, očakávali by sme 0.27. Iba 2 zmeny medzi šimpanzom a sliepkou (310 miliónov rokov), ale nebol nájdený v rybách a žabe.
  • Nezdá sa byť polymorfný u človeka
  • Prekrývajúce sa RNA gény HAR1A a HAR1B
  • HAR1A je exprimovaný v neokortexe u 7 a 9 týždenných embrií, neskôr aj v iných častiach mozgu (u človeka aj iných primátov)
  • Všetky substitúcie v človeku A/T->C/G, stabilnejšia RNA štruktúra (ale tiež sú blízko k telomére, kde je viacej takýchto mutácii kvôli rekombinácii a biased gene conversion)

Cvičenie pri počítači

  • Môžete si pozrieť tento region v browseri: chr20:63102114-63102274 (hg38), pricom ak sa este priblizite, uvidite zarovnanie aj s bazami a mozete vidiet, ze vela zmien je specifickych pre cloveka

Expresia génov

NCBI Gene Expression Omnibus http://www.ncbi.nlm.nih.gov/geo/

  • Databaza gene expression dat na NCBI
  • Do Search okienka zadajme GDS2925
  • Mali by sme dostat dataset Various weak organic acids effect on anaerobic yeast chemostat cultures
  • Mozeme si pozriet zakladne udaje, napr. citation, platform
  • Link "Expression profiles" nam zobrazi grafy pre rozne geny
  • Pri kazdom profile mozeme kliknut na profile neighbors, aby sme videli geny s podobnym profilom
  • Data analysis tools, cast Cluster heatmaps, K-means, skuste rozne pocty clustrov
    • napr. K=4 a K=5 pre Pearsonovu korelaciu
    • mozeme is pozriet aj hierarchicke zhlukovanie

Sekvenčné motívy, program MEME

  • Vazobne miesta transkripcnych faktorov sa casto reprezentuju ako sekvencne motivy
  • Ak mame skupinu sekvencii, mozeme hladat motiv, ktory maju spolocny
  • Znamy program na tento problem je MEME
  • Chodte na stranku http://meme-suite.org/
  • Zvolte nastroj MEME a v casti Input the primary sequences zvolte Type in sequences a zadajte tieto sekvencie
  • Pozrite si ostatne nastavenia. Co asi robia?
  • Ak server pocita dlho, mozete si pozriet vysledky tu

Nussinovovej algoritmus (nerobili sme)

Z cvičných príkladov na skúšku

  • Vyplňte maticu dynamického programovania (Nussinovovej algoritmus) pre nájdenie najväčšieho počtu dobre uzátvorkovaných spárovaných báz v RNA sekvencii GAACUUCACUGA (dovoľujeme len komplementárne páry A-U, C-G) a nakreslite sekundárnu štruktúru, ktorú algoritmus našiel.
 G A A C U U C A C U G A
 0 0 0 1 1 2 3 3 3 4 4 4  G
   0 0 0 1 2 2 2 2 3 4 4  A
     0 0 1 1 1 2 2 2 3 4  A
       0 0 0 0 1 1 1 2 3  C
         0 0 0 1 1 1 2 3  U
           0 0 1 1 1 2 3  U
             0 0 0 1 2 2  C
               0 0 1 1 1  A
                 0 0 1 1  C
                   0 0 1  U
                     0 0  G
                       0  A
  • Ako by sme algoritmus upravili, aby dlzka slucky na konci helixu bola vzdy aspon 3?