1-BIN-301, 2-AIN-501 Methods in Bioinformatics

Website moved to https://fmfi-compbio.github.io/mbi/


CB10: Rozdiel medzi revíziami

Z MBI
Prejsť na: navigácia, hľadanie
(CB07)
(Kvasinkové transkripčné faktory v SGD)
 
(10 intermediate revisions by the same user not shown)
Riadok 1: Riadok 1:
==Gény, evolúcia a komparatívna genomika v UCSC genome browseri (cvičenie pri počítači)==
+
==PSI BLAST a Pfam==
 +
<!-- * Toto cvičenie je z časti inšpirované stránkou [http://www.ncbi.nlm.nih.gov/Class/FieldGuide/problem_set.html] -->
 +
* Budeme uvažovať tri vzdialene podobné enzýmy
 +
** Bis(5'-adenosyl)-triphosphatase (FHIT) u človeka, accession P49789 ([https://www.uniprot.org/uniprot/P49789 Uniprot])
 +
** Adenosine 5'-monophosphoramidase HNT1 u kvasinky Saccharomyces cerevisiae, ([https://www.uniprot.org/uniprot/Q9BX68 Uniprot])
 +
** Galactose-1-phosphate uridylyltransferase u baktérie Haemophilus influenzae (GAL-1-P) ([https://www.uniprot.org/uniprot/P31764 Uniprot])
 +
** FHIT a HNT1 majú doménu HIT ([https://www.ebi.ac.uk/interpro/entry/pfam/PF01230/ Pfam]).
 +
** GAL-1-P má domény [https://www.ebi.ac.uk/interpro/entry/pfam/PF02744/ GalP_UDP_tr_C] a [https://www.ebi.ac.uk/interpro/entry/pfam/PF01087/ GalP_UDP_transf]. Tieto domény patria v databáze Pfam do toho istého [https://www.ebi.ac.uk/interpro/set/pfam/CL0265/ klanu] ako HIT.
 +
* Pozrime si doménu HIT na stránke databázy Interpro [https://www.ebi.ac.uk/interpro/entry/pfam/PF01230/], hlavne časť Signature
  
K hladaniu genov pozri aj prezentaciu {{pdf|Cb-gene}}
 
  
Histónové modifikácie
+
* Skúsme nájsť podobnosť medzi týmito proteínmi v BLASTe: https://blast.ncbi.nlm.nih.gov/ v časti proteíny, zvoľme databázu '''Swissprot''', ako Query zadajme Accession proteínu FHIT '''P49789''', spustime program '''PSI-BLAST''', E-value zvýšená na '''0.1'''.
* A. Barski, S. Cuddapah, K. Cui, T. Roh, D. Schones, Z. Wang, G. Wei, I. Chepelev, K. Zhao (2007) High-Resolution Profiling of Histone Methylations in the Human Genome Cell, Volume 129, Issue 4, Pages 823-837 [http://www.columbia.edu/cu/biology/courses/w3034/LACpapers/barskiMethylSolexCell07.pdf pdf]
+
* V prvom kole PSI-BLAST spúšťa bežný BLASTP
 +
* Vidíte medzi výsledkami HNT1 a GAL-1-P? S akou E-hodnotou?
 +
* Spustíme teraz druhú iteráciu PSI-BLAST, ktorá zostaví profil z proteínov s nízkou E-hodnotou v prvej iterácii
 +
* Ako sa zmenili výsledky pre HNT1 a GAL-1-P?
  
 +
* Ak by výpočet dlho trval, výsledky sú tu:
 +
** [https://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Get&RID=NBT1XHKA016 1. kolo]
 +
** [https://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Get&RID=NBT71PSK013 2. kolo]
  
* Zobrazme si gén CLCA4 [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg38&position=chr1%3A86538658-86589173]
+
=Budeme robiť na neskoršom cvičení=
* Zapnite si štandardnú sadu track-ov
+
==RNA štruktúra==
* Po kliknutí na gén si môžete prečítať o jeho funkcii, po kliknutí na ľavú lištu alebo na názov tracku v zozname na spodku stránky si môžete prečítať viac o tracku a meniť nastavenia
+
* Znama databaza rodin RNA genov je Rfam: http://rfam.xfam.org/
* V tracku RefSeq genes si všimnite, že v tejto databáze má tento gén dve formy zostrihu, jedna z nich sa považuje za nekódujúcu, pretína sa aj s necharakterizovanou nekódujúcou RNA na opačnom vlákne
+
* Najdite si v nej rodinu RF00015 (U4 spliceosomal RNA)
** Track RefSeq a jeho subtrack RefSeq Curated treba zapnut na pack
+
* V casti Secondary structure si mozete pozriet obrazky farebne kodovane podla roznych kriterii
* Nižšie vidíte track H3K27Ac Mark (Often Found Near Regulatory Elements) on 7 cell lines from ENCODE, kde bola táto histónová modifikácia v okolí génu detegovaná?
+
** Skuste pochopit, co jednotlive obrazky a ich farby znamenaju
* Všimnite si aj track DNase I Hypersensitivity, ktorý zobrazuje otvorený chromatin, prístupný pre viazanie transkripčných faktorov. Všimnite si jeho súvis s H3K27Ac trackom
+
* Jedna z mnohych ludskych kopii je tato:
* Obidva tracky sú súčasťou tracku ENCODE regulation, v ktorom si môžete zapnúť aj ďalšie pod-tracky
+
<pre>
 +
AGCTTTGCGCAGTGGCAGTATCGTAGCCAATGAGGTTTATCCGAGGCGCG
 +
ATTATTGCTAATTGAAAACTTTTCCCAATACCCCGCCATGACGACTTGAA
 +
ATATAGTCGGCATTGGCAATTTTTGACAGTCTCTACGGAGA
 +
</pre>
 +
* Skuste ju najst v ludskom genome nastrojom BLAT v [http://genome-euro.ucsc.edu UCSC genome browseri]
 +
* Pozrite si tracky GENCODE genes, conservation, RepeatMasker v jej okoli
 +
* Vo verzii hg19 (kam sa viete z inej verzii dostat cez horne menu View->In Other Genomes) je track "CSHL Sm RNA-seq" ktory obsahuje RNASeq kratkych RNA z roznych casti buniek, zapnite si v jeho nastaveniach aj zobrazenie RNA z jadra (nucleus)
 +
* Zadajte sekvenciu na RNAfold serveri [http://rna.tbi.univie.ac.at/cgi-bin/RNAWebSuite/RNAfold.cgi]
 +
* Ak vypocet dlho trva, pozrite si vysledok [http://rna.tbi.univie.ac.at//cgi-bin/RNAWebSuite/RNAfold.cgi?PAGE=3&ID=fdr_TwjicB tu]
 +
* Podoba sa na strukturu zobrazenu v Rfame? v com sa lisi?
  
* Vsimnime si track Vertebrate Multiz Alignment & Conservation (100 Species)
+
* RNA dizajn: mozete sa skusit zahrat na stranke http://www.eternagame.org/web/
** v spodnej casti tracku vidime zarovnania s roznymi inymi genomami
+
** v nastaveniach tracku zapnite Element Conservation (phastCons) na full a Conserved Elements na dense
+
** v tomto tracku vidíme PhyloP, co zobrazuje uroven konzerovanosti danej bazy len na zaklade jedneho stlpca zarovnania a dva vysledky z phyloHMM phastCons, ktory berie do uvahy aj okolite stlpce
+
* Konkretne cast Conserved elements zobrazuje konkretne useky, ktore su najvac konzervovane
+
** Ak chceme zistit, kolko percent genomu tieto useky pokryvaju, ideme na modrej liste do casti Tools->Table browser, zvolime group Comparative genomics, track Conservation, table 100 Vert. El, region zvolime genome (v celom genome)  a stlacime tlacidlo Summary/statistics, dostaneme nieco taketo:  
+
<TABLE border=1>
+
<TR><TD>item count</TD><TD ALIGN=RIGHT>10,350,729</TD></TR>
+
<TR><TD>item bases</TD><TD ALIGN=RIGHT>162,179,256 (5.32%)</TD></TR>
+
<TR><TD>item total</TD><TD ALIGN=RIGHT>162,179,256 (5.32%)</TD></TR>
+
<TR><TD>smallest item</TD><TD ALIGN=RIGHT>1</TD></TR>
+
<TR><TD>average item</TD><TD ALIGN=RIGHT>16</TD></TR>
+
<TR><TD>biggest item</TD><TD ALIGN=RIGHT>3,732</TD></TR>
+
<TR><TD>smallest score</TD><TD ALIGN=RIGHT>186</TD></TR>
+
<TR><TD>average score</TD><TD ALIGN=RIGHT>333</TD></TR>
+
<TR><TD>biggest score</TD><TD ALIGN=RIGHT>1,000</TD></TR>
+
</TABLE>
+
** Ak by nas zaujimali iba velmi dlhe "conserved elements", v Table browser stlacime tlacidlo Filter a na dalsej obrazovke do policka Free-form query dame '''chromEnd-chromStart>=1500'''
+
** Potom mozeme skusit Summary/Statistics alebo vystup typu Hyperlinks to genome browser a Get output - dostaneme zoznam tychto elementov a kazdy si mozeme jednym klikom pozriet v browseri, napr. taketo
+
*** [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg38&position=chr1:50201403-50203312 lod=24051 at chr1:50201403-50203312]
+
*** [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg38&position=chr1:55663689-55667047 lod=1899 at chr1:55663689-55667047] atd
+
 
+
* Pozrime si teraz ten isty gen CLCA4 v starsej verzii genomu hg18 [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg18&position=chr1%3A86776929-86827444]
+
** V casti Genes and Gene Prediction Tracks zapnite track Pos Sel Genes, ktory obsahuje geny s '''pozitivnym vyberom''' (cervenou, pripadne slabsie fialovou a modrou)
+
** Ked kliknete na cerveny obdlznik pre tento gen, uvidite, v ktorych castiach fylogenetickeho stromu bol detegovany pozitivny vyber
+
** Po priblizeni do jedneho z exonov [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg18&position=chr1%3A86805823-86805917] vidite dosledky nesynonymnych mutacii
+
 
+
Poznamka: Existuju aj webservery na predikciu pozitivneho vyberu, napriklad tieto dva:
+
* [http://selecton.tau.ac.il/ Selecton], [http://www.tau.ac.il/~talp/publications/selecton2007.pdf clanok]
+
* [http://www.datamonkey.org/ Data monkey] [http://mbe.oxfordjournals.org/cgi/content/abstract/22/5/1208 clanok]
+
* Skusili sme na Selecton poslat CLCA4 zo 7 cicavcov, subor tu: [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb07/clca4.mfa]
+
** vysledky [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb07/clca4-selecton.html] a [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb07/clca4-omega.txt] (metoda ale odporuca aspon 10 homologov)
+
  
 
==Objavenie génu HAR1 pomocou komparatívnej genomiky==
 
==Objavenie génu HAR1 pomocou komparatívnej genomiky==
Riadok 84: Riadok 76:
 
* Pozrite si ostatne nastavenia. Co asi robia?
 
* Pozrite si ostatne nastavenia. Co asi robia?
 
* Ak server pocita dlho, mozete si pozriet vysledky [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb11/MEME.html tu]
 
* Ak server pocita dlho, mozete si pozriet vysledky [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb11/MEME.html tu]
 
==Kvasinkové transkripčné faktory v SGD==
 
* Yeast genome database SGD obsahuje podrobne stranky pre jednotlive transkripcne faktory
 
* Pozrime si stranku pre transkripcny faktor GAL4 [http://www.yeastgenome.org/locus/S000006169/regulation]
 
 
 
  
 
==Nussinovovej algoritmus (nerobili sme)==
 
==Nussinovovej algoritmus (nerobili sme)==

Aktuálna revízia z 10:47, 7. december 2023

PSI BLAST a Pfam

  • Budeme uvažovať tri vzdialene podobné enzýmy
    • Bis(5'-adenosyl)-triphosphatase (FHIT) u človeka, accession P49789 (Uniprot)
    • Adenosine 5'-monophosphoramidase HNT1 u kvasinky Saccharomyces cerevisiae, (Uniprot)
    • Galactose-1-phosphate uridylyltransferase u baktérie Haemophilus influenzae (GAL-1-P) (Uniprot)
    • FHIT a HNT1 majú doménu HIT (Pfam).
    • GAL-1-P má domény GalP_UDP_tr_C a GalP_UDP_transf. Tieto domény patria v databáze Pfam do toho istého klanu ako HIT.
  • Pozrime si doménu HIT na stránke databázy Interpro [1], hlavne časť Signature


  • Skúsme nájsť podobnosť medzi týmito proteínmi v BLASTe: https://blast.ncbi.nlm.nih.gov/ v časti proteíny, zvoľme databázu Swissprot, ako Query zadajme Accession proteínu FHIT P49789, spustime program PSI-BLAST, E-value zvýšená na 0.1.
  • V prvom kole PSI-BLAST spúšťa bežný BLASTP
  • Vidíte medzi výsledkami HNT1 a GAL-1-P? S akou E-hodnotou?
  • Spustíme teraz druhú iteráciu PSI-BLAST, ktorá zostaví profil z proteínov s nízkou E-hodnotou v prvej iterácii
  • Ako sa zmenili výsledky pre HNT1 a GAL-1-P?

Budeme robiť na neskoršom cvičení

RNA štruktúra

  • Znama databaza rodin RNA genov je Rfam: http://rfam.xfam.org/
  • Najdite si v nej rodinu RF00015 (U4 spliceosomal RNA)
  • V casti Secondary structure si mozete pozriet obrazky farebne kodovane podla roznych kriterii
    • Skuste pochopit, co jednotlive obrazky a ich farby znamenaju
  • Jedna z mnohych ludskych kopii je tato:
AGCTTTGCGCAGTGGCAGTATCGTAGCCAATGAGGTTTATCCGAGGCGCG
ATTATTGCTAATTGAAAACTTTTCCCAATACCCCGCCATGACGACTTGAA
ATATAGTCGGCATTGGCAATTTTTGACAGTCTCTACGGAGA
  • Skuste ju najst v ludskom genome nastrojom BLAT v UCSC genome browseri
  • Pozrite si tracky GENCODE genes, conservation, RepeatMasker v jej okoli
  • Vo verzii hg19 (kam sa viete z inej verzii dostat cez horne menu View->In Other Genomes) je track "CSHL Sm RNA-seq" ktory obsahuje RNASeq kratkych RNA z roznych casti buniek, zapnite si v jeho nastaveniach aj zobrazenie RNA z jadra (nucleus)
  • Zadajte sekvenciu na RNAfold serveri [2]
  • Ak vypocet dlho trva, pozrite si vysledok tu
  • Podoba sa na strukturu zobrazenu v Rfame? v com sa lisi?

Objavenie génu HAR1 pomocou komparatívnej genomiky

  • Pollard KS, Salama SR, Lambert N, et al. (September 2006). "An RNA gene expressed during cortical development evolved rapidly in humans". Nature 443 (7108): 167–72. doi:10.1038/nature05113. PMID 16915236. pdf
  • Zobrali všetky regióny dĺžky aspoň 100bp s > 96% podobnosťou medzi šimpanzom a myšou/potkanom (35,000)
  • Porovnali s ostatnými cicavcami, zistili, ktoré majú veľa mutáci v človeku, ale málo inde (pravdepodobnostný model)
  • 49 štatisticky významných regiónov, 96% nekódujúcich oblastiach
  • Najvýznamnejší HAR1: 118nt, 18 substitúcii u človeka, očakávali by sme 0.27. Iba 2 zmeny medzi šimpanzom a sliepkou (310 miliónov rokov), ale nebol nájdený v rybách a žabe.
  • Nezdá sa byť polymorfný u človeka
  • Prekrývajúce sa RNA gény HAR1A a HAR1B
  • HAR1A je exprimovaný v neokortexe u 7 a 9 týždenných embrií, neskôr aj v iných častiach mozgu (u človeka aj iných primátov)
  • Všetky substitúcie v človeku A/T->C/G, stabilnejšia RNA štruktúra (ale tiež sú blízko k telomére, kde je viacej takýchto mutácii kvôli rekombinácii a biased gene conversion)

Cvičenie pri počítači

  • Môžete si pozrieť tento region v browseri: chr20:63102114-63102274 (hg38), pricom ak sa este priblizite, uvidite zarovnanie aj s bazami a mozete vidiet, ze vela zmien je specifickych pre cloveka

Expresia génov

NCBI Gene Expression Omnibus http://www.ncbi.nlm.nih.gov/geo/

  • Databaza gene expression dat na NCBI
  • Do Search okienka zadajme GDS2925
  • Mali by sme dostat dataset Various weak organic acids effect on anaerobic yeast chemostat cultures
  • Mozeme si pozriet zakladne udaje, napr. citation, platform
  • Link "Expression profiles" nam zobrazi grafy pre rozne geny
  • Pri kazdom profile mozeme kliknut na profile neighbors, aby sme videli geny s podobnym profilom
  • Data analysis tools, cast Cluster heatmaps, K-means, skuste rozne pocty clustrov
    • napr. K=4 a K=5 pre Pearsonovu korelaciu
    • mozeme is pozriet aj hierarchicke zhlukovanie

Sekvenčné motívy, program MEME

  • Vazobne miesta transkripcnych faktorov sa casto reprezentuju ako sekvencne motivy
  • Ak mame skupinu sekvencii, mozeme hladat motiv, ktory maju spolocny
  • Znamy program na tento problem je MEME
  • Chodte na stranku http://meme-suite.org/
  • Zvolte nastroj MEME a v casti Input the primary sequences zvolte Type in sequences a zadajte tieto sekvencie
  • Pozrite si ostatne nastavenia. Co asi robia?
  • Ak server pocita dlho, mozete si pozriet vysledky tu

Nussinovovej algoritmus (nerobili sme)

Z cvičných príkladov na skúšku

  • Vyplňte maticu dynamického programovania (Nussinovovej algoritmus) pre nájdenie najväčšieho počtu dobre uzátvorkovaných spárovaných báz v RNA sekvencii GAACUUCACUGA (dovoľujeme len komplementárne páry A-U, C-G) a nakreslite sekundárnu štruktúru, ktorú algoritmus našiel.
 G A A C U U C A C U G A
 0 0 0 1 1 2 3 3 3 4 4 4  G
   0 0 0 1 2 2 2 2 3 4 4  A
     0 0 1 1 1 2 2 2 3 4  A
       0 0 0 0 1 1 1 2 3  C
         0 0 0 1 1 1 2 3  U
           0 0 1 1 1 2 3  U
             0 0 0 1 2 2  C
               0 0 1 1 1  A
                 0 0 1 1  C
                   0 0 1  U
                     0 0  G
                       0  A
  • Ako by sme algoritmus upravili, aby dlzka slucky na konci helixu bola vzdy aspon 3?