1-BIN-301, 2-AIN-501 Methods in Bioinformatics

Website moved to https://fmfi-compbio.github.io/mbi/


CB10: Rozdiel medzi revíziami

Z MBI
Prejsť na: navigácia, hľadanie
(Gény, evolúcia a komparatívna genomika v UCSC genome browseri (cvičenie pri počítači))
(Uniprot)
Riadok 45: Riadok 45:
 
===Cvičenie pri počítači===
 
===Cvičenie pri počítači===
 
* Môžete si pozrieť tento region v browseri: [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg38&position=chr20%3A63102114-63102274 '''chr20:63102114-63102274''' (hg38)], pricom ak sa este priblizite, uvidite zarovnanie aj s bazami a mozete vidiet, ze vela zmien je specifickych pre cloveka
 
* Môžete si pozrieť tento region v browseri: [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg38&position=chr20%3A63102114-63102274 '''chr20:63102114-63102274''' (hg38)], pricom ak sa este priblizite, uvidite zarovnanie aj s bazami a mozete vidiet, ze vela zmien je specifickych pre cloveka
 +
 +
==Expresia génov==
 +
'''NCBI Gene Expression Omnibus''' http://www.ncbi.nlm.nih.gov/geo/
 +
* Databaza gene expression dat na NCBI
 +
* Do Search okienka zadajme ''GDS2925''
 +
* Mali by sme dostat dataset ''Various weak organic acids effect on anaerobic yeast chemostat cultures''
 +
* Mozeme si pozriet zakladne udaje, napr. citation, platform
 +
* Link "Expression profiles" nam zobrazi grafy pre rozne geny
 +
* Pri kazdom profile mozeme kliknut na profile neighbors, aby sme videli geny s podobnym profilom
 +
* Data analysis tools, cast Cluster heatmaps, K-means, skuste rozne pocty clustrov
 +
** napr. [http://www.ncbi.nlm.nih.gov/geo/gds/analyze/kmeans2.cgi?&ID=GDS2925&dist=1&method=0&PC=1&NC=5&k=4 K=4] a [http://www.ncbi.nlm.nih.gov/geo/gds/analyze/kmeans2.cgi?&ID=GDS2925&dist=1&method=0&PC=1&NC=5&k=5 K=5] pre Pearsonovu korelaciu
 +
** mozeme is pozriet aj hierarchicke zhlukovanie
 +
 +
==Sekvenčné motívy, program MEME==
 +
 +
* Vazobne miesta transkripcnych faktorov sa casto reprezentuju ako sekvencne motivy
 +
* Ak mame skupinu sekvencii, mozeme hladat motiv, ktory maju spolocny
 +
* Znamy program na tento problem je MEME
 +
* Chodte na stranku http://meme-suite.org/
 +
* Zvolte nastroj MEME a v casti ''Input the primary sequences'' zvolte ''Type in sequences'' a zadajte [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb11/seq.fa tieto sekvencie]
 +
* Pozrite si ostatne nastavenia. Co asi robia?
 +
* Ak server pocita dlho, mozete si pozriet vysledky [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb11/MEME.html tu]
 +
 +
==Kvasinkové transkripčné faktory v SGD==
 +
* Yeast genome database SGD obsahuje pomerne podrobne stranky pre jednotlive transkripcne faktory
 +
* Pozrime si stranku pre transkripcny faktor GAL4 [http://www.yeastgenome.org/locus/S000006169/regulation]
  
 
==Uniprot==
 
==Uniprot==

Verzia zo dňa a času 16:52, 30. november 2022

RNA štruktúra

  • Znama databaza rodin RNA genov je Rfam: http://rfam.xfam.org/
  • Najdite si v nej rodinu RF00015 (U4 spliceosomal RNA)
  • V casti Secondary structure si mozete pozriet obrazky farebne kodovane podla roznych kriterii
    • Skuste pochopit, co jednotlive obrazky a ich farby znamenaju
  • Jedna z mnohych ludskych kopii je tato:
AGCTTTGCGCAGTGGCAGTATCGTAGCCAATGAGGTTTATCCGAGGCGCG
ATTATTGCTAATTGAAAACTTTTCCCAATACCCCGCCATGACGACTTGAA
ATATAGTCGGCATTGGCAATTTTTGACAGTCTCTACGGAGA
  • Skuste ju najst v ludskom genome nastrojom BLAT v UCSC genome browseri
  • Pozrite si tracky GENCODE genes, conservation, RepeatMasker v jej okoli
  • Vo verzii hg19 (kam sa viete z inej verzii dostat cez horne menu View->In Other Genomes) je track "CSHL Sm RNA-seq" ktory obsahuje RNASeq kratkych RNA z roznych casti buniek, zapnite si v jeho nastaveniach aj zobrazenie RNA z jadra (nucleus)
  • Zadajte sekvenciu na RNAfold serveri [1]
  • Ak vypocet dlho trva, pozrite si vysledok tu
  • Podoba sa na strukturu zobrazenu v Rfame? v com sa lisi?

PSI BLAST

  • Toto cvičenie je z časti inšpirované stránkou [2]
  • Budeme uvažovať vzdialene podobné enzýmy
    • Bis(5'-adenosyl)-triphosphatase (Uniprot)
    • Galactose-1-phosphate uridylyltransferase (GALT/GAL7) (Uniprot)
    • Ich domény patria v databáze Pfam do toho istého klanu
  • Skúsme nájsť túto podobnosť v BLASTe: http://blast.ncbi.nlm.nih.gov/ v časti proteíny, zvoľme databázu Swissport, ako Query zadajme Accesion nášho proteínu P49789, spustime program PSI-BLAST
  • V prvom kole PSI-BLAST spúšťa bežný BLASTP
  • GAL gén (konkrétne GAL7_HAEIN, accession P31764) sa nachádza medzi výsledkami, ale má príliš vysokú E-value
  • Spustíme teraz druhú iteráciu PSI-BLAST, ktorá zostaví profil z proteínov s nízkou E-value v prvej iterácii
  • Aká je E-value nájdeného zarovnania?
  • Ak by výpočet dlho trval, výsledky sú tu: 1. kolo, 2. kolo

Objavenie génu HAR1 pomocou komparatívnej genomiky

  • Pollard KS, Salama SR, Lambert N, et al. (September 2006). "An RNA gene expressed during cortical development evolved rapidly in humans". Nature 443 (7108): 167–72. doi:10.1038/nature05113. PMID 16915236. pdf
  • Zobrali všetky regióny dĺžky aspoň 100bp s > 96% podobnosťou medzi šimpanzom a myšou/potkanom (35,000)
  • Porovnali s ostatnými cicavcami, zistili, ktoré majú veľa mutáci v človeku, ale málo inde (pravdepodobnostný model)
  • 49 štatisticky významných regiónov, 96% nekódujúcich oblastiach
  • Najvýznamnejší HAR1: 118nt, 18 substitúcii u človeka, očakávali by sme 0.27. Iba 2 zmeny medzi šimpanzom a sliepkou (310 miliónov rokov), ale nebol nájdený v rybách a žabe.
  • Nezdá sa byť polymorfný u človeka
  • Prekrývajúce sa RNA gény HAR1A a HAR1B
  • HAR1A je exprimovaný v neokortexe u 7 a 9 týždenných embrií, neskôr aj v iných častiach mozgu (u človeka aj iných primátov)
  • Všetky substitúcie v človeku A/T->C/G, stabilnejšia RNA štruktúra (ale tiež sú blízko k telomére, kde je viacej takýchto mutácii kvôli rekombinácii a biased gene conversion)

Cvičenie pri počítači

  • Môžete si pozrieť tento region v browseri: chr20:63102114-63102274 (hg38), pricom ak sa este priblizite, uvidite zarovnanie aj s bazami a mozete vidiet, ze vela zmien je specifickych pre cloveka

Expresia génov

NCBI Gene Expression Omnibus http://www.ncbi.nlm.nih.gov/geo/

  • Databaza gene expression dat na NCBI
  • Do Search okienka zadajme GDS2925
  • Mali by sme dostat dataset Various weak organic acids effect on anaerobic yeast chemostat cultures
  • Mozeme si pozriet zakladne udaje, napr. citation, platform
  • Link "Expression profiles" nam zobrazi grafy pre rozne geny
  • Pri kazdom profile mozeme kliknut na profile neighbors, aby sme videli geny s podobnym profilom
  • Data analysis tools, cast Cluster heatmaps, K-means, skuste rozne pocty clustrov
    • napr. K=4 a K=5 pre Pearsonovu korelaciu
    • mozeme is pozriet aj hierarchicke zhlukovanie

Sekvenčné motívy, program MEME

  • Vazobne miesta transkripcnych faktorov sa casto reprezentuju ako sekvencne motivy
  • Ak mame skupinu sekvencii, mozeme hladat motiv, ktory maju spolocny
  • Znamy program na tento problem je MEME
  • Chodte na stranku http://meme-suite.org/
  • Zvolte nastroj MEME a v casti Input the primary sequences zvolte Type in sequences a zadajte tieto sekvencie
  • Pozrite si ostatne nastavenia. Co asi robia?
  • Ak server pocita dlho, mozete si pozriet vysledky tu

Kvasinkové transkripčné faktory v SGD

  • Yeast genome database SGD obsahuje pomerne podrobne stranky pre jednotlive transkripcne faktory
  • Pozrime si stranku pre transkripcny faktor GAL4 [3]

Uniprot

  • Prehladnejsi pohlad na proteiny, vela linkov na ine databazy, cast vytvarana rucne
    • Pozrieme sa na známy koronavírusový proteín Spike
    • Nájdime ho na stránke http://www.uniprot.org/ pod názvom SPIKE_SARS2
    • Pozrime si podrobne jeho stránku, ktoré časti boli predpovedané bioinformatickými metódami z prednášky?
    • Všimnime si niektorú Pfam doménu a pozrime si jej stránku

Nussinovovej algoritmus (nerobili sme)

Z cvičných príkladov na skúšku

  • Vyplňte maticu dynamického programovania (Nussinovovej algoritmus) pre nájdenie najväčšieho počtu dobre uzátvorkovaných spárovaných báz v RNA sekvencii GAACUUCACUGA (dovoľujeme len komplementárne páry A-U, C-G) a nakreslite sekundárnu štruktúru, ktorú algoritmus našiel.
 G A A C U U C A C U G A
 0 0 0 1 1 2 3 3 3 4 4 4  G
   0 0 0 1 2 2 2 2 3 4 4  A
     0 0 1 1 1 2 2 2 3 4  A
       0 0 0 0 1 1 1 2 3  C
         0 0 0 1 1 1 2 3  U
           0 0 1 1 1 2 3  U
             0 0 0 1 2 2  C
               0 0 1 1 1  A
                 0 0 1 1  C
                   0 0 1  U
                     0 0  G
                       0  A
  • Ako by sme algoritmus upravili, aby dlzka slucky na konci helixu bola vzdy aspon 3?