Aktuálna revízia z 11:47, 7. december 2023

Obsah

1 PSI BLAST a Pfam
2 Budeme robiť na neskoršom cvičení

PSI BLAST a Pfam

Budeme uvažovať tri vzdialene podobné enzýmy
- Bis(5'-adenosyl)-triphosphatase (FHIT) u človeka, accession P49789 (Uniprot)
- Adenosine 5'-monophosphoramidase HNT1 u kvasinky Saccharomyces cerevisiae, (Uniprot)
- Galactose-1-phosphate uridylyltransferase u baktérie Haemophilus influenzae (GAL-1-P) (Uniprot)
- FHIT a HNT1 majú doménu HIT (Pfam).
- GAL-1-P má domény GalP_UDP_tr_C a GalP_UDP_transf. Tieto domény patria v databáze Pfam do toho istého klanu ako HIT.
Pozrime si doménu HIT na stránke databázy Interpro [1], hlavne časť Signature

Skúsme nájsť podobnosť medzi týmito proteínmi v BLASTe: https://blast.ncbi.nlm.nih.gov/ v časti proteíny, zvoľme databázu Swissprot, ako Query zadajme Accession proteínu FHIT P49789, spustime program PSI-BLAST, E-value zvýšená na 0.1.
V prvom kole PSI-BLAST spúšťa bežný BLASTP
Vidíte medzi výsledkami HNT1 a GAL-1-P? S akou E-hodnotou?
Spustíme teraz druhú iteráciu PSI-BLAST, ktorá zostaví profil z proteínov s nízkou E-hodnotou v prvej iterácii
Ako sa zmenili výsledky pre HNT1 a GAL-1-P?

Ak by výpočet dlho trval, výsledky sú tu:
- 1. kolo
- 2. kolo

Budeme robiť na neskoršom cvičení

RNA štruktúra

Znama databaza rodin RNA genov je Rfam: http://rfam.xfam.org/
Najdite si v nej rodinu RF00015 (U4 spliceosomal RNA)
V casti Secondary structure si mozete pozriet obrazky farebne kodovane podla roznych kriterii
- Skuste pochopit, co jednotlive obrazky a ich farby znamenaju
Jedna z mnohych ludskych kopii je tato:

AGCTTTGCGCAGTGGCAGTATCGTAGCCAATGAGGTTTATCCGAGGCGCG
ATTATTGCTAATTGAAAACTTTTCCCAATACCCCGCCATGACGACTTGAA
ATATAGTCGGCATTGGCAATTTTTGACAGTCTCTACGGAGA

Skuste ju najst v ludskom genome nastrojom BLAT v UCSC genome browseri
Pozrite si tracky GENCODE genes, conservation, RepeatMasker v jej okoli
Vo verzii hg19 (kam sa viete z inej verzii dostat cez horne menu View->In Other Genomes) je track "CSHL Sm RNA-seq" ktory obsahuje RNASeq kratkych RNA z roznych casti buniek, zapnite si v jeho nastaveniach aj zobrazenie RNA z jadra (nucleus)
Zadajte sekvenciu na RNAfold serveri [2]
Ak vypocet dlho trva, pozrite si vysledok tu
Podoba sa na strukturu zobrazenu v Rfame? v com sa lisi?

RNA dizajn: mozete sa skusit zahrat na stranke http://www.eternagame.org/web/

Objavenie génu HAR1 pomocou komparatívnej genomiky

Pollard KS, Salama SR, Lambert N, et al. (September 2006). "An RNA gene expressed during cortical development evolved rapidly in humans". Nature 443 (7108): 167–72. doi:10.1038/nature05113. PMID 16915236. pdf
Zobrali všetky regióny dĺžky aspoň 100bp s > 96% podobnosťou medzi šimpanzom a myšou/potkanom (35,000)
Porovnali s ostatnými cicavcami, zistili, ktoré majú veľa mutáci v človeku, ale málo inde (pravdepodobnostný model)
49 štatisticky významných regiónov, 96% nekódujúcich oblastiach
Najvýznamnejší HAR1: 118nt, 18 substitúcii u človeka, očakávali by sme 0.27. Iba 2 zmeny medzi šimpanzom a sliepkou (310 miliónov rokov), ale nebol nájdený v rybách a žabe.
Nezdá sa byť polymorfný u človeka
Prekrývajúce sa RNA gény HAR1A a HAR1B
HAR1A je exprimovaný v neokortexe u 7 a 9 týždenných embrií, neskôr aj v iných častiach mozgu (u človeka aj iných primátov)
Všetky substitúcie v človeku A/T->C/G, stabilnejšia RNA štruktúra (ale tiež sú blízko k telomére, kde je viacej takýchto mutácii kvôli rekombinácii a biased gene conversion)

Cvičenie pri počítači

Môžete si pozrieť tento region v browseri: chr20:63102114-63102274 (hg38), pricom ak sa este priblizite, uvidite zarovnanie aj s bazami a mozete vidiet, ze vela zmien je specifickych pre cloveka

Expresia génov

NCBI Gene Expression Omnibus http://www.ncbi.nlm.nih.gov/geo/

Databaza gene expression dat na NCBI
Do Search okienka zadajme GDS2925
Mali by sme dostat dataset Various weak organic acids effect on anaerobic yeast chemostat cultures
Mozeme si pozriet zakladne udaje, napr. citation, platform
Link "Expression profiles" nam zobrazi grafy pre rozne geny
Pri kazdom profile mozeme kliknut na profile neighbors, aby sme videli geny s podobnym profilom
Data analysis tools, cast Cluster heatmaps, K-means, skuste rozne pocty clustrov
- napr. K=4 a K=5 pre Pearsonovu korelaciu
- mozeme is pozriet aj hierarchicke zhlukovanie

Sekvenčné motívy, program MEME

Vazobne miesta transkripcnych faktorov sa casto reprezentuju ako sekvencne motivy
Ak mame skupinu sekvencii, mozeme hladat motiv, ktory maju spolocny
Znamy program na tento problem je MEME
Chodte na stranku http://meme-suite.org/
Zvolte nastroj MEME a v casti Input the primary sequences zvolte Type in sequences a zadajte tieto sekvencie
Pozrite si ostatne nastavenia. Co asi robia?
Ak server pocita dlho, mozete si pozriet vysledky tu

Nussinovovej algoritmus (nerobili sme)

Z cvičných príkladov na skúšku

Vyplňte maticu dynamického programovania (Nussinovovej algoritmus) pre nájdenie najväčšieho počtu dobre uzátvorkovaných spárovaných báz v RNA sekvencii GAACUUCACUGA (dovoľujeme len komplementárne páry A-U, C-G) a nakreslite sekundárnu štruktúru, ktorú algoritmus našiel.

 G A A C U U C A C U G A
 0 0 0 1 1 2 3 3 3 4 4 4  G
   0 0 0 1 2 2 2 2 3 4 4  A
     0 0 1 1 1 2 2 2 3 4  A
       0 0 0 0 1 1 1 2 3  C
         0 0 0 1 1 1 2 3  U
           0 0 1 1 1 2 3  U
             0 0 0 1 2 2  C
               0 0 1 1 1  A
                 0 0 1 1  C
                   0 0 1  U
                     0 0  G
                       0  A

Ako by sme algoritmus upravili, aby dlzka slucky na konci helixu bola vzdy aspon 3?

@@ Riadok 1: / Riadok 1: @@
 ==PSI BLAST a Pfam==
 <!-- * Toto cvičenie je z časti inšpirované stránkou [http://www.ncbi.nlm.nih.gov/Class/FieldGuide/problem_set.html] -->
-* Budeme uvažovať vzdialene podobné enzýmy
+* Budeme uvažovať tri vzdialene podobné enzýmy
-** Bis(5'-adenosyl)-triphosphatase (FHIT), accession P49789 ([https://www.uniprot.org/uniprot/P49789 Uniprot])
+** Bis(5'-adenosyl)-triphosphatase (FHIT) u človeka, accession P49789 ([https://www.uniprot.org/uniprot/P49789 Uniprot])
-** Adenosine 5'-monophosphoramidase (HINT2), ([https://www.uniprot.org/uniprot/Q9BX68 Uniprot])
+** Adenosine 5'-monophosphoramidase HNT1 u kvasinky Saccharomyces cerevisiae, ([https://www.uniprot.org/uniprot/Q9BX68 Uniprot])
-** Galactose-1-phosphate uridylyltransferase (GALT/GAL7) ([https://www.uniprot.org/uniprot/P31764 Uniprot])
+** Galactose-1-phosphate uridylyltransferase u baktérie Haemophilus influenzae (GAL-1-P) ([https://www.uniprot.org/uniprot/P31764 Uniprot])
-** FHIT a HINT2 majú doménu HIT ([https://www.ebi.ac.uk/interpro/entry/pfam/PF01230/ Pfam]). GAL má inú doménu. Tieto domény patria v databáze Pfam do toho istého klanu.
+** FHIT a HNT1 majú doménu HIT ([https://www.ebi.ac.uk/interpro/entry/pfam/PF01230/ Pfam]).
-* Skúsme nájsť túto podobnosť v BLASTe: https://blast.ncbi.nlm.nih.gov/ v časti proteíny, zvoľme databázu Swissport, ako Query zadajme Accesion nášho proteínu P49789, spustime program PSI-BLAST, E-value zvýšená na 0.1
+** GAL-1-P má domény [https://www.ebi.ac.uk/interpro/entry/pfam/PF02744/ GalP_UDP_tr_C] a [https://www.ebi.ac.uk/interpro/entry/pfam/PF01087/ GalP_UDP_transf]. Tieto domény patria v databáze Pfam do toho istého [https://www.ebi.ac.uk/interpro/set/pfam/CL0265/ klanu] ako HIT.
+* Pozrime si doménu HIT na stránke databázy Interpro [https://www.ebi.ac.uk/interpro/entry/pfam/PF01230/], hlavne časť Signature
+* Skúsme nájsť podobnosť medzi týmito proteínmi v BLASTe: https://blast.ncbi.nlm.nih.gov/ v časti proteíny, zvoľme databázu '''Swissprot''', ako Query zadajme Accession proteínu FHIT '''P49789''', spustime program '''PSI-BLAST''', E-value zvýšená na '''0.1'''.
 * V prvom kole PSI-BLAST spúšťa bežný BLASTP
-* GAL gén sa nenachádza medzi výsledkami
+* Vidíte medzi výsledkami HNT1 a GAL-1-P? S akou E-hodnotou?
-* Spustíme teraz druhú iteráciu PSI-BLAST, ktorá zostaví profil z proteínov s nízkou E-value v prvej iterácii
+* Spustíme teraz druhú iteráciu PSI-BLAST, ktorá zostaví profil z proteínov s nízkou E-hodnotou v prvej iterácii
-* Vo výsledkoch uvidíme niekoľko kópií génu GAL z rôznych organizmov
+* Ako sa zmenili výsledky pre HNT1 a GAL-1-P?
-* Pozrime sa tiež napríklad na gén HINT2 s rovnakou doménou ako FHIT
 * Ak by výpočet dlho trval, výsledky sú tu:
 ** [https://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Get&RID=NBT1XHKA016 1. kolo]
 ** [https://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Get&RID=NBT71PSK013 2. kolo]
 =Budeme robiť na neskoršom cvičení=
@@ Riadok 38: / Riadok 40: @@
 * RNA dizajn: mozete sa skusit zahrat na stranke http://www.eternagame.org/web/
-==Nadreprezentácia, Uniprot (cvičenie pri počítači)==
-Data o expresii ludskych genov v roznych tkanivach a podobne v '''UCSC genome browseri'''
-* Chodte na genome browser http://genome-euro.ucsc.edu/
-* Zvolte ''Tools->Gene Sorter'', ''sort by'' nechajme ''Expression (GTEx)'', a do okienka ''search'' zadajme identifikator genu ''PTPRZ1''
-** Dostane tabulku genov s podobnym profilom expresie ako PTPRZ1 (červená je vysoká expresia, zelená nízka)
-** Zoznam tychto genov v textovom formate najdete [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb08/zoznam_genov.txt tu]
-* http://biit.cs.ut.ee/gprofiler/ mena genov skopirujme do policka ''Query'', stlacte g:Profile!
-** Ak by výpočet dlho trval, nájdete ho aj [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb08/g_Profiler.html tu]
-** Vo výslednej tabuľke je každý riadok jedna funkcna kategoria, v ktorej su geny s tymto profilom expresie nadreprezentovane, kazdy stlpec jeden gen.
-** V spodnej casti tabuly su aj asociacie k chorobam a k transkripcnym faktorom, ktore by mohli prislusne geny regulovat
-* Co by sme na zaklade nadreprezentovanych kategorii usudzovali o gene PTPRZ1?
-* Najdite tento gen v Uniprote (http://www.uniprot.org/), potvrdzuje nase domnienky?
-** O mnohých údajoch na stránke sme sa rozprávali na prednáške (GO kategórie, domény, sekundárna a 3D štruktúra)
-** na veľa miestach na stránke je uvedené aj odkiaľ jednotlivé údaje pochádzajú
-** Všimnime si Pfam domény a pozrime si ich stránku
-* Vratme sa do genome browsera, najdime si PTPRZ1 gen v genome [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg38&position=chr7%3A121873089-122062036]
-* V browseri su rozne tracky tykajuce sa expresie, napr. GTEx. Precitajte si, co je v tomto tracku zobrazene, zapnite si ho a pozrite si expresiu okolitych genov okolo PTPRZ1
-* Kliknite na gen v tracku UCSC known genes. V tabulke uvidite zase prehlad expresie v roznych tkanivach (podla GTEx)
 ==Objavenie génu HAR1 pomocou komparatívnej genomiky==
@@ Riadok 96: / Riadok 76: @@
 * Pozrite si ostatne nastavenia. Co asi robia?
 * Ak server pocita dlho, mozete si pozriet vysledky [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb11/MEME.html tu]
-==Kvasinkové transkripčné faktory v SGD==
-* Yeast genome database SGD obsahuje pomerne podrobne stranky pre jednotlive transkripcne faktory
-* Pozrime si stranku pre transkripcny faktor GAL4 [http://www.yeastgenome.org/locus/S000006169/regulation]
 ==Nussinovovej algoritmus (nerobili sme)==

CB10: Rozdiel medzi revíziami

Aktuálna revízia z 11:47, 7. december 2023

Obsah

PSI BLAST a Pfam

Budeme robiť na neskoršom cvičení

RNA štruktúra

Objavenie génu HAR1 pomocou komparatívnej genomiky

Cvičenie pri počítači

Expresia génov

Sekvenčné motívy, program MEME

Nussinovovej algoritmus (nerobili sme)

Navigačné menu

Osobné nástroje

Menné priestory

Varianty

Zobrazení

Operácie

Hľadať

Navigácia

Nástroje