CB10: Rozdiel medzi revíziami
Z MBI
(→Kvasinkové transkripčné faktory v SGD) |
|||
(12 intermediate revisions by the same user not shown) | |||
Riadok 1: | Riadok 1: | ||
+ | ==PSI BLAST a Pfam== | ||
+ | <!-- * Toto cvičenie je z časti inšpirované stránkou [http://www.ncbi.nlm.nih.gov/Class/FieldGuide/problem_set.html] --> | ||
+ | * Budeme uvažovať tri vzdialene podobné enzýmy | ||
+ | ** Bis(5'-adenosyl)-triphosphatase (FHIT) u človeka, accession P49789 ([https://www.uniprot.org/uniprot/P49789 Uniprot]) | ||
+ | ** Adenosine 5'-monophosphoramidase HNT1 u kvasinky Saccharomyces cerevisiae, ([https://www.uniprot.org/uniprot/Q9BX68 Uniprot]) | ||
+ | ** Galactose-1-phosphate uridylyltransferase u baktérie Haemophilus influenzae (GAL-1-P) ([https://www.uniprot.org/uniprot/P31764 Uniprot]) | ||
+ | ** FHIT a HNT1 majú doménu HIT ([https://www.ebi.ac.uk/interpro/entry/pfam/PF01230/ Pfam]). | ||
+ | ** GAL-1-P má domény [https://www.ebi.ac.uk/interpro/entry/pfam/PF02744/ GalP_UDP_tr_C] a [https://www.ebi.ac.uk/interpro/entry/pfam/PF01087/ GalP_UDP_transf]. Tieto domény patria v databáze Pfam do toho istého [https://www.ebi.ac.uk/interpro/set/pfam/CL0265/ klanu] ako HIT. | ||
+ | * Pozrime si doménu HIT na stránke databázy Interpro [https://www.ebi.ac.uk/interpro/entry/pfam/PF01230/], hlavne časť Signature | ||
+ | |||
+ | |||
+ | * Skúsme nájsť podobnosť medzi týmito proteínmi v BLASTe: https://blast.ncbi.nlm.nih.gov/ v časti proteíny, zvoľme databázu '''Swissprot''', ako Query zadajme Accession proteínu FHIT '''P49789''', spustime program '''PSI-BLAST''', E-value zvýšená na '''0.1'''. | ||
+ | * V prvom kole PSI-BLAST spúšťa bežný BLASTP | ||
+ | * Vidíte medzi výsledkami HNT1 a GAL-1-P? S akou E-hodnotou? | ||
+ | * Spustíme teraz druhú iteráciu PSI-BLAST, ktorá zostaví profil z proteínov s nízkou E-hodnotou v prvej iterácii | ||
+ | * Ako sa zmenili výsledky pre HNT1 a GAL-1-P? | ||
+ | |||
+ | * Ak by výpočet dlho trval, výsledky sú tu: | ||
+ | ** [https://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Get&RID=NBT1XHKA016 1. kolo] | ||
+ | ** [https://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Get&RID=NBT71PSK013 2. kolo] | ||
+ | |||
+ | =Budeme robiť na neskoršom cvičení= | ||
+ | ==RNA štruktúra== | ||
+ | * Znama databaza rodin RNA genov je Rfam: http://rfam.xfam.org/ | ||
+ | * Najdite si v nej rodinu RF00015 (U4 spliceosomal RNA) | ||
+ | * V casti Secondary structure si mozete pozriet obrazky farebne kodovane podla roznych kriterii | ||
+ | ** Skuste pochopit, co jednotlive obrazky a ich farby znamenaju | ||
+ | * Jedna z mnohych ludskych kopii je tato: | ||
+ | <pre> | ||
+ | AGCTTTGCGCAGTGGCAGTATCGTAGCCAATGAGGTTTATCCGAGGCGCG | ||
+ | ATTATTGCTAATTGAAAACTTTTCCCAATACCCCGCCATGACGACTTGAA | ||
+ | ATATAGTCGGCATTGGCAATTTTTGACAGTCTCTACGGAGA | ||
+ | </pre> | ||
+ | * Skuste ju najst v ludskom genome nastrojom BLAT v [http://genome-euro.ucsc.edu UCSC genome browseri] | ||
+ | * Pozrite si tracky GENCODE genes, conservation, RepeatMasker v jej okoli | ||
+ | * Vo verzii hg19 (kam sa viete z inej verzii dostat cez horne menu View->In Other Genomes) je track "CSHL Sm RNA-seq" ktory obsahuje RNASeq kratkych RNA z roznych casti buniek, zapnite si v jeho nastaveniach aj zobrazenie RNA z jadra (nucleus) | ||
+ | * Zadajte sekvenciu na RNAfold serveri [http://rna.tbi.univie.ac.at/cgi-bin/RNAWebSuite/RNAfold.cgi] | ||
+ | * Ak vypocet dlho trva, pozrite si vysledok [http://rna.tbi.univie.ac.at//cgi-bin/RNAWebSuite/RNAfold.cgi?PAGE=3&ID=fdr_TwjicB tu] | ||
+ | * Podoba sa na strukturu zobrazenu v Rfame? v com sa lisi? | ||
+ | |||
+ | * RNA dizajn: mozete sa skusit zahrat na stranke http://www.eternagame.org/web/ | ||
+ | |||
+ | ==Objavenie génu HAR1 pomocou komparatívnej genomiky== | ||
+ | * {{cite journal |author=Pollard KS, Salama SR, Lambert N, ''et al.'' |title=An RNA gene expressed during cortical development evolved rapidly in humans |journal=Nature |volume=443 |issue=7108 |pages=167–72 |year=2006 |month=September |pmid=16915236 |doi=10.1038/nature05113 |url=}} [http://ribonode.ucsc.edu/Pubs/Pollard_etal06.pdf pdf] | ||
+ | * Zobrali všetky regióny dĺžky aspoň 100bp s > 96% podobnosťou medzi šimpanzom a myšou/potkanom (35,000) | ||
+ | * Porovnali s ostatnými cicavcami, zistili, ktoré majú veľa mutáci v človeku, ale málo inde (pravdepodobnostný model) | ||
+ | * 49 štatisticky významných regiónov, 96% nekódujúcich oblastiach | ||
+ | * Najvýznamnejší HAR1: 118nt, 18 substitúcii u človeka, očakávali by sme 0.27. Iba 2 zmeny medzi šimpanzom a sliepkou (310 miliónov rokov), ale nebol nájdený v rybách a žabe. | ||
+ | * Nezdá sa byť polymorfný u človeka | ||
+ | * Prekrývajúce sa RNA gény HAR1A a HAR1B | ||
+ | * HAR1A je exprimovaný v neokortexe u 7 a 9 týždenných embrií, neskôr aj v iných častiach mozgu (u človeka aj iných primátov) | ||
+ | * Všetky substitúcie v človeku A/T->C/G, stabilnejšia RNA štruktúra (ale tiež sú blízko k telomére, kde je viacej takýchto mutácii kvôli rekombinácii a biased gene conversion) | ||
+ | |||
+ | ===Cvičenie pri počítači=== | ||
+ | * Môžete si pozrieť tento region v browseri: [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg38&position=chr20%3A63102114-63102274 '''chr20:63102114-63102274''' (hg38)], pricom ak sa este priblizite, uvidite zarovnanie aj s bazami a mozete vidiet, ze vela zmien je specifickych pre cloveka | ||
+ | |||
+ | ==Expresia génov== | ||
+ | '''NCBI Gene Expression Omnibus''' http://www.ncbi.nlm.nih.gov/geo/ | ||
+ | * Databaza gene expression dat na NCBI | ||
+ | * Do Search okienka zadajme ''GDS2925'' | ||
+ | * Mali by sme dostat dataset ''Various weak organic acids effect on anaerobic yeast chemostat cultures'' | ||
+ | * Mozeme si pozriet zakladne udaje, napr. citation, platform | ||
+ | * Link "Expression profiles" nam zobrazi grafy pre rozne geny | ||
+ | * Pri kazdom profile mozeme kliknut na profile neighbors, aby sme videli geny s podobnym profilom | ||
+ | * Data analysis tools, cast Cluster heatmaps, K-means, skuste rozne pocty clustrov | ||
+ | ** napr. [http://www.ncbi.nlm.nih.gov/geo/gds/analyze/kmeans2.cgi?&ID=GDS2925&dist=1&method=0&PC=1&NC=5&k=4 K=4] a [http://www.ncbi.nlm.nih.gov/geo/gds/analyze/kmeans2.cgi?&ID=GDS2925&dist=1&method=0&PC=1&NC=5&k=5 K=5] pre Pearsonovu korelaciu | ||
+ | ** mozeme is pozriet aj hierarchicke zhlukovanie | ||
+ | |||
+ | ==Sekvenčné motívy, program MEME== | ||
+ | |||
+ | * Vazobne miesta transkripcnych faktorov sa casto reprezentuju ako sekvencne motivy | ||
+ | * Ak mame skupinu sekvencii, mozeme hladat motiv, ktory maju spolocny | ||
+ | * Znamy program na tento problem je MEME | ||
+ | * Chodte na stranku http://meme-suite.org/ | ||
+ | * Zvolte nastroj MEME a v casti ''Input the primary sequences'' zvolte ''Type in sequences'' a zadajte [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb11/seq.fa tieto sekvencie] | ||
+ | * Pozrite si ostatne nastavenia. Co asi robia? | ||
+ | * Ak server pocita dlho, mozete si pozriet vysledky [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb11/MEME.html tu] | ||
+ | |||
==Nussinovovej algoritmus (nerobili sme)== | ==Nussinovovej algoritmus (nerobili sme)== | ||
Aktuálna revízia z 10:47, 7. december 2023
Obsah
PSI BLAST a Pfam
- Budeme uvažovať tri vzdialene podobné enzýmy
- Bis(5'-adenosyl)-triphosphatase (FHIT) u človeka, accession P49789 (Uniprot)
- Adenosine 5'-monophosphoramidase HNT1 u kvasinky Saccharomyces cerevisiae, (Uniprot)
- Galactose-1-phosphate uridylyltransferase u baktérie Haemophilus influenzae (GAL-1-P) (Uniprot)
- FHIT a HNT1 majú doménu HIT (Pfam).
- GAL-1-P má domény GalP_UDP_tr_C a GalP_UDP_transf. Tieto domény patria v databáze Pfam do toho istého klanu ako HIT.
- Pozrime si doménu HIT na stránke databázy Interpro [1], hlavne časť Signature
- Skúsme nájsť podobnosť medzi týmito proteínmi v BLASTe: https://blast.ncbi.nlm.nih.gov/ v časti proteíny, zvoľme databázu Swissprot, ako Query zadajme Accession proteínu FHIT P49789, spustime program PSI-BLAST, E-value zvýšená na 0.1.
- V prvom kole PSI-BLAST spúšťa bežný BLASTP
- Vidíte medzi výsledkami HNT1 a GAL-1-P? S akou E-hodnotou?
- Spustíme teraz druhú iteráciu PSI-BLAST, ktorá zostaví profil z proteínov s nízkou E-hodnotou v prvej iterácii
- Ako sa zmenili výsledky pre HNT1 a GAL-1-P?
Budeme robiť na neskoršom cvičení
RNA štruktúra
- Znama databaza rodin RNA genov je Rfam: http://rfam.xfam.org/
- Najdite si v nej rodinu RF00015 (U4 spliceosomal RNA)
- V casti Secondary structure si mozete pozriet obrazky farebne kodovane podla roznych kriterii
- Skuste pochopit, co jednotlive obrazky a ich farby znamenaju
- Jedna z mnohych ludskych kopii je tato:
AGCTTTGCGCAGTGGCAGTATCGTAGCCAATGAGGTTTATCCGAGGCGCG ATTATTGCTAATTGAAAACTTTTCCCAATACCCCGCCATGACGACTTGAA ATATAGTCGGCATTGGCAATTTTTGACAGTCTCTACGGAGA
- Skuste ju najst v ludskom genome nastrojom BLAT v UCSC genome browseri
- Pozrite si tracky GENCODE genes, conservation, RepeatMasker v jej okoli
- Vo verzii hg19 (kam sa viete z inej verzii dostat cez horne menu View->In Other Genomes) je track "CSHL Sm RNA-seq" ktory obsahuje RNASeq kratkych RNA z roznych casti buniek, zapnite si v jeho nastaveniach aj zobrazenie RNA z jadra (nucleus)
- Zadajte sekvenciu na RNAfold serveri [2]
- Ak vypocet dlho trva, pozrite si vysledok tu
- Podoba sa na strukturu zobrazenu v Rfame? v com sa lisi?
- RNA dizajn: mozete sa skusit zahrat na stranke http://www.eternagame.org/web/
Objavenie génu HAR1 pomocou komparatívnej genomiky
- Pollard KS, Salama SR, Lambert N, et al. (September 2006). "An RNA gene expressed during cortical development evolved rapidly in humans". Nature 443 (7108): 167–72. doi:10.1038/nature05113. PMID 16915236. pdf
- Zobrali všetky regióny dĺžky aspoň 100bp s > 96% podobnosťou medzi šimpanzom a myšou/potkanom (35,000)
- Porovnali s ostatnými cicavcami, zistili, ktoré majú veľa mutáci v človeku, ale málo inde (pravdepodobnostný model)
- 49 štatisticky významných regiónov, 96% nekódujúcich oblastiach
- Najvýznamnejší HAR1: 118nt, 18 substitúcii u človeka, očakávali by sme 0.27. Iba 2 zmeny medzi šimpanzom a sliepkou (310 miliónov rokov), ale nebol nájdený v rybách a žabe.
- Nezdá sa byť polymorfný u človeka
- Prekrývajúce sa RNA gény HAR1A a HAR1B
- HAR1A je exprimovaný v neokortexe u 7 a 9 týždenných embrií, neskôr aj v iných častiach mozgu (u človeka aj iných primátov)
- Všetky substitúcie v človeku A/T->C/G, stabilnejšia RNA štruktúra (ale tiež sú blízko k telomére, kde je viacej takýchto mutácii kvôli rekombinácii a biased gene conversion)
Cvičenie pri počítači
- Môžete si pozrieť tento region v browseri: chr20:63102114-63102274 (hg38), pricom ak sa este priblizite, uvidite zarovnanie aj s bazami a mozete vidiet, ze vela zmien je specifickych pre cloveka
Expresia génov
NCBI Gene Expression Omnibus http://www.ncbi.nlm.nih.gov/geo/
- Databaza gene expression dat na NCBI
- Do Search okienka zadajme GDS2925
- Mali by sme dostat dataset Various weak organic acids effect on anaerobic yeast chemostat cultures
- Mozeme si pozriet zakladne udaje, napr. citation, platform
- Link "Expression profiles" nam zobrazi grafy pre rozne geny
- Pri kazdom profile mozeme kliknut na profile neighbors, aby sme videli geny s podobnym profilom
- Data analysis tools, cast Cluster heatmaps, K-means, skuste rozne pocty clustrov
Sekvenčné motívy, program MEME
- Vazobne miesta transkripcnych faktorov sa casto reprezentuju ako sekvencne motivy
- Ak mame skupinu sekvencii, mozeme hladat motiv, ktory maju spolocny
- Znamy program na tento problem je MEME
- Chodte na stranku http://meme-suite.org/
- Zvolte nastroj MEME a v casti Input the primary sequences zvolte Type in sequences a zadajte tieto sekvencie
- Pozrite si ostatne nastavenia. Co asi robia?
- Ak server pocita dlho, mozete si pozriet vysledky tu
Nussinovovej algoritmus (nerobili sme)
Z cvičných príkladov na skúšku
- Vyplňte maticu dynamického programovania (Nussinovovej algoritmus) pre nájdenie najväčšieho počtu dobre uzátvorkovaných spárovaných báz v RNA sekvencii GAACUUCACUGA (dovoľujeme len komplementárne páry A-U, C-G) a nakreslite sekundárnu štruktúru, ktorú algoritmus našiel.
G A A C U U C A C U G A 0 0 0 1 1 2 3 3 3 4 4 4 G 0 0 0 1 2 2 2 2 3 4 4 A 0 0 1 1 1 2 2 2 3 4 A 0 0 0 0 1 1 1 2 3 C 0 0 0 1 1 1 2 3 U 0 0 1 1 1 2 3 U 0 0 0 1 2 2 C 0 0 1 1 1 A 0 0 1 1 C 0 0 1 U 0 0 G 0 A
- Ako by sme algoritmus upravili, aby dlzka slucky na konci helixu bola vzdy aspon 3?