1-BIN-301, 2-AIN-501 Metódy v bioinformatike, ZS 2018/19

Úvod · Pravidlá · Termíny a zadania · Prednášky a poznámky · Facebook (oznamy a diskusie) (návod a pravidlá)
Zadania domácich úloh a články na journal club nájdete v časti Termíny a zadania.
Pozrite si ukážkové príklady na skúšku.
Rozpis skupín pre journal club je zverejnený.


CB11

Z MBI
Prejsť na: navigácia, hľadanie

Expresia génov

NCBI Gene Expression Omnibus http://www.ncbi.nlm.nih.gov/geo/

  • Databaza gene expression dat na NCBI
  • Do Search okienka zadajme GDS2925
  • Mali by sme dostat dataset Various weak organic acids effect on anaerobic yeast chemostat cultures
  • Mozeme si pozriet zakladne udaje, napr. citation, platform
  • Link "Expression profiles" nam zobrazi grafy pre rozne geny
  • Pri kazdom profile mozeme kliknut na profile neighbors, aby sme videli geny s podobnym profilom
  • Data analysis tools, cast Cluster heatmaps, K-means, skuste rozne pocty clustrov
    • napr. K=4 a K=5 pre Pearsonovu korelaciu
    • mozeme is pozriet aj hierarchicke zhlukovanie

PSI BLAST

  • Toto cvičenie je z časti inšpirované stránkou [1]
  • Budeme uvažovať vzdialene podobné enzýmy
    • Bis(5'-adenosyl)-triphosphatase (Uniprot)
    • Galactose-1-phosphate uridylyltransferase (GALT/GAL7) (Uniprot)
    • Ich domény patria v databáze Pfam do toho istého klanu
  • Skúsme nájsť túto podobnosť v BLASTe: http://blast.ncbi.nlm.nih.gov/ v časti proteíny, zvoľme databázu Swissport, ako Query zadajme Accesion nášho proteínu P49789, spustime program PSI-BLAST
  • V prvom kole PSI-BLAST spúšťa bežný BLASTP
  • GAL gén (konkrétne GAL7_HAEIN, accession P31764) sa nachádza medzi výsledkami, ale má príliš vysokú E-value
  • Spustíme teraz druhú iteráciu PSI-BLAST, ktorá zostaví profil z proteínov s nízkou E-value v prvej iterácii
  • Aká je E-value nájdeného zarovnania?
  • Ak by výpočet dlho trval, výsledky sú tu: 1. kolo, 2. kolo

Sekvenčné motívy, program MEME

  • Vazobne miesta transkripcnych faktorov sa casto reprezentuju ako sekvencne motivy
  • Ak mame skupinu sekvencii, mozeme hladat motiv, ktory maju spolocny
  • Znamy program na tento problem je MEME
  • Chodte na stranku http://meme-suite.org/
  • Zvolte nastroj MEME a v casti Input the primary sequences zvolte Type in sequences a zadajte tieto sekvencie
  • Pozrite si ostatne nastavenia. Co asi robia?
  • Ak server pocita dlho, mozete si pozriet vysledky tu

Kvasinkové transkripčné faktory v SGD

  • Yeast genome database SGD obsahuje pomerne podrobne stranky pre jednotlive transkripcne faktory
  • Pozrime si stranku pre transkripcny faktor GAL4 [2]

RNA štruktúra

  • Znama databaza rodin RNA genov je Rfam: http://rfam.xfam.org/
  • Najdite si v nej rodinu RF00015 (U4 spliceosomal RNA)
  • V casti Secondary structure si mozete pozriet obrazky farebne kodovane podla roznych kriterii
    • Skuste pochopit, co jednotlive obrazky a ich farby znamenaju
  • Jedna z mnohych ludskych kopii je tato:
AGCTTTGCGCAGTGGCAGTATCGTAGCCAATGAGGTTTATCCGAGGCGCG
ATTATTGCTAATTGAAAACTTTTCCCAATACCCCGCCATGACGACTTGAA
ATATAGTCGGCATTGGCAATTTTTGACAGTCTCTACGGAGA
  • Skuste ju najst v ludskom genome nastrojom BLAT v UCSC genome browseri
  • Pozrite si tracky GENCODE genes, conservation, RepeatMasker v jej okoli
  • Vo verzii hg19 (kam sa viete z inej verzii dostat cez horne menu View->In Other Genomes) je track "CSHL Sm RNA-seq" ktory obsahuje RNASeq kratkych RNA z roznych casti buniek, zapnite si v jeho nastaveniach aj zobrazenie RNA z jadra (nucleus)
  • Zadajte sekvenciu na RNAfold serveri [3]
  • Ak vypocet dlho trva, pozrite si vysledok tu
  • Podoba sa na strukturu zobrazenu v Rfame? v com sa lisi?

Populacna genomika v UCSC genome browseri

Zopar zaujimavych polymorfizmov v ludskom genome


UCSC genome browser ma viacero trackov tykajucich sa populacnej genomiky a polymorfizmov

  • Pozrime si napriklad region chr2:174,862-436,468 v hg19
  • V casti Phenotype and Disease Associations
    • GAD view (Genetic Association Database) obahuje asociacie oblasti k chorobam
  • V casti Variation and Repeats
    • HGDP Allele Freq (po kliknuti na SNP zobrazi mapu sveta s distribuciou alel)
    • "DGV Struct Var" (delecia, zmeny poctu kopii, ale nie prilis prehladne)
    • Genome Variants obsahuje genomy niekolkych ludi, napr Jima Watsona
  • Takisto sa da pozriet genom ludi z jaskyne Denisova a Neandertalcov

V starsej verzii ludskeho genomu je aj trojuholnikovy graf linkage disequilibria

  • region vyssie premapovany do hg18
  • zapnite "HapMap LD Phased" na Full (cast Variation and Repeats)
  • vsimnite si, ze miery LD sa medzi ludskymi podpopulaciami lisia (YRI: Nigeria; CEU: Europa; JPT+CHB: Japonsko, Cina)