1-BIN-301, 2-AIN-501 Methods in Bioinformatics

Website moved to https://fmfi-compbio.github.io/mbi/


CB01: Rozdiel medzi revíziami

Z MBI
Prejsť na: navigácia, hľadanie
(QUAST: program na štatistiky o kvalite poskladania genómu)
(Prehľad systému Galaxy)
 
(9 intermediate revisions by the same user not shown)
Riadok 9: Riadok 9:
 
* Konfigurovateľný, veľa možností, ale pomerne málo organizmov
 
* Konfigurovateľný, veľa možností, ale pomerne málo organizmov
 
* V programe Firefox choďte na stránku UCSC genome browser http://genome-euro.ucsc.edu/  (európsky mirror stránky http://genome.ucsc.edu/ )
 
* V programe Firefox choďte na stránku UCSC genome browser http://genome-euro.ucsc.edu/  (európsky mirror stránky http://genome.ucsc.edu/ )
* Hore v modrom menu zvoľte Genomes, potom zvoľte ľudský genóm verzia hg38. Do okienka <tt>search term</tt> zadajte HOXA2. Vo výsledkoch hľadania (Known genes) zvoľte gén homeobox A2 na chromozóme 7.  
+
* Hore v modrom menu zvoľte Genomes, potom zvoľte ľudský genóm verzia hg38. Do okienka <tt>search term</tt> zadajte HOXA2. Vo výsledkoch hľadania (Gencode genes) zvoľte gén homeobox A2 na chromozóme 7.  
 
** Pozrime si spolu túto stránku
 
** Pozrime si spolu túto stránku
 
** V hornej časti sú ovládacie prvky na pohyb vľavo, vpravo, približovanie, vzďaľovanie
 
** V hornej časti sú ovládacie prvky na pohyb vľavo, vpravo, približovanie, vzďaľovanie
Riadok 26: Riadok 26:
 
* Pozrieme si niekoľko vecí týkajúcich sa sekvenovania a skladania genómov  
 
* Pozrieme si niekoľko vecí týkajúcich sa sekvenovania a skladania genómov  
 
* Hore v modrom menu zvoľte Genomes, časť Other
 
* Hore v modrom menu zvoľte Genomes, časť Other
* Na ďalšej stránke zvoľte človeka a pomocou menu Human Assembly '''zistite, kedy boli pridané posledné dve verzie ľudského genómu (hg19 a hg38)'''
+
* Na ďalšej stránke zvoľte človeka a pomocou menu Human Assembly '''zistite, kedy boli pridané posledné tri verzie ľudského genómu (hg19, hg38, hs1)'''
* Na tej istej stránke dole nájdete stručný popis zvolenej verzie genómu. '''Pre ktoré oblasti genómu máme v hg38 najviac alternatívnych verzií? (haplotypes)'''
+
* Na tej istej stránke dole nájdete stručný popis zvolenej verzie genómu. '''Pre ktoré oblasti genómu máme v hg38 najviac alternatívnych verzií?'''
 
* Prejdite na región chr21:31,250,000-31,300,000 v hg19  touto linkou: [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg19&position=chr21%3A31250000-31300000]
 
* Prejdite na región chr21:31,250,000-31,300,000 v hg19  touto linkou: [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg19&position=chr21%3A31250000-31300000]
 
* Zapnite si tracky Mapability a RepeatMasker na "full"
 
* Zapnite si tracky Mapability a RepeatMasker na "full"
Riadok 34: Riadok 34:
 
* Približne v strede zobrazeného regiónu je pokles mapovateľnosti. '''Akému typu opakovania zodpovedá?''' (pozrite track RepeatMasker)
 
* Približne v strede zobrazeného regiónu je pokles mapovateľnosti. '''Akému typu opakovania zodpovedá?''' (pozrite track RepeatMasker)
 
* Zapnite si tracky "Assembly" a "Gaps" a pozrite si región chr2:110,000,000-110,300,000 v hg19: [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg19&position=chr2%3A110000000-110300000] '''Aká dlhá je neosekvenovaná medzera (gap) v strede tohto regiónu?''' Približnú veľkosť môžete odčítať z obrázku, presnejší údaj zistíte kliknutím na čierny obdĺžnik zodpovedajúci tejto medzere (úplne presná dĺžka aj tak nebola známa, nakoľko nebola osekvenovaná).
 
* Zapnite si tracky "Assembly" a "Gaps" a pozrite si región chr2:110,000,000-110,300,000 v hg19: [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=hg19&position=chr2%3A110000000-110300000] '''Aká dlhá je neosekvenovaná medzera (gap) v strede tohto regiónu?''' Približnú veľkosť môžete odčítať z obrázku, presnejší údaj zistíte kliknutím na čierny obdĺžnik zodpovedajúci tejto medzere (úplne presná dĺžka aj tak nebola známa, nakoľko nebola osekvenovaná).
* Cez menu položku View, In other genomes si pozrite, ako zobrazený úsek vyzerá vo verzii hg38. Ako sa zmenila dĺžka z pôvodných 300kb?
+
* Cez menu položku View, In other genomes si pozrite, ako zobrazený úsek vyzerá vo verzii hg38 and hs1. Ako sa zmenila dĺžka z pôvodných 300kb?
* Prejdite na genóm Rhesus, verzia rheMac2, región chr7:59,022,000-59,024,000 [http://genome-euro.ucsc.edu/cgi-bin/hgTracks?db=rheMac2&position=chr7%3A59022000-59024000], zapnite si tracky Contigs, Gaps, Quality scores
+
* '''Aké typy problémov v kvalite sekvencie v tomto regióne vidíte?'''
+
** Opäť si môžete pozrieť, či sa problémy odstránili a ako sa zmenila dĺžka sekvencie v najnovšej verzii rheMac8
+
  
==QUAST: program na štatistiky o kvalite poskladania genómu==
+
==QUAST: program na štatistiky o kvalite poskladania genómu (nerobili sme)==
 
* Čítania technológie Illumina MiSeq z 500kbp oblasti genómu E.coli  
 
* Čítania technológie Illumina MiSeq z 500kbp oblasti genómu E.coli  
* Boli poskladané programom SPAdes [http://cab.spbu.ru/software/spades/]
+
* Boli poskladané programom SPAdes [https://github.com/ablab/spades]
 
* Vzniknuté kontigy sú tu: [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb01/spades.fasta]
 
* Vzniknuté kontigy sú tu: [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb01/spades.fasta]
* Pozrime si štatistiky tohto poskladania v nástroji [http://cab.cc.spbu.ru/quast/ Quast]
+
* Pozrime si štatistiky tohto poskladania v nástroji Quast,
** Stiahnite si kontigy a zadajte ich ako Assemblies, stlačte Evaluate
+
** [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb01/quast.html Predpočítané výsledky] a [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb01/quast.pdf report v pdf formáte]
** Ak stránka nefunguje, tu sú [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb01/quast.html predpočítané výsledky] a [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb01/quast.pdf report v pdf formáte]
+
* Teraz si tento výpočet spustíme v systéme Galaxy
 +
 
 +
==Prehľad systému Galaxy (nerobili sme)==
 +
* https://usegalaxy.eu/
 +
* Obsahuje veľa bioinformatických nástrojov, ktoré môžete spúšťať
 +
* Ale na výsledky treba niekedy dlho čakať
 +
* V ľavom stĺpci hľadanie nástroja alebo nahrávanie dát
 +
* V pravom stĺpci zoznam nahratých dát, bežiacich programov a hotových výsledkov (výsledky si pozriete ikonou oka alebo stiahnete ikonou diskety)
 +
* V strede nastavenia nástroja alebo prezeranie výsledkov
 +
* Pri serióznom používaní odporúčam vytvoriť si konto a prihlásiť sa
 +
 
 +
 
 +
* Stiahnite si kontigy [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb01/spades.fasta], uložte ako súbor
 +
* V ľavom menu zvolíme Upload Data a nahráme stiahnutý súbor
 +
* V časti Tools v ľavom menu zadáme do vyhľadávania Quast, zvolíme Quast
 +
** Ako Contigs/scaffolds file zadáme nahratý súbor, ostatné položky necháme predvolené, stlačíme Execute
 +
** Predpočítané výsledky [https://usegalaxy.eu/u/brejova/h/quast]
 +
* Druhá analýza: porovnanie poskladaných kontigov so správnou odpoveďou (ak je známa)
 +
** [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb01/ref.fasta Skutočná E.coli sekvencia], ktorú sme chceli dostať
 +
** Dá sa zadať do nástroja Quast, ak zvolíte Yes v <tt>Use a reference genome</tt> a tento súbor nahráte ako <tt>Reference genome</tt>
  
* Program Quast môžeme vyskúšať v systéme Galaxy https://usegalaxy.eu/
 
  
 
Ďalšie dáta pre záujemcov:
 
Ďalšie dáta pre záujemcov:
* [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb01/ref.fasta Skutočná E.coli sekvencia], ktorú sme chceli dostať
 
** Dajú sa napr. zadať do nástroja Quast ak v časti Genome zaškrtnete Another genome a tento súbor nahráte ako Reference (ostatné položky môžete nechať nevyplnené)
 
 
* Použité čítania: [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb01/miseq_R1.fastq.gz prvé čítania z páru], [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb01/miseq_R2.fastq.gz druhé čítania z páru]
 
* Použité čítania: [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb01/miseq_R1.fastq.gz prvé čítania z páru], [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb01/miseq_R2.fastq.gz druhé čítania z páru]
 +
* Galaxy obsahuje aj program SPAdes na skladanie

Aktuálna revízia z 09:19, 28. september 2023

Používanie počítačov v M 217

  • V textovom menu pri štarte zvoľte Linux, v prihlasovacom menu zadajte užívatela bioinf, heslo dostanete
  • Na dolnom okraji obrazovky je lišta s často používanými nástrojmi, napr. internetový prehliadač Firefox
  • Vo Firefoxe si otvorte stránku predmetu http://compbio.fmph.uniba.sk/vyuka/mbi/ čast Prednášky a poznámky, nalistujte materiály k dnešnému cvičeniu

UCSC genome browser

  • On-line grafický nástroj na prezeranie genómov
  • Konfigurovateľný, veľa možností, ale pomerne málo organizmov
  • V programe Firefox choďte na stránku UCSC genome browser http://genome-euro.ucsc.edu/ (európsky mirror stránky http://genome.ucsc.edu/ )
  • Hore v modrom menu zvoľte Genomes, potom zvoľte ľudský genóm verzia hg38. Do okienka search term zadajte HOXA2. Vo výsledkoch hľadania (Gencode genes) zvoľte gén homeobox A2 na chromozóme 7.
    • Pozrime si spolu túto stránku
    • V hornej časti sú ovládacie prvky na pohyb vľavo, vpravo, približovanie, vzďaľovanie
    • Pod tým schéma chromozómu, červeným vyznačená zobrazená oblasť
    • Pod tým obrázok vybranej oblasti, rôzne tracky
    • Pod tým zoznam všetkých trackov, dajú sa zapínať, vypínať a konfigurovať
    • Po kliknutí na obrázok sa často zobrazí ďalšia informácia o danom géne alebo inom zdroji dát
    • V génoch exony hrubé, UTR tenšie, intróny vodorovné čiary
  • Koľko má HOXA2 exónov? Na ktorom chromozóme a pozícii je? Pozor, je na opačnom vlákne. Ako je táto skutočnosť naznačená na obrázku?
  • V tracku GENCODE kliknite na gén, mali by ste sa dostať na stránku popisujúcu jeho rôzne vlastnosti. Čo ste sa dozvedeli o jeho funkcii?
    • Na tejto stránke nájdite linku na stiahnutie proteínovej sekvencie. Aké sú prvé štyri aminokyseliny?

Sekvenovanie v UCSC genome browseri

  • Vráťte sa na UCSC genome browser http://genome-euro.ucsc.edu/
  • Pozrieme si niekoľko vecí týkajúcich sa sekvenovania a skladania genómov
  • Hore v modrom menu zvoľte Genomes, časť Other
  • Na ďalšej stránke zvoľte človeka a pomocou menu Human Assembly zistite, kedy boli pridané posledné tri verzie ľudského genómu (hg19, hg38, hs1)
  • Na tej istej stránke dole nájdete stručný popis zvolenej verzie genómu. Pre ktoré oblasti genómu máme v hg38 najviac alternatívnych verzií?
  • Prejdite na región chr21:31,250,000-31,300,000 v hg19 touto linkou: [1]
  • Zapnite si tracky Mapability a RepeatMasker na "full"
  • Mapability: nakoľko sa daný úsek opakuje v genóme a či teda vieme jednoznačne jeho čítania namapovať pri použití Next generation sequencing
  • Ako a prečo sa pri rôznych dĺžkach čítaní líšia? (Keď kliknete na linku "Mapability", môžete si prečítať bližšie detaily.)
  • Približne v strede zobrazeného regiónu je pokles mapovateľnosti. Akému typu opakovania zodpovedá? (pozrite track RepeatMasker)
  • Zapnite si tracky "Assembly" a "Gaps" a pozrite si región chr2:110,000,000-110,300,000 v hg19: [2] Aká dlhá je neosekvenovaná medzera (gap) v strede tohto regiónu? Približnú veľkosť môžete odčítať z obrázku, presnejší údaj zistíte kliknutím na čierny obdĺžnik zodpovedajúci tejto medzere (úplne presná dĺžka aj tak nebola známa, nakoľko nebola osekvenovaná).
  • Cez menu položku View, In other genomes si pozrite, ako zobrazený úsek vyzerá vo verzii hg38 and hs1. Ako sa zmenila dĺžka z pôvodných 300kb?

QUAST: program na štatistiky o kvalite poskladania genómu (nerobili sme)

  • Čítania technológie Illumina MiSeq z 500kbp oblasti genómu E.coli
  • Boli poskladané programom SPAdes [3]
  • Vzniknuté kontigy sú tu: [4]
  • Pozrime si štatistiky tohto poskladania v nástroji Quast,
  • Teraz si tento výpočet spustíme v systéme Galaxy

Prehľad systému Galaxy (nerobili sme)

  • https://usegalaxy.eu/
  • Obsahuje veľa bioinformatických nástrojov, ktoré môžete spúšťať
  • Ale na výsledky treba niekedy dlho čakať
  • V ľavom stĺpci hľadanie nástroja alebo nahrávanie dát
  • V pravom stĺpci zoznam nahratých dát, bežiacich programov a hotových výsledkov (výsledky si pozriete ikonou oka alebo stiahnete ikonou diskety)
  • V strede nastavenia nástroja alebo prezeranie výsledkov
  • Pri serióznom používaní odporúčam vytvoriť si konto a prihlásiť sa


  • Stiahnite si kontigy [5], uložte ako súbor
  • V ľavom menu zvolíme Upload Data a nahráme stiahnutý súbor
  • V časti Tools v ľavom menu zadáme do vyhľadávania Quast, zvolíme Quast
    • Ako Contigs/scaffolds file zadáme nahratý súbor, ostatné položky necháme predvolené, stlačíme Execute
    • Predpočítané výsledky [6]
  • Druhá analýza: porovnanie poskladaných kontigov so správnou odpoveďou (ak je známa)
    • Skutočná E.coli sekvencia, ktorú sme chceli dostať
    • Dá sa zadať do nástroja Quast, ak zvolíte Yes v Use a reference genome a tento súbor nahráte ako Reference genome


Ďalšie dáta pre záujemcov: