1-BIN-301, 2-AIN-501 Methods in Bioinformatics, 2023/24

Introduction · Rules · Tasks and dates · Materials · Moodle
Quizzes can be found in Moodle.
Homework assignments and journal club papers can be found in Tasks and dates.
Exam rules, example questions and syllabus
Groups for journal club have each their own group in Moodle.


CB01: Rozdiel medzi revíziami

Z MBI
Prejsť na: navigácia, hľadanie
(QUAST: program na štatistiky o kvalite poskladania genómu)
(QUAST: program na štatistiky o kvalite poskladania genómu)
Riadok 43: Riadok 43:
 
* Boli poskladané programom SPAdes [http://cab.spbu.ru/software/spades/]
 
* Boli poskladané programom SPAdes [http://cab.spbu.ru/software/spades/]
 
* Vzniknuté kontigy sú tu: [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb01/spades.fasta]
 
* Vzniknuté kontigy sú tu: [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb01/spades.fasta]
* Pozrime si štatistiky tohto poskladania v nástroji [http://cab.cc.spbu.ru/quast/ Quast]
+
* Pozrime si štatistiky tohto poskladania v nástroji Quast, ktorý spustíme na serveri Galaxy
** Stiahnite si kontigy a zadajte ich ako Assemblies, stlačte Evaluate
+
** Stiahnite si kontigy, uložte ako súbor
** Ak stránka nefunguje, tu sú [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb01/quast.html predpočítané výsledky] a [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb01/quast.pdf report v pdf formáte]
+
** Na https://usegalaxy.eu/ najprv zvolíme v ľavom menu Upload Data a nahráme stiahnutý súbor
 
+
** V časti Tools v ľavom menu zadáme do vyhľadávania Quast, zvolíme Quast
* Program Quast môžeme vyskúšať v systéme Galaxy https://usegalaxy.eu/
+
** Ako Contigs/scaffolds file zadáme nahratý súbor, ostatné položky necháme predvolené, stlačíme Execute
 +
** Výpočet bude čakať v pravom stĺpci, potom tam nájdeme výsledky, môže to dlhšie trvať
 +
** [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb01/quast.html Predpočítané výsledky] a [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb01/quast.pdf report v pdf formáte]
  
 
Ďalšie dáta pre záujemcov:
 
Ďalšie dáta pre záujemcov:
 
* [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb01/ref.fasta Skutočná E.coli sekvencia], ktorú sme chceli dostať
 
* [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb01/ref.fasta Skutočná E.coli sekvencia], ktorú sme chceli dostať
** Dajú sa napr. zadať do nástroja Quast ak v časti Genome zaškrtnete Another genome a tento súbor nahráte ako Reference (ostatné položky môžete nechať nevyplnené)
+
** Dajú sa napr. zadať do nástroja Quast ak zvolíte Yes v Use a reference genome a tento súbor nahráte ako Referenc genome
 
* Použité čítania: [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb01/miseq_R1.fastq.gz prvé čítania z páru], [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb01/miseq_R2.fastq.gz druhé čítania z páru]
 
* Použité čítania: [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb01/miseq_R1.fastq.gz prvé čítania z páru], [http://compbio.fmph.uniba.sk/vyuka/mbi-data/cb01/miseq_R2.fastq.gz druhé čítania z páru]

Verzia zo dňa a času 13:46, 22. september 2022

Používanie počítačov v M 217

  • V textovom menu pri štarte zvoľte Linux, v prihlasovacom menu zadajte užívatela bioinf, heslo dostanete
  • Na dolnom okraji obrazovky je lišta s často používanými nástrojmi, napr. internetový prehliadač Firefox
  • Vo Firefoxe si otvorte stránku predmetu http://compbio.fmph.uniba.sk/vyuka/mbi/ čast Prednášky a poznámky, nalistujte materiály k dnešnému cvičeniu

UCSC genome browser

  • On-line grafický nástroj na prezeranie genómov
  • Konfigurovateľný, veľa možností, ale pomerne málo organizmov
  • V programe Firefox choďte na stránku UCSC genome browser http://genome-euro.ucsc.edu/ (európsky mirror stránky http://genome.ucsc.edu/ )
  • Hore v modrom menu zvoľte Genomes, potom zvoľte ľudský genóm verzia hg38. Do okienka search term zadajte HOXA2. Vo výsledkoch hľadania (Known genes) zvoľte gén homeobox A2 na chromozóme 7.
    • Pozrime si spolu túto stránku
    • V hornej časti sú ovládacie prvky na pohyb vľavo, vpravo, približovanie, vzďaľovanie
    • Pod tým schéma chromozómu, červeným vyznačená zobrazená oblasť
    • Pod tým obrázok vybranej oblasti, rôzne tracky
    • Pod tým zoznam všetkých trackov, dajú sa zapínať, vypínať a konfigurovať
    • Po kliknutí na obrázok sa často zobrazí ďalšia informácia o danom géne alebo inom zdroji dát
    • V génoch exony hrubé, UTR tenšie, intróny vodorovné čiary
  • Koľko má HOXA2 exónov? Na ktorom chromozóme a pozícii je? Pozor, je na opačnom vlákne. Ako je táto skutočnosť naznačená na obrázku?
  • V tracku GENCODE kliknite na gén, mali by ste sa dostať na stránku popisujúcu jeho rôzne vlastnosti. Čo ste sa dozvedeli o jeho funkcii?
    • Na tejto stránke nájdite linku na stiahnutie proteínovej sekvencie. Aké sú prvé štyri aminokyseliny?

Sekvenovanie v UCSC genome browseri

  • Vráťte sa na UCSC genome browser http://genome-euro.ucsc.edu/
  • Pozrieme si niekoľko vecí týkajúcich sa sekvenovania a skladania genómov
  • Hore v modrom menu zvoľte Genomes, časť Other
  • Na ďalšej stránke zvoľte človeka a pomocou menu Human Assembly zistite, kedy boli pridané posledné dve verzie ľudského genómu (hg19 a hg38)
  • Na tej istej stránke dole nájdete stručný popis zvolenej verzie genómu. Pre ktoré oblasti genómu máme v hg38 najviac alternatívnych verzií? (haplotypes)
  • Prejdite na región chr21:31,250,000-31,300,000 v hg19 touto linkou: [1]
  • Zapnite si tracky Mapability a RepeatMasker na "full"
  • Mapability: nakoľko sa daný úsek opakuje v genóme a či teda vieme jednoznačne jeho čítania namapovať pri použití Next generation sequencing
  • Ako a prečo sa pri rôznych dĺžkach čítaní líšia? (Keď kliknete na linku "Mapability", môžete si prečítať bližšie detaily.)
  • Približne v strede zobrazeného regiónu je pokles mapovateľnosti. Akému typu opakovania zodpovedá? (pozrite track RepeatMasker)
  • Zapnite si tracky "Assembly" a "Gaps" a pozrite si región chr2:110,000,000-110,300,000 v hg19: [2] Aká dlhá je neosekvenovaná medzera (gap) v strede tohto regiónu? Približnú veľkosť môžete odčítať z obrázku, presnejší údaj zistíte kliknutím na čierny obdĺžnik zodpovedajúci tejto medzere (úplne presná dĺžka aj tak nebola známa, nakoľko nebola osekvenovaná).
  • Cez menu položku View, In other genomes si pozrite, ako zobrazený úsek vyzerá vo verzii hg38. Ako sa zmenila dĺžka z pôvodných 300kb?
  • Prejdite na genóm Rhesus, verzia rheMac2, región chr7:59,022,000-59,024,000 [3], zapnite si tracky Contigs, Gaps, Quality scores
  • Aké typy problémov v kvalite sekvencie v tomto regióne vidíte?
    • Opäť si môžete pozrieť, či sa problémy odstránili a ako sa zmenila dĺžka sekvencie v najnovšej verzii rheMac8

QUAST: program na štatistiky o kvalite poskladania genómu

  • Čítania technológie Illumina MiSeq z 500kbp oblasti genómu E.coli
  • Boli poskladané programom SPAdes [4]
  • Vzniknuté kontigy sú tu: [5]
  • Pozrime si štatistiky tohto poskladania v nástroji Quast, ktorý spustíme na serveri Galaxy
    • Stiahnite si kontigy, uložte ako súbor
    • Na https://usegalaxy.eu/ najprv zvolíme v ľavom menu Upload Data a nahráme stiahnutý súbor
    • V časti Tools v ľavom menu zadáme do vyhľadávania Quast, zvolíme Quast
    • Ako Contigs/scaffolds file zadáme nahratý súbor, ostatné položky necháme predvolené, stlačíme Execute
    • Výpočet bude čakať v pravom stĺpci, potom tam nájdeme výsledky, môže to dlhšie trvať
    • Predpočítané výsledky a report v pdf formáte

Ďalšie dáta pre záujemcov: