Michal Hozza. Zarovnávanie sekvencií s použitím metód klasifikácie. Master thesis, Comenius University in Bratislava, 2014. Supervised by Tomáš Vinař.
Download preprint: 14hozamth.pdf, 890Kb
Download from publisher: not available
Related web page: not available
Bibliography entry: BibTeX
Abstract:
Zarovnávanie dvoch DNA sekvencií je jedným zo základných bioinformatických problémov. V tejto práci sa zaoberáme možnosťami použitia prídavnej informácie o funkcii vstupných sekvencií na zlepšenie kvality takýchto zarovnaní. Informácie sme zakomponovali pomocou dvoch klasifikátorov, jeden pre zarovnané časti sekvencií a druhý pre nezarovnané časti sekvencií. Klasifikátor rozdeľuje pozície do dvoch tried: tie, ktoré majú byť zarovnané k sebe (trieda 1) a tie, ktoré nie (trieda 0). V prípade klasifikátora pre nezarovnané časti, tie, ktoré majú byť zarovnané k medzere (trieda 1) a tie ktoré nie (trieda 0). Výstupom klasifikátora je potom pravdepodobnosť, že dáta patria do triedy 1. Na klasifikáciu sme použili náhodné lesy (Random Forests). Venovali sme sa výberu atribútov a vhodnými atribútmi sa nám podarilo zlepšiť úspešnosť klasifikátorov. Ukázali sme, že klasifikátor sa dokáže naučiť, ktoré pozície majú byť zarovnané k sebe a ktoré nie. Vyvinuli sme dva modely pre zarovnanie sekvencií s anotáciami za pomoci klasifikátora, ktoré sú založené na párových skrytých Markovovských modeloch. V modeli A sme nahradili emisné tabuľky stavov výstupom z klasifikátora. V modeli B modelujeme okrem báz aj pásku s výstupom z klasifikátora. Naše modely dokázali prekonať referenčné modely na biologických dátach aj na simulovaných dátach s vyššou dôležitosťou anotácie. Na simulovaných dátach dosiahol model B podobné výsledky a model A mierne horšie.