Please use this identifier to cite or link to this item: http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/164
LPS: un algoritmo de ensambles de secuencias cortas de ADN
FRANCISCO VERA VORONISKY
JESUS ANTONIO GONZALEZ BERNAL
ANSEL YOAN RODRIGUEZ GONZALEZ
Acceso Abierto
Atribución-NoComercial-SinDerivadas
DNA computing
Clustering pattern
Machine learning
String matching
Biocomputing
La obtención de un genoma de un organismo es un proceso complejo el cual es posible realizarlo mezclando fragmentos de secuencias de ADN usando el solape entre pares. Actualmente, la tecnología existente permite obtener fragmentos con una longitud de a lo máximo de cientos de pares de bases. El proceso de dividir el genoma en fragmentos se le conoce como secuenciación. Existen diferentes tecnologías para secuenciar un genoma. Las tecnologías actuales de secuenciación se caracterizan por obtener secuencias de longitudes cortas, las cuales varían en longitud entre 25 y 500 pares de bases. Estos secuenciadores se caracterizan por poder obtener muchos fragmentos a un costo bajo. Sin embargo, las secuencias cortas tienen como deficiencia que un fragmento puede aparecer en varias posiciones en el genoma. Al tratar de realizar el ensamble del genoma, si no consideramos la posibilidad de que este fragmento pueda aparecer repetido en varias posiciones, el genoma reconstruido tendrá varias secuencias con saltos, los cuales son originados debido a que si este fragmento fue usado para unir un par de secuencias, ya no lo volveremos a considerar para unir otros pares de secuencias. En este trabajo de tesis se presenta el algoritmo LPS para ensamble de secuencias cortas de ADN. LPS propone un mecanismo para construir fragmentos más largos a partir de fragmentos cortos. La obtención de fragmentos largos permite tratar el problema de la posible repetición de los fragmentos cortos que lo componen, ya que al crecer las secuencias, llega un momento en el que se obtendrán pares de bases diferentes, ya sea al principio o al final de la secuencia para las diferentes repeticiones. LPS es una modificación del algoritmo PadeNA que permite tratar el problema de las repeticiones de secuencias cortas. En la parte experimental evaluaremos la calidad de la reconstrucción de cinco secuencias utilizando fragmentos obtenidos sintéticamente simulando la secuenciación en una computadora. Los ensambles se obtendrán usando PadeNA y LPS+PadeNA y se compararán usando las medidas de ‘número de fragmentos obtenidos o contigs’, ‘suma de las longitudes de los contigs’, ‘N50’, ‘longitud del contig más largo’, ‘promedio de las longitudes de los contigs’ y ‘error’. En estos experimentos se mostrará la ventaja de usar LPS con PadeNA sobre el uso de PadeNA por sí solo.
Instituto Nacional de Astrofísica, Óptica y Electrónica
2014-07
Tesis de maestría
Español
Estudiantes
Investigadores
Público en general
Vera-Voronisky F.
CIENCIA DE LOS ORDENADORES
Versión aceptada
acceptedVersion - Versión aceptada
Appears in Collections:Maestría en Ciencias Computacionales

Upload archives


File Description SizeFormat 
VeraVF.pdf1.87 MBAdobe PDFView/Open