Por favor, use este identificador para citar o enlazar este ítem:
http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/682
Identificación de secuencias reguladoras mediante agrupamiento | |
DULCE MARÍA GARCÍA ORDAZ | |
JESUS ANTONIO GONZALEZ BERNAL AURELIO LOPEZ LOPEZ | |
Acceso Abierto | |
Atribución-NoComercial-SinDerivadas | |
Pattern clustering Data mining Learning | |
In recent years the number of organisms, which has been obtained its DNA sequence,
has increased . The large amount of data that exists contrast with the limited knowledge
we have of the functions of DNA. The regulatory sequences are short sequences of DNA
wich turn on or turn off the genes. These sequences are found in regions close to genes.
The regulatory sequences are inexact patterns, and can be found using computational
methods. The currently existing tools for the discovery of regulatory sequences are limited
by several factors. Some of these factors are the number of sequences and the length of the
regulatory sequences that can be discovered. An important point is that so far there isn’t
a method capable of identifying all regulatory sequences that exist in the genome, or in
subset of genes. And it was found that all existing tools tend to find at least one sequence
that others methods do not find [16], what causes discovery methods are complementary
to each other. This paper proposes a method for identifying regulatory sequences. This
method is based on a divisive hierarchical clustering algorithm to identify patterns which
are then evaluated to determine candidates for regulatory sequences. We decided to use a
clustering method due to the size of databases, such as Bacillus subtilis organism, which
was evaluated with this method, has more than 4400 genes. The results show that the
method is able to identify these sequences. En los últimos años ha aumentado la cantidad de organismos de los que se ha obtenido su secuencia de ADN. La gran cantidad de datos que existen contrasta con el poco conocimiento que se tiene de las funciones del ADN. Las secuencias reguladoras son un tipo de secuencia dentro del ADN que se encarga de activar o desactivar a los genes y se encuentran en regiones cercanas a ´estos. Las secuencias reguladoras son patrones inexactos, y pueden ser hallados mediante métodos computacionales. Las herramientas que existen actualmente para el descubrimiento de secuencias reguladoras se encuentran limitados por diversos factores. Algunos de estos factores son el número de secuencias de entrada y la longitud de las secuencias reguladoras que pueden descubrir. Un punto importante es que hasta ahora no existe algún método capaz de identificar todas las secuencias reguladoras que existan en el genoma, o en un subconjunto de genes. Se ha encontrado que todas las herramientas existentes suelen encontrar por lo menos una secuencia que las demás no [16], lo que provoca que los métodos de descubrimiento sean complementarios entre si. En este trabajo se propone un método para la identificación de secuencias reguladoras. Este método está basado en un algoritmo de agrupamiento jerárquico divisivo para identificar los patrones que posteriormente serán evaluados para determinar si son o no candidatos a secuencias reguladoras. Se decidió utilizar un método de agrupamiento debido al tamaño de las bases de datos, por ejemplo, el organismo Bacillus Subtilis, con el que se evaluó este método, cuenta con más de 4400 genes. Los resultados muestran que el método es capaz de identificar estas secuencias con una precisión cercana al promedio de los métodos existentes, con la ventaja de que propone el tamaño de las secuencias. | |
Instituto Nacional de Astrofísica, Óptica y Electrónica | |
2011-02 | |
Tesis de maestría | |
Español | |
Estudiantes Investigadores Público en general | |
Garcia-Ordaz D.M. | |
CIENCIA DE LOS ORDENADORES | |
Versión aceptada | |
acceptedVersion - Versión aceptada | |
Aparece en las colecciones: | Maestría en Ciencias Computacionales |
Cargar archivos:
Fichero | Tamaño | Formato | |
---|---|---|---|
GarciaODM.pdf | 1.51 MB | Adobe PDF | Visualizar/Abrir |