Por favor, use este identificador para citar o enlazar este ítem: http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/223
Algoritmo de checkpointing de comunicación-inducida para sistemas heterogéneos
ALBERTO CALIXTO SIMON
SAUL EDUARDO POMARES HERNANDEZ
Acceso Abierto
Atribución-NoComercial-SinDerivadas
Checkpointing
Fault tolerant computing
Heterogeneous systems
Distributed processing
Parallel processing
La necesidad de resolver problemas complejos eficientemente nos ha forzado a combinar diversos ambientes de cómputo (sistemas heterogéneos), sin embargo esta solución adoptada por muchos sistemas acarrea otros problemas tal como el problema de tolerancia a fallas. Checkpointing es una técnica eficiente para la tolerancia a fallas en sistemas distribuidos y paralelos, esta es utilizada además para solucionar un amplio rango de problemas en sistemas distribuidos y paralelos, tales como: la depuración de software, balance de carga, migración de procesos, entre otros. Dentro de los algoritmos de checkpointing, los algoritmos de checkpointing de comunicación inducida (CIC) se caracterizan por su bajo overhead, generación de checkpoints asíncronos y eliminación del efecto dominío. Para lograr esto, los algoritmos CIC acarrean información en los mensajes de las aplicaciones y generan checkpoints forzados cuando detectan patrones potencialmente peligrosos (e.g. z-paths). Las principales desventajas de los algoritmos CIC son el overhead por mensaje y el overhead de almacenamiento inducido (cantidad de checkpoints forzados). En está investigación exponemos un nuevo algoritmo de comunicación inducida de checkpointing HSDC (Heterogeneous Scable Delay Checkpointing) para sistemas heterogéneos con modelos de ejecución síncrono y asíncrono. A diferencia de los trabajos existentes, nuestro trabajo soporta de manera simultánea ambos tipos de ejecuciones, tiene un bajo overhead de mensajes, no inhibe la ejecución, es escalable, permite que cada proceso genere checkpoints asíncronamente y elimina el efecto dominío. El algoritmo HSDC utiliza un orden parcial de conjunto de eventos para establecer una representación compacta y coherente de la ejecución causal del sistema heterogéneo, la cual permite disminuir considerablemente el overhead haciendolo escalable. El algoritmo HSDC también reduce el número de checkpoints forzados detectando ciertas condiciones que nosotros llamamos Condiciones Seguras para el Retraso de Checkpoint (CSRC).
Instituto Nacional de Astrofísica, Óptica y Electrónica
2013-12
Tesis de doctorado
Español
Estudiantes
Investigadores
Público en general
Calixto-Simon A.
CIENCIA DE LOS ORDENADORES
Versión aceptada
acceptedVersion - Versión aceptada
Aparece en las colecciones: Doctorado en Ciencias Computacionales

Cargar archivos:


Fichero Descripción Tamaño Formato  
CalixtoSiA.pdf1.67 MBAdobe PDFVisualizar/Abrir