Por favor, use este identificador para citar o enlazar este ítem: http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/2544
Reinforcement Learning and Causal Discovery: A Synergistic Integration
Arquímides Méndez Molina
Eduardo Morales
Luis Enrique Sucar
Acceso Abierto
Atribución-NoComercial-SinDerivadas
Reinforcement Learning
Causality
Causal Discovery
Causal Reinforcement Learning
Markov Decision Processes
Both Reinforcement Learning (RL) and Causal Modeling (CM) are important areas for the advance of artificial intelligence, that have traditionally been treated as separate areas of research. This trend has recently shifted, leading to the emergence of a new area named Causal Reinforcement Learning (CRL) which leverages causal information for the benefit of RL agents in a variety of settings and tasks. The works in CRL can be divided into two main groups depending if the causal knowledge is given a priori or if it has to be learned along the way. Most of the existing methods fall into the first group, while others in the second group commonly assume that a simulator is available to perform interventions before the Causal Discovery (CD) process, limiting their applicability to offline RL settings. In this dissertation, we address both scenarios specifically for settings that can be modeled as online Markov Decision Processes where the goal is to speed up the learning time of a policy. First, we present an action selection strategy which takes into account a given causal model that can be easily integrated with existing exploration strategies in RL, i.e., epsilon-greedy. Experiments in simulated environments show how the agents using a causal model achieve a higher reward in a shorter time compared to traditional RL algorithms, even with incomplete or partially incorrect causal models as input. Then, we introduce CARL, a Causality-Aware Reinforcement Learning framework for simultaneously learning and using causal models to speed up the policy learning in settings where the agent does not have any causal information beforehand. In a synergistic way, our method alternates between: (i) RL for CD, where it promotes the selection of actions to obtain better causal models in fewer episodes than traditional methods of obtaining data in RL; (ii) CD, where a score-based algorithm is used to learn causal models; and (iii) RL using CD, where the learned models are used to select actions that speed up the learning of the optimal policy by reducing the number of interactions with the environment.
Tanto Aprendizaje por Refuerzo (RL) como Modelado Causal (CM) son áreas importantes para el avance de la inteligencia artificial, que tradicionalmente se han tratado como ámbitos de investigación separados. Esta tendencia ha cambiado recientemente, dando lugar a la aparición de una nueva área denominada Aprendizaje por Refuerzo Causal (CRL) que aprovecha la información causal en beneficio de los agentes RL en una variedad de entornos y tareas. Los trabajos en CRL pueden dividirse en dos grupos principales dependiendo de si el conocimiento causal se da a priori o si tiene que ser aprendido sobre la marcha. La mayoría de los métodos existentes pertenecen al primer grupo, mientras que otros del segundo grupo suelen asumir que se dispone de un simulador para realizar intervenciones antes del proceso de descubrimiento causal CD, lo que limita su aplicabilidad a entornos RL offline. En esta tesis, abordamos ambos escenarios específicamente para entornos que pueden modelarse como Procesos de Decision de Markov online en los que el objetivo es acelerar el tiempo de aprendizaje de la política. En primer lugar, presentamos una estrategia de selección de acciones que tiene en cuenta un modelo causal dado que puede integrarse fácilmente con las estrategias de exploración existentes en RL, ejemplo, epsilon-greedy. Los experimentos en entornos simulados muestran como los agentes que utilizan un modelo causal logran una mayor recompensa en un tiempo más corto en comparación con los algoritmos tradicionales de RL, incluso con modelos causales incompletos o parcialmente incorrectos como entrada. A continuación, introducimos el framework CARL (Causality-aware Reinforcement Learning) para aprender y utilizar simultaneamente modelos causales con el fin de acelerar el aprendizaje de políticas en entornos en los que el agente no dispone de información causal de antemano. De forma sinérgica, nuestro método alterna entre: (i) RL para CD, donde se promueve la selección de acciones para obtener mejores modelos causales en menos episodios que los métodos tradicionales de obtención de datos en RL; (ii) CD, donde se utiliza un algoritmo basado en puntuaciones para aprender modelos causales; y (iii) RL utilizando CD, donde los modelos aprendidos se utilizan para seleccionar acciones que aceleran el aprendizaje de la política optima reduciendo el número de interacciones con el entorno.
Instituto Nacional de Astrofísica, Óptica y Electrónica
2024-05
Tesis de doctorado
Inglés
Estudiantes
Investigadores
Público en general
Méndez Molina A., (2024), Reinforcement Learning and Causal Discovery: A Synergistic Integration, Tesis de Doctorado, Instituto Nacional de Astrofísica, Óptica y Electrónica
OTRAS ESPECIALIDADES TECNOLÓGICAS
Versión aceptada
acceptedVersion - Versión aceptada
Aparece en las colecciones: Doctorado en Ciencias Computacionales

Cargar archivos:


Fichero Tamaño Formato  
MENDEZMA_DCC.pdf15.39 MBAdobe PDFVisualizar/Abrir