Por favor, use este identificador para citar o enlazar este ítem: http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/2366
Incorporando Conocimiento Causal en Aprendizaje por Refuerzo
Ivan Feliciano
Eduardo F. Morales
Luis Enrique Sucar Succar
Acceso Abierto
Atribución-NoComercial-SinDerivadas
Reinforcement learning
Causal graphical models
Action selection policy
Reinforcement learning is the de facto learning by interaction paradigm within machine learning. One of the challenges that emerge in Reinforcement Learning, is the trade-off between exploration and exploitation. To solve this problem, an agent can limit its search space by leveraging the properties of its environment or using previous knowledge. Specifically, the agent can exploit the causal relationships of its world. We propose to support the learning process of an agent in goal-directed tasks where a causal structure is provided. The causal model helps to restrict the search space by reducing the actions that an agent can take through graph queries that check what variables are direct causes of variables of interest. For example, an agent who knows what variables are direct causes from others can reduce the time it takes the trial and error approach. Our main contribution is a framework to represent the causal information and an algorithm to guide action selection by querying the causal graph. We cope with a couple of small and simple problems on a discrete and continuous domains. We also show that using extra information from a causal structure in the Q-learning action selection step leads to a higher and faster jump-start reward and stability, respectively. Furthermore, it is shown that it is not mandatory to have a completely correct causal structure, since a better performance is obtained, even using partial and some spurious relationships in the graphs than without extra information.
El aprendizaje por refuerzo es un paradigma de aprendizaje por interacción dentro del aprendizaje automático. Uno de los principales retos que surgen en el aprendizaje por refuerzo, es el compromiso entre la explotación de la información que ya se conoce o exploración del ambiente. Para ayudar a resolver este problema, un agente puede limitar su espacio de búsqueda al aprovechar propiedades de su ambiente o utilizar conocimiento dado previamente. Específicamente, el agente puede explotar las relaciones causales de su mundo. En este trabajo se propone auxiliar el proceso de aprendizaje de un agente en tareas dirigidas por metas donde la estructura causal es brindada. Un modelo causal ayuda a restringir el espacio de búsqueda, al guiar la toma de decisiones de un agente, mediante consultas en un grafo causal. Por ejemplo, verificando qué variables son causas directas de otras. Este conocimiento causal permite disminuir el tiempo que toma el enfoque de prueba y error. Entre las contribuciones de esta investigación están: 1) la representación de la información extra en un grafo causal y 2) un algoritmo para guiar la selección de acciones a través de consultas en el grafo. Se ataca un par de problemas sobre dominios discretos y continuos que son relativamente pequeños y simples para probar el concepto propuesto. Se muestra, a través de diferente experimentos, que usar información adicional de una estructura causal en la selección de acciones del algoritmo Q-learning lleva a una recompensa final y a un salto inicial de recompensa mayores. Además, se muestra que no es obligatorio contar con una estructura causal completa y correcta. Incluso, guiar a una agente con una estructura parcial o con relaciones falsas se alcanza un mejor desempeño que no utilizar información suplementaria.
Instituto Nacional de Astrofísica, Óptica y Electrónica
2021
Tesis de maestría
Español
Estudiantes
Investigadores
Público en general
Feliciano Avelino, Ivan Raymundo, (2021), Incorporando Conocimiento Causal en Aprendizaje por Refuerzo, Tesis de Maestría, Instituto Nacional de Astrofísica, Óptica y Electrónica.
TECNOLOGÍA MÉDICA
Versión aceptada
acceptedVersion - Versión aceptada
Aparece en las colecciones: Maestría en Ciencias Computacionales

Cargar archivos:


Fichero Tamaño Formato  
FelicianoAI-2021.pdf6.4 MBAdobe PDFVisualizar/Abrir