Por favor, use este identificador para citar o enlazar este ítem:
http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/2588
Inter-Task Similarity for Lifelong Cross-Domain Reinforcement Learning | |
Sergio Serrano | |
Jose Martinez-Carranza Luis Enrique Sucar | |
Acceso Abierto | |
Atribución-NoComercial-SinDerivadas | |
Lifelong Learning Reinforcement Learning Transfer Learning Cross-Domain Problem | |
Solving sequential decision-making problems with artificial agents, and delegating boring and dangerous chores to embodied agents, has the capacity to significantly improve the life quality and safety in the workplace of people. In Reinforcement Learning (RL), decision-making problems can be modeled and solved with weak supervision by interacting with the environment, however, learning robust behaviors for complex tasks usually takes RL agents a large amount of interactions. To mitigate data costs, Lifelong Learning agents leverage experience from previous tasks to learn better/faster, and save knowledge for potential reuse in future problems. In scenarios where the agent can significantly change (e.g., robot with different morphology), being able to identify shared characteristics across tasks is crucial to avoid negative transfer and overcome the data scarcity RL suffers in robotics. Thus, in this dissertation, we propose a similarity-based approach to address the lifelong crossdomain RL problem. By estimating the relatedness between tasks based on their reward and transition dynamics, our system selects the most similar task (in the agent’s knowledge base), which may or may not share the state-action space. Then, the policy from the selected source task is transferred (through a set of learned mapping functions) to the target task, to accelerate the exploration and learning process. The proposed lifelong learning system is evaluated in a wide variety of control tasks, showing its ability to deal with sequences of diverse problems, and autonomously make an effective use of its experiences. Resolver problemas de toma de decisiones secuenciales con agentes artificiales, y delegar tareas aburridas y peligrosas a agentes físicos, tiene la capacidad de mejorar significativamente la calidad de vida y la seguridad en el lugar de trabajo de las personas. En el Aprendizaje por Refuerzo (RL, por sus siglas en inglés), los problemas de toma de decisiones pueden ser modelados y resueltos con supervisión débil mediante la interacción con el entorno; sin embargo, aprender comportamientos robustos para tareas complejas generalmente requiere una gran cantidad de interacciones por parte de los agentes RL. Para mitigar los costos de datos, los agentes de Aprendizaje Permanente aprovechan la experiencia de tareas anteriores para aprender mejor y mas rápido, y guardar el conocimiento para una posible reutilización en problemas futuros. En escenarios donde el agente puede cambiar significativamente (por ejemplo, un robot con morfología diferente), ser capaz de identificar características compartidas entre tareas es crucial para evitar la transferencia negativa y superar la escasez de datos que sufre el RL en robótica. Por lo tanto, en esta disertación, proponemos un enfoque basado en la similitud para abordar el problema de RL continuo y entre dominios. Al estimar la relación entre tareas basándose en sus dinámicas de recompensa y transición, nuestro sistema selecciona la tarea más similar (almacenada en la base de conocimientos del agente), que puede o no compartir el espacio de estado-acción. Luego, la política de la tarea fuente seleccionada se transfiere (a través de un conjunto de funciones de mapeo aprendidas) a la tarea objetivo, para acelerar el proceso de exploración y aprendizaje. El sistema de aprendizaje permanente propuesto se evalúa en una amplia variedad de tareas de control, demostrando su capacidad para manejar secuencias de problemas diversos y utilizar de manera efectiva sus experiencias de manera autónoma. | |
Instituto Nacional de Astrofísica, Óptica y Electrónica | |
2024-09 | |
Tesis de doctorado | |
Inglés | |
Estudiantes Investigadores Público en general | |
Arredondo Serrano, S. (2024), Inter-Task Similarity for Lifelong Cross-Domain Reinforcement Learning, Tesis de Doctorado, Instituto Nacional de Astrofísica, Óptica y Electrónica. | |
OTRAS ESPECIALIDADES TECNOLÓGICAS | |
Versión aceptada | |
acceptedVersion - Versión aceptada | |
Aparece en las colecciones: | Doctorado en Ciencias Computacionales |
Cargar archivos:
Fichero | Tamaño | Formato | |
---|---|---|---|
ARREDONDOSS_DCC.pdf | 7.7 MB | Adobe PDF | Visualizar/Abrir |