Por favor, use este identificador para citar o enlazar este ítem: http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/387
Aprendizaje por refuerzo relacional con acciones continuas
JULIO CÉSAR HERNÁNDEZ ZARAGOZA
EDUARDO FRANCISCO MORALES MANZANARES
Acceso Abierto
Atribución-NoComercial-SinDerivadas
Artificial intelligence
Regression analysis
Relational algebra
Reinforcement Learning (RL) is a commonly used technique for learning tasks in robotics. This is mainly because it allows agents, i.e., robots, to develop optimal control policies through trial and error interactions with the environment in which these robots perform and because it does not require a previous model of such environment. However traditional RL algorithms require long training times which can be several hours, are unnable to re-use learned policies in similar domains or similar tasks and perform discrete actions. In large search spaces with thousands of states, the policy generation process takes some hours and besides, once a policy has been generated, if the goal or the environment changes, a new policy has to be generated in order to take into account such changes. Finally, discrete actions produce imprecise movements by the robot which can accumulate an error up to tens of degrees for turning actions and up to tens of centimeters for displacement actions. Besides, discrete actions produce slower paths than continuous actions since, with discrete actions, the robot needs to stop in order to turn in discrete angles increasing, every time it stops, the tasks' execution times. In this work, a two stage method to tackle these problems is presented. In the rst stage, the low level sensor information coming from the robot's sensors is transformed into a relational description based on rooms, corridors, doors, walls and obstacles to characterize states and actions, signicantly reducing the state space. Behavoural Cloning (BC), i.e., traces provided by the user, are used to learn in few iterations, a control policy, which, due to the relational representation, can be re-used in similar but dierent domains or environments. However, this policy uses discrete actions. In the second stage, Locally Weighted Regression (LWR) is used to transform the discrete actions policy into a continuous actions policy. The method was used to generate control policies for navigation and following tasks for simulated and real mobile robots with very promising results. The results show that the policies are learned after few iterations, can be used on dierent domains, perform smoother, faster and shorter paths than the original relational policies and the tasks' quality is similar to the traces provided by the user.
El Aprendizaje por Refuerzo (Reinforcement Learning, RL) es una técnica muy utilizada para el aprendizaje de tareas en robótica. Esto se debe, principalmente, a que permite a los agentes o robots generar políticas de control a través de interacciones de prueba y error con el ambiente en el cual se encuentran estos robots y a que no se requiere un modelo previo de dicho ambiente. Sin embargo, los algoritmos tradicionales de RL requieren tiempos de entrenamiento muy largos los cuales pueden llegar a ser de varias horas, no son capaces de re-utilizar las políticas aprendidas en dominios o tareas similares y ejecutan acciones discretas. En espacios de búsqueda muy grandes con miles de posibles estados, el proceso de generación de la política puede consumir algunas horas y aunado a esto, una vez generada la política, si la meta de la tarea o el ambiente cambian, es necesario generar una nueva política que tome en cuenta tales cambios. Finalmente, las acciones discretas producen movimientos o desplazamientos poco precisos por parte del robot el cuál puede llegar a acumular errores de hasta decenas de grados para acciones de giro y de hasta decenas de centímetros para el caso de acciones de desplazamiento. Además, las acciones discretas producen trayectorias más lentas que las acciones continuas ya que, con acciones discretas, el robot necesita detenerse para posteriormente girar en ángulos discretos incrementando así, cada vez que se detiene, el tiempo de ejecución de sus tareas. En este trabajo se presenta un método en dos fases para abordar estos problemas. En la primera fase, la información de bajo nivel de los sensores del robot se transforma en una representación relacional de estados y acciones basada en habitaciones, pasillos, puertas, paredes y obstáculos con la cual reduce signicativamente el espacio de estados. Se empleó Clonación de Comportamiento (Behavioural Cloning, BC), es decir, trazas proporcionadas por el usuario para aprender, en pocas iteraciones, una política de control la cual, debido a las descripciones relacionales, puede ser re-utilizada en dominios o ambientes diferentes. Sin embargo, esta política hace uso de acciones discretas. En la segunda fase, se utiliza una Regresión Pesada Local (Locally Weighted Regression, LWR) para transformar la política con acciones discretas en una política con acciones continuas.
Instituto Nacional de Astrofísica, Óptica y Electrónica
2009
Tesis de maestría
Español
Estudiantes
Investigadores
Público en general
Hernandez-Zaragoza J.C.
CIENCIA DE LOS ORDENADORES
Versión aceptada
acceptedVersion - Versión aceptada
Aparece en las colecciones: Maestría en Ciencias Computacionales

Cargar archivos:


Fichero Tamaño Formato  
HernandezZJC.pdf4.14 MBAdobe PDFVisualizar/Abrir