Por favor, use este identificador para citar o enlazar este ítem:
http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/387
Aprendizaje por refuerzo relacional con acciones continuas | |
JULIO CÉSAR HERNÁNDEZ ZARAGOZA | |
EDUARDO FRANCISCO MORALES MANZANARES | |
Acceso Abierto | |
Atribución-NoComercial-SinDerivadas | |
Artificial intelligence Regression analysis Relational algebra | |
Reinforcement Learning (RL) is a commonly used technique for learning tasks in robotics.
This is mainly because it allows agents, i.e., robots, to develop optimal control policies
through trial and error interactions with the environment in which these robots perform
and because it does not require a previous model of such environment. However traditional
RL algorithms require long training times which can be several hours, are unnable to re-use
learned policies in similar domains or similar tasks and perform discrete actions.
In large search spaces with thousands of states, the policy generation process takes some
hours and besides, once a policy has been generated, if the goal or the environment changes,
a new policy has to be generated in order to take into account such changes. Finally, discrete
actions produce imprecise movements by the robot which can accumulate an error up to
tens of degrees for turning actions and up to tens of centimeters for displacement actions.
Besides, discrete actions produce slower paths than continuous actions since, with discrete
actions, the robot needs to stop in order to turn in discrete angles increasing, every time it
stops, the tasks' execution times.
In this work, a two stage method to tackle these problems is presented. In the rst
stage, the low level sensor information coming from the robot's sensors is transformed into
a relational description based on rooms, corridors, doors, walls and obstacles to characterize
states and actions, signicantly reducing the state space. Behavoural Cloning (BC), i.e.,
traces provided by the user, are used to learn in few iterations, a control policy, which, due to
the relational representation, can be re-used in similar but dierent domains or environments.
However, this policy uses discrete actions. In the second stage, Locally Weighted Regression
(LWR) is used to transform the discrete actions policy into a continuous actions policy.
The method was used to generate control policies for navigation and following tasks
for simulated and real mobile robots with very promising results. The results show that the
policies are learned after few iterations, can be used on dierent domains, perform smoother,
faster and shorter paths than the original relational policies and the tasks' quality is similar
to the traces provided by the user. El Aprendizaje por Refuerzo (Reinforcement Learning, RL) es una técnica muy utilizada para el aprendizaje de tareas en robótica. Esto se debe, principalmente, a que permite a los agentes o robots generar políticas de control a través de interacciones de prueba y error con el ambiente en el cual se encuentran estos robots y a que no se requiere un modelo previo de dicho ambiente. Sin embargo, los algoritmos tradicionales de RL requieren tiempos de entrenamiento muy largos los cuales pueden llegar a ser de varias horas, no son capaces de re-utilizar las políticas aprendidas en dominios o tareas similares y ejecutan acciones discretas. En espacios de búsqueda muy grandes con miles de posibles estados, el proceso de generación de la política puede consumir algunas horas y aunado a esto, una vez generada la política, si la meta de la tarea o el ambiente cambian, es necesario generar una nueva política que tome en cuenta tales cambios. Finalmente, las acciones discretas producen movimientos o desplazamientos poco precisos por parte del robot el cuál puede llegar a acumular errores de hasta decenas de grados para acciones de giro y de hasta decenas de centímetros para el caso de acciones de desplazamiento. Además, las acciones discretas producen trayectorias más lentas que las acciones continuas ya que, con acciones discretas, el robot necesita detenerse para posteriormente girar en ángulos discretos incrementando así, cada vez que se detiene, el tiempo de ejecución de sus tareas. En este trabajo se presenta un método en dos fases para abordar estos problemas. En la primera fase, la información de bajo nivel de los sensores del robot se transforma en una representación relacional de estados y acciones basada en habitaciones, pasillos, puertas, paredes y obstáculos con la cual reduce signicativamente el espacio de estados. Se empleó Clonación de Comportamiento (Behavioural Cloning, BC), es decir, trazas proporcionadas por el usuario para aprender, en pocas iteraciones, una política de control la cual, debido a las descripciones relacionales, puede ser re-utilizada en dominios o ambientes diferentes. Sin embargo, esta política hace uso de acciones discretas. En la segunda fase, se utiliza una Regresión Pesada Local (Locally Weighted Regression, LWR) para transformar la política con acciones discretas en una política con acciones continuas. | |
Instituto Nacional de Astrofísica, Óptica y Electrónica | |
2009 | |
Tesis de maestría | |
Español | |
Estudiantes Investigadores Público en general | |
Hernandez-Zaragoza J.C. | |
CIENCIA DE LOS ORDENADORES | |
Versión aceptada | |
acceptedVersion - Versión aceptada | |
Aparece en las colecciones: | Maestría en Ciencias Computacionales |
Cargar archivos:
Fichero | Tamaño | Formato | |
---|---|---|---|
HernandezZJC.pdf | 4.14 MB | Adobe PDF | Visualizar/Abrir |