Por favor, use este identificador para citar o enlazar este ítem: http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/221
Adaptación en línea de una política de decisión utilizando aprendizaje por refuerzo y su aplicación en rehabilitación virtual
SHENDER MARÍA AVILA SANSORES
LUIS ENRIQUE SUCAR SUCCAR
FELIPE ORIHUELA ESPINA
Acceso Abierto
Atribución-NoComercial-SinDerivadas
Learning
Artificial intelligence
Virtual reality
Games of skill
Recientemente, los juegos serios [44] ganan popularidad en varios ámbitos, como la educación y la medicina. En este tipo de juegos, es deseable que el juego se adapte al usuario de acuerdo con su estado y su progreso. Una forma de hacerlo es utilizando los procesos de decisión de Markov (MDP), que pueden representar el estado del usuario y seleccionar la mejor acción de adaptación de acuerdo con este estado. Sin embargo ante circunstancias cambiantes, la política generada por el MDP podría dejar de ser óptima, es decir una política general deja de ser óptima para usuarios de diferentes capacidades. Para remediar esta desviación el uso de aprendizaje por refuerzo es una opción, pero este tipo de aprendizaje generalmente requiere un periodo de aprendizaje largo que en algunas aplicaciones no es deseable o factible como en la medicina. En este trabajo se propone un enfoque alternativo que parte de una política inicial obtenida mediante la resolución de un modelo aproximado MDP, que adapta a la variabilidad natural de distintos usuarios mediante aprendizaje por refuerzo (RL), este refuerzo es doble, por un lado el modelo aprende monitoreando el desempeño del paciente. Por otro lado sobre la base de la política actual el sistema propone una acción de adaptación que se presenta a un experto del dominio, que acepta o no la propuesta. La retroalimentación del experto se proporciona como una recompensa adicional (un tipo de confirmación) para el algoritmo de RL y la política se actualiza en consecuencia. La conjunción de una inicialización proporcionada por el MDP y el doble refuerzo hace que el sistema pueda aprender en un menor número de etapas una buena política, y también se puede adaptar a circunstancias cambiantes y diferentes usuarios. Esta tesis presenta los resultados de incorporar el modelo de adaptación sugerido a un sistema de rehabilitación que incluye juegos serios que simulan actividades de la vida diaria en un entorno virtual, para promover la rehabilitación de las extremidades superiores. Para probar el enfoque propuesto se implementó una arquitectura de simulación que conoce la política óptima y simula la respuesta de los usuarios y el experto en las interacciones con el sistema.
Instituto Nacional de Astrofísica, Óptica y Electrónica
2013-02
Tesis de maestría
Español
Estudiantes
Investigadores
Público en general
Avila-Sansores S.M.
CIENCIA DE LOS ORDENADORES
Versión aceptada
acceptedVersion - Versión aceptada
Aparece en las colecciones: Maestría en Ciencias Computacionales

Cargar archivos:


Fichero Descripción Tamaño Formato  
AvilaSSM.pdf8.31 MBAdobe PDFVisualizar/Abrir