Por favor, use este identificador para citar o enlazar este ítem:
http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/221
Adaptación en línea de una política de decisión utilizando aprendizaje por refuerzo y su aplicación en rehabilitación virtual | |
SHENDER MARÍA AVILA SANSORES | |
LUIS ENRIQUE SUCAR SUCCAR FELIPE ORIHUELA ESPINA | |
Acceso Abierto | |
Atribución-NoComercial-SinDerivadas | |
Learning Artificial intelligence Virtual reality Games of skill | |
Recientemente, los juegos serios [44] ganan popularidad en varios ámbitos, como la educación y la medicina. En este tipo de juegos, es deseable que el juego se adapte al usuario de acuerdo con su estado y su progreso. Una forma de hacerlo es utilizando los procesos de decisión de Markov (MDP), que pueden representar el estado del usuario y seleccionar la mejor acción de adaptación de acuerdo con este estado. Sin embargo ante circunstancias cambiantes, la política generada por el MDP podría dejar de ser óptima, es decir una política general deja de ser óptima para usuarios de diferentes capacidades. Para remediar esta desviación el uso de aprendizaje por refuerzo es una opción, pero este tipo de aprendizaje generalmente requiere un periodo de aprendizaje largo que en algunas aplicaciones no es deseable o factible como en la medicina. En este trabajo se propone un enfoque alternativo que parte de una política inicial obtenida mediante la resolución de un modelo aproximado MDP, que adapta a la variabilidad natural de distintos usuarios mediante aprendizaje por refuerzo (RL), este refuerzo es doble, por un lado el modelo aprende monitoreando el desempeño del paciente. Por otro lado sobre la base de la política actual el sistema propone una acción de adaptación que se presenta a un experto del dominio, que acepta o no la propuesta. La retroalimentación del experto se proporciona como una recompensa adicional (un tipo de confirmación) para el algoritmo de RL y la política se actualiza en consecuencia. La conjunción de una inicialización proporcionada por el MDP y el doble refuerzo hace que el sistema pueda aprender en un menor número de etapas una buena política, y también se puede adaptar a circunstancias cambiantes y diferentes usuarios. Esta tesis presenta los resultados de incorporar el modelo de adaptación sugerido a un sistema de rehabilitación que incluye juegos serios que simulan actividades de la vida diaria en un entorno virtual, para promover la rehabilitación de las extremidades superiores. Para probar el enfoque propuesto se implementó una arquitectura de simulación que conoce la política óptima y simula la respuesta de los usuarios y el experto en las interacciones con el sistema. | |
Instituto Nacional de Astrofísica, Óptica y Electrónica | |
2013-02 | |
Tesis de maestría | |
Español | |
Estudiantes Investigadores Público en general | |
Avila-Sansores S.M. | |
CIENCIA DE LOS ORDENADORES | |
Versión aceptada | |
acceptedVersion - Versión aceptada | |
Aparece en las colecciones: | Maestría en Ciencias Computacionales |
Cargar archivos:
Fichero | Descripción | Tamaño | Formato | |
---|---|---|---|---|
AvilaSSM.pdf | 8.31 MB | Adobe PDF | Visualizar/Abrir |