Por favor, use este identificador para citar o enlazar este ítem: http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/1952
Clasificación translingue para la detección de depresión en usuarios de twitter
Laritza coello
Luis Villaseñor Pineda
Manuel Montes y Gómez
Acceso Abierto
Atribución-NoComercial-SinDerivadas
Translingue classification
Depression
Classification
Depression is a mental disorder with strong social and economic implications. The symptoms of this disorder are closely related to the conduct and the way of expressing of the people who suffer it. In recent years, social media had become in a popular media where people share their feelings. Recently several works have explored the analysis of social media content to identify and track depressed users following a supervised learning strategy supported on the availability of labeled training data. Unfortunately, acquiring such data is very complex and costly. To handle this problem and based on the idea that despite of their cultural diversity, people with depression tend to share similar information and to express in an analogous way, this investigation proposes a crosslingual approach based on the idea that data already labeled in a specific language can be leveraged to classify depression in other languages. The proposed method is based on a word-level alignment process. Particularly, we propose two representations for the alignment; whose capture correspondences between languages. For evaluating the proposed approach, we faced the detection of depression by employing English and Spanish tweets as the source and target data respectively. After a first attempt at classification, a second stage of re-labeling is proposed. It uses the labels thrown by the first classifier, next submits them to a refining process based on word dictionaries to generate a new training set and subsequently build a new classifier. The results outperformed solutions based on automatic translation of texts, confirming the usefulness of the proposed approach. Also it shows the usefulness of the dictionaries in the re-labeling stage and how this can inuence to improve the label of the data.
La depresión es un desorden mental con fuerte impacto en la vida social y económica de las personas. Los síntomas que presentan las personas que la padecen están relacionados con su comportamiento diario incluyendo la forma en la que se expresan. En los últimos añnos, las redes sociales han sido un medio a través del cual las personas comparten sus sentimientos y estados de ánimo. Esto ha propiciado el desarrollo de varias investigaciones, las cuales han explorado el análisis del contenido de las redes sociales para identificar usuarios con depresión. Todas ellas siguiendo una estrategia de aprendizaje supervisado soportado en la disponibilidad de los datos etiquetados para el entrenamiento. Desafortunadamente, el proceso de recolectar y etiquetar datos para el entrenamiento es muy complejo y costoso. Motivados por este problema, y basados en la idea de que a pesar de las diferencias entre lenguajes las personas que padecen de depresión comparten y expresan información similar, en este trabajo, se propone un enfoque translingue basado en la idea de que los datos etiquetados ya existentes en un idioma específico, pueden ser aprovechados para detectar depresión en otros idiomas. El método propuesto está basado en un proceso de alineación a nivel de palabra. Particularmente se proponen dos representaciones, las cuales permiten capturar la correspondencia entre ambos idiomas. Para evaluar el enfoque propuesto, fueron utilizados Tweets en inglés y español como los datos fuente y objetivo respectivamente. Después de una primera etapa de clasificación, se propone una segunda etapa de re-etiquetado con el objetivo de mejorar las etiquetas de clase de cada documento. Este proceso de re-etiquetado usa las etiquetas asignadas por el primer clasificador, las somete a un proceso de refinación basado en diccionarios de palabras para generar un nuevo conjunto de entrenamiento, y posteriormente construir un nuevo clasificador. Los resultados obtenidos superan la solución basada en la traducción automática de textos, confirmando la utilidad del enfoque propuesto. Mostrando además el beneficio de los diccionarios en la etapa de re-etiquetado y su inuencia en el mejoramiento de las etiquetas de los datos.
Instituto Nacional de Astrofísica, Óptica y Electrónica
2019-08
Tesis de maestría
Español
Estudiantes
Investigadores
Público en general
Coello Guilarte, D. L., (2019), Clasificación translingue para la detección de depresión en usuarios de twitter, Tesis de Maestría, Instituto Nacional de Astrofísica, Óptica y Electrónica.
INFORMÁTICA
Versión aceptada
acceptedVersion - Versión aceptada
Aparece en las colecciones: Maestría en Ciencias Computacionales

Cargar archivos:


Fichero Tamaño Formato  
CoelloGDL.pdf1.01 MBAdobe PDFVisualizar/Abrir