Por favor, use este identificador para citar o enlazar este ítem: http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/1470
Adaptación de dominio para la detección automática de textos engañosos
Juan Javier Sánchez Junquera
LUIS VILLASEÑOR PINEDA
MANUEL MONTES Y GOMEZ
VERONICA REYES MEZA
Acceso Abierto
Atribución-NoComercial-SinDerivadas
Deception detection
Cross-domain classification
Domain adaptation
Text representation
Masking technique
Deception refers to the deliberate a.empt to induce another person to form a belief that the deceiver considers false. Frequently, its consequences are serious at different levels, for example, in trials, social networks, financial reports, etc. Due to its importance, there are many studies of deception in psychology, philosophy, and criminology. Recently, computational works have focused on its automatic detection, because the deceiver reflects vocal, physiological, and verbal cues to deceit. The present study faces the automatic deceptive text detection, for which the supervised learning methods are frequently used. Supervised learning is one that requires a set of training examples labeled as deceptive or truthful. In this sense, the mostly designed methods are more effective than human detectors, however, such methods face the problem of data labeling. Labeling data as deceptive is an expensive, subjective, and difficult task, but overall, ensuring the certainty of a text is a more challenging question. This thesis proposes a method for deception detection in domains that do not have labeled examples. Previous works have proposed their methods to train a classifier in a domain with labeled examples and evaluate it in the same domain (single-domain problem), or in a different domain (cross-domain problem). In any case, there is evidence to confirm that the main problem for the detection is that there are no universal cues to deception. The main aim of our work is to deal with the cross-domain problem; for this purpose, we design a domain adaptation method that uses information from labeled data of a domain (source domain) and unlabeled data of our domain of interest (target domain). The proposed method takes up techniques used in sentiment analysis and authorship attribution. Considering that domains are essentially separated by their contents, the strategy consists of masking the content-related information, getting texts more neutral to their contents, and maintaining words and structures common to both domains, where the style used to deceive or be honest remains. It was possible to conclude, from the experiments, that the proposed method improved the classification by using data from both domains, particularly, this approach obtains a representation that diminishes the differences between the source and the target domains, by masking content-related information.
El engaño se puede considerar como el intento de liberado de inducir a otra persona a formarse una creencia que el propio engañador considera falsa. Sus consecuencias pueden ser graves a distintos niveles, por ejemplo, en juicios legales, redes sociales, reportes financieros, etc. Por su importancia, ha sido objeto de estudio en la psicología, filosofía, criminología, y más recientemente, se ha investigado su detección automática, debido a que el engañador manifiesta indicios de engaño en la voz, en las expresiones corporales, y en el contenido de lo que él dice. Este trabajo se enfoca en la detección automática de engaño en textos, tarea que ha sido abordada principalmente empleando técnicas de aprendizaje supervisado. Dichas técnicas, re- quieren un corpus de ejemplos etiquetados previamente como engañosos o no .A pesar de ser más efectivos que los detectores humanos, los métodos diseñados se enfrentan al problema del etiquetado de datos. Etiquetar datos con engaño, además de costoso, es subjetivo y difícil, sobre todo, el asegurar que un texto es completamente genuino. Esta tesis propone un método para la detección de engaño en dominios que no tienen ejemplos etiquetados. Recientemente, se han diseñado algunos métodos para entrenar un clasificador en un dominio con ejemplos etiquetados, evaluándose en dicho dominio (single-domain), o en un dominio diferente (cross-domain). En cualquier caso, se ha confirmado que el principal problema para la detección es que no existe algún indicador universal de engaño. El método que se propone en esta tesis, utiliza un enfoque de adaptación de dominio para enfrentar el problema cross-domain, empleando información de los datos etiquetados de un dominio fuente, e información de los datos no etiquetados del dominio de interés, o dominio objetivo. El método propuesto en este trabajo retoma técnicas empleadas en tareas como el análisis de sentimientos y la atribución de autoría. Partiendo del supuesto de que los dominios se diferencian principalmente por su contenido, la estrategia consiste en ocultar palabras especıficas a cada dominio, obteniendo textos más neutrales a sus contenidos, y manteniendo palabras y estructuras comunes a ambos, donde figure esencialmente el estilo usado para engañar o para ser sincero.
Instituto Nacional de Astrofísica, Óptica y Electrónica
2018-08
Tesis de maestría
Español
Estudiantes
Investigadores
Público en general
Sánchez Junquera, J. J., (2018). Adaptación de dominio para la detección automática de textos engañosos, Tesis de Maestría, Instituto Nacional de Astrofísica, Óptica y Electrónica
LENGUAJES DE PROGRAMACIÓN
Versión aceptada
acceptedVersion - Versión aceptada
Aparece en las colecciones: Maestría en Ciencias Computacionales

Cargar archivos:


Fichero Tamaño Formato  
SanchezJJJ.pdf3.46 MBAdobe PDFVisualizar/Abrir