Please use this identifier to cite or link to this item: http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/373
Métodos de refinamiento de la clasificación translingüe de documentos
ADELINA ESCOBAR ACEVEDO
MANUEL MONTES Y GOMEZ
LUIS VILLASEÑOR PINEDA
Acceso Abierto
Atribución-NoComercial-SinDerivadas
Classification
Text analysis
Language translation
Thanks to technological advances, every day we have access to large volumes of multilingual information around the world. That amount of text requires the use of automated processes for its organization. Multilingual Text Classification takes the problem of classifying documents written in different languages under the same classes. In response, Cross-language Text Classification represents a possible solution because, supported by tools like automatic translators, aims to take advantage of existing resources from one language to classify another. However Cross-language Text Classification has proved to be insufficient due to translation issues and cultural differences. This work proposes two refinement methods of cross-language text classification considering information from the target language documents. The first method applies a post-classification procedure, aided by nearest neighbors between classified documents, to make a refinement without changing the classifier. The second method selects reliably classified documents, to be joined to the cross-language classification process, in order to produce an adapted classifier for target language documents. Experimental results are encoraging, showing an improvement in the classification accuracy as high as 17%.
Gracias a los continuos avances tecnológicos, cada día se tiene acceso a documentos escritos en diversas partes del mundo, ameritando el uso de procesos automáticos para su organización. La clasificación automática de textos multilingües se plantea el problema de clasificar documentos escritos en diferentes idiomas bajo las mismas clases. Ante ello, la clasificación translingüe representa una solución viable ya que utiliza herramientas, como los traductores automáticos, para franquear la barrera del lenguaje con el objetivo de aprovechar recursos existentes en uno o varios idiomas. No obstante, la clasificación translingüe ha demostrado ser insuficiente por si sola debido a distorsiones introducidas por el traductor y a las diferencias culturales. En el presente trabajo se proponen dos métodos de refinamiento de la clasificación translingüe inicial usando el conjunto de documentos que se desea clasificar. El primer método aplica un procedimiento posterior a la clasificación translingüe, auxiliándose de las similitudes entre los documentos no clasificados, para hacer un refinamiento sin modificar el clasificador. El segundo método selecciona documentos clasificados de forma confiable, para incorporados al proceso de clasificación translingüe, a fin de adecuar el clasificador al nuevo idioma. Los resultados obtenidos llegan a superar en 17% a la clasificación translingüe tradicional en el mejor caso.
Instituto Nacional de Astrofísica, Óptica y Electrónica
2009-09
Tesis de maestría
Español
Estudiantes
Investigadores
Público en general
Escobar-Acevedo A.
CIENCIA DE LOS ORDENADORES
Versión aceptada
acceptedVersion - Versión aceptada
Appears in Collections:Maestría en Ciencias Computacionales

Upload archives


File SizeFormat 
EscobarAA.pdf3.07 MBAdobe PDFView/Open