Por favor, use este identificador para citar o enlazar este ítem:
http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/373
Métodos de refinamiento de la clasificación translingüe de documentos | |
ADELINA ESCOBAR ACEVEDO | |
MANUEL MONTES Y GOMEZ LUIS VILLASEÑOR PINEDA | |
Acceso Abierto | |
Atribución-NoComercial-SinDerivadas | |
Classification Text analysis Language translation | |
Thanks to technological advances, every day we have access to large volumes of multilingual information around the world. That amount of text requires the use of automated processes for its organization. Multilingual Text Classification takes the problem of classifying documents written in different languages under the same classes. In response, Cross-language Text Classification represents a possible solution because, supported by tools like automatic translators, aims to take advantage of existing resources from one language to classify another. However Cross-language Text Classification has proved to be insufficient due to translation issues and cultural differences. This work proposes two refinement methods of cross-language text classification considering information from the target language documents. The first method applies a post-classification procedure, aided by nearest neighbors between classified documents, to make a refinement without changing the classifier. The second method selects reliably classified documents, to be joined to the cross-language classification process, in order to produce an adapted classifier for target language documents. Experimental results are encoraging, showing an improvement in the classification accuracy as high as 17%. Gracias a los continuos avances tecnológicos, cada día se tiene acceso a documentos escritos en diversas partes del mundo, ameritando el uso de procesos automáticos para su organización. La clasificación automática de textos multilingües se plantea el problema de clasificar documentos escritos en diferentes idiomas bajo las mismas clases. Ante ello, la clasificación translingüe representa una solución viable ya que utiliza herramientas, como los traductores automáticos, para franquear la barrera del lenguaje con el objetivo de aprovechar recursos existentes en uno o varios idiomas. No obstante, la clasificación translingüe ha demostrado ser insuficiente por si sola debido a distorsiones introducidas por el traductor y a las diferencias culturales. En el presente trabajo se proponen dos métodos de refinamiento de la clasificación translingüe inicial usando el conjunto de documentos que se desea clasificar. El primer método aplica un procedimiento posterior a la clasificación translingüe, auxiliándose de las similitudes entre los documentos no clasificados, para hacer un refinamiento sin modificar el clasificador. El segundo método selecciona documentos clasificados de forma confiable, para incorporados al proceso de clasificación translingüe, a fin de adecuar el clasificador al nuevo idioma. Los resultados obtenidos llegan a superar en 17% a la clasificación translingüe tradicional en el mejor caso. | |
Instituto Nacional de Astrofísica, Óptica y Electrónica | |
2009-09 | |
Tesis de maestría | |
Español | |
Estudiantes Investigadores Público en general | |
Escobar-Acevedo A. | |
CIENCIA DE LOS ORDENADORES | |
Versión aceptada | |
acceptedVersion - Versión aceptada | |
Aparece en las colecciones: | Maestría en Ciencias Computacionales |
Cargar archivos:
Fichero | Tamaño | Formato | |
---|---|---|---|
EscobarAA.pdf | 3.07 MB | Adobe PDF | Visualizar/Abrir |