Por favor, use este identificador para citar o enlazar este ítem:
http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/563
Algoritmo de segmentación de habla independiente de texto en uno y dos niveles | |
RICARDO SANCHEZ JURADO | |
CARLOS ALBERTO REYES GARCIA MARIA DEL PILAR GOMEZ GIL | |
Acceso Abierto | |
Atribución-NoComercial-SinDerivadas | |
Speech processing Speech recognition Feature extraction | |
Success in the performance of automatic speech recognition depends, among
other issues, from an accurate segmentation of the input signal. Such signal
may be divided by words, vowels or phonemes, the last being the most popular.
Segmentation may be achieved using different techniques, some restricted by
text or speaker and others free of restrictions.
In this research we present a text and speaker-independent algorithm to obtain
phonetic boundaries of a speech signal, using only acoustic features. The
signal is divided into segments, called frames, small enough to be handled by
coding algorithms as Mel Filter Banks or stationary wavelet transforms. Each
feature is converted to a fuzzy representation in order to detect transitions
among phonemes that, in other way, could not be clearly identified. In
addition, we propose a modification in Euclidian and Chebishev distances
to calculate feature distances using four adjacent frames. New strategies to
select candidates for boundaries in one and two levels are also presented and
analyzed. Genetic algorithms are used to optimize some parameters in the
proposed algorithm. The algorithm was tested using two different corpuses,
one in English and one in Spanish language. A correct segmentation of 80.28%
was obtained for English and 82.58% for Spanish. This performance is similar
to results obtained by other research works using English language. El éxito en procesos como el reconocimiento automático del habla depende en gran manera de la segmentación del habla y su etiquetado, siendo la segmentación un factor muy importante. Existen diferentes esquemas para realizar la segmentación, algunos con restricciones (de texto o hablante) y otros sin restricciones (independiente de texto), además de tener diferentes unidades en que se segmenta el habla (palabras, sílabas, fonemas), dentro de las cuales, la unidad más común son los fonemas. En las técnicas sin restricciones, solo se usan características acústicas de la señal para obtener límites fonéticos sin tener alguna información adicional de ésta. Para realizar el proceso de segmentación, se divide la señal en pequeños fragmentos (frames) que puedan ser manejables, a los cuales se les extraen características usando métodos de codificación de la señal como son los Bancos de Filtros en la escala Mel y usando la Transformada Wavelet Estacionaria. Además por cada una de las características se obtienen valores de membresía a los conjuntos difusos Alto, Medio y Bajo, lo que permite detectar transiciones entre fonemas que no son muy claras. En esta tesis se trabajó en un algoritmo de segmentación de habla independiente de texto con diversas características, además se propone una nueva forma de calcular distancias entre características de cuatro frames adyacentes utilizando medidas de distancia como la Euclidiana o la Chebyshev. El análisis de estas distancias permite obtener las instancias de tiempo en las cuales existe un límite fonético, por lo que se definieron nuevas estrategias de selección de límites candidatos realizando la segmentación en uno y dos niveles. Para la segmentación en dos niveles se usaron Algoritmos Genéticos a fin de optimizar los parámetros del algoritmo. En este trabajo se utilizaron dos corpus, uno en inglés y otro en español, logrando 80.28% de detección correcta en el primer corpus y 82.58% en el segundo, este desempeño es comparado con trabajos similares de segmentación del idioma inglés. | |
Instituto Nacional de Astrofísica, Óptica y Electrónica | |
2008-11 | |
Tesis de maestría | |
Español | |
Estudiantes Investigadores Público en general | |
Sánchez-Jurado R | |
CÓDIGO Y SISTEMAS DE CODIFICACIÓN | |
Versión aceptada | |
acceptedVersion - Versión aceptada | |
Aparece en las colecciones: | Maestría en Ciencias Computacionales |
Cargar archivos:
Fichero | Tamaño | Formato | |
---|---|---|---|
SanchezJR.pdf | 2.57 MB | Adobe PDF | Visualizar/Abrir |