SISTEMA HÍBRIDO DE CANCELACIÓN DE RUIDO EN SEÑALES DE VOZ BASADO EN FILTRADO ADAPTATIVO Y SUSTRACCIÓN ESPECTRAL

Autor: MARTÍNEZ OLALLA RAFAEL
Año: 2001
Universidad: POLITECNICA DE MADRID
Centro de realización: FACULTAD DE INFORMÁTICA
Centro de lectura: INFORMÁTICA
Director: GÓMEZ VILDA PEDRO
Tribunal: GONZALO MARTÍN CONSUELO , TORRANO GIMÉNEZ EMILIO , GARCÍA PUNTONET CARLOS , MONTE MORENO ENRIC , NIETO LLUIS VÍCTOR
Resumen de la tesis

El realce de voz en condiciones de alto nivel de ruido es una tarea muy difícil. El problema se vuelve crítico cuando el rudio cambia constantemente de nivel y de distribución espectral. Además, puede suceder que aparezcan señales de voz en el ruido que corrompe la señal deseada haciendo muy difícil la decisión de si esas señales de voz corresponden o no a una realización válida. Durante la fase de estudio preliminar se consideraron diferentes técnicas de cancelación de ruido para resolver el problema. Debido a la baja relación señal a ruido y a la característica fuertemente no estacionaria del ruido se decició utilizar un esquema de dos micrófonos. Uno de los micrófonos (principal) se sitúa cerca del hablante para recoger la señal de voz. El segundo micrófono (de referencia) debe estar situado a una cierta distancia, o bien se debe separar del hablante mediante una barrera física, de modo que obtenga una referencia del ruido lo más exacta posible al tiempo que evite el registro de la señal de voz (crosstalk). El esquema de cancelación propuesto consta de un filtro adaptativo en celosía - escalera (FACE) con un autómata de control y una unidad de segmentación de voz, seguido de un sustractor espectral. La principal ventaja de los filtros adaptativos considerados es que aseguran una cancelación aceptable incluso para niveles de ruido extremadamente altos, siempre que se asegure que la señal de referencia es un buen estimado del ruido ambiente. Por otro lado su principal inconveniente es su gran complejidad computacional. Cuanto mayor es el número de etapas de filtrado, mayor es la cancelación obtenida, pero la complejidad computacional se incrementa. Por tanto la longitud de los filtros está limitada por el coste computacional asumible. Además los problemas de estabilidad de los filtros se incrementan con su longitud (los errores se propagan por la estructura y son amplificados por las etapas sucesivas). El periodo de enganche de los filtros también aumenta con su longitud. Esto ha de ser tenido muy en cuenta cuando la distribución espectral del ruido cambia con rapidez. Por otro lado, el sustractor espectral propuesto puede garantizar un realce mayor que el del filtro adaptativo. Su principal limitación es que requiere una SNR mínima, en primer lugar para evitar que líneas espectrales totalmente enterradas en el ruido sean eliminadas, y en segundo lugar porque requiere una estimación de la presencia de voz para poder funcionar correctamente. La salida del FACE proporciona la SNR suficiente para garantizar el correcto funcionamiento del sistema. En la última parte de este trabajo se muestran numerosos ejemplos del funcionamiento del sistema. Además, para dar una medida de la calidad de voz procesada, se muestra un experimento de reconocimiento de voz.