Uso de técnicas biométricas en el reconocimiento de locutor

El reconocimiento de orador o locutor, es una modalidad biométrica que parte de la voz de una persona para identificarla o confirmar su identidad. Se diferencia de otra modalidad destinada a reconocer las palabras pronunciadas y transcribirlas a texto escrito (reconocimiento de locución).

El proceso de reconocimiento de locutor depende de las características de la estructura física del tracto vocal de cada persona que afecta a las frecuencias de resonancia que matizan el sonido generado en mayor o menos medida por las cuerdas vocales y a algunos aspectos de vocalización y uso de giros y expresiones conscientes e inconscientes.

El reconocimiento de locutor, entre todas las técnicas biométricas, tiene la ventaja de su utilidad en contextos en los que no es posible la personación y facilita la evaluación de identidad a distancia.

El tipo de interfaz para la captación de la voz es un micrófono, dispositivo de bajo coste y muy ubicuo, presente en teléfonos analógicos convencionales, teléfonos digitales, teléfonos inteligentes, tabletas, ordenadores, equipos de radio,…

La verificación del orador, ha evolucionado a la par que las tecnologías de reconocimiento de voz y de síntesis de voz dado las similares características y desafíos que cada ambos enfoques tecnológicos conllevan.

En 1960, Gunnar Fant, un profesor sueco publicó un modelo que describía los componentes psicológicos de la producción de habla acústica, basado en el análisis de rayos x de individuos produciendo sonidos fónicos específicos. En 1970, Joseph Perkell utilizo rayos x en movimiento e incorporó la lengua y la mandíbula para expandir el modelo de Fant. Los sistemas de reconocimiento de locución originales utilizaban el resultado promedio de varios filtros analógicos para buscar coincidencias, muchas veces con la ayuda de humanos en el proceso.

En 1976, Texas Instruments construyó un  prototipo que ensayó la Fuerza Aérea de los Estados Unidos y la Corporación MITRE. A mediados de los 80s, el Instituto Nacional de Estándares y Tecnología (NIST) de Estados Unidos desarrolló el Grupo de Discurso NIST para estudiar y promover el uso de técnicas de procesamiento de discurso. Desde 1996, bajo la creación de la Agencia Nacional de Seguridad (NSA), el Grupo de Discurso de NIST ha llevado a cabo evaluaciones anuales, el Workshop de Evaluación de Reconocimiento de Voz, para fomentar el continuo avance de la comunidad de reconocimiento de voz.

El componente psicológico del reconocimiento de voz está relacionado con la forma física del tracto vocal de un individuo, que consiste de una vía respiratoria y cavidades de tejido blando de donde se originan los sonidos vocales. Para producir sonidos, estos componentes trabajan en combinación con los movimientos físicos de la mandíbula, la lengua, la laringe y las resonancias de los pasajes nasales, en incluso la cavidad torácica. Las características acústicas del habla provienen de los atributos físicos de las vías respiratorias. El movimiento de la boca y de las pronunciaciones son también componentes de comportamiento cuyo resultado se registra y modela para permitir el reconocimiento de una persona por su voz.

Hay dos formas de reconocimiento por voz: una dependiente del texto (modo limitado) y otro independiente del texto (modo  ilimitado). En un sistema que utiliza discurso dependiente del texto, el individuo presenta una frase fija de unos cuantos segundos (por ejemplo “mi voz es mi contraseña”) o una frase programada dentro del sistema (“Por favor diga los números: 33-54-63”) que mejora el grado de reconocimiento especialmente con usuarios que cooperan. Un sistema independiente del texto no posee ningún conocimiento “a priori” del contenido que expresa la persona que se pretende identificar y es mucho más flexible en situaciones en las que la persona de la que se obtiene la muestra no es consciente de que está siendo grabada porque se supone  que no desea cooperar, lo que presenta un reto de especial relevancia.

Las muestras de voz son ondas donde la variable del tiempo se extiende como coordenada horizontal y la de intensidad de sonido en la vertical. El sistema de reconocimiento de quien habla analiza el contenido de frecuencia del discurso, transformándolo del dominio del tiempo al dominio del espectro, y compara las características de calidad, duración, intensidad, dinámica y tono (componentes espectrales) de la señal.

En los sistemas dependientes del texto, durante la toma o fase de inscripción, el individuo pronuncia una palabra corta o frase (sentencia), capturada típicamente por un micrófono tal como el de un teléfono. La muestra de voz se convierte desde un formato analógico a uno digital, las características de la voz del individuo se extraen, luego se crea un modelo.

La mayoría de los sistemas de verificación de quien habla dependientes del texto utilizan el concepto de Cadenas Ocultas de Markov (HMM), que son modelos estocásticos que proporcionan una representación estadística de los sonidos producidos por el orador. El HMM representa las variaciones subyacentes y los cambios temporales a lo largo del tiempo en los estados del discurso utilizando las características de calidad, duración, intensidad de la dinámica y tono (componentes espectrales), mencionadas anteriormente.

Otro método matemático utilizado es el  Modelo de Mixturas Gausianas, una correspondencia de estados relacionada con HMM, que se utiliza frecuentemente para aplicaciones ilimitadas independientes del texto.  Como el HMM este método utiliza la voz para crear un número de vectores de estado que representan las variaciones de las formas del sonido, que son características de la fisiología y el comportamiento de un individuo.

Todos estos métodos comparan las diferencias y similitudes entre las entradas de voz y los tipos y estados de voz captados en una fase anterior para producir un resultado que señala el grado de coincidencia.

En el ámbito de la biometría de voz, especialmente en el ámbito académico, se registran grabaciones de las personas a las que se quiere identificar junto con las de otras que forman la base de comparación, de forma que la similitud de las comparaciones respecto a la persona a la que corresponde la grabación claramente sea discriminante en relación con la similitud respecto a las personas a las que no corresponde.

Tras el registro sonoro, durante la fase de reconocimiento, los mismos parámetros de calidad, duración, volumen y tono se extraen de la muestra tomada y se comparan con el modelo de la identidad, o de la supuesta identidad, y con otros modelos de otras voces. Los modelos de otras voces (o “antivoces”) contienen los estados de una gran variedad de individuos, excluyendo el modelo de la identidad, o supuesta  identidad, que se está buscando. La muestra de la voz o el registro de sus modelos se comparan para generar una indicación de grado de similitud, indicando en qué proporción la muestra captada se corresponde la referencia de la identidad buscada. Si la voz captada pertenece a la identidad alegada, el porcentaje de similitud reflejará que la muestra presenta mayores similitudes con la identidad alegada que con el modelo correspondiente a otras voces de la base.

Algunos de los retos que presenta esta tecnología son la susceptibilidad al canal de transmisión (ancho de banda, ruido, niveles de cuantificación, algoritmos de codificación, bitrate, eco del canal), y la variaciones de los micrófonos (sensibilidad, directividad, respuesta en frecuencias, ruido intrínseco, captación de ruido ambiental, eco ).

Los sistemas también deben lidiar con que las muestras iniciales se registran en un tipo de contexto y las que requieren autenticación se registran en otro, afectado por diferentes limitaciones.

Los sistemas de verificación de voz, exceptuando a los que utilizan frases instanciadas dinámicamente, también son susceptibles de ataques por spoofing si puede preverse una secuencia de preguntas y repuestas compatible con la utilización de una voz grabada. Algunas medidas anti-spoofing contemplan la repetición de una palabra o frase aleatoria.

Las investigaciones actuales en el área de reconocimiento de voz independiente del texto exploran aspectos como funciones prosódicas (ritmo, la velocidad, la modulación y entonación), tipos de personalidad e influencia parental, semántica, idiolectos, pronunciaciones e idiosincrasias, relaciones con el lugar de nacimiento, estatus socio-económico, nivel de educación.

 

This entry was posted in Biometria, Voz. Bookmark the permalink.