Biometría de voz

La biometría (del griego bios vida y metron medida) es el estudio de los seres vivos a partir de características medibles que permiten diferenciar unos ejemplares  de otros de la misma especie.

Se usa en diferentes ciencias médicas, veterinarias y biológicas.

En particular, se han desarrollado métodos automáticos que permiten el reconocimiento único de seres humanos basados en uno o más rasgos físicos, o en pautas de comportamiento que pueden ser medidos y comparados.

En las tecnologías de la información, la «autenticación biométrica» o «biometría informática» es la aplicación de técnicas matemáticas y estadísticas sobre los rasgos físicos o de conducta de un individuo, para su autenticación, una vez establecida su identificación. Es decir, para “verificar” su identidad, una vez supuesta esta.

El reconocimiento por voz o reconocimiento de locultor, es una modalidad biométrica que utiliza la voz de un individuo con fines de reconocimiento. El proceso de reconocimiento de voz depende de las características de la estructura física del tracto vocal de una persona así como de sus peculiaridades de dicción o pronunciación.

La biometría se viene estudiando desde hace más de un siglo, aunque en relación con la automatización de la biometría aplicada al ser humano, y, en particular a la biometría de voz, los principales desarrollos se han producido en los últimos 50 años.

En 1960, Gunnar Fant, un profesor sueco publicó un modelo que describía los componentes psicológicos de la producción de habla acústica, basado en el análisis de rayos x de individuos que producían fonaciones  específicas.

En 1970, el Dr. Joseph Perkell utilizo rayos x en movimiento e incorporó la lengua y mandíbula para expandir el modelo de Fant. Los sistemas de reconocimiento de discurso originales utilizaban el resultado promedio de varios filtros analógicos para buscar coincidencias, muchas veces con la ayuda de la percepción humana de forma auxiliar.

En 1976, Texas Instruments construyó un prototipo de sistema queprobó la Fuerza Aérea de los Estados Unidos y la Corporación MITRE.

A mediados de los 80s, el Instituto Nacional de Estándares y Tecnología (NIST) desarrolló el Grupo de Discurso NIST para estudiar y promover el uso de técnicas de procesamiento de discurso.

Desde 1996, bajo la creación de la Agencia Nacional de Seguridad (NSA), el Grupo de Discurso de NIST ha llevado a cabo evaluaciones anuales, el Workshop de Evaluación de Reconocimiento de Voz, para fomentar el continuo avance de la comunidad de reconocimiento de voz.

Aunque las herramientas actuales se basan en análisis espectrales, son capaces de detectar diferentes parámetros de la locución, como el ritmo, la velocidad, la modulación y entonación, tipos de personalidad e influencia parental, semántica, idiolectos, pronunciaciones e idiosincrasias, relaciones con el lugar de nacimiento, estatus socio-económico o el nivel de educación.

Gracias al análisis espectral se detectan los tonos silbantes y los “formantes“, bandas de frecuencia donde se concentra la mayor parte de la energía sonora de un sonido, que, al producirse por la resonancia de ciertas frecuencias en el tracto vocal, determina sus caraterísticas.