Acústica forense

You are currently browsing the archive for the Acústica forense category.

Cuando el objeto de investigación policial o judicial está relacionado con el sonido o sus elementos afines (grabaciones, equipos, sistemas, aplicaciones, etc.) los procedimientos de estudio se orientan hacia la denominada “Acústica Forense“.

La Acústica forense es uno de los más complejos entornos de investigación de la Policía Científica, debido al carácter multidisciplinar de sus distintas aproximaciones de análisis, y a la necesidad de formación continua y actualización en aspectos técnicos y científicos.

Es un campo en el que el dominio y utilización de tecnología y aplicaciones digitales de análisis, cálculo o procesado resulta imprescindible, y con frecuencia es necesaria la participación de un equipo de expertos especializados en distintas perspectivas de estudio.

Entre los objetivos de análisis cabe destacar los siguientes:

  1. Estudios sobre identificación de locutores.
  2. Estudios sobre manipulación de registros, procesado y edición de la señal de sonido.
  3. Estudios de perfilado de locutor. A partir de un registro de una o más conversaciones indubitadas se intentan determinar rasgos de identidad (edad, sexo, etc.), asociaciones diatópicas (área geográfica del hablante), diastráticas (estrato social), emocionales, conductuales, patológicas o toxicológicas.
  4. Identificación de fuentes de registro. Instrumental utilizado para la captación.
  5. Determinación de un locutor de entre varios posibles (Ruedas de reconocimiento de voz).
  6. Análisis y determinación de falsificaciones y pirateo de soportes magnéticos de audio, en colaboración con otras Unidades. (Documentoscopía, vídeo).
  7. Extracción de sonidos relevantes a partir de fondo de ruido (voz latente).
  8. Limpieza de ruidos para facilitar identificación de voz principal.
  9. Estudios de registros no vocales (sonidos, ruidos de fondo, etc.)
  10. Acústica de disparos. Determinación de tipo de arma utilizada, ambiente acústico de la escena del crimen, etc.

La estructura de la investigación de identificación de fonogramas verbales depende directamente de los métodos utilizados y de su correspondencia con el tipo de estructura de las conclusiones de los peritajes de acústica forense.

La descomposición de los sonidos complejos en sus componentes simples permite cotejar los principales parámetros de sonido. Con la comparación de dos o más audios que contengan emisiones de voz es posible determinar la pertenencia a un mismo locutor, o a locutores diferentes.

A la grabación obtenida de un hablante que se presenta o identifica plenamente se la denomina indubitada; al fonograma en relación al cual se define su similitud o diferencia se le llama grabación controvertida.

En condiciones psicofísicas normales, todo locutor dispondrá sus órganos de la fonación en función del tipo de emisión que desee generar, ejerciendo un absoluto y voluntario control sobre los mismos. Esta posibilidad de modificar la caja de resonancia a voluntad del sujeto emisor provocará el mayor problema con el que el examinador forense deberá enfrentarse: la variabilidad de los actos de habla, especialmente en sujetos no colaborativos.

En casos de hechos delictivos como las amenazas, la extorsión o el secuestro en los que se logra obtener un audio producto de la afectación o agresión hacia un ciudadano a través de un teléfono, grabación de vídeo y audio o registro  presencial, es posible analizar las características de las voces como la tonalidad, frecuencia, intensidad y los formantes mismos, los cuales permiten individualizar la voz hasta el punto de lograr identificar a un individuo.

 

Alterar la voz de forma voluntaria es uno de los recursos más habituales utilizados por los delincuentes para enmascarar su identidad. La fonética forense o fonética judicial se encarga de tareas como la determinación del perfil fonético de un hablante (sexo, variedad dialectal, extracción social, etc.) o la comparación de muestras de voz de una persona sospechosa con una muestra previa de origen desconocido.

Dentro de este ámbito, el Laboratorio de Fonética del CSIC lleva a cabo el proyecto CIVIL (Cualidad Individual de Voz e Identificación de Locutor), que tiene como objetivo saber hasta qué punto la cualidad individual de la voz es determinante a la hora de identificar a una persona y cuáles son los rasgos de la voz que son resistentes a la distorsión y al disimulo.

Sobre este punto, en la serie o película en cuestión vemos siempre un ordenador en el que se analiza con claridad la onda de sonido que se mueve acompasada con la voz del presunto delincuente. Parece directo y sencillo, pero en la realidad, como cabe prever, este proceso es bastante más peliagudo.

Espectrograma

Espectrograma hecho con el programa Praat de la frase “¿Ha venido María?” / Laboratorio de Fonética del CSIC.

El aparato en cuestión es en verdad un espectrógrafo de sonido. Inventado en los años ’40, este aparato lleva a cabo el análisis de la onda sonora que generamos en nuestra laringe o en nuestra cavidad oral cuando hablamos. La comparación de dos muestras de habla con propósitos legales se ve facilitada cuando se usa el mismo equipo de grabación, cuando son muestras emitidas en la misma lengua, cuando el ruido ambiental es equivalente, el hablante se encuentra en las mismas condiciones emocionales y las muestras duran, como poco, 2,5 segundos. Es obvio que estas circunstancias no suelen darse en los casos reales, por lo que el trabajo de los fonetistas forenses resulta muy laborioso y  ha de ser realizado por un equipo de expertos.

El equipo de CIVIL está estudiando a su vez algunas de las voces ‘disimuladas’ más comunes: el falsetto (al estilo de los Bee Gees) y la conocida como creaky voice o vocal fry (una voz que ‘crepita’), característica de los hablantes californianos y de algunas actrices como Cameron Díaz o la cantante Britney Spears. De hecho, parece que hablar con este tipo de voz se ha puesto de moda entre chicas adolescentes en EE UU.

Dentro del proyecto de fonética forense, ya han conseguido crear un corpus de 100 voces ‘disimuladas’, para lo que han pedido a los hablantes que proporcionen muestras de habla normal y de habla ‘fingida’.

Este artículo está basado en el escrito por Mar Gulís (del CSIC) titulado Fonética forense o cómo identificar la voz del secuestrador

Al desplegar un sistema de firma electrónica vocal, cabe la posibilidad de que la autenticación del locutor se lleve a cabo antes de gestionar la propia firma electrónica, si la entidad cuenta con una base de datos de locutores preidentificados. Esta forma de gestionar la información debe garantizar que en los contratos nunca se incluyan locuciones pregrabadas, sino declamaciones sugeridas en función de datos dinámicos de un solo uso.

De esta mnera se da la certeza de que nunca las locuciones de entrenamiento van a tener valor vinculante y por tanto la entidad no puede insertar la firma vocal a su discreción en los contratos.

Pero, a veces, los contratos se celebran con intervención de partes que no tienen relación previa, ¿qué pasa entonces? Pues lo que es habitual en los contratos, que se presuma la capacidad de contratar,y que, si la parte firmante incumple el contrato, deba solicitarse su cumplimiento o aplicar la cláusula penalizadora que corresponda ante los tribunales. Si la parte perjudicada impugna la prueba, se llevará a cabo una prueba pericial que podría llamrse “caligráfica” si la firma electrónica se basara en la captación de trazos escritos. Al tratarse de grabación de voz, junto con la caracterización matemática de ciertos componentes de la voz, la prueba pericial será del timo “acústica forense” o “fonética forense” según las características a demostrar.

Esta información se ha extraido de la página web de la Comisaría General de Policía Científica

Cuando el objeto de investigación policial o judicial está relacionado con el sonido o sus elementos afines (grabaciones, equipos, sistemas, aplicaciones, etc.) los procedimientos de estudio re realizan en el marco de la denominada Acústica Forense.

Imagen Acústica forense

La Acústica forense es uno de los más complejos entornos de investigación de la Policía Científica, debido fundamentalmente al carácter multidisciplinar de sus distintas aproximaciones de análisis, y a la necesidad de otorgar un alto y continuado nivel de formación a sus expertos. Si bien el dominio y utilización de tecnología y aplicaciones digitales de análisis, cálculo o procesado resulta imprescindible, la participación de un equipo de expertos especializados en distintas perspectivas de estudio es todavía más insoslayable.

La Acústica Forense pretende desarrollar todas aquellas tareas acústicas que puedan aportar indicios de investigación a las Fuerzas de Seguridad o pruebas periciales de cara a la Autoridad Judicial. Para ello realiza las siguientes:

Actividades de los especialistas en acústica forense

  1. Estudios sobre identificación de locutores.
  2. Estudios sobre manipulación de registros, procesado y edición de la señal de sonido.
  3. Estudios de pasaporte vocal. Consistente en:Partiendo de un registro hablado establecer rasgos de identidad (edad, sexo, etc.), asociaciones diatópicas (área geográfica del hablante), diastráticas (estrato social), emocionales, conductuales, patológicas o toxicológicas.
  4. Identificación de fuentes de registro.
  5. Ruedas de reconocimiento de voz.
  6. Análisis y determinación de falsificaciones y pirateo de soportes magnéticos de audio, en colaboración con otras Unidades. (Documentoscopia, vídeo).
  7. Estudios de registros no vocales (sonidos, ruidos de fondo, etc).
  8. Acústica de disparos. Determinación de tipo de arma utilizada, ambiente acústico de la escena del crimen, etc.

Imagen Acústica forense

Sonograma con inicio de estridencias de /s/ en torno a 2 KHz

Imagen Acústica forense

Sonograma con inicio de estridencias de /s/ a 741 Hz

 

Modelos técnicos de identificación de locutores con propósitos forenses

En la identificación de locutores con propósitos forenses, el equipo de expertos que desarrolla estas tareas es, simplemente imprescindible.

Es cierto que existen aplicaciones de reconocimiento automático que ofrecen buenos resultados en tareas de identificación y verificación de locutores. Pero también es cierto que cuando estos sistemas se enfrentan a registros en las denominadas condiciones forenses (señal degradada por la curva de respuesta telefónica, ruidos, distorsiones, pobre SNR, etc.) sus resultados no son considerados satisfactorios y, por tanto, en ningún caso pueden ser utilizados como un método de identificación forense de locutores exclusivo.

Imagen Acústica forense

Pero ¿por qué es tan complicado el análisis del habla con fines identificativos? ¿cuáles son los factores en los que subyace esta dificultad?.

A los tres ejes físicos que dimensionan el sonido -frecuencia, intensidad y tiempo- en el caso del habla, se les une un cuarto factor que aportará elementos decisivos desde un punto de vista identificativo a la producción vocal: la cavidad resonante del tracto.

En condiciones psicofísicas normales, todo locutor dispondrá sus órganos de la fonación en función del tipo de emisión que desee generar, ejerciendo un absoluto y voluntario control sobre los mismos. Esta posibilidad de modificar la caja de resonancia a voluntad del sujeto emisor provocará el mayor problema con el que el examinador forense deberá enfrentarse: la variabilidad intrapersonal de los actos de habla.

Imagen Acústica forense

Extraído del estudio desarrollado por el Doctor D. Carlos Delgado Romero, Jefe de la Sección de Acústica Forense de la C.G. Policía Científica, titulado “TÉCNICAS DIGITALES DE ANÁLISIS AUDIOVISUAL EN ACÚSTICA FORENSE”, presentado en el III Congreso de Investigadores Audiovisuales..

 

En general, en el ámbito de la criminalística y en el marco de un proceso jurisdiccional, el proceso de identificación, frecuentemente acompañado de autenticación, de un sospechoso tiene como fin último su individualización, es decir, la certeza de distinguir una persona del resto de una población.

Este objetivo se logra mediante el análisis de la evidencia forense, consistente en la comparación de dos muestras de un mismo tipo de material, tales como ADN, vidrio o grabaciones de voz, una considerada controvertida y la otra considerada indubitada.

Un sistema de reconocimiento automático de locutor puede realizar tal comparación entre una locución cuestionada grabada con técnicas fonográficas que permitan enmarcar su obtención en un marco de seguridad jurídica que en el futuro garantice que la prueba no se impugne en cuanto a su pertinencia (por ejemplo, un pinchazo telefónico autorizado por un juez) y una locución de control indubitada tomada de un sospechoso identificado (por ejemplo, grabaciones realizadas en dependencias policiales).

La fiabilidad de la comparación de ambas locuciones y su utilidad para atribuir a partir de la grabación cuestionada un ilícito a una persona no está exenta de controversias.  De hecho, existe un intenso debate respecto a presentación de la evidencia acústica forense en juicios, que genera posiciones contrapuestas en foros científicos y legales.

Las reglas Daubert americanas de admisibilidad de una disciplina en un juicio, así como ciertos errores ocurridos en identificaciones utilizando disciplinas supuestamente libres de error, han fomentado la discusión.

A partir de este debate, el análisis de ADN ya ha conseguido ser considerado como un modelo de identificación forense de base científica, ya que cumple con los requerimientos más exigentes por parte del sistema legal en referencia a evaluación científica de la evidencia y experimentabilidad de los procedimientos.

Un objetivo semejante se plantean los investigadores de que trabajan en el campo de la identificación de sospechosos mediante biometría de voz para certificar la idoneidad de uso forense de dicha tecnología en base a los criterios científicos aplicables.

Como consecuencia de este nuevo enfoque aparece el concepto de Likehood Ratio (LR) o Relación de verosimilitud que ya se aplicaba a la identificación por ADN y que desde hace unos años se aplica también a la identificación en base a técnicas biométricas de voz.

Si la LR es 1, no pueden establecerse conclusiones de la comparación entre la muestra cuestionada y la grabación indubitada. Si la LR es mayor que 1 existe una mayor probabilidad de que exista vinculación entre el sospechoso al que se le captó la muestra indubitada y el autor identificado en la grabación cuestionada. Y si la LR es menor que 1 existe una mayor probabilidad de que no exista vinculación entre el sospechoso al que se le captó la muestra indubitada y el autor identificado en la grabación cuestionada, es decir, una mayor probabilidad de que sea otra persona.

Diferentes trabajos académicos han profundizado en los aspectos metodológicos que permitan establecer el valor LR a partir de los datos existente y la aplicación de modelos matemáticos.

Entre los trabajos que profundizan en el tema cabe citar:

  • An Interpretation Framework for the Evaluation of Evidence in Forensic Automatic Speaker Recognition with Limited Suspect Data. Filippo Botti [Institut de Police Scientifique (IPS) – University of Lausanne (UNIL)] , Anil Alexander , Andrzej Drygajlo [ambos del Signal Processing Institute – Swiss Federal Institute of Technology (EPFL)] 2004
  • Forensic evaluation of the evidence using automatic speaker recognition systems = Evaluación de la evidencia forense utilizando sistemas automáticos de reconocimiento locutor . Tesis de Daniel Ramos Castro. Noviembre de 2007. Universidad Autónoma de Madrid. Escuela Politécnica Superior
  • Cálculo del peso de la evidencia en casos forenses de reconocimiento automático de locutor en los que existen varias tomas de voz de procedencia desconocida. Proyecto Fin de Carrera de Eva Barriel Guitián. Diciembre 2011. Universidad Autónoma de Madrid. Escuela Politécnica Superior
  • Evaluación de evidencias forenses utilizando técnicas de reconocimiento de patrones. Proyecto Fin de Carrera de Alejandra Fernández Huertas, Mayo 2012. Universidad Autónoma de Madrid. Escuela Politécnica Superior
La Fonoscopía, también llamada Acústica Forense es la técnica criminalística cuya actividad comprende el conjunto de técnicas científicas de investigación judicial cuyo principal objeto de estudio son los registros sonoros y/o sus elementos afines  (soportes y medios de grabación, transmisión, reproducción, almacenamiento, etc).
Uno de sus campos de actuación es la identificaci6n de las personas por los fonogramas o sonogramas de la voz grabados en registros magnéticos o digitales, basada en las peculiaridades  de las impresiones espectrográficas asociadas a la pronunciación de las palabras.
WaveSurfer es una herramienta Open Source que permite editar de forma profesional casi cualquier archivo de audio. La aplicación puede ser utilizada tanto por usuarios expertos como por aprendices. 

Posee además una excelente utilidad para investigar el habla en el ámbito educativo, ya que permite analizar los sonidos del discurso.

Soporta gran variedad de formatos y dispone de funciones como convertir, amplificar, normalizar, invertir, silencio, mezclar canales…

WaveSurfer permite la visualización y manipulación de sonido.

WaveSurfer tiene una interfaz de usuario simple y lógica que proporciona la funcionalidad de un modo intuitivo y que puede ser adaptado a diferentes tareas.
WaveSurfer puede utilizarse como una herramienta independiente para una amplia gama de tareas en la investigación de discurso y educación. Las aplicaciones típicas son el análisis de discurso y la anotacióny transcripción de sonido.

WaveSurfer también puede servir como una plataforma para aplicaciones más avanzadas, especializadas. Esto se logra a través de la ampliación de la aplicación de WaveSurfer con nuevos plug-ins personalizados o por la incorporación de componentes de visualización de WaveSurfer en otras aplicaciones.

Algunos aspectos técnicos:

  • Interfaz flexible – maneja múltiples sonidos
  • Formatos comunes de archivos de sonido – Leer y escribir WAV, AU, AIFF, MP3, CSL, SD, Ogg/Vorbis y NIST/Sphere
  • Transcripción de formatos de archivo – Leer y escribir HTK (y MLF), TIMIT, ESPS / Waves + y Phondat. Soporte para codificaciones y Unicode.
  • Tamaño ilimitado – reproducción y grabación directamente desde/hacia el disco
  • Análisis de sonido – por ejemplo, los análisis de espectrograma y tono
  • Personalizable – los usuarios pueden crear sus propias configuraciones. Compatibilidad de localización.
  • Extensible – se puede agregar nueva funcionalidad a través de una arquitectura de plugin
  • Embebible – WaveSurfer puede utilizarse como un widget en aplicaciones personalizadas
  • Programable – aloja un intérprete de secuencia de comandos integrado