Voz

You are currently browsing the archive for the Voz category.

firma-vocal-2017

En la Ley 22/2007, de 11 de julio, sobre comercialización a distancia de servicios financieros destinados a los consumidores se indican varias ideas importantes:

En la comercialización a distancia de los servicios financieros, deberá quedar constancia de las ofertas y la celebración de los contratos en un soporte duradero. Por soporte duradero se entiende todo instrumento que permita al consumidor almacenar la información dirigida personalmente a él, de modo que pueda recuperarla fácilmente durante un período de tiempo adecuado para los fines para los que la información está destinada y que permita la reproducción sin cambios de la información almacenada.

En el caso de comunicación a través de telefonía vocal, se observarán las siguientes normas:

a) al comienzo de toda conversación con el consumidor se indicará claramente la identidad del proveedor y el fin comercial de la llamada iniciada por el proveedor;

b) previa aceptación expresa del consumidor, sólo deberá suministrarse la información siguiente:

  1. la identidad de la persona en contacto con el consumidor y su vínculo con el proveedor;
  2. una descripción de las características principales del servicio financiero;
  3. el precio total que debe pagar el consumidor al proveedor del servicio financiero, incluidos todos los impuestos pagados a través del proveedor o, cuando no se pueda indicar un precio exacto, la base del cálculo que permita al consumidor comprobar el precio;
  4. indicación de que pueden existir otros impuestos o gastos que no se paguen a través del proveedor o que no los facture él mismo;
  5. la existencia o inexistencia de un derecho de desistimiento, de conformidad con el artículo 10 de la Ley 22/2007 y, de existir tal derecho, su duración y las condiciones para ejercerlo, incluida la información relativa al importe que el consumidor pueda tener que abonar con arreglo al artículo 11 de la citada Ley;

c) el proveedor informará al consumidor acerca de la existencia de información adicional disponible previa petición y del tipo de información en cuestión.

El proveedor comunicará al consumidor todas las condiciones contractuales, así como la información contemplada en la Ley, en soporte de papel u otro soporte duradero accesible al consumidor, con suficiente antelación a la posible celebración del contrato a distancia o a la aceptación de una oferta y, en todo caso, antes de que el consumidor asuma las obligaciones mediante cualquier contrato a distancia u oferta.

Corresponderá al proveedor la carga de la prueba del cumplimiento de las obligaciones que le incumban al amparo de la citada Ley, en materia de información al consumidor, así como del consentimiento del consumidor para la celebración del contrato y, cuando proceda, para su ejecución.

Los únicos sistemas que permiten cumplir de forma adecuada la Ley 22/2007 a través de la voz son los que recogen la prestación de consentimiento del consumidor y la incluyen en el mismo soporte duradero que se entrega al cliente, de forma que la prueba del consentimiento no solo la preserva el proveedor, sino que también queda a disposición del consumidor.

Si en el soporte duradero se cumplen también los requisitos del artículo 26 del Reglamento UE 910/2014 que regula la firma electrónica, nos encontramos ante una firma electrónica avanzada.

EAD Trust parte de un elaborado check list de requisitos para auditar soluciones, plataformas e implementaciones de firma electrónica vocal y a las que superan los criterios de auditoría les otorga un sello de calidad.

En 2017, los requisitos básicos se resumen en estos 10 puntos:

  1. Constancia de la prestación del consentimiento del firmante respecto de un documento por su propia voz y vinculación de la evidencia con el documento
  2. Resistencia a simulaciones de voz pregrabadas y sintetizadores de voz por posibles suplantadores.
  3. Simetría probatoria. Disponibilidad del documento para el firmante de forma inmediata y de los medios de prueba a un coste semejante al que tendría en papel la prueba sobre una firma manuscrita.
  4. Soporte duradero. Persistencia del documento para que las partes puedan probar la identidad de los firmantes y el contenido del documento en cualquier momento futuro.
  5. Posibilidad de comprobar la firma vocal y el contenido del documento por el firmante de forma sencilla, con una versión degradada de lo pronunciado por el firmante.
  6. Imposibilidad de extraer la voz grabada en alta calidad por parte de la entidad que aplica la tecnología y de incrustar la firma vocal en otros documentos.
  7. Posibilidad de comparar la voz grabada en alta calidad con otras indubitadas en un contexto forense y de resolución de controversias.
  8. Posibilidad de generar documentos híbridos, en papel y electrónicos.
  9. Disponibilidad de información para los firmantes o sus representantes legales respecto a la forma de aportar la prueba y analizarla en un contexto litigioso.
  10. Protección de la información conforme a la LOPD. Existencia de un procedimiento de detección y notificación a la autoridad de protección de datos de incidentes de seguridad que afecten a datos de carácter personal.

La solución Firvox de Biometric Vox permite la firma electrónica avanzada tal como la define el Reglamento Europeo UE 910/2014 (EIDAS), con la particularidad de incluir en ella la viva voz del firmante captada en el momento en que prestó el consentimiento, y con la posibilidad de aplicar las normas procesales que ya prevén la posibilidad de aportar informes periciales que diriman la controversia si alguna de las partes impugna una firma.

Al quedar la firma electrónica embebida en un documento PDF, el firmante recibe una información contractual tan completa como la que recibiría de firmar de su puño y letra un contrato en soporte papel, por lo que no tendrá ningún sentido en el futuro que las contrataciones telefónicas omitan aspectos tan importantes de la seguridad jurídica.

La solución ha sido la primera evaluada por los especialistas de EADTrust que han otorgado el sello de calidad de firma vocal a la plataforma tecnológica, tras comprobar el cumplimiento por parte de la solución de un larga relación de requisitos de seguridad técnica y jurídica según el modelo de mejores prácticas de contratación presencial y a distancia definido por la entidad para preservar con la mayor calidad probatoria la prestación del consentimiento verbalizada por el firmante.

La novedad ha sido recogida por diferentes medios de comunicación durante octubre de 2016 lo que ha dado lugar a diversos titulares:

 

La entidad Biometric Vox ha recibido la homologación de su sistema FirVox ver. 1.0 en el marco del Esquema de Firma Vocal Avanzada impulsado por European Agency of Digital Trust. El código de homologación es el FV-2016-001

El Sistema auditado es una Plataforma de Servicios de Firma Electrónica Avanzada en la definición del Reglamento Europeo UE 910/2014 (#eIdAS) que prevé el uso de la voz para la gestión de funciones de contratación y firma en diferentes contextos de uso.

Servirá para firmar electrónicamente contratos y otros documentos, de forma presencial y a distancia, captando la firma vocal del cliente y vinculando su consentimientos en documentos electrónicos de modo que en el caso de los contratos, estos tengan el máximo valor legal y cumplan con las mejores prácticas sectoriales.

El Esquema de Firma Vocal Avanzada está documentado mediante el sistema de gestión de evaluación de conformidad de TCAB (Trust Conformity Assessment Body) y la Auditoría la ha llevado a cabo EAD Trust que es una de las entidades homologadas por TCAB para realizar este tipo de auditorías.

En Murcia existe un ecosistema de empresas muy tecnológicas en cuyo contexto nació Biometric Box que ha sido la entidad impulsora de trabajos realizados por investigadores procedentes de la Universidad de Murcia que han desarrollado las tecnologías biométricas mas avanzadas basadas en Redes Neuronales, que son la clave de un sistema de contratación por voz  pionero en el mundo.

El sistema Firvox desarrollado por Biometric Vox da respuesta al reto de permitir que los propios intervinientes que contratan verbalmente reciban sus contratos en formato electrónico con la constancia de su voz prestando el consentimiento  y con el clausulado completo del contrato por escrito.

De esta forma se devuelve el equilibrio al consumidor respecto a la posibilidad de demostrar el contenido de un contrato y de quien lo suscribe, ya que garantiza que la prueba del contrato no esté solo a disposición de la entidad que adopta el sistema de contratación por voz.

El nuevo sistema puede ser disruptivo para el sector de la contratación a distancia a través de “contact centers” porque resuelve todos los requisitos que marca la ley en la actualidad, en particular los relativos a la firma electrónica avanzada en el marco del #eIdAS (Reglamento europeo 910/2014) y además resuelve el mismo tipo de problemas que en soporte papel se resuelven con la firma manuscrita de los contratos.

Tags:

Los contratos son acuerdos de voluntades y pueden tomar diversas formas. La forma contractual es el medio a través del cual se exterioriza el consentimiento de las partes. La voluntad de contratar puede mostrarse a través de hechos o actos concluyentes.

El contrato verbal es perfectamente válido excepto en los casos en los que la ley obligue a realizarlo en forma escrita, como en el caso de creación, modificación o extinción de derechos reales sobre bienes inmuebles, para los que se exige escritura pública ante Notario. Aunque son perfectamente legales, plantean un gran problema ya que es complicado probar su existencia en caso de incumplimiento.

El Código Civil en el artículo 1.278 establece que “Los contratos serán obligatorios, cualquiera que sea la forma en que se hayan celebrado, siempre que en ellos concurran las condiciones esenciales para su validez”.

Y, en el artículo 1.261 se indica que “No hay contrato sino cuando concurren los requisitos siguientes: 1º Consentimiento de los contratantes 2º Objeto cierto que sea materia de contrato y, 3º Causa de la obligación que se establezca”.

Sin embargo, los acuerdos de palabra suponen un problema en caso de desacuerdo en un momento posterior. Puede ser que resulte difícil probar su existencia porque una de las partes lo niega, o que ambas acepten su existencia pero no el contenido del acuerdo.

Por ello se ha extendido la cita en latín Verba volant scripta manent tomada de un discurso de Cayo Tito al senado romano, y que significa “las palabras vuelan, lo escrito permanece”.

Hasta no hace tanto, estas eran las principales maneras de probar que un contrato verbal era válido:

  1. Testigos: los testigos son una prueba admitida por el Derecho, por lo que es posible demostrar la existencia del acuerdo o aspectos del contenido si al celebrarlo estaban presentes otras personas que puedan actuar de testigos.
  2. Actos: Pueden ser actos anteriores, simultáneos o posteriores que muestren la intención de contratar de ambas partes.
  3. Hechos: Hechos que puedan demostrar que el contrato verbal realmente se celebró.
  4. Documentos: es posible que no haya un contrato por escrito detallando los términos pero sí se conserven otros documentos cuya existencia sea consecuencia lógica del acuerdo: recibos bancarios, facturas, emails, …

Ahora, gracias a la tecnología biométrica de voz, a la criptografía  y a soportes multimedia es posible realizar contratos verbales de forma presencial o a distancia (por ejemplo, por teléfono) garantizando la vinculación de las partes con el documento contractual , y gracias a previsiones incluidas en la normativa de firma electrónica, que un documento electrónico que sea soporte de la contratación verbal, lo sea de la firma electrónica vocal, que tendrá la consideración de firma electrónica avanzada.

 

El reconocimiento de orador o locutor, es una modalidad biométrica que parte de la voz de una persona para identificarla o confirmar su identidad. Se diferencia de otra modalidad destinada a reconocer las palabras pronunciadas y transcribirlas a texto escrito (reconocimiento de locución).

El proceso de reconocimiento de locutor depende de las características de la estructura física del tracto vocal de cada persona que afecta a las frecuencias de resonancia que matizan el sonido generado en mayor o menos medida por las cuerdas vocales y a algunos aspectos de vocalización y uso de giros y expresiones conscientes e inconscientes.

El reconocimiento de locutor, entre todas las técnicas biométricas, tiene la ventaja de su utilidad en contextos en los que no es posible la personación y facilita la evaluación de identidad a distancia.

El tipo de interfaz para la captación de la voz es un micrófono, dispositivo de bajo coste y muy ubicuo, presente en teléfonos analógicos convencionales, teléfonos digitales, teléfonos inteligentes, tabletas, ordenadores, equipos de radio,…

La verificación del orador, ha evolucionado a la par que las tecnologías de reconocimiento de voz y de síntesis de voz dado las similares características y desafíos que cada ambos enfoques tecnológicos conllevan.

En 1960, Gunnar Fant, un profesor sueco publicó un modelo que describía los componentes psicológicos de la producción de habla acústica, basado en el análisis de rayos x de individuos produciendo sonidos fónicos específicos. En 1970, Joseph Perkell utilizo rayos x en movimiento e incorporó la lengua y la mandíbula para expandir el modelo de Fant. Los sistemas de reconocimiento de locución originales utilizaban el resultado promedio de varios filtros analógicos para buscar coincidencias, muchas veces con la ayuda de humanos en el proceso.

En 1976, Texas Instruments construyó un  prototipo que ensayó la Fuerza Aérea de los Estados Unidos y la Corporación MITRE. A mediados de los 80s, el Instituto Nacional de Estándares y Tecnología (NIST) de Estados Unidos desarrolló el Grupo de Discurso NIST para estudiar y promover el uso de técnicas de procesamiento de discurso. Desde 1996, bajo la creación de la Agencia Nacional de Seguridad (NSA), el Grupo de Discurso de NIST ha llevado a cabo evaluaciones anuales, el Workshop de Evaluación de Reconocimiento de Voz, para fomentar el continuo avance de la comunidad de reconocimiento de voz.

El componente psicológico del reconocimiento de voz está relacionado con la forma física del tracto vocal de un individuo, que consiste de una vía respiratoria y cavidades de tejido blando de donde se originan los sonidos vocales. Para producir sonidos, estos componentes trabajan en combinación con los movimientos físicos de la mandíbula, la lengua, la laringe y las resonancias de los pasajes nasales, en incluso la cavidad torácica. Las características acústicas del habla provienen de los atributos físicos de las vías respiratorias. El movimiento de la boca y de las pronunciaciones son también componentes de comportamiento cuyo resultado se registra y modela para permitir el reconocimiento de una persona por su voz.

Hay dos formas de reconocimiento por voz: una dependiente del texto (modo limitado) y otro independiente del texto (modo  ilimitado). En un sistema que utiliza discurso dependiente del texto, el individuo presenta una frase fija de unos cuantos segundos (por ejemplo “mi voz es mi contraseña”) o una frase programada dentro del sistema (“Por favor diga los números: 33-54-63”) que mejora el grado de reconocimiento especialmente con usuarios que cooperan. Un sistema independiente del texto no posee ningún conocimiento “a priori” del contenido que expresa la persona que se pretende identificar y es mucho más flexible en situaciones en las que la persona de la que se obtiene la muestra no es consciente de que está siendo grabada porque se supone  que no desea cooperar, lo que presenta un reto de especial relevancia.

Las muestras de voz son ondas donde la variable del tiempo se extiende como coordenada horizontal y la de intensidad de sonido en la vertical. El sistema de reconocimiento de quien habla analiza el contenido de frecuencia del discurso, transformándolo del dominio del tiempo al dominio del espectro, y compara las características de calidad, duración, intensidad, dinámica y tono (componentes espectrales) de la señal.

En los sistemas dependientes del texto, durante la toma o fase de inscripción, el individuo pronuncia una palabra corta o frase (sentencia), capturada típicamente por un micrófono tal como el de un teléfono. La muestra de voz se convierte desde un formato analógico a uno digital, las características de la voz del individuo se extraen, luego se crea un modelo.

La mayoría de los sistemas de verificación de quien habla dependientes del texto utilizan el concepto de Cadenas Ocultas de Markov (HMM), que son modelos estocásticos que proporcionan una representación estadística de los sonidos producidos por el orador. El HMM representa las variaciones subyacentes y los cambios temporales a lo largo del tiempo en los estados del discurso utilizando las características de calidad, duración, intensidad de la dinámica y tono (componentes espectrales), mencionadas anteriormente.

Otro método matemático utilizado es el  Modelo de Mixturas Gausianas, una correspondencia de estados relacionada con HMM, que se utiliza frecuentemente para aplicaciones ilimitadas independientes del texto.  Como el HMM este método utiliza la voz para crear un número de vectores de estado que representan las variaciones de las formas del sonido, que son características de la fisiología y el comportamiento de un individuo.

Todos estos métodos comparan las diferencias y similitudes entre las entradas de voz y los tipos y estados de voz captados en una fase anterior para producir un resultado que señala el grado de coincidencia.

En el ámbito de la biometría de voz, especialmente en el ámbito académico, se registran grabaciones de las personas a las que se quiere identificar junto con las de otras que forman la base de comparación, de forma que la similitud de las comparaciones respecto a la persona a la que corresponde la grabación claramente sea discriminante en relación con la similitud respecto a las personas a las que no corresponde.

Tras el registro sonoro, durante la fase de reconocimiento, los mismos parámetros de calidad, duración, volumen y tono se extraen de la muestra tomada y se comparan con el modelo de la identidad, o de la supuesta identidad, y con otros modelos de otras voces. Los modelos de otras voces (o “antivoces”) contienen los estados de una gran variedad de individuos, excluyendo el modelo de la identidad, o supuesta  identidad, que se está buscando. La muestra de la voz o el registro de sus modelos se comparan para generar una indicación de grado de similitud, indicando en qué proporción la muestra captada se corresponde la referencia de la identidad buscada. Si la voz captada pertenece a la identidad alegada, el porcentaje de similitud reflejará que la muestra presenta mayores similitudes con la identidad alegada que con el modelo correspondiente a otras voces de la base.

Algunos de los retos que presenta esta tecnología son la susceptibilidad al canal de transmisión (ancho de banda, ruido, niveles de cuantificación, algoritmos de codificación, bitrate, eco del canal), y la variaciones de los micrófonos (sensibilidad, directividad, respuesta en frecuencias, ruido intrínseco, captación de ruido ambiental, eco ).

Los sistemas también deben lidiar con que las muestras iniciales se registran en un tipo de contexto y las que requieren autenticación se registran en otro, afectado por diferentes limitaciones.

Los sistemas de verificación de voz, exceptuando a los que utilizan frases instanciadas dinámicamente, también son susceptibles de ataques por spoofing si puede preverse una secuencia de preguntas y repuestas compatible con la utilización de una voz grabada. Algunas medidas anti-spoofing contemplan la repetición de una palabra o frase aleatoria.

Las investigaciones actuales en el área de reconocimiento de voz independiente del texto exploran aspectos como funciones prosódicas (ritmo, la velocidad, la modulación y entonación), tipos de personalidad e influencia parental, semántica, idiolectos, pronunciaciones e idiosincrasias, relaciones con el lugar de nacimiento, estatus socio-económico, nivel de educación.

 

No cabe duda de que las técnicas biométricas de gestión de identidad pueden aportar comodidad a los usuarios y son lo suficientemente robustas en la actualidad para prestar buenos servicios a las entidades que las adoptan.

Pero también es cierto que la información relacionada con los aspectos biométricos es personalísima y debe ser tratada con un cuidado extquisito desde el punto de vista de la preservación de derechos de privacidad, más allá de la letra de la ley de protección de datos de carácter personal.

La voz es uno de los parámetros biométricos que mejor se prestan para ser utilizados como elemento de autenticación:

  • Puede ser utilizado a distancia, por ejemplo a través del teléfono
  • Prmite una identificación preliminar por aquellos que conocen al locutor que es una buena primera aproximación respecto a la confirmación de identidad.
  • Puede ser utilizada en contextos dinámicos que presenten locuciones diferentes
  • Se pueden combinar con técnicas de reconocimiento del texto hablado para gestión de menús y control de lineas de acción en sistemas automatizados
  • Es susceptibe de un análisis profundo con técnicas fonéticas que eliminen la influencia de artefactos como voces impostadas. susurros, falsetes y afonías.

Las soluciones van avanzando y están ya disponibles para ser utilizadas como mecanismos que sustituyan a las passwords y contraseñas, e incluso para firmar documentos electrónicos.

Contacte con EADTrust en el 902 365 612 (o en el +34 91 716 0555) si desea saber como implantar una solución adecuada de firma vocal o de autenticación por voz que cumpla con todos los requisitos legales y aproveche los últimos avances técnicos.

 

Diversas empresas y universidades han desarrollado estudios sobre identificación unívoca de personas a través de una tecnología a la que denomina huella de voz.

Esta tecnología permite desarrollar aplicaciones capaces de identificar usuarios (o de autenticarlos una vez establecida su identidad) y crear sistemas seguros utilizables en entornos físicos y virtuales, tales como control de acceso a edificios inteligentes o a zonas protegidas de edificios, o a aplicaciones informáticas o servicios en la nube.

Con esta tecnología el acceso se puede realizar con tan sólo decir una frase (autenticar) o vocalizar el nombre o un identificador de seguridad del que pretende ek acceso (identificar), ya que el sistema verifica la identidad a partir de la valoración de las frecuencias conforme a un patrón que se modeliza matemáticamente.

El nivel de seguridad que garantiza esta tecnología es superior a la que ofrece un PIN de tarjeta de cuatro cifras. En esta comparación existe una probabilidad de uno entre 10.000 de que un usuario acierte al azar el valor del PIN mientras que  con la identificación de voz con técnicas de huella vocal las posibilidades de un acceso fortuito se reducen a una entre diez millones. Los sistemas espectográficos utilizados para la comprobación de identidad valoran los cambios de modulación y frecuencia de la voz y sus resonancias, que determinan una estructura del tracto vocal singular para cada persona, de forma semejante a lo que ocurre con la huella dactilar.