El módulo de analítica multimedia en la plataforma INSPEC2T

Vicomtech-IK4, diciembre, 2017

Como parte del objetivo del proyecto INSPEC2T de acelerar la comunicación y el intercambio de información entre los operadores de la policía y los miembros de la comunidad, Vicomtech-IK4 ha desarrollado y integrado con éxito una nueva tecnología que transcribe automáticamente mensajes hablados enviados por los ciudadanos como evidencia del crimen.

Aquí, nos centramos en e ilustramos algunos aspectos técnicos de la solución INSPEC2T. Tenga en cuenta que el consorcio INSPEC2T se asegurará de que los derechos de privacidad y los derechos fundamentales de otros usuarios serán respetados en todo momento. Le proporcionaremos un análisis completo de los requisitos legales y éticos de INSPEC2T en una futura entrada en el blog.

Esta tecnología permite a los operadores de la policía obtener resultados de texto altamente anotados e informativos de grabaciones de audio, y palabras clave de spot incluso cuando se registran en condiciones acústicas adversas. La tecnología se ha desarrollado para los idiomas inglés y español y se probará en condiciones y ambientes casi reales. Entre otros parámetros, se trata de la variabilidad en acentos ingleses, condiciones acústicas, Estados emocionales y dispositivos de captura de audio. Los tres componentes principales de la arquitectura del sistema son: (1) un motor de reconocimiento de voz que transcribe segmentos de voz a texto crudo, (2) un capitalizador que detecte entidades nombradas y nombres apropiados y los capitaliza, y (3) un módulo de puntuación para agregar completo paradas y comas al texto capitalizado.

La figura 1 presenta la arquitectura principal del rico sistema de transcripción integrado en la plataforma INSPEC2T para los idiomas inglés y español.

Figura 1-arquitectura del rico sistema de transcripción integrado en la plataforma INSPEC2T

Además, el motor del reconocimiento de voz incluye una tecnología de localización de palabras clave (KWS) que se ocupa de la identificación de palabras clave en las expresiones habladas – el sistema se da palabras clave como entrada y las búsquedas en el audio.

El primer paso incluye el reconocimiento de voz del contenido hablado, generando un tipo de red (conocida como Lattice) que conecta todas las combinaciones de posibles palabras reconocidas en el audio (ver figura 2). El proceso de búsqueda se realiza a través de este entramado y las palabras clave se recuperan junto con las puntuaciones de confianza y los sellos de tiempo.

La figura 2 presenta la arquitectura principal del sistema KWS.

Figura 2-arquitectura del sistema KWS integrado en la plataforma INSPEC2T

Los sistemas logran un buen desempeño incluso en condiciones adversas ya que la formación del modelo acústico y lingüístico incluía una gran variedad de entornos acústicos y datos de texto. De hecho, se han mezclado datos de entrenamientos limpios con varias muestras ruidosas de restaurantes, centros comerciales y calles para generar contenido de habla sintética adicional.

Esta tecnología de reconocimiento de voz se construyó empleando los paradigmas de modelización tardía en la comunidad científica, utilizando algoritmos de aprendizaje profundo para construir los modelos acústicos y lingüísticos.

×
Show

Tweets