De multimedia Analytics module in het INSPEC2T platform

Vicomtech-IK4, december, 2017

Als onderdeel van de doelstelling van het INSPEC2T-project om de communicatie en de uitwisseling van informatie tussen politieagenten en leden van de Gemeenschap te versnellen, heeft Vicomtech-IK4 met succes een nieuwe technologie ontwikkeld en geïntegreerd die automatisch gesproken berichten die door burgers als misdaad bewijs worden gestuurd.

Hier richten we ons op en illustreren we enkele technische aspecten van de INSPEC2T oplossing. Houd er rekening mee dat het INSPEC2T consortium ervoor zal zorgen dat de privacy rechten en de fundamentele rechten van andere gebruikers te allen tijde worden geëerbiedigd. Wij zullen een volledige analyse van de INSPEC2T wettelijke en ethische vereisten in een toekomstig blogbericht verstrekken.

Deze technologie maakt het mogelijk politie-exploitanten te verkrijgen zeer geannoteerde en informatieve tekst output van audio-opnames, en spot sleutelwoorden, zelfs wanneer opgenomen onder ongunstige akoestische omstandigheden. De technologie is ontwikkeld voor Engels en Spaans talen en zal worden getest in bijna reële omstandigheden en omgevingen. Onder andere parameters, het gaat over de variabiliteit in het Engels accenten, akoestische omstandigheden, emotionele toestanden en audio-opname-apparaten. De drie belangrijkste onderdelen van de systeemarchitectuur zijn: (1) een spraakherkennings-engine die spraak segmenten transcribeert naar onbewerkte tekst, (2) een hoofdletter die de benoemde entiteiten en de juiste namen detecteert en ze indeelt, en (3) een leesmodule voor het toevoegen van volledige stopt en komma's naar de geactiveerde tekst.

Figuur 1 presenteert de belangrijkste architectuur van het rijke transcriptiesysteem geïntegreerd in het INSPEC2T platform voor zowel Engelse als Spaanse talen.

Figuur 1-architectuur van het rijke transcriptiesysteem geïntegreerd in het INSPEC2T platform

Daarnaast, de spraakherkenning motor bevat een Keyword spotting technologie (KWS) die zich bezighoudt met de identificatie van trefwoorden in gesproken uitingen-het systeem wordt gegeven trefwoorden als input en zoekt voor hen in de audio.

De eerste stap omvat de spraakherkenning van de gesproken inhoud, het genereren van een type netwerk (bekend als Lattice), die alle combinaties van mogelijke herkende woorden in de audio verbindt (zie figuur 2). Het het zoeken proces wordt dan uitgevoerd over dit rooster en de sleutelwoorden worden teruggekregen samen met betrouwbaarheids scores en tijd-zegels.

Figuur 2 presenteert de belangrijkste architectuur van het KWS systeem.

Figuur 2-architectuur van het KWS systeem geïntegreerd in het INSPEC2T platform

De systemen bereiken een goede prestatie, zelfs onder ongunstige omstandigheden als de opleiding van de akoestische en taalmodel omvatte een grote verscheidenheid van akoestische omgevingen en tekstgegevens. In feite, zijn de schone Opleidingsgegevens gemengd met verscheidene lawaaierige steekproeven van restaurants, winkelende centra en straten om extra synthetische toespraak inhoud te produceren.

Deze spraakherkenning technologie werd gebouwd in dienst van de Latet modellering paradigma's in de wetenschappelijke gemeenschap, met behulp van diepe leer algoritmen om de akoestische en taalmodellen te bouwen.

×
Show

Tweets