Das Multimedia Analytics-Modul in der INSPEC2T-Plattform

Vicomtech-IK4, Dezember, 2017

Im Rahmen des Ziels des INSPEC2T-Projekts, die Kommunikation und den Informationsaustauschzwischen Polizei Betreibern und Mitgliedern der Gemeinschaft zu beschleunigen, hat Vicomtech-IK4 eine neue Technologie entwickelt und integriert, die automatisch gesprochene Botschaften, die von Bürgern als Beweis der Kriminalität gesandt wurden.

Hier konzentrieren und illustrieren wir einige technische Aspekte der INSPEC2T-Lösung. Bitte beachten Sie, dass das INSPEC2T-Konsortium sicherstellt, dass die Datenschutz Rechte und die Grundrechte anderer Nutzer jederzeit respektiert werden. Wir werden eine vollständige Analyse der INSPEC2T rechtlichen und ethischen Anforderungen in einem zukünftigen Blog-Eintrag.

Diese Technologie ermöglicht es Polizei Betreibern, hoch kommentierte und informative Textausgabe von Audioaufnahmen zu erhalten und Stichwörter selbst dann zu erkennen, wenn Sie unter widrigen akustischen Bedingungen aufgezeichnet werden. Die Technologie wurde für englische und spanische Sprachen entwickelt und wird in nahezu realen Bedingungen und Umgebungen getestet. Neben anderen Parametern beschäftigt es sich mit der Variabilität in englischen Akzenten, akustischen Bedingungen, emotionalen Zuständen und Audio-Capture-Geräten. Die drei Hauptbestandteile der Systemarchitektur sind: (1) ein Spracherkennungsmodul, das sprach Segmente in RAW-Text umschreibt, (2) ein Kapital, das benannte Entitäten und Eigennamen erkennt und Sie nutzt, und (3) ein Interpunktions Modul, um vollständige stoppt und Kommas zum aktivierten Text.

Abbildung 1 stellt die Hauptarchitektur des reichen Transkriptions Systems dar, das in die INSPEC2T-Plattform für englische und spanische Sprachen integriert ist.

Abbildung 1: Architektur des umfangreichen Transkriptions Systems, das in die INSPEC2T-Plattform integriert ist

Zusätzlich enthält das Spracherkennungsmodul eine Keyword-Spotting-Technologie (Schlüsselworterkennung), die sich mit der Identifizierung von Keywords in gesprochenen Äußerungen befasst – das System erhält Stichwörter als Eingabe und sucht Sie im Audio.

Der erste Schritt beinhaltet die Spracherkennung des gesprochenen Inhalts und die Erzeugung eines Netzwerktyps (bekannt als Lattice), der alle Kombinationen möglicher erkannter Wörter im Audio miteinander verbindet (siehe Abbildung 2). Der Suchvorgang wird dann über dieses Gitter durchgeführt und die Schlüsselwörter werden zusammen mit Konfidenz Kerben und Zeitstempeln wiederhergestellt.

Abbildung 2 stellt die Hauptarchitektur des Systems "System" dar.

Abbildung 2: Architektur des in der INSPEC2T-Plattform integrierten System-Systems

Die Systeme erzielen auch unter widrigen Bedingungen eine gute Leistung, da die Ausbildung des Akustik-und Sprachmodells eine Vielzahl von akustischen Umgebungen und Textdaten enthielt. In der Tat wurden saubere Trainingsdaten mit mehreren lauten Proben aus Restaurants, Einkaufszentren und Straßen gemischt, um zusätzliche synthetische Sprachinhalte zu generieren.

Diese Spracherkennungs-Technologie wurde mit Hilfe der späten Modellierungs Paradigmen in der wissenschaftlichen Gemeinschaft aufgebaut und nutzte Tiefe Lernalgorithmen, um die akustischen und sprachlichen Modelle aufzubauen.

×
Show

Tweets