Η ενότητα πολυμέσων Analytics στην πλατφόρμα INSPEC2T

VICOMTech-IK4, Δεκέμβριος, 2017

Στο πλαίσιο του στόχου του έργου INSPEC2T για την επιτάχυνση της επικοινωνίας και της ανταλλαγής πληροφοριών μεταξύ των αστυνομικών φορέων και των μελών της Κοινότητας, η VICOMTech-IK4 ανέπτυξε και ενσωμάτωσε επιτυχώς μια νέα τεχνολογία η οποία αυτόματα μεταγράφει προφορικά μηνύματα που στέλνουν οι πολίτες ως στοιχεία εγκλήματος.

Εδώ, επικεντρωνόμαστε και απεικονίζουμε κάποιες τεχνικές πτυχές της λύσης INSPEC2T. Παρακαλώ σημειώστε ότι η κοινοπραξία INSPEC2T θα διασφαλίσει ότι τα δικαιώματα απορρήτου και τα θεμελιώδη δικαιώματα των άλλων χρηστών θα τηρούνται ανά πάσα στιγμή. Θα παράσχουμε μια πλήρη ανάλυση των INSPEC2T νομικών και δεοντολογικών απαιτήσεων σε μια μελλοντική είσοδο blog.

Αυτή η τεχνολογία επιτρέπει στους χειριστές αστυνομίας για να λάβει την ιδιαίτερα σχολιασμένη και πληροφοριακή παραγωγή κειμένων από τις ακουστικές ηχογραφήσεις, και τις βασικές λέξεις σημείου ακόμα και όταν καταγράφονται κάτω από τις δυσμενείς ακουστικές συνθήκες. Η τεχνολογία έχει αναπτυχθεί για την αγγλική και την ισπανική γλώσσα και θα δοκιμαστεί σε σχεδόν πραγματικές συνθήκες και περιβάλλοντα. Μεταξύ άλλων παραμέτρων, ασχολείται με τη μεταβλητότητα στις αγγλικές εμφάσεις, τις ακουστικές συνθήκες, τις συναισθηματικές καταστάσεις και τις ακουστικές συσκευές σύλληψης. Τα τρία κύρια στοιχεία της αρχιτεκτονικής συστήματος είναι: (1) ένας μηχανισμός αναγνώρισης ομιλίας που μεταγράφει τα τμήματα ομιλίας σε ακατέργαστο κείμενο, (2) ένα capitalizer που εντοπίζει επώνυμες οντότητες και κατάλληλα ονόματα και τα κεφαλαιοποιήσει, και (3) μια ενότητα στίξης για να προσθέσετε πλήρη σταματά και κόμματα στο κεφαλαίο κείμενο.

Το σχήμα 1 παρουσιάζει την κύρια αρχιτεκτονική του εμπλουτισμένου συστήματος μεταγραφής που ενσωματώνεται στην πλατφόρμα INSPEC2T τόσο για την αγγλική όσο και για την ισπανική γλώσσα.

Φιγούρα 1-αρχιτεκτονική του εμπλουτισμένου συστήματος μεταγραφής που ενσωματώνεται στην πλατφόρμα INSPEC2T

Επιπλέον, ο μηχανισμός αναγνώρισης ομιλίας περιλαμβάνει μια λέξη-κλειδί τεχνολογία εντοπισμού (KWS) που ασχολείται με τον εντοπισμό των λέξεων-κλειδιών σε προφορικές εκφράσεις-το σύστημα δίνεται λέξεις-κλειδιά ως είσοδο και αναζητήσεις για τους στον ήχο.

Το πρώτο βήμα περιλαμβάνει την αναγνώριση ομιλίας του προφορικού περιεχομένου, δημιουργώντας ένα είδος δικτύου (γνωστό ως δικτυωτό πλέγμα) το οποίο συνδέει όλους τους συνδυασμούς πιθανών αναγνωρισμένων λέξεων στον ήχο (βλέπε εικόνα 2). Η διαδικασία αναζήτησης στη συνέχεια πραγματοποιείται πάνω από αυτό το δικτυωτό πλέγμα και οι λέξεις-κλειδιά ανακτηθούν μαζί με βαθμολογίες εμπιστοσύνης και χρονικά γραμματόσημα.

Το σχήμα 2 παρουσιάζει την κύρια αρχιτεκτονική του KWS συστήματος.

Σχήμα 2-αρχιτεκτονική του KWS συστήματος που ενσωματώνεται στην πλατφόρμα INSPEC2T

Τα συστήματα επιτυγχάνουν μια καλή επίδοση ακόμη και κάτω από τις αντίξοες συνθήκες δεδομένου ότι η κατάρτιση του ακουστικού και γλωσσικού προτύπου περιέλαβε μια μεγάλη ποικιλία των ακουστικών περιβαλλόντων και των στοιχείων κειμένων. Στην πραγματικότητα, τα καθαρά στοιχεία κατάρτισης έχουν αναμιχθεί με διάφορα θορυβώδη δείγματα από τα εστιατόρια, τα εμπορικά κέντρα και τους δρόμους προκειμένου να παραχθεί το πρόσθετο συνθετικό περιεχόμενο ομιλίας.

Αυτή η τεχνολογία αναγνώρισης ομιλίας χτίστηκε με τη χρήση των παραδειγμάτων της προχωρημένης μοντελοποίησης στην επιστημονική κοινότητα, χρησιμοποιώντας αλγόριθμους βαθιάς εκμάθησης για την κατασκευή ακουστικών και γλωσσικών μοντέλων.

×
Show

Tweets