Μια νέα τεχνολογία για να καταστεί δυνατή η ταχύτερη αντίδραση στις εκθέσεις του εγκλήματος

IMC, Μάρτιος 2018

Όταν συμβαίνει ένα περιστατικό, υπάρχει ένα τεράστιο ποσό των πληροφοριών και των δεδομένων που πρέπει να υποβάλλονται σε επεξεργασία από τις υπηρεσίες επιβολής του νόμου (Leasing). Για να καταστεί δυνατή η ταχύτερη αντίδραση σε αυτές τις πληροφορίες, ένας από τους στόχους του έργου INSPEC2T είναι η συσχέτιση πληροφοριών που υποβάλλονται από τους πολίτες στις εκθέσεις τους για το έγκλημα. Αυτές οι πληροφορίες περιέχουν γεωγραφικές, γραπτές και μπορεί επίσης να περιέχουν πληροφορίες πολυμέσων (εικόνες, βίντεο ή ήχο). Μέρος της προσπάθειας της IMC ως τεχνικού εταίρου στο έργο INSPEC2T είναι η εφαρμογή τεχνικών και εργαλείων σημασιολογικής ανάλυσης, προκειμένου να αναλυθούν οι πληροφορίες κειμένου με στόχο τη συσχέτιση αναφορών. Ο συσχετισμός θα μπορούσε να συνδέσει πολλές εκθέσεις σχετικά με την ίδια Περιγραφή περιστατικών, την ίδια ύποπτη περιγραφή ή παρόμοια χαρακτηριστικά και στα δύο. Αυτό επιτρέπει στους χειριστές ασφαλούς πύλης να προσδιορίζουν γρήγορα το περιεχόμενο που έχει υποβληθεί και είτε να τα ομαδοποιεί σε ένα αρχείο συμβάντος είτε να τα συνδέει με παλαιότερα συμβάντα, παρέχοντας πρόσθετες πληροφορίες σχετικά με τον ύποπτο ή το συμβάν.

Πώς λειτουργούν οι τεχνικές σημασιολογικής ανάλυσης

Ξεκινώντας από την απλή λέξη-κλειδί και το μοτίβο που ταιριάζουν σε μια έκθεση περιέχει "ψηλός άνθρωπος, σκούρα μαλλιά, τατουάζ" θα μπορούσε να σχετίζεται με εκείνο που περιέχει "ο άνθρωπος με τατουάζ και σκούρα μαλλιά". Επιπλέον, χρησιμοποιώντας την τοποθεσία και το χρόνο (ειδικά η εγγύτητα στην τοποθεσία και το χρόνο) σε σχέση με την ίδια την περιγραφή θα οδηγήσει σε πιθανή συσχέτιση αυτών των εκθέσεων. Δεδομένου ότι κάθε πρόσωπο έχει μια διαφορετική προσέγγιση στη γραπτή γλώσσα, οι προαναφερθείσες περιγραφές μπορούν να συγκριθούν σε μια «ανά ίδια λέξη» απόσταση. Δηλαδή, πόσες λέξεις ταιριάζουν με τις συνολικές λέξεις της περιγραφής. Αυτό θα μπορούσε να μας οδηγήσει σε μια πιο αφηρημένη μέθοδο συσχέτισης έκθεση χωρίς την ανάγκη να προσδιορίσει κάθε λέξη στην περιγραφή και επίσης να καθορίσει τα επίπεδα της ομοιότητας, προκειμένου να προσδιοριστούν οι πιθανές συσχετίσεις.

Η παρακάτω εικόνα απεικονίζει τις δύο διαφορετικές διεργασίες.

Η ανάπτυξη της μεθοδολογίας με βάση το σκεπτικό (CRB)

Κατά τη διάρκεια της ανάπτυξης του συστήματος και των δοκιμών, ένα υψηλότερο επίπεδο της ανάλυσης του κειμένου επιτεύχθηκε με τη χρήση φυσικής επεξεργασίας γλώσσας (NLP). NLP μας βοηθά να προσδιορίσει όχι μόνο την ομοιότητα κείμενο, αλλά και τις λέξεις-κλειδιά του μηνύματος. Σε μια απλοϊκή έκδοση, NLP προσδιορίζει τις πιο σημαντικές/σημαντικές λέξεις-κλειδιά (ή σύνολα λέξεων-κλειδιών) στις φράσεις. Βασικά συστατικά NLP είναι το λεξικό και οι οντολογίες. Και οι δύο απαιτούν αυξημένη προσπάθεια για τη δημιουργία και τη συμπλήρωση, προκειμένου να έχουν μια μεγαλύτερη ομάδα των προσδιορισμένων λέξεων-κλειδιών και την ακρίβεια. Δεδομένου ότι η NLP είναι ένα ενδιάμεσο βήμα, κάθε αλλαγή, βελτιστοποίηση ή διόρθωση έπρεπε να ενημερωθούν σε όλες τις διαφορετικές οντολογίες και τις γλώσσες. Τέτοιες συνεχείς παράλληλες εργασίες δημιούργησαν διαφορετική επεξεργασία για την ίδια διαδικασία. Αυτό μπορεί να μετριαστεί με τη χρήση ενός μικρότερου τμήματος της ανάλυσης NLP.

Τέλος, η υπόθεση με βάση το σκεπτικό (CBR) είναι μια συνεχής μέθοδος για την ανάγνωση/correlating η οποία βασίζεται σε πολλά από τα παραπάνω εργαλεία για την εξαγωγή πληροφοριών από το κείμενο. Αυτή η διαδικασία μπορεί να περιγραφεί στην ακολουθία που απεικονίζεται κατωτέρω που αποτελείται από ανακτά, επαναχρησιμοποιεί, αναθεωρεί και διατηρεί τα στοιχεία που ακολουθείται από μια φάση διορθώσεων. Στη φάση διόρθωσης, τα επιτυχή αποτελέσματα αποθηκεύονται για επαναχρησιμοποίηση και παράλληλα αναθεωρούν τα αρχειοθετημένα (ήδη επεξεργασμένα) μέσω των νέων κανόνων.

Αναστατώνονται παράγοντες που έχουν προσδιοριστεί στη διαδικασία χρήσης τέτοιων τεχνικών στο συσχετισμό της έκθεσης INSPEC2T.  Ένας από αυτούς έχει διαφορετικές γλώσσες στο κείμενο περιγραφή των εκθέσεων, η οποία απαιτεί μια μεγάλη προσπάθεια για την αναγνώρισή τους και να διατηρήσουν NLP μηχανισμούς με ανά γλώσσα λεξικά και οντολογίες.  Ένα δεύτερο είναι η ταχύτητα της επεξεργασίας, όπως σε πραγματικό χρόνο που υποβάλλονται εκθέσεις απαιτούν αποτελέσματα σε πραγματικό χρόνο για να ενεργήσει γρηγορότερα.

INSPEC2T's πιλοτική δοκιμή έδειξε ότι η νοημοσύνη που παρέχεται από το μηχανισμό CBR μπορεί ενδεχομένως να βοηθήσει τον χειριστή για να επιβιώσει η υπερχείλιση πληροφοριών (διαλογής και αναζήτησης μεταξύ εκατοντάδων εκθέσεων), λαμβάνοντας συμβουλές σχετικά με πιθανές αντιστοιχίες έκθεση. Αυτό δημιουργεί πραγματικά εξυπνότερες αποφάσεις κατά τη διαδικασία ομαδοποίησης των εκθέσεων στο πλαίσιο ενός συμβάντος, δημιουργώντας πλεονεκτήματα τόσο στην ταχύτητα αντίδρασης όσο και στην αποτελεσματικότητα της κοινοτικής αστυνόμευσης.

Το blog της IMC επικεντρώνεται και απεικονίζει ορισμένες τεχνικές πτυχές της λύσης INSPEC2T δεδομένης IMC τεχνική εμπειρογνωμοσύνη. Παρακαλώ σημειώστε ότι η κοινοπραξία INSPEC2T θα διασφαλίσει ότι τα δικαιώματα απορρήτου και τα θεμελιώδη δικαιώματα των άλλων χρηστών θα τηρούνται ανά πάσα στιγμή. Θα παράσχουμε μια πλήρη ανάλυση των INSPEC2T νομικών και δεοντολογικών απαιτήσεων σε μια μελλοντική είσοδο blog.

×
Show

Tweets