Semantische Analyse

Informationsgewinn - Wissensvorsprung durch semantische Analyse und Visualisierung von Verbrechensstrukturen

Von Reinhard Leimbach1 und Dr. Thorsten Liebig2


Das Erkennen verborgener Beziehungen in Ermittlungsdaten sowie die schnelle Überprüfung von Hypothesen sind die Schlüssel einer effektiven Ermittlungsarbeit in Polizeibehörden. Durch die Kombination semantischer Technologien mit einer intuitiven Informationsvisualisierung wird Analysten ein Werkzeug an die Hand gegeben, das bei vielfältig vernetzten Daten den notwendigen Überblick verschafft und gute Rechercheunterstützung bietet. Dieser Beitrag gibt einen aktuellen Einblick in dieses Thema und stellt exemplarisch eine Neuentwicklung vor.



„Kann der Neffe meiner Schwester die gleichen Eltern haben wie mein Sohn?“ Selbst einfache und bekannte Zusammenhänge können knifflige Fragen provozieren. Dies gilt insbesondere dann, wenn diese Zusammenhänge indirekt von anderen Objekten, wie z. B. verwandten Personen, abhängig sind. Letzteres trifft in besonderem Maße für komplexe Ermittlungsdaten zu, die Orte, Ereignisse, Asservate, polizeiliche Maßnahmen, Personen usw. über verschiedene Beziehungen vielfältig miteinander verknüpfen. In diesem Fall wird aus einer Knobelei ein ernsthaftes Problem.

Für die erfolgreiche Auswertung, Lagebilderstellung oder Ermittlungsstrategie benötigen Fallbearbeiter als auch Analysespezialisten deshalb einen schnellen Überblick und das richtige Verständnis der oftmals komplexen Fallzusammenhänge. Dies wird umso schwieriger, je größer der Datenbestand ist und umso weniger man mit diesem vertraut ist. In sogenannten Strukturdateien werden beispielsweise über einen längeren Zeitraum eigene und angelieferte Ermittlungsdaten zu einem Deliktbereich erfasst. Diese Datenbestände erreichen oftmals einen Umfang von mehreren zehntausend Einzelinformationen und Verknüpfungen. Herkömmlichen Analyseansätzen fehlt die Interpretationsfähigkeit der Daten. Werkzeuge auf der Basis dieser Ansätze können deshalb nur begrenzte Unterstützung für die ad hoc-Identifikation relevanter Verknüpfungsketten oder die schnelle Überprüfung von Hypothesen bieten. Für diesen Anwendungsfall bietet die Kombination von semantischen Verarbeitungsmethoden mit innovativen Visualisierungsansätzen neue Möglichkeiten, welche die Analysearbeit effektiv unterstützen.


Semantik = Daten + Bedeutung

Semantik (Bedeutungslehre) befasst sich insbesondere mit der Bedeutung von Wörtern und Sätzen in natürlich-sprachlichen Aussagen. Im IT-Umfeld versteht man unter semantischen Systemen Anwendungen, die Daten gemäß ihrer jeweiligen Bedeutung sinnvoll verarbeiten. Dieses Thema ist seit Jahrzehnten ein Forschungsgebiet der Künstlichen Intelligenz und die Forschungsergebnisse finden aktuell ihren Weg in die Praxis. So ist Google beispielsweise dabei, die Zusammenhänge zwischen einzelnen Schlagworten und Sachgebieten inhaltlich auszuwerten, um besser zu verstehen, wonach bei einer Anfrage gesucht wird. Apples Sprachassistent Siri arbeitet bereits semantisch und gibt z. B. dem Begriff ’Bruder’ eine individuelle Bedeutung, indem diesem durch Nachfrage ein Adressbuchkontakt zugeordnet wird. Siri „weiß“ also, dass ein Bruder eine Beziehung zwischen Personen darstellt, kann hierzu eine Person zuordnen und damit dieser Beziehung eine verwertbare Bedeutung für die weitere Kommunikation geben.

Die semantische Verarbeitung in der polizeilichen Analyse geht noch einen Schritt weiter. Polizeiliche Daten liegen bereits strukturiert vor, und es lässt sich in Zusammenarbeit mit Analysten ein flexibles, semantisches Datenmodell, eine sogenannte Ontologie, entwickeln. Ein solches semantisches Datenmodell enthält neben sozialen Beziehungen zwischen Personen insbesondere fachspezifisches Wissen, z. B. über geografische Zusammenhänge, Kommunikation, Tatbestände, Eigentumsverhältnisse usw., und gibt den Ermittlungsdaten damit eine Bedeutung. Ein großer Vorteil semantischer Datenmodelle ist deren Flexibilität. Auch im laufenden Betrieb kann das Datenmodell angepasst und erweitert werden, wenn sich etwa fachliche Anforderungen über die Zeit ändern. Diese Flexibilität gewährleistet zudem, dass auch sehr themenspezifische Datenmodelle kompatibel zum kommenden Informationsmodell der Polizei (IMP)3  geführt werden können, indem eine Abbildung auf die dort festgelegten Klassen und Beziehungen definiert wird. Diese Interoperabilität ist wichtig, da IMP das Kerndatenmodell des INPOL-Verbundes bildet und in Kürze flächendeckend eingeführt wird.

Der entscheidende Nutzen des semantischen Datenmodells entsteht jedoch während der Recherche. Beispielsweise ist für die Auswertung familienzentrierter Mafiastrukturen - wie der kalabrischen „Ndrangheta“ - die Verwandtschaftsbeziehung und der Ortsbezug von besonderer Relevanz. Sucht man hier zu einer Personenmenge die Verwandten dritten Grades, so ist dieser Zusammenhang in der Regel nicht ausdrücklich erfasst und muss über die Kind-, Eltern- und Geschwisterbeziehung hergeleitet werden. In einem semantischen Datenmodell lässt sich diese Bedeutung allgemein formulieren: Z. B., dass ein Neffe durch die Verkettung einer Geschwister- mit einer Kindbeziehung definiert ist. Die Geschwisterbeziehung kann dabei wiederum aus Unterbeziehungen, wie entweder der Bruder- oder der Schwesterbeziehung, bestehen. Mit Hilfe eines Schlussfolgerungssystems wird dieses Wissen automatisch ausgewertet und kann bei der Suche direkt ausgenutzt werden. Im semantischen Datenmodell kann ebenfalls die wechselseitige Bedeutung von Verwandtschaftsbeziehungen abgebildet werden (z. B. Kind bzw. Elternteil), so dass eine fehlende Beziehungsrichtung bei der Auswertung automatisch ergänzt werden kann. Auch kann das Schlussfolgerungssystem die Plausibilität der Daten überprüfen (z. B. sind Kinder mehr als 10 Jahre jünger als ihre Eltern) und Inkonsistenzen erkennen (z. B. Töchter müssen weiblich sein).


Interaktive, visuelle Exploration von Daten

Semantische Methoden helfen, große Datenmengen entsprechend ihrer Bedeutung zu verarbeiten und versteckte Zusammenhänge zu erschließen. Umfangreiche Datenbestände sind jedoch schwer visuell darzustellen. Insbesondere, wenn es sich um stark vernetzte Daten handelt. Fallbearbeiter benötigen hier die Möglichkeit, spezifische Beziehungen im Detail einzusehen und gleichzeitig die große Struktur intuitiv zu erfassen. Traditionelle Visualisierungen wie Tabellen, Netzdarstellungen oder Diagramme besitzen hier konzeptbedingte Nachteile. So lassen sich Informationen in Tabellen zwar kompakt darstellen, Beziehungsketten aber nicht auf einen Blick verfolgen. Letzteres ist mit einer Netzansicht möglich, die jedoch ohne vorherige Filterung für große Datenmengen keine praktikable Lösung darstellt, da allein die Hinzunahme der direkt verknüpften Objekte eines Knotens eine unerwartete Vervielfachung der Objektanzahl zur Folge haben kann.

Innovative Visualisierungs- und Interaktionskonzepte können hier weiterhelfen. Schlüssel zur interaktiven Exploration und intuitiven Erfassung übergeordneter Zusammenhänge sind Filter und Aggregationsmethoden. Diese Erkenntnis basiert auf Ergebnissen aus dem Forschungsgebiet der Informationsvisualisierung. Das dort von Visualisierungspionier Prof. Ben Shneiderman aufgestellte Information Seeking Mantra fordert insbesondere: „Überblick zuerst, Details bei Bedarf“. Informationsvisualisierung ist demnach in hohem Maße ein interaktiver Prozess, der zunächst einen aggregierten Überblick geben soll, der schrittweise durch Zoomen und Filtern bestimmte Daten hervorhebt und unwichtigere Teile ausblendet4. Um die Leistungsfähigkeit unseres visuellen Wahrnehmungssystems optimal zu nutzen, sollte eine Informationsdarstellung deshalb unterschiedlich abstrakte Sichten erzeugen und automatisch inhaltsbezogene Zusammenfassungen anbieten. Im Forschungsgebiet der Informationsvisualisierung haben sich in den letzten Jahren hier interessante Ansätze wie Hyperbolic View, TreeMap, TableLens u. a. entwickelt, die sich für bestimmte Arten von Daten ausgezeichnet eignen.

Polizeiliche Falldaten sind heterogen vernetzt, d. h., die vorkommenden Datenverknüpfungen sind nicht gleich verteilt. Für ein derart unvorhersehbares Geflecht unterschiedlicher Beziehungen eignet sich insbesondere ein neu entwickelter Visualisierungsansatz, der auf einer Clusterdarstellung basiert. Diese sorgt dafür, dass Datenobjekte ähnlicher Art zusammengefasst (geclustert) in einem Bereich als Punkte dargestellt werden. Überschreitet die Anzahl der Datenobjekte in einem Cluster jedoch eine Schwelle, so wird von einzelnen Daten abstrahiert und lediglich ein gemeinsamer Stellvertreter dargestellt. Beziehungen zwischen Clustern werden ebenfalls zusammengefasst und als ein Band dargestellt, wobei Zahlen die Anzahl der verknüpften Objekte in vorhergehenden Clustern anzeigen. Hierdurch entsteht ein keulenartiges Netzwerk von Datengruppen, in das bestimmte Detailinformationen nach Nutzerwunsch zusätzlich eingeblendet werden können.

 

InSpect Clustervisualisierung eines Netzwerks von Objekten und Beziehungen sowie Vorschau von Kategorien mit Beziehungen zur Expansion. Semantische und visuelle Falldatenanalyse mit InSpect

 

Das Analysewerkzeug „InSpect“ kombiniert semantische Verarbeitungsverfahren mit einer interaktiven, Cluster-basierten Visualisierung speziell für den Anwendungsbereich der polizeilichen Falldatenanalyse. Typischerweise startet ein Analyst dabei mit einer Objektkategorie, z. B. Person aus dem Auswahlbaum des semantischen Datenmodells. Via Drag'n'Drop lassen sich die Objekte im Analysebereich als Cluster visualisieren. Per Mausklick auf den Cluster werden dem Analyst die mit diesem Cluster verbundenen Objektkategorien und die zugehörigen Beziehungen zur Expansion angeboten. Bei einem Cluster von Personen umfasst dies u. a. weitere Personen, die über Sozial-, Kommunikationsbeziehungen verbunden sind. Dies funktioniert sowohl für den gesamten Cluster als auch mit einzelnen Objekten und an jeder Stelle des Netzwerks, sodass sehr zielgerichtet und in verschiedene Beziehungsrichtungen exploriert werden kann. Bei der Beziehungsauswahl macht sich „InSpect“ das semantische Datenmodell zunutze und bietet beispielsweise bei Sozialbeziehungen neben allgemeinen auch abgeleitete Beziehungen (z. B. verwandt im 3. Grad, Neffe) sowie Unterbeziehungen (z. B. Kind, Bruder, Ehepartner) an. Des Weiteren können einzelne Objekte mit Fahnen markiert werden und konkrete Objektbeziehungen werden beim Überfahren von Objekten farblich hervorgehoben und auf Wunsch in einer Tabelle aufgelistet.


Interaktives Analysewerkzeug InSpect mit Kartendarstellung, Objekt- und Filterauswahl (links) und Dossier für Detailinformationen (rechts)


Zu jeder Zeit können Objektkategorien auch als Filter auf bestehende Cluster per Drag'n'Drop angewendet werden, um z. B. Personen auf volljährige Männer einzuschränken. Alle Einschränkungen propagieren sich automatisch im Netzwerk. Individuelle Filter können durch Einschränkungen von Objektausprägungen erstellt werden (z. B. Jugendliche aus Problembezirken, Personen mit einer bestimmten Staatsangehörigkeit). Diese Filter verbleiben im Filterverlauf für die rasche Wiederverwendung. Optional blendet das System eine Statistik (Histogramm) zu den Objekten eines Clusters ein (bei Personen z. B. wie hoch ist der Anteil von Männern, Frauen, Deutschen, usw.). Darüber hinaus steht ein Geoinformationssystem zur Hotspot-Analyse von Ereignisorten und Adressen zur Verfügung. Eine chronologische Zeitleiste und eine automatische Reportfunktion für die Generierung von Berichten (z. B. in Powerpoint) runden das Analysewerkzeug „InSpect“ ab.


Fazit und Ausblick

Die erfolgreiche Auswertung von Ermittlungsdaten ist eine zeit- und ressourcenkritische Aufgabe, die auf eine adäquate Werkzeugunterstützung angewiesen ist. Semantische Technologien und interaktive Informationsvisualisierung bilden hier einen sich ergänzenden Ansatz, der die Exploration von komplexen Datenmengen sehr gut unterstützt.

Für die Falldatenanalyse bedeutet das

  • einen Effizienzgewinn durch intuitive Visualisierung,
  • eine intelligente Auswertungsfunktion,
  • eine Qualitätsverbesserung durch mehr relevante Treffer,
  • die Erschließung und Gewinnung neuer Erkenntnisse, sowie
  • neue Möglichkeiten für eine Hypothesenbildung bzw. -überprüfung.

Das in diesem Beitrag vorgestellte Recherchewerkzeug „InSpect“ wurde beispielsweise für seine übersichtliche Visualisierung und effiziente Analyse eines kriminellen sozialen Netzwerks bei einem internationalen Wettbewerb5 ausgezeichnet. Der Ansatz ist dabei unabhängig von der zugrunde liegenden Falldatensoftware einsetzbar und durch die Kompatibilität mit dem IMP zukunftssicher. Anbindungen des von der derivo GmbH6  entwickelten Analysewerkzeugs „InSpect“ an die weit verbreiteten Lösungen CRIME7  und rsCase8  sind erfolgreich verlaufen. Und natürlich lässt sich hiermit zeigen, dass der Neffe meiner Schwester in der Tat die gleichen Eltern haben kann wie mein Sohn.

 

 

[1] Reinhard Leimbach, KHK i.R. mit verantwortlicher und fachlicher Tätigkeit in der polizeilichen IT seit 1977 u. a. bei der CRIME-Einführung in Hessen und seit 1993 Lehrbeauftragter an der Hessischen Hochschule für Polizei und Verwaltung (HfPV).

[2] Dr. Thorsten Liebig, Geschäftsführer der derivo GmbH mit langjähriger Forschungs- und Entwicklungserfahrung im Bereich künstlicher Intelligenz und semantischer Technologien.

[3] Projektleitfaden  XPolizei, BKA, 2010, http://goo.gl/y8Lq9

[4] Schumann, H.: Informationsvisualisierung - Methoden und Perspektiven. Beitrag zum 18. Wissenschaftlichen Kolloquium des Statistischen Bundesamtes, Wiesbaden, November, 2009

[5] Visual Analytics Science and Technology Award, IEEE VAST, 2009

[6] derivo GmbH, Ulm, www.derivo.de

[7] CRIME, Criminal Research Investigation Management Software

[8] rsCase, rola Security Solutions GmbH

 

 

 

nach oben

Über den Autor
Autor: Helmut Brückmann
Weitere Artikel