FAKE NEWS
Foto: © Fraunhofer FKIE

Software für die automatisierte Erkennung von Fake News

Machine Learning: Social Media-Daten auswerten 

Erfundene Nachrichten, verdrehte Fakten – Fake News verbreiten sich rasant im Netz und werden oft unbedacht geteilt, vor allem in den Sozialen Medien. Fraunhofer-Forscherinnen und -Forscher haben ein System entwickelt, das Social Media-Daten automatisiert auswertet und bewusst gestreute Falschmeldungen und Desinformationen gezielt herausfiltert.

Das Tool nutzt dafür sowohl inhaltliche als auch Metadaten, wobei es die Klassifikation mit Machine Learning erworben hat und diese in Interaktion mit dem Nutzer während der Anwendung verbessert.

Um Fake News zu erkennen, bewertet das Tool des Fraunhofer FKIE nicht nur Texte, sondern bezieht auch Metadaten in die Analyse ein.

Falschmeldungen werden zur Stimmungsmache oder Hetze gegen einzelne oder mehrere Personen genutzt. Sie sollen die öffentliche Meinung zu bestimmten aktuellen Themen beeinflussen und manipulieren. Diese Fake News verbreiten sich rasant über das Internet, vor allem über Soziale Medien wie Facebook und Twitter. Sie zu identifizieren ist schwierig. Hier setzt ein Klassifikationstool des Fraunhofer-Instituts für Kommunikation, Informationsverarbeitung und Ergonomie FKIE an. Es wertet Informationen aus Social Media-Beiträgen automatisiert aus. Das System erschließt große Datenmengen. Es bewertet nicht nur Texte, sondern bezieht auch Metadaten in die Analyse ein und bereitet die Ergebnisse grafisch auf. »Mit unserer Software fokussieren wir uns auf Twitter und Webseiten. In den Tweets werden die Links veröffentlicht, unter denen die eigentlichen Fake News zu finden sind. Die sozialen Medien liefern sozusagen den Trigger. Die eigentlichen Falschmeldungen finden sich häufig auf Webseiten, die denen von Nachrichtenagenturen nachempfunden und nur schwer von den Originalen zu unterscheiden sind. Oftmals liegen ihnen DPA-Meldungen zugrunde, die sprachlich verändert wurden«, erläutert Prof. Dr. Ulrich Schade, Wisssenschaftler am Fraunhofer FKIE, dessen Forschungsgruppe das Tool entwickelt hat.

Im ersten Schritt bauen Schade und sein Team Bibliotheken mit seriösen Beispielbeiträgen auf sowie mit solchen Texten, die der Nutzer als Fake News klassifiziert. Mithilfe dieser Lernsets wird das System trainiert. Um Falschmeldungen herauszufiltern, wenden die Forscherinnen und Forscher »Machine Learning«-Verfahren an, die automatisiert nach bestimmten Merkmalen in den Texten und den Metadaten suchen. Das können beispielsweise in einem politischen Kontext auf semantischer Ebene Formulierungen und Wortkombinationen sein, die sich weder im alltäglichen Sprachgebrauch noch in der journalistischen Berichterstattung finden wie »die aktuelle Bundeskanzlerin«. Zu den Merkmalen zählen auch sprachliche Fehler. Dies ist insbesondere dann der Fall, wenn der Autor für die Formulierung der Fake News Deutsch und nicht seine eigene Muttersprache verwendet. Dann deuten etwa falsche Gedankenstriche, Orthografie-, Deklinations- oder Satzbaufehler darauf hin, dass eine Meldung eine Fake News sein könnte. Unangemessene Ausdrücke oder umständliche Formulierungen können ein weiteres Indiz sein.

»Füttern wir unser Tool mit vielen Merkmalen, so sucht sich das Verfahren selbstlernend diejenigen heraus, die funktionieren. Entscheidend ist auch, welche ›Machine Learning‹-Verfahren dann die besten Ergebnisse liefern. Das ist sehr aufwändig, da man die diversen Algorithmen mit unterschiedlichen Kombinationen von Merkmalen durchrechnen lassen muss«, so Schade.

Metadaten liefern entscheidende Hinweise

Zu den Merkmalen zählen auch Metadaten. Diese spielen eine wichtige Rolle, wenn es darum geht, richtige von falschen Meldungen zu unterscheiden: Wie häufig wird gepostet, wann wird ein Tweet abgesetzt und um welche Uhrzeit. Aufschlussreich ist der Zeitpunkt eines Posts. Er kann darauf hinweisen, aus welchem Land und welcher Zeitzone der Sender Meldungen absetzt. Eine hohe Sendefrequenz deutet auf Bots hin, was die Wahrscheinlichkeit einer Fake News erhöht. Die Social Bots senden ihre Links an sehr viele Nutzer, um etwa Unsicherheit in der Bevölkerung zu verbreiten. Auch die Vernetzung der Accounts und Follower kann für Analysten von großer Bedeutung sein.

Die Sendedaten und deren Anzahl aber auch die Netze der Follower lassen sich in Form von Heatmaps und Graphen visualisieren. Aus der Struktur der Netze und ihrer Knoten lässt sich beispielsweise ablesen, welcher Knoten eine Fake News in Umlauf gebracht oder eine Fake News-Kampagne initiiert hat.

Auch Hate Speech lässt sich automatisiert erkennen. Beiträge, die sich als Nachrichten ausgeben, aber in Passagen Hate Speech verwenden, verweisen gern über Links auf Fake News. »Hier ist es dabei wichtig, einen Klassifikator zu entwickeln, der die eindeutigen Fälle identifiziert. Dies sind beispielsweise Ausdrücke wie ›Politischer Abschaum‹ oder ›Nigger‹«, sagt der Linguist und Mathematiker.

Die Wissenschaftlerinnen und Wissenschaftler können ihr System an unterschiedliche Arten von Texten anpassen, um diese zu klassifizieren. Sowohl Behörden als auch Unternehmen nutzen das Tool, um gezielt Desinformation aufzudecken und umfassend zu bekämpfen. »Unsere Software lässt sich für jeden Kunden individuell anpassen und trainieren. Behörden kann es als Frühwarnsystem dienen«, sagt Schade.

Zusatzinformation

Das von Fraunhofer FKIE entwickelte Tool zur automatisierten Erkennung sogenannter »Fake News« kann als Frühwarnsystem betrachtet werden. Es scannt Social-Media-Nachrichten und filtert Nachrichten heraus, die spezifische Merkmale aufweisen. Das System führt anschließend jedoch keinen automatisierten Wahrheitscheck und erst recht keine Zensur durch. Die letztendliche Bewertung der als potenzielle Fake News erkannten Nachrichten obliegt den Nutzern. Ziel ist es, auffällige Nachrichten zu erkennen und frühzeitig die Aufmerksamkeit auf sie zu lenken, sodass ihre Weiterverbreitung bei Bedarf beobachtet werden kann. Es handelt sich somit um ein Vorselektions- und Alert-System, dass Nutzer bei der Auswertung und Beobachtung der Nachrichtenlage unterstützt.

Das System ist ein Klassifikationstool, das mithilfe zweier Korpora lernt: einer Menge von als Fake News eingeschätzter Nachrichten und einer gleichgewichtigen Menge valider Nachrichten zu gleichen Thematiken. Die Korpora muss ein Nutzer selbst erstellen. Durch die Gegenüberstellung lernt das System, welche Merkmale Fake News von den validen Nachrichten unterscheiden. Als mögliche Merkmale werden sowohl sprachliche Daten, etwa die Wortwahl oder der Satzbau, aber auch Metadaten in die Analyse einbezogen. So weisen beispielsweise Nachrichten, die über Social Bots verbreitet werden, häufig bestimmte Muster in den Metadaten auf. Da die Verbreitung über Bots verstärkt für die Verbreitung von Falschnachrichten eingesetzt wird, bietet ein solches Muster einen Hinweis auf Fake News. Prinzipiell müssen aber immer mehrere Merkmale zusammen auf Fake News hinweisen, um eine entsprechende Klassifikation auszulösen. Insgesamt bietet das System so ein hilfreiches Instrument zur Erkennung einer Vielzahl von Fake News.

-PM Fraunhofer-

 

Digitale Identitäten sicher verwalten

Fraunhofer AISEC entwickelt Alternative zum Login via Facebook, Google und Co.

Immer mehr Webseiten und Apps bieten ihren Nutzern im Login- oder Registrierungsbereich die Option, sich ihre digitale Identität über einen privaten E-Mail-Server oder Social-Media-Account bestätigen zu lassen. Was für Kunden die Usability erhöht und dem Diensteanbieter eine eigene Datenhaltung erspart, ist jedoch mit Risiken für beide Seiten verbunden.

Foto: © Fraunhofer AISEC Das Fraunhofer-Institut für Angewandte und Integrierte Sicherheit AISEC stellt nun eine dezentrale und freie Alternative zu diesen Identitätsprovidern zur Verfügung: »re:claimID« gibt Nutzern die Kontrolle über ihre digitale Identität und unterstützt Unternehmen bei der Einhaltung der DSGVO-Vorgaben.

Einkaufen, Musik hören, das smarte Zuhause steuern – die Zahl der digitalen Dienste wächst, und für fast alle von ihnen müssen Nutzer sich registrieren und anmelden. Immer mehr Diensteanbieter schlagen ihren Nutzern vor, die Abkürzung über Plattformen zu nehmen, bei denen sie bereits registriert sind, anstatt immer neue Accounts mit dazugehörigen Passwörtern zu erstellen. Unternehmen müssen erforderliche Kundendaten nicht selbst erheben und bekommen zudem wertvolle Zusatzinformationen aus den Nutzerprofilen. Die gängigsten Identitätsprovider sind Facebook und Google – deutsche Varianten wie Verimi oder NetID konnten sich als Alternativen bislang nicht etablieren.

Wachsendes Unbehagen gegenüber Identitätshütern

Zentrale Identitätsprovider haben jedoch zwei ganz entscheidende Nachteile. Google-, Facebook- oder Twitter-Accounts sind an sich bereits beliebte Ziele für Hackerangriffe. Wenn sie das Einfallstor für zahlreiche weitere Dienste sind, entsteht ein Dominoeffekt, der den Schaden potenziert. Die Offenlegung sensibler Daten von Politikern und Prominenten durch einen 20-jährigen Schüler hat dies jüngst wieder eindrücklich illustriert. Außerdem stellen Identitätsprovider ihre Authentifizierungsservices nicht ohne Grund kostenlos zur Verfügung: Jeder Login an einem angeschlossenen Dienst generiert zusätzliche sensible Daten über den Nutzer, die präzise Rückschlüsse über persönliche Präferenzen und Aktivitäten zulassen. Auf Unternehmensseite entstehen gleichzeitig bedenkliche Abhängigkeiten: Entscheidet der zentrale Identitätsprovider einseitig, sein Angebot kostenpflichtig zu machen oder die Nutzungsbedingungen zu ändern, kann dies zu geschäftskritischen Konflikten führen.

Noch ein Aspekt darf nicht außer Acht gelassen werden: Durch die immer weiter voranschreitende Datenkonzentration bei zentralen Identitätsprovidern kommt diesen zunehmend eine Rolle zu, die den hoheitlichen Aufgaben einer Meldebehörde gleichkommt. Staatliche Stellen beginnen beispielsweise damit, Facebook-Accounts bei der Entscheidung über Visa-Vergaben miteinzubeziehen. »Die Plattformen werden so zu demokratisch nicht legitimierten Identitätshütern«, fasst Dr. Julian Schütte, Leiter der Abteilung Service & Application Security am Fraunhofer AISEC zusammen.

Ohne die Weitergabe der digitalen Identität ist eine Teilnahme an der digitalen Welt jedoch unmöglich. In Schüttes Abteilung wurde deshalb nach einem Weg geforscht, wie digitale Identitäten ohne die zentrale Verwaltung durch einen Drittanbieter für Webangebote genutzt werden können, so dass der Nutzer die volle Kontrolle, also die Souveränität, über die Verwendung seiner Identitäten behält.

Datensouveränität durch dezentrale Verwaltung

Ergebnis ist der dezentrale Dienst »re:claimID«, der Nutzern erlaubt, anderen Parteien einzelne Identitätsattribute sicher und selbstbestimmt zur Verfügung zu stellen. Der Dienst, der als Open-Source-Software frei verfügbar ist, basiert auf folgenden Prinzipien: Identitäten werden in dem sicheren Peer-to-Peer Namenssystem GNS (GNU Name System) dezentral verwaltet. Dabei kann der Nutzer für seine Identitäten einzelne Attribute wie zum Beispiel E-Mail-Adresse oder Name im Namenssystem ablegen. Dort liegen sie nicht im Klartext, also für jeden lesbar, vor, sondern sind mittels Attribute-Based Encryption (ABE) verschlüsselt. Auf Anfrage eines Diensteanbieters kann der Nutzer eine Teilmenge seiner Attribute selektiv zur Verfügung stellen. Er autorisiert ihn, indem er ihm dafür einen spezifischen Schlüssel ausstellt. Der Nutzer kann diesen Zugriff jederzeit widerrufen oder einschränken. »Damit steht eine Technologie auf Basis freier Software, dem GNS, zur Verfügung, die die Informationelle Selbstbestimmung der Nutzer stärkt. Aufgrund der dezentralen Architektur werden personenbezogene Daten nicht zentral gespeichert, wodurch Angriffe auf die Daten deutlich erschwert werden«, erklärt Martin Schanzenbach, Leiter des Forschungsprojektes re:claimID.

Der Vorteil der Lösung für Diensteanbieter liegt darin, dass Kundendaten im Sinne der DSGVO bedarfsgerecht und mit Einwilligung erhoben und genutzt werden. re:claimID kann über den etablierten Standard OpenID Connect in Webseiten integriert werden und ist damit einfach zu nutzen. Technisch ändert sich für den Diensteanbieter kaum etwas. Als Authentifizierungsdienst für Webangebote ist re:claimID ab sofort einsetzbar. An einer möglichen Nutzung des Dienstes für IoT-Anwendungen ohne zentrale Cloud-Dienstleister wird zukünftig weiter geforscht werden.

Weitere Informationen: www.aisec.fraunhofer.de/reclaim

-PM Fraunhofer-