Insights aus der Forschung: Der EchoNERD

Wir haben bereits gelernt, was es mit der EASE und unserem Company2Vec auf sich hat – meistens eine komplizierte, aber sehr spannende Mischung aus Sprachverarbeitung, Texterkennung und Deep Learning. In diesem Newsbeitrag steht ein weiterer Stern am Echobot-Forschungshimmel im Mittelpunkt: Der EchoNERD.

NERD

steht für Named Entity Recognition and Disambiguation

In der Regel geht es bei NERD-Systemen darum, benannte Objekte (z.B. Organisationen, Personen und Orte) in Texten zu erkennen („Recognition“) und mit Einträgen in Datenbanken zu verknüpfen („Disambiguation“). Unser EchoNERD tut genau das und verleiht damit unseren Tools die Macht, Firmen in Millionen von Online-Texten zu erkennen. Wie funktioniert das genau? Wo liegen die Schwierigkeiten und was macht den EchoNERD so besonders? Das sehen wir uns jetzt genauer an.

Das Problem, Firmen als Firmen zu erkennen

Die Themen Named Entity Recognition und Disambiguation, also das Erkennen und Unterscheiden von benannten Objekten in Texten, ist bereits seit den 1990er-Jahren ein großes Forschungsthema – zahlreiche Veröffentlichungen, Paper und Konferenzbeiträge beschäftigten sich damit. Mittlerweile gibt es dutzende von kommerziellen Anbietern von NERD-Lösungen.

Die Problemstellung

Als wir unsere ersten Sales-Produkte entwickelten und nach einer Lösung suchten, um Firmen in Texten zu erkennen, gingen wir davon aus, dass wir eine bereits existierende Lösung in unsere Systeme integrieren können. Wir mussten allerdings feststellen, dass die verfügbaren Tools unser Problem nicht lösen konnten: Sie waren zu langsam, teilweise zu fehleranfällig, erkannten keine kleinen Firmen und konnten nicht mit einer ständig aktualisierten Firmendatenbank umgehen. Also musste unser eigenes NERD-System her – der EchoNERD. Bei der Entwicklung konnten wir zwar auf existierende technische Lösungen zurückgreifen, mussten jedoch auch eigene Wege gehen. Um zu verstehen, was unser EchoNERD genau tut, müssen wir zunächst erklären, was diese Problemstellung so schwierig macht.

Teil 1: Named Entitiy Recognition

Nehmen wir als Beispiel eine fiktive Firma mit dem Namen Fischer. Hier muss das System bei einer Erwähnung des Wortes im Text erkennen, dass es sich überhaupt um eine Firma handelt, und nicht um eine Person oder einen Beruf. Das tut es meistens über den Kontext:

“Fischer mit Rekordgewinn”

-> Firma

“Fischer mit Rekord-Fang”

-> Beruf

Dass der Name allein nicht ausreicht, um eindeutig zu entscheiden, ob es sich um eine Firma handelt, ist gar nicht selten. Man denke etwa an Allianz, Bayer, Continental, Henkel, Linde und andere. Alle diese Firmennamen haben in der Sprache noch weitere Bedeutungen und nur der Kontext zeigt uns – und dem System – um was es sich genau handelt. Damit wäre der Teil Named Entitiy Recognition erklärt. Doch was macht die Named Entitiy Disambiguation?

Teil 2: Named Entitiy Disambiguation

Bei diesem Teil des Prozesses wird es noch ein Stückchen aufwändiger. Bleiben wir beim Beispiel Fischer. Das System muss hier eigenständig erkennen, um welche Firma Fischer es sich genau handelt. Dübel-Fischer? Eine Fahrradmarke? Oder doch die Sport-Marke? Wie findet der Computer das nun heraus? Hier muss das System im Text gefundene Informationen, etwa über Ort, Thema oder genannte Personen mit den Informationen abgleichen, die in der Datenbank vorhanden sind.

Wie funktioniert der EchoNERD?

Der EchoNERD vereint sowohl Named Entitiy Recognition als auch Named Entitiy Disambiguation, sprich: Er muss Firmen aus Onlinequellen schnell und präzise erkennen UND mit unserer stetig wachsenden, dynamischen Firmendatenbank abgleichen. Unsere Webcrawler erfassen täglich mehrere Millionen Dokumente, in denen unsere KI-Systeme geschäftsrelevante Informationen erkennen. Um den Nutzen für unsere Kunden zu maximieren, müssen diese Informationen dann jedoch noch den richtigen Firmen zugeordnet werden. Und hier kommt der EchoNERD ins Spiel: Unser System erkennt nicht nur die Big Player, sondern auch kleine oder junge Firmen, die noch nicht so präsent sind.

Was macht EchoNERD so besonders?

Wie bereits erwähnt, erkennt unser NERD auch kleine Unternehmen – andere NERD-Systeme beschränken sich häufig auf Firmen, die einen Wikipedia-Eintrag haben. Außerdem werden andere Systeme oft nur einmal mit einem festen Datensatz an Firmen bzw. Entitäten trainiert und finden dann nur diese Firmen. Unser System soll aber über einen längeren Zeitraum laufen und auch neugegründete oder umbenannte Firmen erkennen.

Aufgrund der Größe unserer Firmendatenbank und den umfangreichen Informationen über die Firmen, die dort hinterlegt sind, kann der EchoNERD mit sehr vielen Firmen umgehen. Gecrawlter Firmen-Websites, Tätigkeitsbereiche von Firmen, Ortsangaben – all diese Informationen werden ausgewertet, um eine möglichst zuverlässige Zuordnung zu erreichen.

Zudem haben wir eine neuartige Architektur entwickelt, mit der der EchoNERD Firmen nicht nur erkennt, sondern auch kontinuierlich aktualisiert – dabei muss das Gesamtsystem nicht einmal neu trainiert werden!

„Nachdem der EchoNERD für deutschsprachige Texte seit einiger Zeit schon erfolgreich im Einsatz ist, läuft die Entwicklung einer Version für den internationalen Markt. Dabei verfolgen wir aufmerksam die jüngsten technischen Entwicklungen bei KI-Systemen zur Verarbeitung von Texten, um diese mit unseren Erfahrungen aus dem deutschsprachigen System und weiteren Verbesserungsideen zu verbinden. Wir sind uns sicher, dass wir auch international bei NERD-Systemen für Firmen Maßstäbe setzen können.“ erklärt Leonid Butyrev, Data Scientist bei Echobot.

Bestimmte Verarbeitungsschritte, die klassischerweise getrennt voneinander durchgeführt werden, z.B. die Erkennung und Unterscheidung von Entitäten, werden beim EchoNERD in einem einzigen Verarbeitungsschritt zusammengefasst – das macht das System weniger fehleranfällig. Außerdem haben wir das System in vier Einzelmodule zerlegt, die jeweils andere Aspekte des Gesamtproblems lösen. Diese Module lassen sich unabhängig voneinander optimieren und sind nicht von manuell erzeugten Trainingsdaten abhängig, deren Menge und Qualität die Leistungsfähigkeit anderer Systeme einschränkt. So erreichen wir bessere Ergebnisse mit weniger Aufwand.

Mehr zur Forschung bei Echobot