Projektbeschreibung

Innovationsforschung bei Echobot: Neues Machine-Learning-Verfahren zur Text-Klassifikation

Die Herausforderung

Abstrakt und technisch betrachtet handelt es sich dabei um Text-Klassifikation. Obwohl Text-Klassifikation seit Jahren in der Praxis eingesetzt wird und noch länger Gegenstand der Forschung ist, konnten wir nicht einfach auf etablierte Verfahren zurückgreifen, da in unserem Szenario besondere Herausforderungen zu meistern waren:

  • Wir klassifizieren auch einzelne Sätze (z.B. in tweets und Kommentaren) und nicht nur längere Texte. Jedes einzelne Wort kann entscheidend für die Bedeutung eines Satzes sein. Es gibt auch eine Vielzahl von Möglichkeiten, den gleichen Sachverhalt zu formulieren und wir wollen nach Möglichkeit alle Varianten erkennen.
  • Die Sprachqualität unterscheidet sich von Quelle zu Quelle, z.B. finden sich in Social-Media-Quellen Formulierungen in Umgangssprache, aber auch fehlerhafte oder unvollständige Sätze.
  • Aufgrund des sehr hohen Durchsatzes unserer Crawler, müssen enorme Mengen an Text in kürzester Zeit verarbeitet werden – und wir wollen dabei unsere schlanke Infrastruktur beibehalten.

Mensch oder Maschine

Die Erkennung von Signalen ist zwar schon Teil von Echobot-Produkten, aber unser bisheriges Verfahren hat seine Grenzen. Dieses Verfahren war Regel-basiert: Unsere Linguistik-Experten haben also die Regeln formuliert, wann ein Signal als solches erkannt werden soll (bspw. beim Auftreten bestimmter Wörter). Dies hat den Vorteil, dass relativ schnell ordentliche Ergebnisse erzielt werden können. Versucht man die Qualität der Signalerkennung aber weiter zu verbessern, werden immer komplexere Regeln benötigt. Hier setzen Machine-Learning-Methoden (ML-Methoden) an, die komplexe Regeln anhand von Beispielen selbst finden können.

Stellt man sich einen Kochroboter vor, so bedeutet ein Regel-basierter Ansatz, wie wir ihn bisher zur Signalerkennung eingesetzt haben, dass wir ihm Rezepte vorlegen, die er Schritt für Schritt nachkocht. Im Gegensatz dazu würde ein ML-Ansatz bedeuten, dass man dem Roboter eine Menge von Beispielen für gelungene und weniger gelungene Mahlzeiten vorgibt und er die Regeln des Kochens selbst erlernt. Ob selbst-fahrende Autos, Kauf-Vorschläge in einem Online-Shop, Apples Siri – all dies sind Beispiele bei denen ML-Methoden wie Neuronale Netze heute schon erfolgreich eingesetzt werden.

Wir geben also unserer Signalerkennungsmaschine einfach eine Menge von korrekten und nicht-korrekten Signalbeispielen und überlassen ihr das Denken? Was verführerisch simpel klingt bereitete uns einiges Kopfzerbrechen in den letzten Monaten, denn: Auch der lernende Kochroboter wird nur richtig gut, wenn er eine große Menge von Beispielen zum Lernen bekommt und die richtigen Zutaten zur Verfügung hat. Übertragen auf unser Signal-Klassifizierungsproblem:

Eine große Menge von Beispielen – Sprache ist komplex und es gibt unzählige Möglichkeiten den gleichen Sachverhalt zu formulieren. Um die Regeln, die sich dahinter verbergen, automatisch zu lernen, benötigen wir eine große Menge von Beispielen für jedes Signal. Eine große Menge heißt nicht Hunderte, sondern Tausende oder besser Zehntausende von Beispielen.

Die richtigen Zutaten – für Computer sind Wörter nur eine Aneinanderreihung von Zeichen ohne Bedeutung. Für die Klassifizierung von Texten werden diese der Maschine normalerweise als Bag-of-Words („Wörter-Tüte“) vorgesetzt. D.h. man gibt der Maschine jeweils nur als Input, welche Wörter in einem Text vorkommen, wobei deren Reihenfolge keine Bedeutung hat. Die Maschine zieht ihre Schlüsse lediglich aus dem Vorhandensein bzw. Nichtvorhandensein von Wörtern. Bei unserem Signal-Problem reichen diese Informationen nicht aus – denn die Reihenfolge von Wörtern in einem Satz ist wichtig.

Die Echobot Advanced Semantic Engine (EASE)

Wir mussten neue Wege gehen und haben daher für unser Klassifizierungsproblem eine innovative Lösung entwickelt, die verschiedene Ansätze aus der aktuellen Forschung vereint und durch eigene Entwicklungen weiterführt: Die Echobot Advanced Semantic Engine (EASE). Ein wesentliches Merkmal der EASE ist, dass wir die Vorteile des Regel-basierten Verfahrens und das bei Echobot bereits in diesem Gebiet vorhandene Wissen mit ML-Methoden verheiratet haben. Dies erlaubt es uns, wesentlich schneller und mit wesentlich weniger Beispielen neue Signale zu trainieren. Dabei ist die EASE eher eine Fabrik für Klassifikatoren als ein Klassifikator: Sie erlaubt es uns, schnell und mit wenig Aufwand neue Klassifikatoren zu erstellen. Dabei wird nicht nur das Vorhandensein oder Nichtvorhandensein von Wörtern interpretiert, sondern es fließen erheblich umfangreichere Informationen, etwa über die grammatikalische Struktur der Sätze mit ein. Wir haben also einiges an Spezial-Zutaten im Regal! Welche das genau sind verraten wir nicht – denn das ist unser Geheim-Rezept!

Viele Grüße
Dr.-Ing. Matthias Keller
Data Scientist / Echobot Media Technologies GmbH

Freuen Sie sich darauf an dieser Stelle künftig mehr aus den einzelnen Abteilungen von Echobot und über unsere Innovationsforschung zu lesen.