Herausforderung
Die Erstellung und Bereitstellung von fachspezifischen Dokumenten ist eine zentrale Dienstleistung unseres Kunden aus dem Verlagswesen. Nutzer:innen greifen über eine Website auf relevante Dokumente zu und können mit verschiedensten Funktionalitäten die Dokumentsuche weiter verfeinern. Die Relevanz der Suchresultate, aber auch die benötigten Verfeinerungen der Suche, sind für die Zufriedenheit der Nutzer:innen entscheidend. Welche Sucheingaben einer Person auf das gleiche Dokument ausgerichtet sind, war jedoch nicht Bestandteil der Logdaten und musste erst noch ermittelt werden. Da die Erstellung von Labels teils mit sehr hohen Kosten verbunden ist, waren nur sehr wenige Beispiele verfügbar. Mit der Analyse suchbezogener Logdaten soll die Identifizierung gezielter Maßnahmen zur Erhöhung der Nutzerzufriedenheit von einer datenbasierten Lösung unterstützt werden.
Ansatz
Zur Vorbereitung der Analyse wurden anonymisierte Logeinträge um NLP-basierte Merkmale angereichert. Unter Verwendung feinjustierter Machine Learning Modelle konnte, ungeachtet der wenigen verfügbaren Labels, eine Bündelung der Logeinträge zu Sessions auf den gesamten Daten erfolgreich durchgeführt werden. Um eine Auswertung der Zufriedenheit zu ermöglichen, haben wir geeignete Zufriedenheitsmerkmale, wie u.a. benötigter Aufwand zum Erreichen relevanter Resultate und Dauer der Dokumentenansicht, abgeleitet und mit den Sessions verbunden. Für die Zufriedenheitsanalyse aller Sessions wurde ein kleiner Teil der Daten händisch bewertet und als Trainingsgrundlage für ein Machine Learning Modell verwendet.
Unser Modell ist so in der Lage, eine Zufriedenheitsbewertung aller Sessions zu erstellen und dient im Zusammenspiel mit von uns entwickelten Clusterverfahren als Grundlage der Zufriedenheitsbewertung. Der gesamte Prozess von der Extraktion über die Datenanreicherung bis hin zur Zufriedenheitsbewertung der Sessions findet vollautomatisiert auf der Infrastruktur unseres Kunden statt.
Ergebnis
Mit unserer Herangehensweise können Zufriedenheitsmerkmale von Machine Learning Modellen erkannt und den Logdaten hinzugefügt werden. Für die erfolgreiche Implementierung wurden nur wenige Trainingsdaten benötigt, wodurch der hohe manuelle Aufwand für die Erstellung von Labels minimiert werden konnte. Die Anreicherung der Logdaten um Zufriedenheitsmerkmale ermöglicht ein besseres Verständnis des Nutzerverhaltens und ist ein wichtiger Schritt bei der Identifizierung von Maßnahmen zur Verbesserung der Sucherfahrung.