Herausforderung
Klinische Studien sind ein wichtiger Bestandteil bei der Entwicklung von Medikamenten. Die Dokumentation und Ergebnisse dieser Studien fallen in Form von Studienberichten häufig unstrukturiert an – z.B. verschriftlicht in Form von PDF-Dokumenten. Insbesondere bei größer angelegten Studien mit vielen beteiligten Parteien entsteht zusätzliche Arbeit dadurch, dass zentrale Erkenntnisse und Prozess-Parameter später aus den PDF-Dokumenten ausgelesen und in strukturierte Datenbanken abgelegt werden müssen. Im Fall unseres Kunden, erfolgte diese repetitive Arbeit manuell durch Expert:innen. Das Ziel des Projekts bestand darin, durch eine automatisierte Extraktion sämtlicher relevanter Daten aus den PDF-Dokumenten die manuelle Arbeit zu minimieren und dadurch den Prozess erheblich zu beschleunigen.
Ansatz
Die Extraktion von Informationen aus Texten wird als sogenannte Named-Entity-Recognition bezeichnet. Um diese umzusetzen, haben wir ein Domänen-spezifisches vortrainiertes Sprachmodell auf 20 relevante „Entitäten“ (u.a. Name des Präparates, Start und Ende einer Versuchsreihe) antrainiert. Dadurch ist das Sprachmodell in der Lage diese Entitäten automatisch in neuen Texten zu erkennen und zu extrahieren. Die dadurch gefundenen Daten können anschließend in eine strukturierte Datenbank abgelegt werden. Um eine gute Balance aus Genauigkeit der Erkennung und Transparenz der Ergebnisse zu erhalten, wurden zudem regelbasierte Ansätze hinzugefügt. Dadurch konnte eine hohe Richtig-Positiv-Rate bei gleichzeitig geringer Falsch-Negativ-Rate erreicht werden.
Ergebnis
Dank des Einsatzes von KI konnte eine um etwa 500-fach schnellere Extraktion der notwendigen Daten aus den PDF-Dokumenten erreicht werden. Zudem haben Bewertungen von Expert:innen gezeigt, dass die automatisierte Extraktion präziser ist als die zuvor manuell durchgeführte Extraktion. Im Rahmen des 3-monatigen Projekts wurde nicht nur der Gesamtprozess der Datenerfassung signifikant beschleunigt und der manuelle Aufwand deutlich reduziert, sondern auch die Qualität der Datenerfassung nachhaltig verbessert.