Covid Research Support with NLP
In diesem Projekt wurde eine Lösung entwickelt, mit deren Hilfe die organisationsweite Erforschung von SARS-CoV-2 durch das automatisierte Auswerten von Dokumenten anhand von NLP erleichtert werden konnte.

Herausforderung
Die systematische Erforschung des SARS-CoV-2 Erregers, beispielsweise zur Entwicklung von Impfstoffen oder Medikamenten gegen Covid-19, war zum Zeitpunkt des Projekts eine der zentralen Aufgaben vieler Unternehmen in der Pharma-Industrie.
Durch die weltweite Aufmerksamkeit und Dringlichkeit entstanden täglich hunderte neuer relevanter Ergebnisse in Form von Forschungs- und Studienergebnissen. Ein systematisches Erfassen dieser Informationen war essenziell, aufgrund der schieren Masse unstrukturierter Daten aber sehr herausfordernd. Dieser Sachverhalt führte entweder zu hohen manuellen Aufwänden für Research oder aber zu ineffizienter Doppelarbeit.
Ansatz
Gemeinsam mit dem Kunden wurde eine auf Deep Learning basierende Lösung entwickelt, welche Dokumente (zum Beispiel Studienergebnisse) zuverlässig erkennen kann, die sich auf Covid-19 beziehen. Dazu wurde ein auf wissenschaftliche Publikationen vortrainiertes Transformer-Modell (ähnlich dem aktuell auf google.com verwendeten Modell) verwendet und zur weiteren Verwendung auf vorhandenen Kundendaten feingetuned. Durch diesen sogenannten Transfer Learning Ansatz konnte auch mit vergleichsweise wenigen Trainingsdaten eine Prognosegüte von mehr als 99 Prozent erreicht werden.
Ergebnis
Mit dem entwickelten Modell konnten die Ergebnisse bestehender Methoden, die zum Beispiel auf vordefinierten Suchbegriffen basieren, deutlich verbessert werden. Aktuell wird das entwickelte Deep Learning Modell in eine Applikation überführt und unterstützt zukünftig Wissenschaftler:innen bei der Suche nach relevanten Dokumenten in der zentralen Wissensdatenbank des Kunden.