de
                    array(1) {
  ["de"]=>
  array(13) {
    ["code"]=>
    string(2) "de"
    ["id"]=>
    string(1) "3"
    ["native_name"]=>
    string(7) "Deutsch"
    ["major"]=>
    string(1) "1"
    ["active"]=>
    string(1) "1"
    ["default_locale"]=>
    string(5) "de_DE"
    ["encode_url"]=>
    string(1) "0"
    ["tag"]=>
    string(2) "de"
    ["missing"]=>
    int(0)
    ["translated_name"]=>
    string(7) "Deutsch"
    ["url"]=>
    string(133) "https://www.statworx.com/case-studies/effizienzsteigerung-im-rd-prozess-durch-automatisierte-extraktion-von-daten-aus-pdf-dokumenten/"
    ["country_flag_url"]=>
    string(87) "https://www.statworx.com/wp-content/plugins/sitepress-multilingual-cms/res/flags/de.png"
    ["language_code"]=>
    string(2) "de"
  }
}
                    
Kontakt
Case Studies
Case Studies

Effizienzsteigerung durch automatisierte Extraktion von Daten aus PDF-Dokumenten

In diesem Projekt ermöglichte KI automatisierte Extraktion relevanter Daten aus PDF-Dokumenten von klinischen Studien, was zu einer 500-fachen Geschwindigkeitssteigerung, präziseren Ergebnissen und einer signifikanten Reduzierung des manuellen Aufwands führte.

  • Branche Health & Pharma
  • Thema GenAI
  • Tools Python, PyTorch, HuggingFace, Azure
  • Projektdauer 3 Monate

Herausforderung

Klinische Studien sind ein wichtiger Bestandteil bei der Entwicklung von Medikamenten. Die Dokumentation und Ergebnisse dieser Studien fallen in Form von Studienberichten häufig unstrukturiert an – z.B. verschriftlicht in Form von PDF-Dokumenten. Insbesondere bei größer angelegten Studien mit vielen beteiligten Parteien entsteht zusätzliche Arbeit dadurch, dass zentrale Erkenntnisse und Prozess-Parameter später aus den PDF-Dokumenten ausgelesen und in strukturierte Datenbanken abgelegt werden müssen. Im Fall unseres Kunden, erfolgte diese repetitive Arbeit manuell durch Expert:innen. Das Ziel des Projekts bestand darin, durch eine automatisierte Extraktion sämtlicher relevanter Daten aus den PDF-Dokumenten die manuelle Arbeit zu minimieren und dadurch den Prozess erheblich zu beschleunigen.

Ansatz

Die Extraktion von Informationen aus Texten wird als sogenannte Named-Entity-Recognition bezeichnet. Um diese umzusetzen, haben wir ein Domänen-spezifisches vortrainiertes Sprachmodell auf 20 relevante „Entitäten“ (u.a. Name des Präparates, Start und Ende einer Versuchsreihe) antrainiert. Dadurch ist das Sprachmodell in der Lage diese Entitäten automatisch in neuen Texten zu erkennen und zu extrahieren. Die dadurch gefundenen Daten können anschließend in eine strukturierte Datenbank abgelegt werden. Um eine gute Balance aus Genauigkeit der Erkennung und Transparenz der Ergebnisse zu erhalten, wurden zudem regelbasierte Ansätze hinzugefügt. Dadurch konnte eine hohe Richtig-Positiv-Rate bei gleichzeitig geringer Falsch-Negativ-Rate erreicht werden.

Ergebnis

Dank des Einsatzes von KI konnte eine um etwa 500-fach schnellere Extraktion der notwendigen Daten aus den PDF-Dokumenten erreicht werden. Zudem haben Bewertungen von Expert:innen gezeigt, dass die automatisierte Extraktion präziser ist als die zuvor manuell durchgeführte Extraktion. Im Rahmen des 3-monatigen Projekts wurde nicht nur der Gesamtprozess der Datenerfassung signifikant beschleunigt und der manuelle Aufwand deutlich reduziert, sondern auch die Qualität der Datenerfassung nachhaltig verbessert.

Experte

Kontakt anfragen

Erfahre mehr!

Als eines der führenden Unternehmen im Bereich Data Science, Machine Learning und KI begleiten wir Sie in die datengetriebene Zukunft. Erfahren Sie mehr über statworx und darüber, was uns antreibt.
ÜBER UNS