German Medical Text Corpus
Im klinischen Alltag fallen viele Texte wie Arztbriefe und Befunde an, die wertvolle Informationen zur Krankheitsgeschichte, zum Verlauf und zur Behandlung enthalten. Allerdings kann das volle Potenzial der klinischen Information aufgrund fehlender Strukturierung und Maschinenlesbarkeit nicht ausgeschöpft werden. Mit Hilfe von Methoden der Künstlichen Intelligenz für die automatische Verarbeitung natürlicher Sprache, sogenanntes Natural Language Processing oder kurz NLP, könnten die Informationen aus den Texten automatisch strukturiert werden, um Ärztinnen und Ärzte sowie Forschende bei ihrer Arbeit zu unterstützen.
Dazu sind anonymisierte Daten zum Training der NLP-Methoden notwendig, die aber aktuell kaum in deutscher Sprache vorliegen. Die Methodenplattform GeMTeX schließt diese Lücke. Sie hat zum Ziel, medizinische Texte aus der Patientenversorgung maschinenlesbar aufzubereiten und so für Forschungsprojekte verfügbar zu machen. Damit soll der größte anonymisierte medizinische Trainingskorpus in deutscher Sprache mit klinischen Texten aus sechs Universitätskliniken entstehen, der mit Annotationen von Entitäten und Relationen angereichert ist. Eine klare Governance bietet einen stabilen rechtlichen Rahmen für die Korpusnutzung gemäß den Vorschriften der Medizin-Informatik-Initiative (MII). Moderne NLP-Methoden werden für den Aufbau, die Vorannotation und Annotation des Korpus sowie für das Training von Sprachmodellen eingesetzt.
Medizinische Texte für die Forschung automatisiert erschließen
Das Kernziel von GeMTeX ist es, klinische Texte aus verschiedenen medizinischen Fachrichtungen und Textarten ausgewogen zu repräsentieren und für NLP zugänglich zu machen. Diese Texte werden von geschulten Teams de-identifiziert, annotiert und um Meta-Informationen ergänzt. Dazu werden Annotationsguidelines erstellt. Die Anonymität der entstehenden Trainingstexte und die Qualität der Annotationen sind dabei sichergestellt.
Ergänzend zum Textkorpus entstehen Werkzeuge und Methoden zur automatischen Informationsextraktion. Für konkrete Anwendungsszenarien werden moderne Deep-Learning-Modelle trainiert und validiert.
Aufgaben von ZB MED
ZB MED beteiligt sich im Projekt GeMTeX an der Ausarbeitung von Annotationsrichtlinien, der Qualitätskontrolle von Annotationen und der Entwicklung von Zugangsbedingungen für die Nutzung der entsprechenden Korpora. Ziel von ZB MED ist es, Standards für die Auffindbarkeit und sichere Nachnutzung medizinischer Trainingskorpora zu etablieren. Für die Weiterentwicklung der ZB MED-Pipeline zur medizinischen Informationsextraktion soll der in GeMTeX entstehende Trainingskorpus auch für das Training und die Evaluation verschiedener NLP-Modelle, z.B. Large Language Models, genutzt werden.
Laufzeit
1. Juni 2023 - 31. August 2026
Drittmittelgeber
Bundesministerium für Bildung und Forschung
Partner
- Charité - Universitätsmedizin Berlin
- ID GmbH & Co. KGaA
- Technische Universität Darmstadt
- Technische Universität Dresden
- Universitätsklinikum Erlangen
- Universitätsmedizin Essen
- Averbis GmbH
- Medizinische Hochschule Hannover
- Universitätsklinikum Heidelberg
- Universität Leipzig
- Ludwig-Maximilians Universität München
- Technische Universität München
- Universität Münster
- Hasso-Plattner-Institut für Digital Engineering gGmbH
- Universitätsklinikum Tübingen
- Medizinische Universität Graz (Assoziierter Partner)