Automatic Quality Assessment: NLP-Verfahren zur semantischen Kartierung von lebenswissenschaftlichen Texten
Das wachsende Aufkommen von bewusst gestreuten Fehlinformationen stellt unsere demokratische Gesellschaft vor eine große Herausforderung. Sie werden zunehmend von politischen Interessensgruppen ausgesät, um den öffentlichen Diskurs zu bestimmen. Von den Rezipienten werden diese Falschinformationen mitunter nicht als solche erkannt. Da sich Desinformationen auch in wissenschaftlichen Informationsangeboten finden, betrifft diese Entwicklung auch Wissenschaftler:innen. In den medizinischen Anwendungen der Lebenswissenschaften kann dies gesundheitsgefährdende Auswirkungen haben.
In AQUAS wird der erste deutschsprachige Datensatz zu Desinformation in den Lebenswissenschaften erstellt. Auf dieser Basis soll mit modernen Machine-Learning-(ML)-Verfahren ein ML-Modell erstellt werden, das in der Lage sein wird, die semantische Nähe von unbekannten Texten zu den Klassen wissenschaftlicher Text, populärwissenschaftlicher Text und desinformierender Text graduell einzuordnen. Gleichzeitig werden ergänzende Informationen zur guten wissenschaftlichen Praxis der Publikationen bereitgestellt. Mit der Anreicherung und Veröffentlichung der genannten Informationen (Basisset bzw. erweitertes Set an Merkmalen) strebt AQUAS die Unterstützung der Leser:innen an, eine informierte Einschätzung von Literatur zu treffen. Dabei geht es AQUAS nicht um eine abschließende Leseempfehlung der Inhalte oder Zensur.
Auf Grundlage der entwickelten Anreicherungsmethoden wird im Rahmen von AQUAS ein Dienst implementiert, der über eine Programmierschnittstelle (API – Application Programming Interface) angesprochen werden kann. Als erste zentrale Anwendung werden wir diesen Dienst durch das ZB MED-Discovery-System LIVIVO nutzen, um die beschriebene Einstufung der Literatur den Nutzenden von ZB MED zur Verfügung zu stellen. Damit werden zunächst die Wissenschaftler:innen der Lebenswissenschaften und Praktiker:innen in Gesundheitsberufen sowie Studierende von der verbesserten Wissensinfrastruktur bei LIVIVO durch AQUAS profitieren. Der Datensatz, das Modell, der Workflow zum Training sowie die Software zum Betrieb des Dienstes werden nach Möglichkeit offen bereitgestellt und so auch für andere Themenfelder nutzbar gemacht.
Laufzeit
- 1. Dezember 2022 – 30. November 2025
Drittmittelgeber
- Deutsche Forschungsgemeinschaft - Wissenschaftliche Literaturversorgungs- und Informationssysteme (DFG-LIS)