Preprint Information eXtraction for Life Sciences
Preprints stellen eine relativ neue Art dar, wissenschaftliche Ergebnisse noch vor dem Peer Review und der Veröffentlichung in einem Fachjournal für die Forschung bereitzustellen. So können aktuelle Erkenntnisse schnellstmöglich verbreitet und nachgenutzt werden. Mittlerweile gibt es verschiedene Server, die Preprints für unterschiedliche Forschungscommunitys bereitstellen. Sie unterscheiden sich technisch oder inhaltlich. Preprints.org ist beispielsweise multidisziplinär ausgerichtet, während bioRxiv ausschließlich Preprints aus den Lebenswissenschaften enthält. In klassischen Nachweis- und Suchsystemen tauchen Preprint allerdings bislang kaum auf.
In PIXLS - einem Gemeinschaftprojekt mit der TH Köln - wird nun ein System entwickelt, das die bisher noch vernachlässigten Informationsquellen auf den Preprint Servern systematisch erschließt und durch Mehrwertdienste besser zugänglich macht. So können sowohl die Volltexte als auch die Metadaten einfacher nachgenutzt werden. Das PIXLS-Team setzt dabei auf eine sogenannte Information Extraction Pipeline, eine Anwendung, die aus den unstrukturierten Daten der Preprints – also Fließtexte oder Zahlen – strukturierte Informationen extrahiert. Solche strukturierten Informationen können von Datenbanken besser verarbeitet werden. Sie können dadurch auf vielfältige Weise nachgenutzt werden und sind darüber hinaus einfacher auffindbar.
Die extrahierten Daten werden im ZB MED Knowledge Environment – eine von ZB MED bereits entwickelte Datenbank – zusammengeführt und vereinheitlicht. Diese Datenbasis macht es dann möglich, Mehrwertdienste zu entwickeln und für die Forschung bereit zu stellen. Das können zum Beispiel Linked-Open-Data-Schnittstellen oder innovative Reputations- und Trendindikatoren sein. Die Daten werden auch über LIVIVO verfügbar sein. Im Sinne von Open Science werden sowohl die Daten als auch die Technologie der Bibliotheks- und Wissenschaftscommunity zur Nachnutzung zur Verfügung gestellt.
Aufgaben von ZB MED
- Implementierung der Softwarelösungen im ZB MED KE und in LIVIVO
Laufzeit
- 1. Januar 2023 – 31. Dezember 2025
Drittmittelgeber
- Deutsche Forschungsgemeinschaft - Wissenschaftliche Literaturversorgungs- und Informationssysteme (DFG-LIS): Programm e-Research Technologien
Partner
- TH Köln