A recommender system for research papers in medicine at Bloom Diagnostics

Autor
T. Luu
Masterarbeit
MT2304 (August, 2023)
Betreut von
Assoz. Univ.-Prof. Mag. Dr. Christoph Schütz
Angeleitet von
Simon Staudinger, MSc
Ausgeführt an
Universität Linz, Institut für Wirtschaftsinformatik - Data & Knowledge Engineering
Ressourcen
Kopie

Kurzfassung (Englisch)

The medical field is rapidly evolving due to advancements in Artifical Intelligence, which allows machines to perform cognitive activities to achieve specific objectives using data as input. As a result, there is a growing demand for text-mining methods to extract useful insights from vast volumes of medical textual data. However, the application of Natural Language Processing techniques in medicine faces several challenges, including the need to adapt to medical terminologies and the differences between ordinary corpora and medical corpora. Deep learning approaches have made advances in text mining methods feasible, but they still face challenges such as the difficulties of scaling efficiently and the lack of domainspecific data.

An actual use case of Bloom Diagnostics GmbH, a start-up in the field of digital health that offers home access to blood tests and health advice, served as the basis for the thesis. In order to validate suggestions to users provided based on the blood tests, the medical team must review a vast amount of relevant scientific records to ensure accurate suggestions to their users. A systematic literature search process is required by the team to extract valuable information, which is time-consuming and manual. With the purpose of accelerating the literature search process, the thesis proposes a general concept for building a recommender system for research papers in the medical field, and focuses on ranking/ re-ranking passages based on their relevance to natural language questions.

Various NLP models, including BM25, BERT, and BioBERT, are compared to determine the most efficient setting. Apart from BM25 and BERT, which can already perform ranking/ re-ranking tasks, BioBERT needs to be fine-tuned separately with medical data so the model is comparable with other ones. By comparing and contrasting those models in different combinations and settings and evaluating the results using various criteria, the main contribution of this thesis is a solution that helps researchers save time by recommending the most relevant passages returned by these techniques. The recommender system, which focuses on recommendations of passages relevant for natural language questions, is built using the current literature search web application for medical researchers at Bloom Diagnostics.

Kurzfassung (Deutsch)

Das medizinische Fachgebiet entwickelt sich aufgrund von Fortschritten in der Künstlichen Intelligenz (KI) rasant weiter, die Maschinen befähigt, kognitive Aktivitäten zur Erreichung spezifischer Ziele unter Verwendung von Daten als Eingabe durchzuführen. Dies hat zur Folge, dass eine wachsende Nachfrage nach Textmining-Methoden besteht, um nützliche Erkenntnisse aus umfangreichen Mengen medizinischer Textdaten zu extrahieren. Die Anwendung von Techniken zur natürlichen Sprachverarbeitung in der Medizin steht jedoch vor mehreren Herausforderungen, darunter die Notwendigkeit, sich an medizinische Fachterminologie anzupassen sowie die Unterschiede zwischen gewöhnlichen Korpora und medizinischen Korpora. Obwohl Deep-Learning-Ansätze Fortschritte in Textmining-Methoden ermöglicht haben, bestehen nach wie vor Herausforderungen wie die effiziente Skalierung und der Mangel an domänenspezifischen Daten.

Ein konkreter Anwendungsfall der Bloom Diagnostics GmbH, eines Start-ups im Bereich der digitalen Gesundheit, das Bluttests und Gesundheitsberatung für zu Hause anbietet, diente als Grundlage für die vorliegende Arbeit. Um Vorschläge für Benutzer aufgrund von Bluttestergebnissen zu validieren, muss das medizinische Team eine umfangreiche Menge relevanter wissenschaftlicher Aufzeichnungen überprüfen, um genaue Empfehlungen für die Benutzer sicherzustellen. Ein systematischer Literaturrechercheprozess ist erforderlich, um wertvolle Informationen zu extrahieren, was zeitaufwändig und manuell ist. Mit dem Ziel, den Literaturrechercheprozess zu beschleunigen, schlägt die Arbeit ein allgemeines Konzept für den Aufbau eines Empfehlungssystems für medizinische Forschungsarbeiten vor und konzentriert sich auf das Ranking/Re-Ranking von Passagen basierend auf ihrer Relevanz für Fragen natürlicher Sprache.

Verschiedene Modelle für die Verarbeitung natürlicher Sprache, einschließlich BM25, BERT und BioBERT, werden verglichen, um die effizienteste Einstellung zu ermitteln. BioBERT muss neben BM25 und BERT, die bereits Aufgaben des Rankings und Re-Rankings durchführen können, separat mit medizinischen Daten feinabgestimmt werden, um das Modell mit anderen vergleichbar zu machen. Durch den Vergleich und die Kontrastierung dieser Modelle in verschiedenen Kombinationen und Einstellungen sowie die Bewertung der Ergebnisse anhand verschiedener Kriterien besteht der Hauptbeitrag dieser Arbeit in einer Lösung, die Forschern hilft, Zeit zu sparen, indem sie die relevantesten Passagen empfiehlt, die durch diese Techniken zurückgegeben werden. Das Empfehlungssystem, das sich auf Empfehlungen von für natürliche Sprachfragen relevante Passagen konzentriert, wird mithilfe der aktuellen Literaturrecherchewebanwendung für medizinische Forscher bei Bloom Diagnostics erstellt.