Machine learning based lay summarization in biomedical domain
Makine öğrenmesi tabanlı tıbbi alanda özetleme sistemi
- Tez No: 856282
- Danışmanlar: DR. ÖĞR. ÜYESİ AYŞEGÜL TÜYSÜZ ERMAN, DR. ÖĞR. ÜYESİ ZEYNEP İLKNUR KARADENİZ EROL
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: İngilizce
- Üniversite: Işık Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 70
Özet
Bilimsel araştırmaları genel kamuoyuna aktarmak, hem hayati bir öneme sahip hem de zorlu bir çaba gerektirmektedir. Bilimsel bilgi ile halkın anlayışı arasındaki boşluğu kapatmak genellikle araştırma bulgularının basitleştirilmiş hali olan özetlerin kullanılmasını gerektirir. Bu tezde, biyomedikal araştırmaların genel kamuoyuna etkili bir şekilde iletilmesini sağlamak amacıyla öz ve ana metinlerden özetler oluşturan bir sistem geliştirmekteyiz. Özellikle PLOS ve eLife gibi önde gelen biyomedikal dergilerden seçilen veri kümelerine dayanarak, öz ve ana metinden özetler oluşturan bir sistem geliştiriyoruz. Bu tez, Biyomedikal Özetleme için iki farklı yaklaşımı keşfeder. Model 1'de, giriş makaleleri, non-ASCII karakterlerin ve gereksiz parantezlerin kaldırılması gibi metin önişleme tekniklerinden geçirilir. BC5CDR ve JNLPBA gibi biyomedikal metinler için özel olarak tasarlanmış adlandırılmış varlık tanıma modelleri olan Stanza kütüphanesi kullanılarak biyo-öznitelikler belirlenir ve etiketlenir. Diğer yandan, Model 2, orijinal özet metnini bir özet olarak kullanır ve önceden işlenmiş tam metin makaleler üzerinde eğitilen BART tabanlı bir model tarafından üretilen özetlerle birleştirir. Modelin 1024 karakterlik giriş uzunluğu sınırlamasını karşılamak için daha uzun makaleler bölümlere ayrılır ve ardışık olarak modele beslenir. Modelin çıktıları birleştirilerek tam bir özet oluşturulur. Oluşturulan özetleri iyileştirmek için metin temizleme ve Stanza kütüphanesinin bilinmeyen kelimeleri belirleme ve etiketleme gibi bir son işleme teknikleri uygulanır. Bu iki yaklaşım, biyomedikal alandaki otomatik özetleme sistemlerinin gelişimine katkıda bulunurken, bilimsel bilginin daha geniş bir kitleye anlaşılır bir şekilde iletilmesini kolaylaştırır.
Özet (Çeviri)
Communicating scientific research to the general public poses both a vital and challenging endeavor. Bridging the gap between scientific knowledge and public understanding often necessitates the use of lay summaries, which offer simplified versions of research findings. In this thesis, we explore the effective communication of biomedical research to the general public by generating concise lay summaries. Drawing upon curated datasets from prominent biomedical journals, namely PLOS and eLife, we develop a system that generates lay summaries from the abstract and main text of research articles. This thesis explores two distinct approaches for Biomedical Lay Summarization. In Model 1, the input articles undergo text preprocessing techniques including the removal of non-ASCII characters and redundant parentheses. The Stanza library is employed to identify and tag bio-entities, utilizing named entity recognition models specifically designed for biomedical text, such as BC5CDR and JNLPBA. Model 2, on the other hand, utilizes the original abstract text as a summary and combines it with summaries generated by a BART-based model trained on preprocessed full-text articles. To accommodate the model's input length limit of 1024 characters, longer articles are divided into sections and fed sequentially into the model. The model's output is then concatenated to form the complete summary. Post-processing techniques, including text cleaning and the use of the Stanza library for unknown word identification and tagging, are applied to refine the generated summaries. These two approaches contribute to the advancement of automatic summarization systems in the biomedical domain, facilitating the comprehension and dissemination of scientific knowledge to a broader audience.
Benzer Tezler
- A generalized deep reinforcement learning based controller for heading keeping in waves
Dalgalı ortamda yön tutma problemi için geliştirilmiş derin takviyeli öğrenme tabanlı bir kontrolcü
AFŞİN BARAN BAYEZİT
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiGemi ve Deniz Teknoloji Mühendisliği Ana Bilim Dalı
DOÇ. DR. ÖMER KEMAL KINACI
- Depresif bozuklukta intihar davranışını öngörmede ses analizi incelenmesi
Examination of speech analysis to predict suicidal behavior in depression
SENA YÜNDEN
Tıpta Uzmanlık
Türkçe
2024
PsikiyatriNecmettin Erbakan ÜniversitesiRuh Sağlığı ve Hastalıkları Ana Bilim Dalı
PROF. DR. MEHMET AK
- Makine öğrenmesi teknikleri kullanılarak hasta öyküsü ve fiziki bulgulardan pnömoni prognoz öngörüsünün yapılması
Prediction of pneumonia prognosis with machine learning techniques from patient history and physical examination
AHMET FATİH DEVECİ
Yüksek Lisans
Türkçe
2022
Çocuk Sağlığı ve HastalıklarıSağlık Bilimleri ÜniversitesiSağlık Bilişim Sistemleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MUHSİN ZAHİD UĞUR
- Makine öğrenmesi algoritmaları ile hazır giyim perakendeciliğinde satış tahmini
The sales forecasting in ready-to-wear retail using machine learning algorithms
ABDÜL MERAL
Yüksek Lisans
Türkçe
2023
Bilim ve Teknolojiİstanbul Medeniyet ÜniversitesiUygulamalı Matematik ve Hesaplamalı Bilimler Ana Bilim Dalı
PROF. DR. RAHMET SAVAŞ
- Hidroelektrik santrallerde makine öğrenmesi temelli anomali tespiti
Machine learning based anomaly detection in hydroelectric power plants
MEHMET AKİF BÜTÜNER
Yüksek Lisans
Türkçe
2022
Elektrik ve Elektronik MühendisliğiAnkara ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. İLHAN KOŞALAY