Makine çevirisi için tıbbi ingilizce – türkçe paralel derlem oluşturma
Building medical english–turkish parallel corpus for machine translation
- Tez No: 947994
- Danışmanlar: DR. ÖĞR. ÜYESİ EMRE ŞATIR
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: Türkçe
- Üniversite: İzmir Katip Çelebi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Yazılım Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 116
Özet
Makine çevirisi, doğal dil işleme alanının en yaygın ve etkin kullanım alanlarından biri olarak çok dilli iletişimi ve bilgiye erişimi kolaylaştırmaktadır. Ancak tıbbi metinler gibi terminolojik yoğun ve bağlama duyarlı alanlarda genel amaçlı çeviri sistemlerinin başarısı sınırlı kalmaktadır. İngilizce – Türkçe dil çifti için tıbbi paralel derlem eksikliği, bu alandaki ilerlemeyi kısıtlayan önemli bir faktördür. Bu tez çalışmasının veri toplama aşamasında tıbbi alana özgü tez ve makale özet metinlerinden İngilizce – Türkçe metinler derlenmiştir. BERTalign aracıyla cümle hizalaması gerçekleştirilmiş ve oluşturulan derlem yapısal ve tematik açıdan detaylı olarak analiz edilmiştir. Terminolojik çeşitlilik, cümle uzunluğu ve Zipf yasasına uyum gibi istatistiksel göstergeler değerlendirilmiştir. Elde edilen derlem, SentencePiece alt birimleme (subword tokenization) modeli (SPM) ile işlenmiş ve Fairseq çerçevesi kullanılarak her iki çeviri yönünde (Türkçeden İngilizceye ve İngilizceden Türkçeye) Transformer tabanlı sinirsel makine çevirisi modelleri eğitilmiştir. Modellerin performansı, BLEU, chrF++, METEOR, COMET ve BERTScore gibi otomatik metriklerle ve uzman hekimlerin katkısıyla yapılan manuel değerlendirmelerle ölçülmüştür. Sonuçlar, tıbbi alana özgü verilerle eğitilen modellerin terminolojik doğruluk ve bağlam uyumu açısından genel amaçlı modellerden daha yüksek performans gösterdiğini ortaya koymuştur. Bu çalışma, İngilizce – Türkçe tıbbi makine çevirisi alanına açık erişimli yeni bir paralel derlem sunarak alan uyumlu model geliştirme çalışmalarını desteklemeyi amaçlamaktadır. Ayrıca, farklı eğitim ve test veri setlerinin model performansına etkisine ilişkin kapsamlı değerlendirme sonuçları sağlamaktadır.
Özet (Çeviri)
Machine translation is one of the most common and effective applications of natural language processing, facilitating multilingual communication and access to information. However, in terminologically dense and context-sensitive domains such as medical texts, the performance of general-purpose translation systems remains limited. The lack of a high-quality medical parallel corpus for the English–Turkish language pair is a key factor hindering progress in this field. In this thesis, English – Turkish texts were collected from medical thesis and article abstracts. Sentence alignment was performed using the BERTalign tool, and the resulting corpus was analyzed in detail in terms of its structural and thematic properties. Statistical indicators such as terminological diversity, sentence length, and compliance with Zipf's law were evaluated. Based on this corpus, Transformer-based neural machine translation models were trained for both Turkish-to-English and English-to-Turkish translation directions, using data processed with the SentencePiece subword tokenization model (SPM) within the Fairseq framework. The models' performance was evaluated using automatic metrics such as BLEU, chrF++, METEOR, COMET, and BERTScore, alongside manual assessments conducted with input from expert physicians. The results demonstrate that models trained on domain-specific data outperform general-purpose models in terms of terminological accuracy and contextual coherence. This study provides a new open-access parallel corpus for the field of English–Turkish medical machine translation, supporting domain-adapted model development efforts. Additionally, it offers comprehensive evaluation findings regarding the impact of different training and test datasets on model performance.
Benzer Tezler
- Post-editing skills for neural machine translation from English to Turkish
İngilizce-Türkçe nöral makine çevirisi için son-düzenleme becerileri
CEMAL TOPCU
Yüksek Lisans
İngilizce
2022
Mütercim-TercümanlıkDokuz Eylül ÜniversitesiMütercim Tercümanlık Ana Bilim Dalı
DOÇ. DR. MÜGE IŞIKLAR KOÇAK
- İbn-i Sina, Ebu'l-Kasım Ez-Zehravi, Şerefeddin Sabuncuoğlu ve Tokatlı Mustafa Efendi'nin eserleri ışığında 11.ve 18.yüzyıllar arasında nöroşirürji
Neurosurgery between the 11th and 18th centuries in the light of works of Avicenna, Abulcasis, Sheref al-Din Sabuncuoğlu and Moustapha of Tokat
AHMET ACIDUMAN
Doktora
Türkçe
2005
Deontoloji ve Tıp TarihiAnkara ÜniversitesiTıp Tarihi ve Deontoloji Ana Bilim Dalı
PROF.DR. BERNA ARDA
- Ebû Bekr Muhammed b. Zekeriyyâ Er-Râzî'nin Kitâbu'l-Cuderî ve'l-Hasbe Adlı eseri ve tıp tarihindeki yeri
Abu Bakr Muhammad b. Zakariya al-Razi's Kitab fi al-jadari wa-al-hasbah and Its Place in the history of medicine
GÖZDE ACIDUMAN SUBAŞIAY
Doktora
Türkçe
2024
Deontoloji ve Tıp TarihiAnkara ÜniversitesiTıp Tarihi ve Etik Ana Bilim Dalı
PROF. DR. BERNA ARDA
- Improved fuzzy logic based edge detection method on clinical images
Klinik görüntülerde bulanık mantık temelli iyileştirilmiş kenar tespit yöntemi
MURAT MERT ÇELEN
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiKontrol ve Otomasyon Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ İLKER ÜSTOĞLU
- A comparative analysis of Newmark's and Vinay & Darbelnet's methods used in medical translation within the framework of Skopos Theory
Skopos Kuramı çerçevesinde Newmark ve Vinay ve Darbelnet'in tıp çevirisinde kullanılan yöntemlerinin karşılaştırmalı analizi
FATMA DENİZ AKYOL
Yüksek Lisans
İngilizce
2011
Mütercim-TercümanlıkAtılım ÜniversitesiMütercim Tercümanlık Ana Bilim Dalı
PROF. DR. N. BERRİN AKSOY