Geri Dön

Makine çevirisi için tıbbi ingilizce – türkçe paralel derlem oluşturma

Building medical english–turkish parallel corpus for machine translation

  1. Tez No: 947994
  2. Yazar: ZELİHA DEMİRCAN
  3. Danışmanlar: DR. ÖĞR. ÜYESİ EMRE ŞATIR
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: Türkçe
  9. Üniversite: İzmir Katip Çelebi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Yazılım Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 116

Özet

Makine çevirisi, doğal dil işleme alanının en yaygın ve etkin kullanım alanlarından biri olarak çok dilli iletişimi ve bilgiye erişimi kolaylaştırmaktadır. Ancak tıbbi metinler gibi terminolojik yoğun ve bağlama duyarlı alanlarda genel amaçlı çeviri sistemlerinin başarısı sınırlı kalmaktadır. İngilizce – Türkçe dil çifti için tıbbi paralel derlem eksikliği, bu alandaki ilerlemeyi kısıtlayan önemli bir faktördür. Bu tez çalışmasının veri toplama aşamasında tıbbi alana özgü tez ve makale özet metinlerinden İngilizce – Türkçe metinler derlenmiştir. BERTalign aracıyla cümle hizalaması gerçekleştirilmiş ve oluşturulan derlem yapısal ve tematik açıdan detaylı olarak analiz edilmiştir. Terminolojik çeşitlilik, cümle uzunluğu ve Zipf yasasına uyum gibi istatistiksel göstergeler değerlendirilmiştir. Elde edilen derlem, SentencePiece alt birimleme (subword tokenization) modeli (SPM) ile işlenmiş ve Fairseq çerçevesi kullanılarak her iki çeviri yönünde (Türkçeden İngilizceye ve İngilizceden Türkçeye) Transformer tabanlı sinirsel makine çevirisi modelleri eğitilmiştir. Modellerin performansı, BLEU, chrF++, METEOR, COMET ve BERTScore gibi otomatik metriklerle ve uzman hekimlerin katkısıyla yapılan manuel değerlendirmelerle ölçülmüştür. Sonuçlar, tıbbi alana özgü verilerle eğitilen modellerin terminolojik doğruluk ve bağlam uyumu açısından genel amaçlı modellerden daha yüksek performans gösterdiğini ortaya koymuştur. Bu çalışma, İngilizce – Türkçe tıbbi makine çevirisi alanına açık erişimli yeni bir paralel derlem sunarak alan uyumlu model geliştirme çalışmalarını desteklemeyi amaçlamaktadır. Ayrıca, farklı eğitim ve test veri setlerinin model performansına etkisine ilişkin kapsamlı değerlendirme sonuçları sağlamaktadır.

Özet (Çeviri)

Machine translation is one of the most common and effective applications of natural language processing, facilitating multilingual communication and access to information. However, in terminologically dense and context-sensitive domains such as medical texts, the performance of general-purpose translation systems remains limited. The lack of a high-quality medical parallel corpus for the English–Turkish language pair is a key factor hindering progress in this field. In this thesis, English – Turkish texts were collected from medical thesis and article abstracts. Sentence alignment was performed using the BERTalign tool, and the resulting corpus was analyzed in detail in terms of its structural and thematic properties. Statistical indicators such as terminological diversity, sentence length, and compliance with Zipf's law were evaluated. Based on this corpus, Transformer-based neural machine translation models were trained for both Turkish-to-English and English-to-Turkish translation directions, using data processed with the SentencePiece subword tokenization model (SPM) within the Fairseq framework. The models' performance was evaluated using automatic metrics such as BLEU, chrF++, METEOR, COMET, and BERTScore, alongside manual assessments conducted with input from expert physicians. The results demonstrate that models trained on domain-specific data outperform general-purpose models in terms of terminological accuracy and contextual coherence. This study provides a new open-access parallel corpus for the field of English–Turkish medical machine translation, supporting domain-adapted model development efforts. Additionally, it offers comprehensive evaluation findings regarding the impact of different training and test datasets on model performance.

Benzer Tezler

  1. Post-editing skills for neural machine translation from English to Turkish

    İngilizce-Türkçe nöral makine çevirisi için son-düzenleme becerileri

    CEMAL TOPCU

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Mütercim-TercümanlıkDokuz Eylül Üniversitesi

    Mütercim Tercümanlık Ana Bilim Dalı

    DOÇ. DR. MÜGE IŞIKLAR KOÇAK

  2. İbn-i Sina, Ebu'l-Kasım Ez-Zehravi, Şerefeddin Sabuncuoğlu ve Tokatlı Mustafa Efendi'nin eserleri ışığında 11.ve 18.yüzyıllar arasında nöroşirürji

    Neurosurgery between the 11th and 18th centuries in the light of works of Avicenna, Abulcasis, Sheref al-Din Sabuncuoğlu and Moustapha of Tokat

    AHMET ACIDUMAN

    Doktora

    Türkçe

    Türkçe

    2005

    Deontoloji ve Tıp TarihiAnkara Üniversitesi

    Tıp Tarihi ve Deontoloji Ana Bilim Dalı

    PROF.DR. BERNA ARDA

  3. Ebû Bekr Muhammed b. Zekeriyyâ Er-Râzî'nin Kitâbu'l-Cuderî ve'l-Hasbe Adlı eseri ve tıp tarihindeki yeri

    Abu Bakr Muhammad b. Zakariya al-Razi's Kitab fi al-jadari wa-al-hasbah and Its Place in the history of medicine

    GÖZDE ACIDUMAN SUBAŞIAY

    Doktora

    Türkçe

    Türkçe

    2024

    Deontoloji ve Tıp TarihiAnkara Üniversitesi

    Tıp Tarihi ve Etik Ana Bilim Dalı

    PROF. DR. BERNA ARDA

  4. Improved fuzzy logic based edge detection method on clinical images

    Klinik görüntülerde bulanık mantık temelli iyileştirilmiş kenar tespit yöntemi

    MURAT MERT ÇELEN

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Kontrol ve Otomasyon Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ İLKER ÜSTOĞLU

  5. A comparative analysis of Newmark's and Vinay & Darbelnet's methods used in medical translation within the framework of Skopos Theory

    Skopos Kuramı çerçevesinde Newmark ve Vinay ve Darbelnet'in tıp çevirisinde kullanılan yöntemlerinin karşılaştırmalı analizi

    FATMA DENİZ AKYOL

    Yüksek Lisans

    İngilizce

    İngilizce

    2011

    Mütercim-TercümanlıkAtılım Üniversitesi

    Mütercim Tercümanlık Ana Bilim Dalı

    PROF. DR. N. BERRİN AKSOY