Geri Dön

Automatic generation of scientific terminology with deep learning

Derin öğrenme ile otomatik bilim terimleri sözlüğü oluşturulması

  1. Tez No: 694500
  2. Yazar: İPEK NUR KARAMAN
  3. Danışmanlar: PROF. DR. İLYAS ÇİÇEKLİ, DR. GÖNENÇ ERCAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2021
  8. Dil: İngilizce
  9. Üniversite: Hacettepe Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 74

Özet

Otomatik terim çıkarımı, doğal dil işlemede önemli bir görevdir. Bu tezde, otomatik terminoloji çıkarımı üzerinde iki amaç için çalışılmıştır. Birinci amacımız, farklı bilim alanları için bilimsel terminolojinin tutarsızlığını ölçmektir. Bilimsel yazılarda terminoloji tutarlılığı, bilimsel bilginin araştırmacılar arasında yayılması açısından önemlidir. Bu tezde, terminoloji tutarsızlığını ölçen bir metrik önerilmekte ve otomatik terim çıkarımı ile istatistiksel makine çevirisi kullanılarak farklı bilim alanları için terminoloji tutarsızlığı ölçülmektedir. Sonuçlarımız, terminolojideki tutarsızlığa göre bilimsel grupların sıralamasının: PHY (Fizik Bilimleri ve Mühendislik) > SOC (Sosyal ve Davranış Bilimleri) > LIF (Yaşam Bilimleri) olduğunu göstermiştir. Ayrıca sonuçların doğrulanması için anket çalışması yapılmış ve anket sonuçları elde ettiğimiz sonuçları desteklemiştir. Bu tezin ikinci amacı, dizi etiketleme ile derin öğrenme yöntemlerine dayalı ortak çok dilli öğrenme ile çok dillilikten faydalanmak ve İngilizce verileri kullanarak Türkçe terminoloji çıkarımı performansını iyileştirmektir. Derin öğrenme ile otomatik terim çıkarımı, yeterli eğitim verisi bulunduğunda umut verici sonuçlar elde etmektedir. Ne yazık ki, bazı diller için bazı bilim alanları eğitim verisi için gerekli olan kaynaklardan yoksun olabilir ve veri eksikliği yetersiz uyum nedeniyle otomatik terim çıkarımında düşük performansa neden olabilmektedir. Bu tez çalışmasında, metinlerden otomatik olarak terimleri çıkarmak için dizi etiketlemeli, çok dilli veriler üzerinde eğitilmiş ve bu sorunu çözmek için hizalanmış kelime temsilleri ile ortak çok dilli derin öğrenme modeli önerilmektedir. Değerlendirme sonuçlarımıza göre, çok dilli bir model, sınırlı eğitim verileriyle eğitilmiş tek dilli bir modelle karşılaştırıldığında, otomatik terim çıkarımında performans iyileştirmesi sağlamıştır. İyileştirme oranı bilim alanı ve verinin boyutuna göre değişmekle birlikte, değerlendirmemiz F1 puanındaki en yüksek gelişmenin Bilgisayar Bilimleri alanında 10,1 %, en az iyileştirmenin ise Elektronik Mühendisliği alanında 7,6 % olduğunu göstermektedir. Ayrıca çok dilli modelimiz, yeterli eğitim verisi ile eğitilmiş tek dilli bir modelle karşılaştırıldığında rekabetçi sonuçlar elde etmektedir.

Özet (Çeviri)

Automatic term extraction is an essential task in natural language processing. In this thesis, we work on terminology extraction for two purposes. The first aim is to measure inconsistency of scientific terminology for different scientific disciplines. Terminology consistency in scientific writing is important for the dissemination of scientific information among researchers. In this thesis, we propose a metric that measures terminology inconsistency and we measure terminology inconsistency for different scientific disciplines by using automatic term extraction and statistical machine translation. Our results showed that the order of scientific groups by inconsistency in terminology is: PHY (Physical Sciences and Engineering) > SOC (Social and Behavioral Sciences) > LIF (Life Sciences). We also survey for verification of the results and survey results support our study. The second aim of this thesis is to leverage multilinguality with joint multilingual learning based on deep learning methods with sequence labeling and improve terminology extraction performance in Turkish by utilizing English data. Automatic term extraction using deep learning achieves promising results if sufficient training data exists. Unfortunately, some languages may lack these resources in some scientific domains causing poor performance due to under-fitting. In this thesis, we propose a joint multilingual deep learning model with sequence labeling to extract terms, trained on multilingual data and aligned word embeddings to tackle this problem. Our evaluation results demonstrate that the multilingual model provides an improvement for automatic term extraction task when it is compared with a monolingual model trained with limited training data. Although the improvement rate varies according to domain and the size of the data, our evaluation shows that the highest improvement in F1-score is 10.1 % in the domain of Computer Science, the least improvement is 7.6 % in the domain of Electronic Engineering. Our multilingual model also achieves competitive results when it is compared with a monolingual model trained with sufficient training data.

Benzer Tezler

  1. Yapay Zeka'nın robot görmesi üzerine uygulanması

    An Application of robot vision in artificial intelligence

    FUNDA PEHLİVAN

    Yüksek Lisans

    Türkçe

    Türkçe

    1992

    Makine Mühendisliğiİstanbul Teknik Üniversitesi

    PROF. DR. TALHA DİNİBÜTÜN

  2. Hava kirliliği konusunda çevre bilgi sistemi tasarımı ve gerçekleştirilmesi pilot projesi

    Design of an information system about air pollution

    HARUN İYİDİKER

    Yüksek Lisans

    Türkçe

    Türkçe

    1995

    Jeodezi ve Fotogrametriİstanbul Teknik Üniversitesi

    PROF.DR. F. GÖNÜL TOZ

  3. Kuantum hesaplama modellerinin derin öğrenme kullanılarak otomatik üretimi

    Automated generation of quantum computing models using deep learning

    NİYAZİ FURKAN BAR

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. MEHMET KARAKÖSE

  4. Control Methodologies in Hexahedral Mesh Generation

    Yapısal olmayan düzgün altıyüzlü çözüm ağları için kontrol metodolojileri

    ÖZGÜR UĞRAŞ BARAN

    Doktora

    İngilizce

    İngilizce

    2005

    Makine MühendisliğiVrije Universiteit Brussel

    Makine Mühendisliği Ana Bilim Dalı

    PROF. DR. CHARLES HIRSCH

  5. Semantik arama ile multimedya verilerin anlamlandırılması

    Interpretation of multimedia data with semantic search

    OĞUZHAN MENEMENCİOĞLU

    Doktora

    Türkçe

    Türkçe

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKarabük Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. İLHAMİ MUHARREM ORAK