Türkçe dilinde eşanlatım derlemi oluşturma ve doğal dil işleme modellerinin karşılaştırılması
Turkish paraphrase corpus generation and comparison of natural language processing models
- Tez No: 895432
- Danışmanlar: PROF. DR. SEVİNÇ İLHAN OMURCA
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: Türkçe
- Üniversite: Kocaeli Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 54
Özet
Eşanlatım oluşturma, Doğal Dil İşleme (DDİ) alanında büyük önem taşıyan bir araştırma konusunu temsil etmektedir. Temelde, metnin anlamını korurken yeni ifadeler üretme sürecini kapsamaktadır. Eşanlatım oluşturma, metinlerin daha anlaşılır hale getirilmesi veya farklı amaçlara uygun duruma getirilmesi gibi çeşitli hedeflere hizmet edebilmektedir. Bu alanda geliştirilen yöntemler, metnin dil bilgisi özelliklerinin ve anlamsal yapısının yanı sıra kelime ve cümlelerin yeniden düzenlenmesini de içermektedir. Otomatik çeviri, içeriğin yeniden kullanımı ve özgün metin oluşturma gibi birçok uygulama alanında eşanlatım oluşturma görevi kullanılır. Bu görev, metinlerin anlaşılmasını geliştirmenin yanı sıra içerik üretimini hızlandırabilir ve çok dilli iletişimi kolaylaştırabilir. Kolaylıklarının yanı sıra metinleri farklı kelimelerle ifade etme, uygun kelime seçememe ve dilin inceliklerini anlamama gibi zorlukları da vardır. Bu tez kapsamında, Türkçe dilinde Eşanlatım oluşturma için MSCOCO, QQR ve özel bir veri kümesi üretilip bu veri kümesi üzerinde T5, BART ve Diziden Diziye (Seq2Seq) gibi model eğitimleri gerçekleştirilmiştir. Dönüştürücü tabanlı T5 ve BART modelleri BLEU, Kosinüs ve ROUGE değerleri üzerinde karşılaştırıldığında T5 modelinin BART modeline göre daha başarılı sonuçlar verdiği gözlemlenmiştir. Ayrıca MSCOCO ve QQR veri kümeleri Türkçe eşanlatım oluşturma görevindeki etkisi gözlemlenmiştir. Mevcut veri kümeleri kullanılarak Türkçe dilinde Eşanlatım oluşturmayı desteklemek amacıyla yeni bir veri kümesinin yaratılması, Türkçe Eşanlatım oluşturma görevinde önemli adımlar atmamıza yardımcı olmaktadır. Aynı zamanda DDİ alanında Türkçe dilindeki eşanlatım oluşturma çalışmalarına da önemli bir kaynak olmakta ve literatüre katkı sağlamaktadır. Eşanlatım oluşturma alanındaki bu tür çalışmalar, metin işleme teknolojilerinin geliştirilmesine ve dil engellerinin aşılmasına da yardımcı olmaktadır.
Özet (Çeviri)
Paraphrase generation represents a research topic of great importance in the field of Natural Language Processing (NLP). Essentially, it involves the process of producing new expressions while preserving the meaning of the text. Creating paraphrase can serve various purposes, such as making texts more understandable or making them suitable for different purposes. The methods developed in this field include the rearrangement of words and sentences as well as the grammatical features and semantic structure of the text. The paraphrase generation task is used in many application areas, such as automatic translation, content reuse, and original text generation. In addition to improving understanding of texts, this task can speed up content production and facilitate multilingual communication. In addition to their ease, they also have difficulties such as expressing texts with different words, not being able to choose appropriate words, and not understanding the subtleties of the language. Within the scope of this thesis For paraphrase generation in Turkish language, MSCOCO, QQR and a special dataset were produced and model trainings such as T5, BART and Sequence to Sequence (Seq2Seq) were performed on this dataset. When the transformer-based T5 and BART models were compared on BLEU, Cosine and ROUGE values, it was observed that the T5 model gave more successful results than the BART model. In addition, the effect of MSCOCO and QQR datasets on the task of generating Turkish paraphrase was observed. Creating a new dataset to support the creation of paraphrase in Turkish using existing datasets helps us take important steps in the task of creating Paraphrase in Turkish. At the same time, it is an important resource for paraphrase creation studies in the Turkish language in the field of NLP and contributes to the literature. Such work in the field of paraphrase generation also helps to improve text processing technologies and overcome language barriers.
Benzer Tezler
- Phonological and morphological aspects of lexicalized fingerspelling in Turkish sign language (TİD)
Türk işaret dilinde harfli işaretlerin birimbilimsel ve biçimbilimsel özellikleri
SÜLEYMAN SABRİ TAŞÇI
- Türkçe dilinde yapılmış açık uçlu sınavların doğal dil işleme ile otomatik olarak değerlendirilmesi
Automatic assessment of open-ended exams in Turkish language by natural language processing
NİMET AKSOY
Yüksek Lisans
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBalıkesir ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ KAMİL TOPAL
- Multiclass classification of scientific texts written in Turkish by applying deep learning technique
Türkçe dilinde yazılan bilimsel metinlerin derin öğrenme tekniği uygulanarak çoklu sınıflandırılması
MUSTAFA ÖZKAN
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBahçeşehir ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ GÖRKEM KAR
- Derin öğrenme algoritmaları ile Türkçe dilinde sahte haber tespiti
Detecting fake news in Turkish with deep learning algorithms
SÜLEYMAN GÖKHAN TAŞKIN
Doktora
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSüleyman Demirel ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ECİR UĞUR KÜÇÜKSİLLE
DR. ÖĞR. ÜYESİ KAMİL TOPAL
- Derin öğrenme ile moda nesneleri stillerinin belirlenmesi
Determining styles of fashion objects with deep learning
REMZİ ANIL TEPE
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. OĞUZ DİKENELLİ