Doğal dil işleme ile otomatik doküman doğrulama

Automatic document verification with natural language processing

PDF İndir

Tez No: 925231
Yazar: AHMET TOPRAK
Danışmanlar: DR. ÖĞR. ÜYESİ METİN TURAN
Tez Türü: Doktora
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Computer Engineering and Computer Science and Control, Science and Technology
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2024
Dil: Türkçe
Üniversite: İstanbul Ticaret Üniversitesi
Enstitü: Lisansüstü Eğitim Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
Sayfa Sayısı: 142

Özet

Doküman doğrulama, orijinal özet dokümanın orijinal tam metin doküman üzerinde doğrulanması işlemidir. Bu doğrulama süreçlerinde anlamsal kontrol oldukça kritiktir. Anlamsal doğrulamaya daha az odaklanan birçok güncel yaklaşımdan farklı olarak bu çalışmada, özellikle orijinal doküman veya dokümanlar için üretilen özetin tutarlılığını anlamsal olarak kontrol etmek amacıyla Doğal Dil İşleme tekniklerine dayalı bir otomatik doküman doğrulama sistemi tasarlanmıştır. Soyut özetlerin orijinal tam metin dokümanlar üzerinde doğrulanması Transformer tabanlı model aracılığıyla yapılmıştır. Çalışmada deneysel dokümanlar finansal türe ait seçilmiş olduğundan Reuters finansal veri seti ile eğitim yapılarak Transformer modeli oluşturulmuştur. Önerilen Transformer tabanlı anlamsal doküman doğrulama yaklaşımı, orijinal tam metin ve özet dokümanlar üzerinde test edilmiştir. Sistem, birçok Doğal Dil İşleme modelinde olduğu üzere, tam metin ve özet dokümanlar üzerinde veri ön işleme ve yazım denetimi işlemlerini uygulayarak başlamaktadır. Daha sonra özet doküman tam metin doküman üzerinde doğrulanacağı için Simhash ve Cross Encoder metin benzerliği algoritmaları kullanılarak tam metin doküman cümlelerinden özet doküman cümlelerine en çok benzeyen cümleler belirlenmiştir. Bu sezgisel bir yaklaşımdır ve özet içinde yer alan her cümlenin tam metin dokümanda hangi cümlelerle ilişkili olduğu tahmin edilmeye çalışılmaktadır. Özet doküman cümlesine en yakın (benzeyen) iki orijinal tam metin doküman cümlesi seçilmiştir. Daha sonra bu orijinal tam metin doküman cümleleri eğitilmiş Transformer modeline girdi olarak verilmiştir, orijinal tam metin cümlelerinin soyut bir özeti üretilmiştir. Son aşamada orijinal özet ile Transformer modelinin ürettiği özet, benzerlikleri açısından hem Simhash hem de Cross Encoder metin benzerliği algoritmalarıyla karşılaştırılmış ve ortalama doküman doğrulama doğruluğu hesaplanmıştır. Önerilen Transformer tabanlı anlamsal doküman doğrulama sistemi, Reuters veri kümesindeki finansal dokümanlar üzerinde ortalama %84.1 anlamsal doküman doğrulama doğruluğu elde etmiştir. Bu çalışma, doküman doğrulamayı otomatikleştirmenin günümüz teknolojileri ile mümkün olduğunu göstermiştir. Hem Transformer hem de cümle gruplama tekniklerini ustalıkla bütünleştirerek otomatik soyut özetlemenin önünü açmış, insan özetlerinin yerine otomatik özetlerin başarı ile kullanılabileceğini göstermiştir.

Özet (Çeviri)

Document verification is the process of verifying an original summary document on the original full-text document. Semantic control is very critical in these verification processes. Unlike many current approaches that are less focused on semantic verification, in this study, an automatic document verification system based on Natural Language Processing techniques was designed to semantically check the consistency of the summary produced especially for the original document or documents. Verification of abstract summaries on original full-text documents was done through the Transformer-based model. Since the experimental documents in the study were selected to belong to the financial type, the Transformer model was created by training with Reuters financial dataset. The proposed Transformer-based semantic document verification approach was tested on the original full-text and summary documents. As in many Natural Language Processing models, the system starts by applying data pre-processing and Spell Checker operations on full-text and summary documents. Then, since the summary document will be verified on the full-text document, the sentences most similar to the summary document sentences from the full-text document sentences were determined by using Simhash and Cross Encoder text similarity algorithms. This is an intuitive approach, attempting to predict which sentences in the full-text document are associated with each sentence included in the summary. The two original full-text document sentences closest (similar) to the summary document sentence were selected. Then, these original full text document sentences were given as input to the trained Transformer model, producing an abstract summary of the original full-text sentences. Finally, the transformer model produced an abstract summary of original full-text sentences. In the last stage, the original summary and the summary produced by the Transformer model were compared with both Simhash and Cross Encoder text similarity algorithms in terms of their similarities, and the average document verification accuracy was calculated. The proposed Transformer-based semantic document verification system achieved an average of 84.1% semantic financial document verification accuracy on the financial documents in the Reuters financial dataset. This study has demonstrated that document verification can be automated using modern-day technologies. By skillfully integrating both Transformer and sentence grouping techniques, the way has been paved for automated abstract summarization, showcasing the potential for the successful utilization of automated summaries in place of human-generated ones.

Benzer Tezler

Tez No
46228
Wind: A Knowledge based system for the synthesis of window parts
Başlık çevirisi yok
MANOLYA KAVAKLI
Yüksek Lisans
İngilizce
1995
Mimarlık İstanbul Teknik Üniversitesi
PROF.DR. NİGAN BEYAZIT
Tez No
697085
Türkçe dilinde yapılmış açık uçlu sınavların doğal dil işleme ile otomatik olarak değerlendirilmesi
Automatic assessment of open-ended exams in Turkish language by natural language processing
NİMET AKSOY
Yüksek Lisans
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Balıkesir Üniversitesi
Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ KAMİL TOPAL
Tez No
577004
Doğal dil işleme ile İngilizce otomatik sözlük oluşturma
Creating english automatic dictionary with natural language processing
AHMET TOPRAK
Yüksek Lisans
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Ticaret Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ METİN TURAN
Tez No
349814
İnşaat sözleşmelerinde hak talebi yönetimi: Kamu projeleri için öneri model
Claim management in construction contracts: Proposed model for public construction projects
İSMAİL CENGİZ YILMAZ
Doktora
Türkçe
2013
Mimarlık İstanbul Teknik Üniversitesi
Mimarlık Ana Bilim Dalı
PROF. DR. HÜSEYİN ATİLLA DİKBAŞ
Tez No
434817
Metin sınıflandırma teknikleri ile türkçe twitter duygu analizi
Turkish twitter sentiment analysis using text classification techniques
ÖNDER ÇOBAN
Yüksek Lisans
Türkçe
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Atatürk Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. GÜLŞAH TÜMÜKLÜ ÖZYER

Geri Dön