Geri Dön

Doğal dil işleme ile otomatik doküman doğrulama

Automatic document verification with natural language processing

  1. Tez No: 925231
  2. Yazar: AHMET TOPRAK
  3. Danışmanlar: DR. ÖĞR. ÜYESİ METİN TURAN
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Computer Engineering and Computer Science and Control, Science and Technology
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: Türkçe
  9. Üniversite: İstanbul Ticaret Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 142

Özet

Doküman doğrulama, orijinal özet dokümanın orijinal tam metin doküman üzerinde doğrulanması işlemidir. Bu doğrulama süreçlerinde anlamsal kontrol oldukça kritiktir. Anlamsal doğrulamaya daha az odaklanan birçok güncel yaklaşımdan farklı olarak bu çalışmada, özellikle orijinal doküman veya dokümanlar için üretilen özetin tutarlılığını anlamsal olarak kontrol etmek amacıyla Doğal Dil İşleme tekniklerine dayalı bir otomatik doküman doğrulama sistemi tasarlanmıştır. Soyut özetlerin orijinal tam metin dokümanlar üzerinde doğrulanması Transformer tabanlı model aracılığıyla yapılmıştır. Çalışmada deneysel dokümanlar finansal türe ait seçilmiş olduğundan Reuters finansal veri seti ile eğitim yapılarak Transformer modeli oluşturulmuştur. Önerilen Transformer tabanlı anlamsal doküman doğrulama yaklaşımı, orijinal tam metin ve özet dokümanlar üzerinde test edilmiştir. Sistem, birçok Doğal Dil İşleme modelinde olduğu üzere, tam metin ve özet dokümanlar üzerinde veri ön işleme ve yazım denetimi işlemlerini uygulayarak başlamaktadır. Daha sonra özet doküman tam metin doküman üzerinde doğrulanacağı için Simhash ve Cross Encoder metin benzerliği algoritmaları kullanılarak tam metin doküman cümlelerinden özet doküman cümlelerine en çok benzeyen cümleler belirlenmiştir. Bu sezgisel bir yaklaşımdır ve özet içinde yer alan her cümlenin tam metin dokümanda hangi cümlelerle ilişkili olduğu tahmin edilmeye çalışılmaktadır. Özet doküman cümlesine en yakın (benzeyen) iki orijinal tam metin doküman cümlesi seçilmiştir. Daha sonra bu orijinal tam metin doküman cümleleri eğitilmiş Transformer modeline girdi olarak verilmiştir, orijinal tam metin cümlelerinin soyut bir özeti üretilmiştir. Son aşamada orijinal özet ile Transformer modelinin ürettiği özet, benzerlikleri açısından hem Simhash hem de Cross Encoder metin benzerliği algoritmalarıyla karşılaştırılmış ve ortalama doküman doğrulama doğruluğu hesaplanmıştır. Önerilen Transformer tabanlı anlamsal doküman doğrulama sistemi, Reuters veri kümesindeki finansal dokümanlar üzerinde ortalama %84.1 anlamsal doküman doğrulama doğruluğu elde etmiştir. Bu çalışma, doküman doğrulamayı otomatikleştirmenin günümüz teknolojileri ile mümkün olduğunu göstermiştir. Hem Transformer hem de cümle gruplama tekniklerini ustalıkla bütünleştirerek otomatik soyut özetlemenin önünü açmış, insan özetlerinin yerine otomatik özetlerin başarı ile kullanılabileceğini göstermiştir.

Özet (Çeviri)

Document verification is the process of verifying an original summary document on the original full-text document. Semantic control is very critical in these verification processes. Unlike many current approaches that are less focused on semantic verification, in this study, an automatic document verification system based on Natural Language Processing techniques was designed to semantically check the consistency of the summary produced especially for the original document or documents. Verification of abstract summaries on original full-text documents was done through the Transformer-based model. Since the experimental documents in the study were selected to belong to the financial type, the Transformer model was created by training with Reuters financial dataset. The proposed Transformer-based semantic document verification approach was tested on the original full-text and summary documents. As in many Natural Language Processing models, the system starts by applying data pre-processing and Spell Checker operations on full-text and summary documents. Then, since the summary document will be verified on the full-text document, the sentences most similar to the summary document sentences from the full-text document sentences were determined by using Simhash and Cross Encoder text similarity algorithms. This is an intuitive approach, attempting to predict which sentences in the full-text document are associated with each sentence included in the summary. The two original full-text document sentences closest (similar) to the summary document sentence were selected. Then, these original full text document sentences were given as input to the trained Transformer model, producing an abstract summary of the original full-text sentences. Finally, the transformer model produced an abstract summary of original full-text sentences. In the last stage, the original summary and the summary produced by the Transformer model were compared with both Simhash and Cross Encoder text similarity algorithms in terms of their similarities, and the average document verification accuracy was calculated. The proposed Transformer-based semantic document verification system achieved an average of 84.1% semantic financial document verification accuracy on the financial documents in the Reuters financial dataset. This study has demonstrated that document verification can be automated using modern-day technologies. By skillfully integrating both Transformer and sentence grouping techniques, the way has been paved for automated abstract summarization, showcasing the potential for the successful utilization of automated summaries in place of human-generated ones.

Benzer Tezler

  1. Wind: A Knowledge based system for the synthesis of window parts

    Başlık çevirisi yok

    MANOLYA KAVAKLI

    Yüksek Lisans

    İngilizce

    İngilizce

    1995

    Mimarlıkİstanbul Teknik Üniversitesi

    PROF.DR. NİGAN BEYAZIT

  2. Türkçe dilinde yapılmış açık uçlu sınavların doğal dil işleme ile otomatik olarak değerlendirilmesi

    Automatic assessment of open-ended exams in Turkish language by natural language processing

    NİMET AKSOY

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBalıkesir Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ KAMİL TOPAL

  3. Doğal dil işleme ile İngilizce otomatik sözlük oluşturma

    Creating english automatic dictionary with natural language processing

    AHMET TOPRAK

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Ticaret Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ METİN TURAN

  4. İnşaat sözleşmelerinde hak talebi yönetimi: Kamu projeleri için öneri model

    Claim management in construction contracts: Proposed model for public construction projects

    İSMAİL CENGİZ YILMAZ

    Doktora

    Türkçe

    Türkçe

    2013

    Mimarlıkİstanbul Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    PROF. DR. HÜSEYİN ATİLLA DİKBAŞ

  5. Metin sınıflandırma teknikleri ile türkçe twitter duygu analizi

    Turkish twitter sentiment analysis using text classification techniques

    ÖNDER ÇOBAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAtatürk Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. GÜLŞAH TÜMÜKLÜ ÖZYER