Geri Dön

Doğal dil işleme ve makine öğrenmesi ile resmi yazışmaların konu bazlı sınıflandırılması

Topic classification of official correspondences with natural language processing and machine learning

  1. Tez No: 863720
  2. Yazar: ZEYNEP BOZDOĞAN
  3. Danışmanlar: PROF. DR. RESUL KARA
  4. Tez Türü: Doktora
  5. Konular: Bilgi ve Belge Yönetimi, Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Information and Records Management, Computer Engineering and Computer Science and Control, Science and Technology
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: Türkçe
  9. Üniversite: Düzce Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Disiplinlerarası Elektrik-Elektronik ve Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 104

Özet

Dijital gelişimler ile birlikte kamu kurumlarındaki resmi yazışma belgeleri Elektronik Belge Yönetim Sistemi (EBYS)'leri aracılığı ile yürütülmektedir. Belgelerin Standart Dosya Planı (SDP) kodlarının uygun olarak belirlenmesi, doğru arşivleme ve arşiv imha işlemleri için önem arz etmektedir. Belgeyi oluşturan kişiler tarafından belgeye verilen SDP kodu bilgisi çeşitli sebeplerle hatalı olarak yazılabilmektedir. Bu hataları önlemek için belgelerin SDP kodunu otomatik olarak doğru tespit eden uygulamaların geliştirilmesi faydalı olacaktır. Bu amaçla çalışmada iki farklı veri seti oluşturulmuş ve bu veri setleri üzerinde öncelikle ön işlemler, ardından ön işlem uygulanmış veriler üzerinde çeşitli sınıflandırma algoritmaları uygulanarak belgelerin SDP kodunun sınıflandırma işlemleri ile tespit edilmesi gerçekleştirilmiştir. Sınıflandırma işlemlerinin sonuçları karşılaştırılarak analiz edilmiştir. Birinci veri seti üzerinde yapılan analizlerde en başarılı sınıflandırma sonuçları, Lojistik Regresyon (LR) algoritması ile 1000 adet resmi yazışma belgesinin 978 tanesinin SDP kodunun doğru tahmin edilmesi ile elde edilmiştir. İkinci veri seti üzerinde yapılan analizlerde en başarılı sınıflandırma sonuçları genel olarak 2100 adet belgenin 1851 tanesinin doğru konulara (SDP koduna) sınıflandırıldığı ve % 88,14 oranında başarı gösteren Non-Negatif Matrix Factorization (NNMF) algoritması ile elde edilmiştir.

Özet (Çeviri)

In line with digital advancements, official correspondence documents in public institutions are managed through Electronic Document Management Systems (EDMS). Appropriate determination of the Standard File Plan (SFP) codes of documents is important for correct archiving and archival destruction process. The SFP code information given to the document by the people who created the document may be written incorrectly for various reasons. To prevent these errors, it would be useful to develop applications that automatically detect the correct SFP code of documents. For this purpose, two different data sets were created in the study; initially, preprocessing was performed on these sets, followed by the application of various classification algorithms on the preprocessed data to detect, the documents' SFP codes. The results of the classification processes were compared and analyzed. In the analysis of the first dataset, the most successful classification results were obtained by using the correctly predicting the SFP code of 978 out of 1000 official correspondence documents with the Logistic Regression (LR) algorithm. In the analyses performed on the second dataset, the most successful classification results were obtained with the Non-Negative Matrix Factorization (NNMF) algorithm, which classified 1851 of 2100 documents into the correct subjects (SFP code) and achieved 88.14% success rate.

Benzer Tezler

  1. Car damage analysis for insurance market using convolutional neural networks

    Sigorta sektörü için evrişimsel sinir ağları kullanarak araç hasarı analizi

    CİHAT TOLGA ARTAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Mühendislik Bilimleriİstanbul Teknik Üniversitesi

    İşletme Mühendisliği Ana Bilim Dalı

    DOÇ. DR. TOLGA KAYA

  2. Türkçe metinlerde şartlı rastgele alanlarla varlık ismi tanıma

    Named entity recognition by conditional random fields from Turkish informal texts

    SERAP ÖZKAYA

    Yüksek Lisans

    Türkçe

    Türkçe

    2013

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. BANU DİRİ

  3. Recurrent neural network based approaches for electricity consumption forecasting

    Tekrarlayan sinir ağı tabanlı elektrik tüketim tahmini

    ALPER TOKGÖZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. GÖZDE ÜNAL

  4. İTÜ NER - Türkçe metinlerde adlandırılmış varlık tespiti

    ITU NER - named entity recognition on Turkish texts

    GÖKHAN AKIN ŞEKER

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Bilimleri Ana Bilim Dalı

    DOÇ. DR. GÜLŞEN ERYİĞİT

  5. Oyun karakteri üretimi için üretken modeller

    Generative models for game character generation

    FERDA GÜL AYDIN EMEKLİGİL

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Oyun ve Etkileşim Teknolojileri Ana Bilim Dalı

    DOÇ. DR. İLKAY ÖKSÜZ