Doğal dil işleme ve makine öğrenmesi ile resmi yazışmaların konu bazlı sınıflandırılması
Topic classification of official correspondences with natural language processing and machine learning
- Tez No: 863720
- Danışmanlar: PROF. DR. RESUL KARA
- Tez Türü: Doktora
- Konular: Bilgi ve Belge Yönetimi, Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Information and Records Management, Computer Engineering and Computer Science and Control, Science and Technology
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: Türkçe
- Üniversite: Düzce Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Disiplinlerarası Elektrik-Elektronik ve Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 104
Özet
Dijital gelişimler ile birlikte kamu kurumlarındaki resmi yazışma belgeleri Elektronik Belge Yönetim Sistemi (EBYS)'leri aracılığı ile yürütülmektedir. Belgelerin Standart Dosya Planı (SDP) kodlarının uygun olarak belirlenmesi, doğru arşivleme ve arşiv imha işlemleri için önem arz etmektedir. Belgeyi oluşturan kişiler tarafından belgeye verilen SDP kodu bilgisi çeşitli sebeplerle hatalı olarak yazılabilmektedir. Bu hataları önlemek için belgelerin SDP kodunu otomatik olarak doğru tespit eden uygulamaların geliştirilmesi faydalı olacaktır. Bu amaçla çalışmada iki farklı veri seti oluşturulmuş ve bu veri setleri üzerinde öncelikle ön işlemler, ardından ön işlem uygulanmış veriler üzerinde çeşitli sınıflandırma algoritmaları uygulanarak belgelerin SDP kodunun sınıflandırma işlemleri ile tespit edilmesi gerçekleştirilmiştir. Sınıflandırma işlemlerinin sonuçları karşılaştırılarak analiz edilmiştir. Birinci veri seti üzerinde yapılan analizlerde en başarılı sınıflandırma sonuçları, Lojistik Regresyon (LR) algoritması ile 1000 adet resmi yazışma belgesinin 978 tanesinin SDP kodunun doğru tahmin edilmesi ile elde edilmiştir. İkinci veri seti üzerinde yapılan analizlerde en başarılı sınıflandırma sonuçları genel olarak 2100 adet belgenin 1851 tanesinin doğru konulara (SDP koduna) sınıflandırıldığı ve % 88,14 oranında başarı gösteren Non-Negatif Matrix Factorization (NNMF) algoritması ile elde edilmiştir.
Özet (Çeviri)
In line with digital advancements, official correspondence documents in public institutions are managed through Electronic Document Management Systems (EDMS). Appropriate determination of the Standard File Plan (SFP) codes of documents is important for correct archiving and archival destruction process. The SFP code information given to the document by the people who created the document may be written incorrectly for various reasons. To prevent these errors, it would be useful to develop applications that automatically detect the correct SFP code of documents. For this purpose, two different data sets were created in the study; initially, preprocessing was performed on these sets, followed by the application of various classification algorithms on the preprocessed data to detect, the documents' SFP codes. The results of the classification processes were compared and analyzed. In the analysis of the first dataset, the most successful classification results were obtained by using the correctly predicting the SFP code of 978 out of 1000 official correspondence documents with the Logistic Regression (LR) algorithm. In the analyses performed on the second dataset, the most successful classification results were obtained with the Non-Negative Matrix Factorization (NNMF) algorithm, which classified 1851 of 2100 documents into the correct subjects (SFP code) and achieved 88.14% success rate.
Benzer Tezler
- Car damage analysis for insurance market using convolutional neural networks
Sigorta sektörü için evrişimsel sinir ağları kullanarak araç hasarı analizi
CİHAT TOLGA ARTAN
Yüksek Lisans
İngilizce
2019
Mühendislik Bilimleriİstanbul Teknik Üniversitesiİşletme Mühendisliği Ana Bilim Dalı
DOÇ. DR. TOLGA KAYA
- Türkçe metinlerde şartlı rastgele alanlarla varlık ismi tanıma
Named entity recognition by conditional random fields from Turkish informal texts
SERAP ÖZKAYA
Yüksek Lisans
Türkçe
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. BANU DİRİ
- Recurrent neural network based approaches for electricity consumption forecasting
Tekrarlayan sinir ağı tabanlı elektrik tüketim tahmini
ALPER TOKGÖZ
Yüksek Lisans
İngilizce
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. GÖZDE ÜNAL
- İTÜ NER - Türkçe metinlerde adlandırılmış varlık tespiti
ITU NER - named entity recognition on Turkish texts
GÖKHAN AKIN ŞEKER
Yüksek Lisans
Türkçe
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
DOÇ. DR. GÜLŞEN ERYİĞİT
- Oyun karakteri üretimi için üretken modeller
Generative models for game character generation
FERDA GÜL AYDIN EMEKLİGİL
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiOyun ve Etkileşim Teknolojileri Ana Bilim Dalı
DOÇ. DR. İLKAY ÖKSÜZ