Doğal dil işleme ve metin madenciliği yöntemleriyle teletıp randevu robotunun tasarlanması
Designing a teletip appointment robot with natural language processing and text mining methods
- Tez No: 678325
- Danışmanlar: DR. ÖĞR. ÜYESİ NACİ MURAT
- Tez Türü: Yüksek Lisans
- Konular: Endüstri ve Endüstri Mühendisliği, Industrial and Industrial Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2021
- Dil: Türkçe
- Üniversite: Ondokuz Mayıs Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Akıllı Sistemler Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 135
Özet
Teknolojinin gelişmesiyle birlikte çevrimiçi ortamlarda çok sayıda veri oluşmaya başlamıştır. Sayısal halde bulunan veriler yapısal verileri; metin, resim veya ses halinde bulunan veriler ise yapısal olmayan verileri oluşturmaktadır. Yapısal verilerin analizinde veri madenciliği yöntemi kullanılırken, yapısal olmayan verilerin analizinde veri madenciliğinin alt dalı olarak kabul edilen metin madenciliği yöntemi kullanılmaktadır. Özellikle sağlık alanında yapılan çalışmalarda metin madenciliği metotlarının kullanımı son yıllarda artış göstermektedir. Bu çalışmada Ocak-Aralık 2019 tarihleri arasında özel bir hastanenin acil servisine gelen 20.516 hastaya ait sağlık verisi kullanılmış olup, veri setinde hastaların demografik özellikleri, özet epikriz ve yönlendirildikleri poliklinik bilgileri bulunmaktadır. Veriler 0-15 yaş arası ve 15 yaş üzeri olarak iki sınıfta incelenmiş ancak 0-15 yaş arasındaki hastalar yalnızca çocuk hastalıkları polikliniğine yönlendirildiğinden dolayı bu gruba ait veriler analiz dışı tutulmuştur. Zemberek Doğal Dil Kütüphanesi ile kelimeler ek-köklerine ayrılarak kök kelimelerin frekanslarına bakılmıştır. Apriori algoritması ve FP-Growth algoritmaları ile kök kelimeler arasındaki birliktelik ilişkisi incelenmiş ve Apriori algoritmasında 32, FP-Growth algoritmasında 37 tane birliktelik kuralı bulunmuştur. Bu çalışma kapsamında sınıflandırma algoritmalarından Destek Vektör Makineleri (DVM), Karar Ağacı, Rasgele Orman ve K-En Yakın Komşu algoritmaları kullanılmış olup analiz aşamasında verilerin %70'i eğitim-%30'u test verisi olarak ikiye ayrılmıştır. Destek Vektör Makineleri algoritmasında %80,4, budama yapılmış karar ağacı algoritmasında %77,0 ve budama yapılmamış karar ağacı algoritmasında %74,3, rasgele orman algoritmasında %71,8 ve K-en yakın komşu algoritmasında %73,4 doğruluk oranı bulunmuştur. Sınıflandırma algoritmalarına ait atama matrisleri incelenerek doğru sınıflandırma yapılan şikayetlerdeki polikliniklere atanan kök kelimeler tespit edilmiştir. Kök kelime–poliklinik sınıflandırmaları için chatbot oluşturularak hastaların cinsiyet, yaş ve hastalıklarıyla ilgili şikayetlerini söylediklerinde hangi polikliniğe gideceklerini öğrenebilmeleri sağlanmıştır. Böylece acil servis yoğunluğunun azaltılmasına ve kaynakların doğru bir şekilde yönlendirilmesine olanak sağlayan bir araç oluşturulmuştur.
Özet (Çeviri)
With the development of technology, a large amount of data has begun to occur in online environments. While the data in digital form creates the structural data, the data in the form of text, picture, or sound creates the unstructured data. While the data mining method is used in the analysis of structured data, the text mining method, which is considered as a sub-branch of data mining, is used in the analysis of unstructured data. The use of text mining methods has increased in recent years, especially in studies in the field of health. In this study, health data of 20,516 patients who came to the emergency department of a private hospital between January and December 2019 were used, and the data set includes demographic characteristics of the patients, summary epicrisis, and outpatient clinic information. The data were analyzed in two classes as 0-15 years old and over 15 years old, but the data belonging to the 0-15 years old group were excluded from the analysis because the patients of this group were only referred to the pediatric outpatient clinic. With the Zemberek Natural Language Library, words were separated into affix-roots, and the frequencies of root words were examined. The association between root words was examined with Apriori and FP-Growth algorithms, and 32 association rules were found in the Apriori algorithm and 37 association rules in the FP-Growth algorithm. Within the scope of this study, Support Vector Machines (SVM), Decision Tree, Random Forest, and K-Nearest Neighbor algorithms from classification algorithms were used, and during the analysis phase, the data is divided into two as 70% training data and 30% test data. The accuracy rate was 80.4% in the Support Vector Machines algorithm, 77.0% in the pruned decision tree algorithm, 74.3% in the unpruned decision tree algorithm, 71.8% in the random forest algorithm, and 73.4% in the K-nearest neighbor algorithm. By examining the assignment matrices of the classification algorithms, the root words assigned to the outpatient clinics in the complaints with the correct classification were determined. By creating a chatbot for root word-polyclinic classifications, patients could learn which polyclinic they would go to when they said their age, gender, and complaints about their illness. Thus, a tool was created to reduce the intensity of the emergency services and direct the resources correctly.
Benzer Tezler
- Extreme learning machine and text mining approach in sentiment analysis on massive open online course evaluations
Kitlesel çevrimiçi açık ders değerlendirmelerinde duygu analizinde aşırı öğrenme makinesi ve metin madenciliği yaklaşımı
RUMEYSA ERDOĞAN
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAnkara Yıldırım Beyazıt ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. BAHA ŞEN
DOÇ. DR. FATMA GİZEM KARAOĞLAN YILMAZ
- Amazon müşteri yorumlarının duygu analizi yöntemleriyle değerlendirilmesi
Evaluating Amazon customer reviews through sentiment analysis techniques
SABUHI YUSIFOV
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOSTİM TEKNİK ÜNİVERSİTESİYazılım Mühendisliği Ana Bilim Dalı
PROF. DR. ALİ SEBETCİ
- Türkiye'deki havayolu firmalarıyla ilgili sosyal medya yorumlarının makine öğrenmesi yöntemleriyle sınıflandırılması
Classification of social media comments about airline companies in Turkey by machine learning methods
HATİCE ELİF EKİM
Yüksek Lisans
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKocaeli ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ALPASLAN BURAK İNNER
- Büyük veri araçlarından Hadoop kullanarak veri madenciliği
Data mining using Hadoop big data tool
MEHMET UMUT SALUR
Yüksek Lisans
Türkçe
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolPamukkale ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. SEZAİ TOKAT
- Metin madenciliği ve derin ağlar ile soru cevap sistemi
Question answering system with text mining and deep networks
HÜSEYİN AVNİ ARDAÇ
Doktora
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDüzce ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. PAKİZE ERDOĞMUŞ