Analysis of natural language processing techniques and development of Turkish named entity recognition tool for travel-tourism voice assistant
Doğal dil işleme tekniklerinin incelenmesi ve seyahat-turizm sesli asistanı için Türkçe varlık ismi tanıma aracı geliştirilmesi
- Tez No: 658195
- Danışmanlar: DOÇ. DR. ÜMİT DENİZ ULUŞAR
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Mühendislik Bilimleri, Computer Engineering and Computer Science and Control, Engineering Sciences
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2020
- Dil: İngilizce
- Üniversite: Akdeniz Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 43
Özet
Bu tezde, seyahat sektöründe Türkçe dilinde bir seyahat asistanının doğal dil işleme teknikleri kullanılarak nasıl geliştirilebileceği konusunda çalışmalar yapılacaktır. Bu çalışmayı yaparken, literatürde daha önce yapılmış olan doğal dil işleme çalışmalarının araştırılması ve bu çalışmalarının Türkçe 'ye uyarlanabilirliğinin verilerle ölçülmesi hedeflenmiştir. Türkçe doğal dil işleme alanındaki akademik çalışmaların başarısının incelenmesi, bunların doğruluk oranlarının nasıl arttırılabileceğinin saptanması ve bulunan sonuçların pratik uygulamalara nasıl uygulanabileceğinin çalışması yapılacaktır. NLP tekniklerine odaklanan akademik çalışmalara odaklanılarak ve bir Türk Mobil Seyahat Asistanında bu teknikler kullanılarak elde edilen sonuçları karşılaştırılacaktır. Doğal dil işleme, doğal dilde yazılmış metinlerin veya konuşulmuş seslerin işlenerek bilgisayar ile anlamlandırılması üzerine çalışmalar yürütülen, bilgisayar bilimi ve dil bilimciliğinin bir alt bilim dalıdır. Türkçe doğal dil işleme ise bu alanda yapılan çalışmaların Türk dil ve morfolojik yapısına göre uyarlanması ve gerektiğinde daha önce kullanılmamış tekniklerin kullanılarak dilin yapısına uygun olarak yeni yöntemlerin keşfedilmesidir. Bilgisayarların dili“anlama”terimi, insanın anladığı gibi değildir. Bilgisayarlara, dili anlamak için verilen modelleri kullanmak üzere denetimli, yarı denetimli ve denetimsiz yaklaşımlar kullanan modeller ve veriler sağlanmalıdır. Burada başarı anlama oranları, bir bilgisayarın dili konuşan bir insana kıyasla niyeti ne kadar iyi anladığı olarak tanımlanabilir. Bu tanımı temel alarak, NLP' deki en son modelleri kullanarak, dili anlayan bilgisayarların başarı oranları, mevcut bilgisayarların ve verilerin işlem gücünün artmasıyla arttı. Literatür tarandığında Türkçe doğal dil işleme alanında birçok çalışma yapıldığını görmekteyiz. Ses dalgalarının incelenerek ses tanıma ve yazıya aktarılması çalışmalarına konuşmadan yazıya yazıdan konuşmaya işlemleri denilmektedir. Bunun yansıra biçimbilimsel, sözdizimsel, anlamsal çözümleme gibi yöntemler kullanılmakta ve geliştirilmektedir. Bu alanda yapılan diğer çalışmalar otomatik yazım hatalarının denetlenmesi ve düzeltilmesi, dil çeviri gibi pratik, her daim elimizin altındaki alanlara da yaygınlaşmıştır. Büyük verinin artmasıyla birlikte bilginin ulaşılabilirliğinin zorlaşması ile bilgi çıkarımı, bilgi getirimi, soru cevap sistemlerinin geliştirilmesi, özet çıkartma gibi uygulamalar doğal dil işleme tanımı altında gerekli yerini bulmuştur. Bu alanda daha önce de sesli asistan geliştirme çalışmaları yapılmıştır. Ancak yaygın olarak kullanılmamıştır ve araştırma aşamasında kalmıştır. Doğal dil işleme alanında çalışmaların yürütülebilmesi için güncel olarak makine öğrenimi yöntemleri kullanılmıştır. Makine öğrenmesi tekniklerinin bu alanda kullanılabilmesi için de mevzu bahis alanda büyük veriye ihtiyaç duyulmaktadır. Konu özelleştikçe veriye ulaşmak daha da zorlaşmıştır. Bu tez kapsamında da seyahat alanında sesli niyetin toplanarak ve üzerinde çeşitli DDİ teknikleri kullanılarak veri haline getirilmesi ve bu verinin makine öğrenmesi yöntemlerine girdi olarak sağlanabilmesi hedeflenmiştir. Sesli asistan alanında çalışmalar yapılmasına rağmen seyahat alanında bugüne kadar çalışma yapılmamıştır. Bu da taranan literatürden gözlemlenmektedir. Bu çalışmada ses yoluyla alınan niyetin içerisinden gürültü (noise) olarak bildiğimiz model üzerinde etkisi olmayan kısımlar arındırılarak varlık ismi tespitine gönderilecektir. Varlık tespiti aşamasında bu cümlenin içerisinden anlamlı veriler alınıp seyahat edilecek yer, yön, tarih, kişi vb. dataları çıkarıp bunları birbirleriyle anlamlarını inceleyip modele oturtacaktır. Bu aşamada kişi isteğine göre listelenen sonuçlardan hangisini seçtiğini de ses yoluyla belirtecektir ve rezervasyon sayfasına ya da kişinin bilgilerinin istendiği sayfaya yönlendirilecektir. Buradan sonra kişinin bilgileri sesli soru cevap sistemi ile alınıp sesten yazıya çevrilecektir. Makine öğrenmesi algoritmaları çağrı merkezi çalışanlarının ve müşterilerinin gerçek konuşmalarından da öğrenerek veri kümelerini geliştirecektir ve bir süre sonra kendi kendine birçok sesli niyeti anlayıp çözüme ulaştıracak yapıya gelecektir. Türkiye'de doğal dil işleme alanında hali hazırda var olan kütüphanelerin (Zemberek) ve web servislerinin (İTÜ NLP Web Service) sağladığı yöntemler araştırılacaktır. Aynı zamanda son yıllarda Transfer Öğrenimi (transfer learning) yöntemleri de doğal dili anlama ve işleme alanlarında hızlı ilerlemeler kaydetmiştir. Bunlar ile deneylerle kullanılabilirliği araştırılacaktır. Bu yöntemlere ek geliştirmeler yaparak çalışmanın tamamlanması öngörülmüştür. Veri analizi yöntemleri ile daha önceden alınmış biletlerin konuşmalarından benzerlik algoritmaları ile şimdiki konuşmanın anlamını çıkarmaya çalışmak da bir gidiş yolu olarak öngörülmüştür. Bunlar AR-GE sonucunda başarı oranına göre karar verilerek en doğru kararı veren algoritma ile devam edilecektir. ANAHTAR KELİMELER: Makine Öğrenmesi, Türkçe Doğal Dil İşleme, Ses Tanıma, Seyahat ve Turizm Alanında Doğal Dil İşleme, Türkçe Biçimbilimsel Analizi, Türkçe'de Varlık İsmi Tanıma
Özet (Çeviri)
The aim of this thesis is to conduct studies on development of a Turkish language mobile travel assistant in the travel industry using natural language processing techniques. While conducting this research, it is aimed to investigate the natural language processing done so far in the literature in languages other than Turkish and to measure the adaptability of these studies to Turkish. Turkish natural language processing studies provide resources for both our own language and other Turkish languages. Examining the success of academic studies in the field of Turkish natural language processing, determining how their accuracy rates can be increased and how the results found can be applied to practical applications will be done. Natural Language Processing or NLP is defined as the system of processing human language and understand the intention. It is a sub-field of artificial intelligence and focuses on topics such as speech recognition, morphological processing, disambiguation, dependency parsing and named entity recognition of the language. Although being researched under NLP, these topics are comprehensive and comprises of rich research all by themselves. The term of computers 'understanding' the language is not like the way human understand it. The computers should be provided with models using supervised, semi supervised and unsupervised approaches and data to use those given models to understand the language. Here, the success rates of understanding can be defined as how close a computer understands the intent comparing to a human speaking the language. Using the state-of-the-art models on NLP, the success rates of computers understanding the language increased with the increase of processing power of available computers and data. NLP can be used on areas such as sentiment analysis, machine translation, automatic speech recognition systems on various domains. In this article, I will present the academic studies focusing on the state-of-the-art NLP techniques and compare the results achieved by using those techniques on a Turkish Mobile Travel Assistant. When the literature is reviewed, we see that there are many studies in the field of Turkish NLP. In this context, methods such as recognizing the waves of the sound and transferring them to the text in the computer, text vocalization, morphological analysis-production, syntax analysis, semantic analysis are used and developed. Applications such as checking / correcting spelling errors, machine translation, information extraction, information retrieval, development of question-and-answer systems, summary extraction are collected under the definition of natural language processing. Voice assistant studies have been conducted before in Turkish. However, it was not widely used and remained in the research phase. In order to carry out studies in the field of NLP, machine learning methods are commonly used. In order to use machine learning techniques in this area, big data is needed in the subject. The data is not available due to the fact that the studies have remained at the research level or the data has been privatized by privately held companies. As the subject become more specific like travel sector, it becomes more difficult to access the data. Within the scope of this thesis, it is aimed to collect the voice intention in the field of travel and convert the voice into data using various NLP techniques and to provide this data as an input to machine learning methods. Although there are studies in the area of voice assistant, no studies have been carried out in the field of travel until today. Classification methods and machine learning models will be used during the development of an NLP Travel assistant. In this work, The Named Entity Recognizer (NER) tool utilizes transfer learning methods, namely Google BERT and ELECTRA. These models will be fine-tuned with 4 types of data. Those fine-tuned models will be evaluated with a unique test data that is common to all those data sets. The extended travel NER tool will be able to tag PERSON, LOCATION, ORGANIZATION, DATE, TIME entities. KEYWORDS: Machine Learning, Turkish Speech Recognition, Turkish Natural Language Processing, Turkish Natural Language Understanding, Turkish Morphological Analysis, Turkish Named Entity Recognition
Benzer Tezler
- Oyun sektöründe kullanıcı yorumlarının makine öğrenmesi teknikleri ile analiz edilmesi ve sektördeki yerinin değerlendirilmesi
Analyzing of user comments in the gaming industry using machine learning techniques and evaluating the importance in the industry
ABDULLAH ÖZÇALIŞAN
Yüksek Lisans
Türkçe
2023
Bilim ve TeknolojiDokuz Eylül ÜniversitesiYönetim Bilişim Sistemleri Ana Bilim Dalı
DOÇ. DR. CAN AYDIN
- Güncel yazılım süreçlerinin yapay zeka yaklaşımları ile iyileştirilmesi
Improving current software processes with artificial intelligence approaches
MUSTAFA ALP EREN KILIÇ
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MUHAMMED FATİH ADAK
- The effect of social media analytics as a strategic tool on the marketing management
Stratejik bir araç olarak sosyal medya analitiğinin pazarlama stratejilerine etkisi
DİLAY KAYMAK ÇİMEN
Yüksek Lisans
İngilizce
2021
İşletmeİstanbul Bilgi Üniversitesiİşletme (İngilizce) Ana Bilim Dalı
PROF. BERİL DURMUŞ
- Doğal dil işleme teknikleri kullanılarak türkçe mobil asistan yazılımı geliştirilmesi
Development of a turkish mobile assistant software using natural language processing techniques
GÖKHAN ÇELİKKAYA
Yüksek Lisans
Türkçe
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. GÜLŞEN ERYİĞİT
- Metin madenciliği ve derin ağlar ile soru cevap sistemi
Question answering system with text mining and deep networks
HÜSEYİN AVNİ ARDAÇ
Doktora
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDüzce ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. PAKİZE ERDOĞMUŞ