Geri Dön

Spoken infobot design

Konuşan bilgi botu tasarımı

  1. Tez No: 556191
  2. Yazar: RAMAZAN GÖKAY
  3. Danışmanlar: DR. ÖĞR. ÜYESİ HÜLYA YALÇIN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Mekatronik Mühendisliği, Mechatronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2019
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Mekatronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Mekatronik Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 86

Özet

Günümüzde, yapay zeka ve makine öğrenmesi uygulamaları gittikçe önem kazanan bir hal almaktadır. Bu makine öğrenmesi uygulamaları çok farklı alanlar için kullanılabilir. Örneğin, veri madenciliği, robotik, sosyal medya analizi, doğal dil işleme gibi alanlar makine öğrenmesi tekniklerinin sıklıkla kullanıldığı alanlardır. Gün geçtikçe daha da artan teknolojik yenilikler, elde edilen verinin ve hesaplama gücünün de artmasını sağlamıştır. Bu durum, makine öğrenmesi ve derin öğrenme çalışmalarına daha fazla dikkat çekilmesine neden olmuştur. Makine öğrenmesi ve derin öğrenme tekniklerinin konuşma ve dil teknolojilerine başarılı bir şekilde uyarlanmasıyla insan-makine etkileşimi yeni bir boyut kazanarak daha kolay ve akıcı bir hale gelmiştir. Önceki yıllarda, insanlar makinelerin nasıl çalıştığını anlamaya çalışıp görsel arayüz üzerinden yazarak ya da menülerde tıklayarak işlem yaptırıyorlardı. Günümüzde ise, bu işlemler sesli komutlarla yapılabilmektedir. Bu sesli komut uygulamaları daha da geliştirilip yaygınlaştırılmaktadır. Örneğin, Apple Siri, Google Now, Amazon Echo, Microsoft Cortana gibi sesli komutla çalışan uygulamalar bir çok kişinin hayatında bir şekilde yer edinmektedir. Gelişen teknolojiyle birlikte basit komut algılama uygulaması, daha karmaşık komutları bile algılama, anlamlandırma ve uygun cevap verme uygulamasına doğru evrimleşmektedir. Böylece insanlara, makinelerle sohbet etme veya diyalog kurabilme deneyimi sağlanmaya çalışılmaktadır. Bu tez çalışmasının ana amacı kullanıcılar için bir bilgi botu tasarlamaktır. Böylece kullanıcıların, aradıklarıları bilgiye kısa zamanda ve kolaylıkla ulaşabilmeleri amaçlanmıştır. Ana amacının dışında, sistemin kullanıcı dostu ve farklı özellikler için yeniden yapılandırılabilir olması da amaçlanmıştır. Kullanım kolaylığı sağlamak için, sesli arayüze sahip bir sistem düşünülmüştür. Çünkü insanların en temel iletişim yöntemi konuşmadır. Sesli komut ile işlem yaptırmak ve cevabı sesli olarak alabilmek kullanıcılar için büyük kolaylıktır. Örneğin, görme engelli veya felçli bir kullanıcı sistemi kullanmak için yazmak veya menü üzerinden seçmek zorunda kalmayacak. Benzer şekilde, teknolojiyle arası çok iyi olmayan veya okuma yazma bilmeyen kullanıcılar da bu sistemi kullanabileceklerdir. Kullanıcının tek yapması gereken konuşmak ve beklemek. Sistem konuşmayı anlayıp uygun cevabı sesli olarak döndürecektir. Bu tez kapsamında, restoran arama için konuşan bilgi botu geliştirilmiştir. Kullanıcılar, konum, yemek türü, fiyat aralığı bağlamında sesli olarak sorgu yapabilirler. Sistem, cevabı sesli olarak kullanıcıya döner. Yeniden yapılandırılabilir olması için, modüler yapıya sahip bir sistem düşünüldü. Böylece sistem, ilerde istenebilecek özellik ekleme veya çıkarma yeteneğine sahip olmuştur. Sistem, piyasadaki ticari muadillerinden farklı olarak, açık kaynaklı bir yapıya sahiptir. Bütün sistem veya modüller farklı bir alan veya farklı bir dil için yeniden eğitilebilir. Sistemin bir başka yeteneği ise çevrimdışı olarak çalışabilmesidir. Böylelikle bilgi güvenliği de sağlanmış olur. Tez kapsamında geliştirilen, konuşan bilgi botu sistemi restoran arama amaçlı geliştirilmiştir. Bu sistem, bir çeşit konuşan diyalog sistemi olarak düşünülür. Tipik bir konuşan diyalog sistemi beş ana modülden oluşur: otomatik konuşma tanıma, doğal dil anlama, diyalog yönetimi, doğal dil üretimi ve konuşma sentezleme. Otomatik konuşma tanıma sistemi, konuşmayı yazıya çeviren bir sistemdir. Doğal dil anlama modülü, çevrilen yazıyı anlamlandıran bir modüldür. Diyalog yönetimi iki alt modülden oluşur:diyalog durum takibi, diyalog politikası. Diyalog durum takibi modülü, önceki diyalogların bilgisini tutan, yeni gelen söyleyişe göre eklenmesi veya güncellenmesi gereken bilgileri düzenleyen bir yapıdır. Diyalog politika modülü, anlamlandırılan bilgiler ve takibi tutulan durumlara göre uygun eylemi belirleyen bir modüldür. Doğal dil üretim modülü, kararlaştırılan eylemleri insanların anlayabileceği cümle formatına dönüştüren bir yapıdır. Konuşma sentezleme sistemi ise yazıyı sese dönüştüren bir sistemdir. Geleneksel diyalog sisteminde, bu modüller seri olarak birbiri ardına bağlantılıdır. Bu yöntem hem cevap süresinin hem de hatanın artmasına neden olur. Çünkü bir modül, kendisinden önceki modülün işini tamamlamasını beklemek zorunda ve önceki modüldeki hata sonraki modüle de aktarılır. Bu tezde, geleneksel sisteme alternatif olarak daha öz bir yöntem önerilmiştir. Ortada yer alan üç modül: doğal dil anlama, diyalog yönetimi ve doğal dil üretimi birleştirilerek amaç odaklı bot olarak görev alır. Önerilen konuşan diyalog sistemi üç ana modülden oluşur: otomatik konuşma tanıma, amaç odaklı bot ve konuşma sentezleme. Konuşma tanıma, diyalog sisteminin ilk modülüdür. Bu modülün çıktısı diyalog sistemini beslediği için, bu modül diyalog sisteminin performansı açısından önemlidir. Bu tez kapsamında, konuşma tanıma modülü için Deep Speech 2 tabanlı bir mimari kullanılmıştır. Bu mimari, uçtan uca bir konuşma tanıma sistemidir ve yinelemeli sinir ağlarından oluşur. Amaç odaklı bot ise diyalog sisteminin orta modülü ve aynı zamanda beynidir. Otomatik konuşma tanıma modülünden aldığı yazılandırılmış veriyi anlamlandırıp cevap üreten modüldür. Diyalog sistemi bu modül üzerine kuruludur. Bu tez kapsamında, amaç odaklı bot modülü için DeepPavlov tabanlı bir mimari kullanılmıştır. Bu mimari, uçtan uca bir mimari olup yinelemeli sinir ağlarını ve önceden belirlenmiş şablonları kullanan melez bir yapıdır. Konuşma sentezleme, diyalog sisteminin son modülüdür. Amaç odaklı bot modülünden elde edilen cevaplar, konuşma sentezleme modülü ile seslendirilir ve kullanıcıya iletilir. Bu tez kapsamında, konuşma sentezleme modülü için Tacotron tabanlı uçtan uca bir konuşma sentezleme mimarisi kullanılmıştır. Bütün bu modüller elde edildikten sonra birleştirilip ana sistem oluşturulmuştur. Bu tez kapsamında gerçeklenen deneysel çalışmalar sunulmuştur. Her bir modülün hangi veri kümesi ve hangi parametreler ile nasıl deneyler yapıldığı sunulmuştur. Elde edilen sonuçlar tartışılmıştır. Otomatik konuşma tanıma modülü için, üç farklı veri kümesi ile deneysel çalışmalar yapılmış ve otomatik konuşma modülü farklı farklı bakış açılarıyla değerlendirilmiştir. Öncelikle, gerçeklenen konuşma tanıma algoritmasının testi yapılmıştır. Orjinal çalışmada kullanılan veri seti ile test edilmiş ve elde edilen sonuçlar, orjinal sonuçlar ile karşılaştırılmıştır. Bu karşılaştırmaya göre, gerçeklenen algoritmanın orjinali kadar iyi olmadığı fakat yine de kabul edilebilir seviyede olduğu çıkarımı yapılmıştır. Konuşma tanımayı etkileyen önemli bir faktör olan aksan meselesi için aksanlı konuşmalar içeren başka bir veri seti ile deneyler yapılmıştır. Sistemin gerçek kullanımında, farklı farklı aksanlı konuşmalar ile karşılaşalacağı göz önüne alındığından daha gerçekçi bir deney ortamı ele alınmış olur. Konuşma tanımanın önemli bir elemanı olan akustik modelin daha da iyileştirilebilmesi için de çalışmalar yapılmıştır. Eğitim verisinin veya model derinliğinin arttırılmasının konuşma tanıma üzerinde pozitif etkisi olduğu gözlenmiştir. Konuşma tanıma modülünün, gerçek kullanım senaryosunda karşılaşabileceği daha muhtemel olan bir veri seti ile de deneysel çalışmalar yapılmıştır. Bu bize sistemin gerçek kullanımında başarımı için daha gerçekçi bir sonuç göstermiştir. Gerçek kullanım senaryosuna daha yakın akustik veya içerikli veri ile sistem modellemek, performansı arttıracaktır. Eğer alana uygun yeterli veri elde yoksa, önce genel bir baz model eğitip daha sonra alan benzerliği yüksek bir veri ile aktarma öğrenimi benzeri bir eğitim yapılarak da sistemin başarımının arttırılabildiği gözlenmiştir. Amaç odaklı bot modülü için, konum, yemek türü, fiyat aralığı bağlamında restoran sorgusu yapılabilen bir veri kümesi üzerinde deneysel çalışmalar yapılmıştır. Bu bağlamda diyalog sistemine girdi olarak gelen verinin anlamlandırılması ve diyalog sisteminin genel başarımı üzerine deneysel çalışmalar yapılmıştır. Bunun için niyet sınıflama, isimli varlık tanıma, boşluk doldurma ve amaç odaklı bot testleri yapılmıştır. Doğal dil anlama modülüyle ilişkilendirilebilen niyet sınıflama, isimli varlık tanıma, boşluk doldurma gibi testlerde yüksek başarım elde edilirken amaç odaklı bot testinin ise başarımın daha düşük olduğu gözlemlendi. Bu durumun, diyalog politikasının yeterince iyi modellenememesinden kaynaklanabileceği düşünülmektedir. Bütün modüller birleştirildikten sonra, birleştirilmiş ana sistem için gerçek kullanım senaryosuna uygun olarak ampirik ve öznel testler yapılmıştır. Kullanıcı sesli olarak isteğini sisteme bildirmiş, sistem uygun cevabı üretip sesli olarak kullanıcıya geri dönmüştür. Sistemin ürettiği cevabın, kullanıcının isteğini ne kadar karşıladığı üzerinden bir test yapılmıştır. Öznel bir test uygulanmış oldu fakat yine de sistemin gerçek kullanım senaryosunda verebileceği tepkiyi görebilmek adına bir hissiyat oluşturmuştur. Sonuç olarak, bu tezde amaçlandığı gibi, kullanıcı dostu, modüler ve tekrar ayarlanabilir bir bilgi botu sistemi geliştirilmiştir.

Özet (Çeviri)

In recent years, significant amount of developments are obtained in technology. One of the developing technology field is speech and language technology. While machine learning and deep learning methodologies are used widely in speech and language technologies, human-machine interaction is carried on the new level. This human-machine interaction becomes more smooth and easy through new technologies. The main purpose of this thesis is to design an infobot system for a specific domain so that it provides easiness and time saving to search and find information about a specific domain. In this thesis, restaurant searching domain is executed as specific domain. Besides the main purpose of this thesis, this system should be user friendly and reconfigurable for new domains. To satisfy these requirements, speech interface and modular structure are embraced for this infobot system. Hence, spoken infobot system is designed in scope of this thesis. This thesis consists of seven chapters. In the first chapter, the purpose of thesis, contribution of thesis and the outline of thesis are mentioned. In second chapter, spoken dialogue system (SDS) is explained. General literature review is presented. The structure and components of spoken dialogue systems are mentioned briefly. Proposed SDS structure is introduced and explained why this structure is determined. In chapter three, automatic speech recognition (ASR) which is the first module of the proposed spoken dialogue system is introduced. The logic behind the ASR problem and the components of ASR are shown. Applied ASR architecture is explained. In fourth chapter, goal oriented bot (GOB) which is the second module and the brain of the proposed spoken dialogue system is introduced. The components of GOB are explained and the existing methods are mentioned. Applied GOB architecture and the working flow are presented. In chapter five, text to speech (TTS) which is the last module of the proposed spoken dialogue system is introduced. Typical TTS pipeline is presented. The structure and the components of TTS system are explained. The existing TTS methods and examples are told. Applied TTS architecture is explained. In chapter six, experimental studies done in the scope of this thesis are presented. Used datasets and hyperparameters are mentioned. Experiment results are discussed. In seventh and the last chapter, all the work done in the thesis is summarized and concluded.

Benzer Tezler

  1. A cross-cultural pragmatics approach to speech acts in American English and Turkish: The case of refusals in TV series

    Amerikan İngilizcesi ve Türkçe dillerindeki sözeylemlere kültürlerarası edimsel yaklaşım: Televizyon dizilerindeki reddetme sözeylemlerinin durumu

    RABİA ELİF YAKUT

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    DilbilimErciyes Üniversitesi

    İngiliz Dili ve Edebiyatı Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ABDURRAHMAN KARA

  2. Gagauz konuşma dili: Kıpçak kasabası örneği

    Spoken Gagauz: The town of Kıpçak

    VICTOR COPUŞCIU

    Doktora

    Türkçe

    Türkçe

    2021

    DilbilimHacettepe Üniversitesi

    Türkiyat Araştırmaları Ana Bilim Dalı

    PROF. DR. NURETTİN DEMİR

  3. Türkiye Türkçesi ağızlarında şimdiki zaman kavramı ve ekleri

    The concept of present tense and its suffixes in Turkish dialects

    İLBİLGE ÇERÇİ

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Türk Dili ve EdebiyatıFırat Üniversitesi

    Türk Dili ve Edebiyatı Ana Bilim Dalı

    PROF. DR. AHMET BURAN

  4. Yabancılara Türkçe öğretiminde Rus araştırmacı Yu. Şçeka'nın Intensivnıy kurs Turetskogo Yazıka adlı kitabındaki dil bilgisi öğretimi

    Grammar teaching in Turkish language textbook 'Intensive course in Turkish language' prepared by Russian researcher Yu. Şheka

    ALENA KARAGOZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Türk Dili ve EdebiyatıBursa Uludağ Üniversitesi

    Türkçe ve Sosyal Bilimler Eğitimi Ana Bilim Dalı

    DOÇ. DR. MİNARA ALİYEVA ÇINAR

  5. Spoken language development during English language and literature studies: An analysis of errors and awareness

    İngiliz dili ve edebiyatı öğrenimi sırasındaki konuşulan dilin gelişimi ile ilgili hataların ve farkındalığın analizi

    PETEK YILMAZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Batı Dilleri ve EdebiyatıSüleyman Demirel Üniversitesi

    Batı Dilleri ve Edebiyatları Ana Bilim Dalı

    DOÇ. DR. PHİLİP GEORGE ANTHONY GLOVER