Geri Dön

Organizasyonel gelişim için otomatik konuşma tanıma sistemi önerisi

An automatic speech recognition system proposal for organizational development

  1. Tez No: 782089
  2. Yazar: DAVUT EMRE TAŞAR
  3. Danışmanlar: DR. ÖĞR. ÜYESİ KUTAN KORUYAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Yönetim Bilişim Sistemleri, Management Information Systems
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: Türkçe
  9. Üniversite: Dokuz Eylül Üniversitesi
  10. Enstitü: Sosyal Bilimler Enstitüsü
  11. Ana Bilim Dalı: Yönetim Bilişim Sistemleri Ana Bilim Dalı
  12. Bilim Dalı: Yönetim Bilişim Sistemleri Bilim Dalı
  13. Sayfa Sayısı: 63

Özet

Otomatik konuşma tanıma (ASR) teknolojisinin kullanımı son yıllarda hızla artmıştır ve birçok kuruluş çeşitli iş fonksiyonlarında verimliliği, doğruluğu ve üretkenliği artırmak için onu benimsemektedir. Bu tez çalışması, ASR sistemlerinin organizasyonel faydalarını keşfetmekle birlikte, organizasyonların rekabet avantajı elde etmek için bu faydalardan nasıl yararlanabileceğine dair bir model önerisi ve önerilen model ile birlikte bir çağrı merkezindeki performans artışını ölçümleme önerisi sunmayı amaçlamaktadır. ASR sistemleri, konuşulan dili metne dönüştürmek için gelişmiş algoritmalar ve doğal dil işleme teknikleri kullanarak kuruluşların veri girişini, transkripsiyonu ve konuşma dilini içeren diğer görevleri otomatikleştirmesini sağlar. Bu görevlerin doğruluğunu ve verimliliğini artırabilir, manuel redaksiyon ve transkripsiyon ihtiyacını azaltabilir ve zamandan ve kaynaklardan tasarruf sağlayabilir. Doğal dil işleme, bilişim sistemlerini kullanarak, hedeflenen dil veya diller ile ilgili metin ve ses verilerinin matematiksel temsillerini oluşturarak, bu temsiller üzerinden çeşitli algoirtmalar vasıtası ile dil verisini bilgiye, bilgiyi de bilgeliğe dönüştürme yöntemlerine verilen genel bir kavramdır. COVID-19 pandemisi sonrasında kullanım sıklığında artış meydana gelen uzaktan çalışma ve eğitim modelleri içerisinde sıkça yapılan online toplantılar nedeni ile ASR sistemlerinin önemi ve bu sistemlerin uygulama sayısı artış göstermektedir. Ancak, ASR sistemlerinin yapay zekâ algoritmaları ile eğitimi söz konusu olduğunda, üretilen modellerin başarımı, kullanılan yapay zekâ algoritmaları kadar, eğitim verilerinin yeterliliğine bağlanabilir. ASR sistemleri, ses dosyalarını ve karşılık gelen doğru şekilde yazılmış transkript dosyalarını içeren büyük miktarda açıklamalı eğitim verisi gerektirir. Bu açıklamalı (etiketli) eğitim verilerinin çoğu dil için doğrulanmış bir şekilde bulunması zordur, genellikle insanların ses doyalarının karşılıklarını girmelerini manuel olarak gerçekleştirmesini gerektirir, bu da maliyetinin dışında hataya da açıktır. Bu senaryo için denetimli bir eğitim görevi pratik değildir. Türkçe, bol miktarda etiketlenmiş veriye sahip olmayan dillerden biridir ve bu da ASR sisteminin doğruluğunu İngilizce, Fransızca veya İspanyolca gibi kaynak açısından zengin diğer dillere kıyasla çok düşük kılar. Bu çalışmada, kendi kendini denetleyen bir görevde veya eğitim öncesi aşamada etiketlenmemiş eğitim verilerinden (yalnızca ses dosyaları) genel veri temsillerini öğrenerek etiketlenmemiş ses verilerinden yararlanılmaktadır. Bu aşama, girdiyi maskeleyen ve karşıt bir görevi çözen Wav2Vec 2.0 mimarisi kullanılarak gerçekleştirilmiştir. Metin karşılıkları bulunan Türkçe verileri kullanarak Türkçe dilinde ince ayar yapmak amacıyla Wav2Vec 2.0 kullanarak farklı dillerde önceden eğitilmiş modellerden de yararlanılmaktadır. Birden çok dilde ham konuşma dalga biçimleri üzerinde, Türkçe veriler üzerinde eğitilmiş birçok dilli modele ince ayar yapılarak 0,23 oranında düşük bir kelime hata (WER) oranı elde edilmiştir. Böylelikle elde edilen bu konuşma tanıma modeli, organizasyonların süreçlerini yönetim bilişim sistemleri kullanarak geliştirmeyi hedefleyen bir ürün ortaya çıkartmış ve bunu açık kaynaklı olarak paylaşılmıştır.

Özet (Çeviri)

The use of automatic speech recognition (ASR) technology has grown rapidly in recent years, and many organizations are adopting it to increase efficiency, accuracy and productivity in various business functions. While exploring the organizational benefits of ASR systems, this thesis aims to propose a model on how organizations can take advantage of these benefits to gain competitive advantage, and to measure performance improvement in a call center with the proposed model. ASR systems use advanced algorithms and natural language processing techniques to convert spoken language to text, enabling organizations to automate data entry, transcription, and other tasks involving spoken language. This can improve the accuracy and efficiency of tasks, reduce the need for manual proofreading and transcription, and save time and resources. Natural language processing is a general concept given to the methods of transforming language data into knowledge and knowledge into wisdom by using information systems, creating mathematical representations of text and audio data related to the targeted language or languages, through various algorithms over these representations. The importance of ASR systems and the number of applications of these systems increase due to the frequent online meetings within the distance working and education models, which have increased in the frequency of use after the COVID-19 pandemic. However, when it comes to training ASR systems with artificial intelligence algorithms, the performance of the produced models can be attributed to the adequacy of the training data as well as the artificial intelligence algorithms used. ASR systems require large amounts of annotated training data, which includes audio files and corresponding correctly written transcript files. This annotated (tagged) training data is difficult to find in a validated form for most languages, often requiring people to manually enter equivalents of audio files, which is not only costly but also error-prone. A supervised training task is impractical for this scenario. Turkish is one of the languages that does not have abundant labeled data, which makes the accuracy of the ASR system very low compared to other resource-rich languages such as English, French or Spanish. This study utilizes unlabeled audio data by learning general data representations from unlabeled training data (audio files only) in a self-monitoring task or pre-training phase. This phase is accomplished using the Wav2Vec 2.0 architecture, which masks the input and solves an opposite task. Pre-trained models in different languages are also utilized using Wav2Vec 2.0 to fine-tune the Turkish language using Turkish data with text equivalents. On the raw speech waveforms in multiple languages, a low word error (WER) rate of 0.23 was achieved by fine-tuning the multilingual model trained on the Turkish data. This speech recognition model thus obtained has created a product that aims to improve the processes of organizations by using management information systems, and it has been shared as open source.

Benzer Tezler

  1. Seyir emniyetinde insan hatası risk analizi ve insan faktörleri temelinde köprüüstü dizaynına yönelik kural önerileri

    Human error risk analysis in navigational safety and human factors based rule recommendations on bridge design

    RİFAT BURKAY ALAN

    Doktora

    Türkçe

    Türkçe

    2021

    Denizcilikİstanbul Teknik Üniversitesi

    Gemi İnşaatı ve Gemi Makineleri Mühendisliği Ana Bilim Dalı

    PROF. DR. OĞUZ SALİM SÖĞÜT

  2. Les applications des algorithmes genetiques dans les modüles d'Optimisation des prologiciels de Gestion integre

    İşletme kaynakları planlaması yazılımlarının optimizasyon modüllerinde genetik algoritma uygulamaları

    MELİKE ORHON

    Yüksek Lisans

    Fransızca

    Fransızca

    2001

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    PROF. DR. ETHEM TOLGA

  3. La proposition D'Un modéle de direction et de l'organisation pour le secteur de sous industrie de l'automobile Turque

    Türk otomotiv yan sanayi için yönetim ve organizasyon modeli önerisi

    SERKAN ANDI

    Yüksek Lisans

    Fransızca

    Fransızca

    2004

    Endüstri ve Endüstri MühendisliğiGalatasaray Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    PROF.DR. ETHEM TOLGA

  4. Evolution of paratransit system and its implementations in Turkey: Potential design and technology impact on ameliorating the Dolmuş-Minibus

    Paratransit sistemin evrimi ve Türkiye?deki uygulamasi: Dolmuş-Minibüs kavraminin iyileştirilmesinde potansiyel tasarim ve teknoloji etkisi

    ARZU HÜSNİYE TOKER ÖZKURT

    Yüksek Lisans

    İngilizce

    İngilizce

    2012

    Endüstri Ürünleri Tasarımıİstanbul Teknik Üniversitesi

    Endüstri Ürünleri Tasarımı Ana Bilim Dalı

    PROF. DR. ALPAY ER

  5. Innovation management in design-intensive family firms from office furniture manufacturing industry: A dynamic capability perspective from an emerging market

    Ofis mobilyası imalat sanayisindeki tasarım yoğun aile firmalarında inovasyon yönetimi: Gelişmekte olan bir pazardan dinamik yetenek perspektifi

    SELİN GÜLDEN

    Doktora

    İngilizce

    İngilizce

    2022

    Endüstri Ürünleri Tasarımıİstanbul Teknik Üniversitesi

    Endüstriyel Tasarım Ana Bilim Dalı

    PROF. DR. ÖZLEM ER