Organizasyonel gelişim için otomatik konuşma tanıma sistemi önerisi

An automatic speech recognition system proposal for organizational development

PDF İndir

Tez No: 782089
Yazar: DAVUT EMRE TAŞAR
Danışmanlar: DR. ÖĞR. ÜYESİ KUTAN KORUYAN
Tez Türü: Yüksek Lisans
Konular: Yönetim Bilişim Sistemleri, Management Information Systems
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2023
Dil: Türkçe
Üniversite: Dokuz Eylül Üniversitesi
Enstitü: Sosyal Bilimler Enstitüsü
Ana Bilim Dalı: Yönetim Bilişim Sistemleri Ana Bilim Dalı
Bilim Dalı: Yönetim Bilişim Sistemleri Bilim Dalı
Sayfa Sayısı: 63

Özet

Otomatik konuşma tanıma (ASR) teknolojisinin kullanımı son yıllarda hızla artmıştır ve birçok kuruluş çeşitli iş fonksiyonlarında verimliliği, doğruluğu ve üretkenliği artırmak için onu benimsemektedir. Bu tez çalışması, ASR sistemlerinin organizasyonel faydalarını keşfetmekle birlikte, organizasyonların rekabet avantajı elde etmek için bu faydalardan nasıl yararlanabileceğine dair bir model önerisi ve önerilen model ile birlikte bir çağrı merkezindeki performans artışını ölçümleme önerisi sunmayı amaçlamaktadır. ASR sistemleri, konuşulan dili metne dönüştürmek için gelişmiş algoritmalar ve doğal dil işleme teknikleri kullanarak kuruluşların veri girişini, transkripsiyonu ve konuşma dilini içeren diğer görevleri otomatikleştirmesini sağlar. Bu görevlerin doğruluğunu ve verimliliğini artırabilir, manuel redaksiyon ve transkripsiyon ihtiyacını azaltabilir ve zamandan ve kaynaklardan tasarruf sağlayabilir. Doğal dil işleme, bilişim sistemlerini kullanarak, hedeflenen dil veya diller ile ilgili metin ve ses verilerinin matematiksel temsillerini oluşturarak, bu temsiller üzerinden çeşitli algoirtmalar vasıtası ile dil verisini bilgiye, bilgiyi de bilgeliğe dönüştürme yöntemlerine verilen genel bir kavramdır. COVID-19 pandemisi sonrasında kullanım sıklığında artış meydana gelen uzaktan çalışma ve eğitim modelleri içerisinde sıkça yapılan online toplantılar nedeni ile ASR sistemlerinin önemi ve bu sistemlerin uygulama sayısı artış göstermektedir. Ancak, ASR sistemlerinin yapay zekâ algoritmaları ile eğitimi söz konusu olduğunda, üretilen modellerin başarımı, kullanılan yapay zekâ algoritmaları kadar, eğitim verilerinin yeterliliğine bağlanabilir. ASR sistemleri, ses dosyalarını ve karşılık gelen doğru şekilde yazılmış transkript dosyalarını içeren büyük miktarda açıklamalı eğitim verisi gerektirir. Bu açıklamalı (etiketli) eğitim verilerinin çoğu dil için doğrulanmış bir şekilde bulunması zordur, genellikle insanların ses doyalarının karşılıklarını girmelerini manuel olarak gerçekleştirmesini gerektirir, bu da maliyetinin dışında hataya da açıktır. Bu senaryo için denetimli bir eğitim görevi pratik değildir. Türkçe, bol miktarda etiketlenmiş veriye sahip olmayan dillerden biridir ve bu da ASR sisteminin doğruluğunu İngilizce, Fransızca veya İspanyolca gibi kaynak açısından zengin diğer dillere kıyasla çok düşük kılar. Bu çalışmada, kendi kendini denetleyen bir görevde veya eğitim öncesi aşamada etiketlenmemiş eğitim verilerinden (yalnızca ses dosyaları) genel veri temsillerini öğrenerek etiketlenmemiş ses verilerinden yararlanılmaktadır. Bu aşama, girdiyi maskeleyen ve karşıt bir görevi çözen Wav2Vec 2.0 mimarisi kullanılarak gerçekleştirilmiştir. Metin karşılıkları bulunan Türkçe verileri kullanarak Türkçe dilinde ince ayar yapmak amacıyla Wav2Vec 2.0 kullanarak farklı dillerde önceden eğitilmiş modellerden de yararlanılmaktadır. Birden çok dilde ham konuşma dalga biçimleri üzerinde, Türkçe veriler üzerinde eğitilmiş birçok dilli modele ince ayar yapılarak 0,23 oranında düşük bir kelime hata (WER) oranı elde edilmiştir. Böylelikle elde edilen bu konuşma tanıma modeli, organizasyonların süreçlerini yönetim bilişim sistemleri kullanarak geliştirmeyi hedefleyen bir ürün ortaya çıkartmış ve bunu açık kaynaklı olarak paylaşılmıştır.

Özet (Çeviri)

The use of automatic speech recognition (ASR) technology has grown rapidly in recent years, and many organizations are adopting it to increase efficiency, accuracy and productivity in various business functions. While exploring the organizational benefits of ASR systems, this thesis aims to propose a model on how organizations can take advantage of these benefits to gain competitive advantage, and to measure performance improvement in a call center with the proposed model. ASR systems use advanced algorithms and natural language processing techniques to convert spoken language to text, enabling organizations to automate data entry, transcription, and other tasks involving spoken language. This can improve the accuracy and efficiency of tasks, reduce the need for manual proofreading and transcription, and save time and resources. Natural language processing is a general concept given to the methods of transforming language data into knowledge and knowledge into wisdom by using information systems, creating mathematical representations of text and audio data related to the targeted language or languages, through various algorithms over these representations. The importance of ASR systems and the number of applications of these systems increase due to the frequent online meetings within the distance working and education models, which have increased in the frequency of use after the COVID-19 pandemic. However, when it comes to training ASR systems with artificial intelligence algorithms, the performance of the produced models can be attributed to the adequacy of the training data as well as the artificial intelligence algorithms used. ASR systems require large amounts of annotated training data, which includes audio files and corresponding correctly written transcript files. This annotated (tagged) training data is difficult to find in a validated form for most languages, often requiring people to manually enter equivalents of audio files, which is not only costly but also error-prone. A supervised training task is impractical for this scenario. Turkish is one of the languages that does not have abundant labeled data, which makes the accuracy of the ASR system very low compared to other resource-rich languages such as English, French or Spanish. This study utilizes unlabeled audio data by learning general data representations from unlabeled training data (audio files only) in a self-monitoring task or pre-training phase. This phase is accomplished using the Wav2Vec 2.0 architecture, which masks the input and solves an opposite task. Pre-trained models in different languages are also utilized using Wav2Vec 2.0 to fine-tune the Turkish language using Turkish data with text equivalents. On the raw speech waveforms in multiple languages, a low word error (WER) rate of 0.23 was achieved by fine-tuning the multilingual model trained on the Turkish data. This speech recognition model thus obtained has created a product that aims to improve the processes of organizations by using management information systems, and it has been shared as open source.

Benzer Tezler

Tez No
710785
Seyir emniyetinde insan hatası risk analizi ve insan faktörleri temelinde köprüüstü dizaynına yönelik kural önerileri
Human error risk analysis in navigational safety and human factors based rule recommendations on bridge design
RİFAT BURKAY ALAN
Doktora
Türkçe
2021
Denizcilik İstanbul Teknik Üniversitesi
Gemi İnşaatı ve Gemi Makineleri Mühendisliği Ana Bilim Dalı
PROF. DR. OĞUZ SALİM SÖĞÜT
Tez No
104046
Les applications des algorithmes genetiques dans les modüles d'Optimisation des prologiciels de Gestion integre
İşletme kaynakları planlaması yazılımlarının optimizasyon modüllerinde genetik algoritma uygulamaları
MELİKE ORHON
Yüksek Lisans
Fransızca
2001
Endüstri ve Endüstri Mühendisliği İstanbul Teknik Üniversitesi
PROF. DR. ETHEM TOLGA
Tez No
154741
La proposition D'Un modéle de direction et de l'organisation pour le secteur de sous industrie de l'automobile Turque
Türk otomotiv yan sanayi için yönetim ve organizasyon modeli önerisi
SERKAN ANDI
Yüksek Lisans
Fransızca
2004
Endüstri ve Endüstri Mühendisliği Galatasaray Üniversitesi
Endüstri Mühendisliği Ana Bilim Dalı
PROF.DR. ETHEM TOLGA
Tez No
315241
Evolution of paratransit system and its implementations in Turkey: Potential design and technology impact on ameliorating the Dolmuş-Minibus
Paratransit sistemin evrimi ve Türkiye?deki uygulamasi: Dolmuş-Minibüs kavraminin iyileştirilmesinde potansiyel tasarim ve teknoloji etkisi
ARZU HÜSNİYE TOKER ÖZKURT
Yüksek Lisans
İngilizce
2012
Endüstri Ürünleri Tasarımı İstanbul Teknik Üniversitesi
Endüstri Ürünleri Tasarımı Ana Bilim Dalı
PROF. DR. ALPAY ER
Tez No
857967
Innovation management in design-intensive family firms from office furniture manufacturing industry: A dynamic capability perspective from an emerging market
Ofis mobilyası imalat sanayisindeki tasarım yoğun aile firmalarında inovasyon yönetimi: Gelişmekte olan bir pazardan dinamik yetenek perspektifi
SELİN GÜLDEN
Doktora
İngilizce
2022
Endüstri Ürünleri Tasarımı İstanbul Teknik Üniversitesi
Endüstriyel Tasarım Ana Bilim Dalı
PROF. DR. ÖZLEM ER

Geri Dön