Yapay zeka yöntemlerinin doğal dil işlemede etkin kullanılması

Effective use of artificial intelligence methods in natural language processing

PDF İndir

Tez No: 907887
Yazar: YASEMİN ATAYOLU
Danışmanlar: PROF. DR. YAKUP KUTLU
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2024
Dil: Türkçe
Üniversite: İskenderun Teknik Üniversitesi
Enstitü: Lisansüstü Eğitim Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 71

Özet

Dilin soyut ve dinamik doğası, dili yapay zekâ ile modellememizde belli sınırlılıklara yol açmaktadır. Bu sınırlılıklarını en aza indirgemek için dili ve bağlamını çok boyutlu yapılar olarak ele almak ve modellemede veriye özgü yöntem stratejisi belirlemek gereklidir. Bu tez çalışmasında, yapay zekâların içerik üretme performansı, içeriklerin analizi ve içeriklerin sınıflandırılması ele alınmıştır. Yapay zekaların performansı eğitim bilimleri kapsamında ele alınmış ve içerik üretme kapasitelerinin etkili istem tasarımı ile nasıl geliştirilebileceği üzerine odaklanılmıştır. Eğitim bilimlerinde Bloom Taksonomisine uygun olarak soru tasarımı gerçekleştirilmiş ve taksonomiye uygun soru hazırlamada rehberlik eden referans noktalar özenle dikkate alınmıştır. İçeriklerin analizi için Sinema filmlerine ait içerikler film puanı ve türünün makine öğrenimi modelleriyle tahmini için kullanılmıştır. Bu bağlamda öznitelik seçimine ve girdi oluşturulmasına değinilmiş ve belirli özniteliklerle film puanı için regresyon modelleriyle tahmin yapılmıştır. film özetlerini içeren tür sınıflandırılması ele alınmıştır. Günümüz önemli mental sağlık sorunları arasında olan anksiyete, depresyon ve intihar eğilimlerinin ilgili sosyal medya gönderileri ile belirlenmesi mümkün hale gelmiştir. Sosyal medya gönderilerinin sınıflandırması için metin ön işleme tekniklerinin ve hiper parametre yöntemlerin başarıma etkileri ele alınmıştır. Diğer taraftan metin vektörel temsilleri için farklı yöntemler ele alınmış ve sınıflandırma performansı incelenmiştir. Sadece tekrarlayan ifadeleri kaldırarak uygulanan ön işlemden sonra yapılan Roberta modeli ile %87,2 başarım elde edilmiştir. Bi-LSTM modeli eğitiminde ön eğitimli Roberta, word2vec ve TF-IDF vektörlerinin birleştirilmesiyle oluşturulmuş hibrit vektör sınıflandırma başarımını %13 kadar artırdığı görülmüştür. Yapay zekâ yöntemlerinin doğal dil işlemede etkin kullanılması için üç farklı problem farklı yöntem ve tekniklerinin değerlendirilmesi yapılmıştır. Yapılan uygulamalarda görüldüğü üzere gerek metin içeriklerinin çeşitliliği gerek önişlemlerin sırası ve yapılması ve gerekse hiper parametre yöntemlerinin uygulanması başarımı ciddi şekilde etkilediği görülmüştür.

Özet (Çeviri)

The abstract and dynamic nature of language lead to certain limitations in modelling language with artificial intelligence. To minimize these limitations, it is essential to approach language and context as multidimensional structures and adopt data-specific methodological strategies for modelling. This thesis focuses on the content generation performance of artificial intelligence systems, the analysis of content, and content classification. The performance of artificial intelligence was evaluated within the scope of educational sciences, focusing on how their content generation capacities can be enhanced through effective prompt design. Questions were designed in accordance with Bloom's Taxonomy in educational sciences, and reference points guiding the preparation of taxonomy-compliant questions were carefully considered. For content analysis, the content of films was used to predict movie ratings and genres through machine learning models. Therefore, feature selection and input formation were addressed, and regression models were applied to predict movie ratings using selected features. Additionally, genre classification based on film summaries was explored. Contemporary mental health issues such as anxiety, depression, and suicidal tendencies have become identifiable through related social media posts.The impact of text preprocessing techniques and hyperparameter optimization methods on classification performance was examined. Furthermore, different methods for text vector representations were analyzed, and classification performance was evaluated. A Roberta model, applied after preprocessing by removing repetitive expressions, achieved 87.2% accuracy. It was observed that hybrid vector classification, created by combining pre-trained Roberta, word2vec, and TF-IDF vectors in training the Bi-LSTM model, increased classification accuracy by approximately 13%. Three different problems were evaluated using various methods and techniques for the effective use of artificial intelligence methods in natural language processing. The applications revealed that the diversity of textual content, the sequence and execution of preprocessing steps, and the implementation of hyperparameter methods significantly influence performance.

Benzer Tezler

Tez No
847173
Fake news classification using machine learning and deep learning approaches
Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması
SAJA ABDULHALEEM MAHMOOD AL-OBAIDI
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Gazi Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR
Tez No
841375
Design, modelling and control of a nano quadrotor withmicrocontroller based vision system for object tracking
Nesne takibi için bir nano dört rotorlu helikopterin tasarımı, modellenmesi ve mikrodenetleyici tabanlı görüntü sistemi ile kontrolü
MUSTAFA ENES KIRMACI
Yüksek Lisans
İngilizce
2023
Makine Mühendisliği İstanbul Teknik Üniversitesi
Makine Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ HÜLYA YALÇIN
PROF. DR. ERDİNÇ ALTUĞ
Tez No
582356
Essays on estimation methods
Tahmin yöntemleri üzerine makaleler
YASİN KÜTÜK
Doktora
İngilizce
2019
Ekonometri İstanbul Teknik Üniversitesi
İktisat Ana Bilim Dalı
PROF. DR. BÜLENT GÜLOĞLU
Tez No
565656
İstatistiksel doğal dil işlemede derin öğrenme yöntemleri kullanılarak çevrimiçi Türkçe akademik derlem çözümlenmesi
Analysing Turkish academical corpus using deep learning methods in statistical natural language
BARIŞ BABÜROĞLU
Yüksek Lisans
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Kahramanmaraş Sütçü İmam Üniversitesi
Enformatik Ana Bilim Dalı
PROF. DR. MEHMET TEKEREK
Tez No
661410
Üretken rakip ağlar ile Türkçe metin üretimi
Turkish text generation with generative adversarial networks
BARIŞ GÜCÜK
Yüksek Lisans
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Karabük Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ RAFET DURGUT

Geri Dön