İş ilanlarında doğal dil işleme ile duygu analizi
Sentiment analysis with natural language processing in job postings
- Tez No: 792121
- Danışmanlar: DR. ÖĞR. ÜYESİ MURAT KÖKLÜ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: Türkçe
- Üniversite: Selçuk Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 97
Özet
Doğal Dil İşleme (DDİ), insan dili girdilerini yapay zekâ ve makine öğrenmesi teknikleri kullanarak anlamayı, modellemeyi ve yorumlamayı amaçlayan bir bilim dalıdır. DDİ, dilbilim, sözlük bilimi, psikoloji ve bilişsel bilimler ile uyum halinde çalışılması gereken bir yapay zekâ alanı olmasından ve dillerin yapısal çeşitliliğinden dolayı gelişimi önem arz etmektedir. DDİ, sohbet robotu, özetleme, çeviri, metin sınıflandırması, duruş ve duygu analizi gibi pek çok farklı amaca hizmet etmektedir. Bu tez çalışmasında iş arama ve bulma platformu isinolsun.com sitesindeki 15.451 ilan üzerinden otomatik ilan içeriklerinin kontrolü için DDİ biliminin duygu analizi yöntemi kullanarak işçi ile işvereni bir araya getiren sistemlerde süreçlerin daha hızlı ve efektif ilerletilebilmesi amaçlanmıştır. Aynı zamanda iş gücünü azaltarak platformlara olan güvenin artmasını sağlamaktır. Bu amaçla farklı makine öğrenmesi yaklaşımları ile Türkçe iş ilanı modelleri oluşturulmuş ve her bir model yaklaşımı karşılaştırmalı olarak incelenmiştir. Model yaklaşımlarından TFIDF tokenleştirmenin karakter tabanlı ve kelime tabanlı yöntemleri ile Lojistik Regresyon, Destek Vektör Makineleri, Multi Nominal Navie Bayes ve Rastgele Orman makine öğrenmesi yöntemleri denenmiştir. Buna göre TFIDF tokenleştirmenin kelime tabanlı yöntemleri karakter tabanlı yöntemlere göre daha iyi modeller üretmiştir. F1- Skor değeri en yüksek (0,66) makine öğrenmesi modeli TFIDF Kelime tabanlı tokenleştirme ile kullanılan destek vektör makineleri olarak bulunmuştur. Bu sonucun yanı sıra dönüşüm tabanlı makine öğrenmesi yöntemlerinden BERT kullanılarak yapılan hiper parametre araştırmasında 8, 16, 32'li yığın boyutu değerleri ile eğitim hızı 1e-5, 2e-5, 3e-5, 4e-5 ve 5e-5 değerlerinin kombinasyonu ile yapılan denemelerde F1- Skor değeri en yüksek (96,25) BERT tabanlı modelin hiper parametreleri maksimum uzunluk 100, yığın boyutu 16, eğitim hızı 3e-5 olarak bulunmuştur.
Özet (Çeviri)
Natural Language Processing (NLP) is a field of artificial intelligence that aims to understand, model, and interpret human language inputs using machine-learning techniques. NLP is an essential area of artificial intelligence that requires collaboration with linguistics, lexicography, psychology, and cognitive sciences owing to the structural diversity of languages. NLP serves many purposes such as chatbots, summarization, translation, text classification, and sentiment analysis. The aim of this thesis is to use the sentiment analysis method of NLP science to automatically check the content of job advertisements on the job search and recruitment platform isinolsun.com to enable processes to be carried out more quickly and effectively in systems that combine workers and employers. Simultaneously, it aims to increase trust in platforms by reducing the workforce. For this purpose, Turkish job advertisement models were created using different machine-learning approaches, and each model approach was compared comparatively. Machine learning methods include TFIDF tokenization with character-based and word-based methods, logistic regression, support vector machines, multi-nominal naive Bayes, and random forest. Accordingly, the word-based TFIDF tokenization methods produced better models than the character-based methods. The machine learning model with the highest F1-Score value (0.66) was found to Support Vector Machines using the TFIDF Word-based tokenization. In addition to this result, a hyperparameter study was conducted using the transformation-based machine learning methods with BERT, and in experiments conducted with batch size values of 8, 16, 32 and training rates of 1e-5, 2e-5, 3e-5, 4e-5, and 5e-5, the highest F1-Score value (96.25) was found to be the hyperparameters of the BERT-based model with maximum length 100, batch size 16, and training rate 3e-5.
Benzer Tezler
- Yapay sinir ağları ve bert dil modeli kullanılarak zaman bazlı duygu analizi: whatsapp yeni gizlilik sözleşmesine yönelik yorumların araştırılması
Time based sentiment analysis using artificial neural networks and bert language model: Exploring comments on whatsapp's new privacy policy
KAZIM TİBET SAR
Yüksek Lisans
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDokuz Eylül ÜniversitesiYönetim Bilişim Sistemleri Ana Bilim Dalı
YRD. DOÇ. DR. KUTAN KORUYAN
- Global goals, local voices: A multinational comparative sentiment and topic analysis of public transportation in the context of SDGs
Küresel hedefler, yerel sesler: Sürdürülebilir kalkınma amaçları bağlamında toplu taşımaya yönelik ülkelerin karşılaştırmalı duygu ve konu analizi
ASLIGÜL AKSAN
Yüksek Lisans
İngilizce
2024
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesiİşletme Mühendisliği Ana Bilim Dalı
PROF. DR. HATİCE CAMGÖZ AKDAĞ
- Dengesiz veri setlerinde sınıflandırma problemlerinin çözümünde melez yöntem uygulaması
Hybrid method application to solve classification problems in imbalanced datasets
MESTAN ŞAHİN PİR
Yüksek Lisans
Türkçe
2022
Endüstri ve Endüstri MühendisliğiBursa Uludağ ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. DUYGU YILMAZ EROĞLU
- Yapay öğrenme algoritmalarını kandırmak
Deception of machine learning algorithms
FATMA GÜMÜŞ
Doktora
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. MEHMET FATİH AMASYALI