İnsan veya makine tarafından yazılan metinlerin doğal dil işleme yöntemleri ile tespiti
Detection of texts written by human or machine with natural language processing methods
- Tez No: 936401
- Danışmanlar: DOÇ. DR. ATINÇ YILMAZ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: Türkçe
- Üniversite: İSTANBUL BEYKENT ÜNİVERSİTESİ
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 111
Özet
Bu çalışma, insan ve yapay zekâ tarafından yazılmış metinlerin ayrımını yapmayı amaçlayan, doğal dil işleme (NLP) teknikleri ve makine öğrenmesi modellerine dayalı bir yöntem geliştirmeyi hedeflemiştir. Araştırmada, farklı kaynaklardan elde edilen insan ve yapay zekâ üretimi metinler kullanılmış, bu metinler üzerinde kapsamlı veri işleme adımları gerçekleştirilmiştir. İlk olarak, metinler ön işleme sürecine tabi tutulmuş, gereksiz kelimeler ve semboller temizlenmiş, ardından metinler tokenize edilerek Word2Vec algoritması ile kelime vektörlerine dönüştürülmüştür. Bu süreçte, elde edilen vektörler, insan ve makine yazımı metinler arasındaki farkları sınıflandırmak amacıyla SVM ve LSTM modelleriyle işlenmiştir. Model performansını artırmak için genetik algoritmalar gibi sezgisel yöntemlerle en etkili özellikler seçilmiş, bu sayede işlem maliyeti azaltılarak sınıflandırma doğruluğu optimize edilmiştir. Geliştirilen hibrit model, başlangıçta kullanılan tüm özellikleri daha etkili bir alt kümeye indirgemiş ve yeniden eğitilmiştir. Sonuç olarak, çalışma doğruluk oranı, ROC eğrisi ve precision-recall analizleri gibi performans ölçümleri üzerinden yüksek başarı elde etmiş ve geliştirilen yöntemlerin etkinliğini ortaya koymuştur. Bu araştırma, insan ve yapay zekâ yazımı metinlerin tespiti için ileri düzey doğal dil işleme tekniklerinin ve makine öğrenmesi modellerinin etkili bir şekilde uygulanabileceğini göstermiştir. Elde edilen bulgular, bu alandaki gelecekteki çalışmalar için değerli bir kaynak ve referans oluşturmaktadır.
Özet (Çeviri)
This study aims to develop a method based on natural language processing (NLP) techniques and machine learning models to distinguish between human-written and AI-generated texts. The research utilized datasets consisting of human and AI-generated texts obtained from various sources and implemented comprehensive data processing steps. Initially, the texts underwent preprocessing, where irrelevant words and symbols were removed, and the texts were tokenized and converted into word vectors using the Word2Vec algorithm. The resulting vectors were analyzed using SVM and LSTM models to classify the differences between human-written and machine-generated texts. To enhance model performance, heuristic methods such as genetic algorithms were employed for feature selection, allowing for the reduction of computational costs while optimizing classification accuracy. The developed hybrid model reduced the initial feature set to a more effective subset and was retrained accordingly. As a result, the study achieved high performance in terms of accuracy, ROC curves, and precision-recall analyses, demonstrating the effectiveness of the proposed methods. This research highlights the potential of advanced natural language processing techniques and machine learning models in detecting human and AI-generated texts. The findings provide valuable insights and a solid foundation for future studies in this domain.
Benzer Tezler
- Neural language modelling approaches for post-ocr text processing
Optik karakter tanıma sonrası metin işleme adımı için sinirsel dil modelleri yaklaşımları
AYŞE İREM TOPÇU
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
PROF. DR. BEHÇET UĞUR TÖREYİN
- Sentiment analysis of twitter data on the Turkey earthquake using machine learning methods
Türkiye depremi üzere twitter verilerinin makine öğrenimi yöntemleri kullanilarak duygu analizi
ALA KAMAL RASHID
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKarabük ÜniversitesiBilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
PROF. DR. OĞUZ FINDIK
- İngilizceden Türkçeye istatiksel bilgisayarlı çeviri sistemlerinde paralel derlem boyutu ve kalitesinin etkileri
The effect of parallel corpus quality vs size in English to-Turkish statistical machine translation
ERAY YILDIZ
Yüksek Lisans
Türkçe
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. BANU DİRİ
YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ
- Türkçe metinlerde duygu analizi
Sentiment analysis in Turkish texts
CUMALİ TÜRKMENOĞLU
Yüksek Lisans
Türkçe
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ
- Obfuscated JavaScript detection using syntactically and lexically enhanced machine learning
Perdelenmiş JavaScript kodlarının sözdizimsel ve anlamsal yönden iyileştirilmiş makina öğrenmesi ile tespiti
EREN KILIÇ
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MEHMET TAHİR SANDIKKAYA