Sosyal medyada kullanıcı gizliliğini korumak için taraf tespiti görevinde dönüştürücü dil modellerini yanıltma yöntemleri

Methods of deceiving transformer language models in stance detection to protect user privacy in social media

PDF İndir

Tez No: 832233
Yazar: DİLARA DOĞAN
Danışmanlar: DR. ÖĞR. ÜYESİ MÜCAHİD KUTLU
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2023
Dil: Türkçe
Üniversite: TOBB Ekonomi ve Teknoloji Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 79

Özet

Doğal dil işleme alanındaki heyecan verici yeni gelişmeler dillerin karmaşıklıklarının daha iyi anlaşılmasını, metinler üzerinden yapılan anlam çıkarımları ve analizlerle daha başarılı sonuçlar ortaya koyulmasını sağlamıştır. Doğal dil işleme modelleri için geniş veri kümeleri sunan sosyal medya platformlarının kullanımı her geçen gün artarak insanların günlük hayatlarının önemli bir parçasına haline gelmiştir. İnsanlar, sosyal medya platformları üzerinden paylaştıkları metinlerde duygularını, düşüncelerini, deneyimlerini ve kendileriyle ilgili kişisel birçok bilgiyi ifade edebilmektedir. Yapay zekâ modellerinin, bu verileri insanların takip edilmesinde kullanabilmesi, kullanıcılarda önemli gizlilik endişelerini de beraberinde getirmiştir. Bu tez çalışmasında, sosyal medya platformlarını kullanan bireylerin yapay zekâ modelleri tarafından tespit edilememeleri için yapabileceklerini araştırıyoruz. Araştırmamızda birçok konuda kullanıma açık olan taraf tespiti görevini çeşitli konulardaki Türkçe ve İngilizce veri kümeleriyle ele alıyoruz. BERT ve BERTurk tabanlı dönüştürücü modellerini, yanıltmak amacıyla yeniden ifade etme ve kasıtlı yazım hataları yapma tabanlı yöntemler öneriyoruz. Önerilen 13 farklı yöntemin modellerin performanslarını etkileme seviyelerine göre etkinliklerini araştırıyoruz. Deneylerimiz sonucunda, yazım hataları karşısında BERT ve BERTurk tabanlı modellerin performanslarının belirgin bir şekilde düştüğü gösterilmiştir. Yazım hatalarına yönelik yöntemlerden iki dilde de en etkili yöntemlerin görsel olarak benzer karakterleri birbirleri yerine kullanma, boşluk ekleyerek kelimeyi bölme ve kelimelerdeki harflerin sıralarını karıştırma olduğu sonucuna ulaşılmıştır. Fakat bunula birlikte, yeniden ifade etme yöntemlerinin bu modellerin performanslarını etkileme konusunda başarılı olmadığı görülmüştür. Yöntemlerin uygulanmasında manuel ve otomatik olmak üzere iki farklı yöntem kullanılmıştır. Yöntemlerin otomatik uygulanması sonucunda elde edilen metinlerin hâlâ eski anlamlarını koruyarak okunabilir olması istenmiştir. İki değerlendirici tarafından bu kontroller sağlanmış olup harf sıralarını karıştırma, hashtag silme ve boşluk ekleme yöntemleri kullanılarak yapılan otomatik değişiklikler sonucunda okunurluğun azalması ve anlam değişmeleri gibi durumlar tespit edilmiştir. Bu sebeple bu yöntemlerin uygulanması konusunda daha dikkatli olunması gerektiği sonucuna ulaşılmıştır. Diğer bir nokta ise hashtag'lere dayalı yöntemlerde hashtag seçimleri oldukça önemli olup modellerin daha iyi performans göstermesine de sebep olabilmektedir. Bununla birlikte hashtag silme ve hashtag kullanılmaması çoğu durumda daha etkili sonuçlar vermiştir. Önerdiğimiz yöntemler ve elde ettiğimiz sonuçlar, bilgi ve gizliliklerini yapay zekâ modellerinden korumak isteyen kullanıcılar için yol gösterici nitelik taşımaktadır.

Özet (Çeviri)

The recent advances in natural language processing have led to a better understanding of language complexities and more successful outcomes in text analysis and comprehension models. Social media platforms, which offer large datasets for natural language processing models, have become an integral part of people's daily lives. Individuals express their emotions, thoughts, experiences, and various personal information through the text they share on social media platforms. However, the ability of artificial intelligence models to track and analyze this data has raised significant privacy concerns among users. In this thesis, we investigate what individuals using social media platforms can do to avoid being detected by artificial intelligence models. We address the task of stance detection on various topics using Turkish and English datasets. We propose methods for BERT and BERTurk-based transformer models to deceive the models by rephrasing and introducing intentional spelling errors. We investigate the effectiveness of the 13 different methods based on their impact on the models' performances. Our experiments demonstrate that intentional spelling error methods significantly reduce the performance of BERT and BERTurk-based models for stance detection. The most effective methods for spelling errors in both languages involve using visually similar characters, splitting words by adding spaces and shuffling the order of letters in words. However, paraphrasing methods are found to be unsuccessful in affecting the models' performances. Two different approaches, manual and automatic, were used for applying the methods. The automatic application of the methods aimed to retain the readability and original meanings of the resulting texts. Two evaluators ensured these checks, and some methods were found to result in reduced readability and changes in semantics due to automatic modifications. Hence, caution is advised in applying shuffle, delete hashtag and adding space. Another point is that in methods based on hashtags, hashtag selections are very important and can cause models to perform better. However, removing or not using hashtags has been more effective in most cases. The proposed methods and the results obtained serve as a guiding reference for users who want to protect their information and privacy from artificial intelligence models.

Benzer Tezler

Tez No
869564
A new approach to corporate social responsibility: Corporate digital responsibility, analysis of Turkish banking and e-commerce sectors
Kurumsal sosyal sorumluluğa yeni bir yaklaşım: Kurumsal dijital sorumluluk, Türk bankacılık ve e-ticaret sektörlerinin analizi
CEYDA CİHAN AYDOĞDU
Doktora
İngilizce
2024
Bankacılık Galatasaray Üniversitesi
Radyo Televizyon ve Sinema Ana Bilim Dalı
PROF. DR. BANU MÜJDE BASKAN KARSAK
Tez No
759663
Sosyal medya ortamlarında veri mahremiyeti duyarlı farkındalık modelleri geliştirme
Developing data privacy sensitive awareness models in social media enviroments
SALİH ERDEM EROL
Doktora
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Gazi Üniversitesi
Adli Bilişim Ana Bilim Dalı
PROF. DR. ŞEREF SAĞIROĞLU
DR. MUSTAFA UMUT DEMİREZEN
Tez No
805956
Erişkinlerde sosyal medya bağımlılığı, öz bilinç ve sürekli kaygı arasındaki ilişkinin incelenmesi
Examination of the relationship between social media addiction, self-consciousness and trait anxiety among adults
İSMAİL ANIL USTA
Yüksek Lisans
Türkçe
2023
Psikoloji Beykent Üniversitesi
Psikoloji Ana Bilim Dalı
DOÇ. DR. NESLİM GÜVENDEĞER DOKSAT
Tez No
770912
Sosyal medyada veri paylaşım endişesi: Bir ölçek geliştirme çalışması
Information sharing concern on social media: A scale development study
BÜŞRA TAŞKESEN ACAR
Yüksek Lisans
Türkçe
2022
Psikoloji İbn Haldun Üniversitesi
Psikoloji Ana Bilim Dalı
DOÇ. DR. HASAN TURAN KARATEPE
Tez No
836375
Sosyal medyada kişisel verilerin korunması sorunu
The issue of personal data protection in social media
DAMLA SABİHA VAROL
Yüksek Lisans
Türkçe
2023
Felsefe Maltepe Üniversitesi
Disiplinlerarası İnsan Hakları Ana Bilim Dalı
PROF. DR. BETÜL ÇOTUKSÖKEN

Geri Dön