Geri Dön

Sosyal medyada kullanıcı gizliliğini korumak için taraf tespiti görevinde dönüştürücü dil modellerini yanıltma yöntemleri

Methods of deceiving transformer language models in stance detection to protect user privacy in social media

  1. Tez No: 832233
  2. Yazar: DİLARA DOĞAN
  3. Danışmanlar: DR. ÖĞR. ÜYESİ MÜCAHİD KUTLU
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: Türkçe
  9. Üniversite: TOBB Ekonomi ve Teknoloji Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 79

Özet

Doğal dil işleme alanındaki heyecan verici yeni gelişmeler dillerin karmaşıklıklarının daha iyi anlaşılmasını, metinler üzerinden yapılan anlam çıkarımları ve analizlerle daha başarılı sonuçlar ortaya koyulmasını sağlamıştır. Doğal dil işleme modelleri için geniş veri kümeleri sunan sosyal medya platformlarının kullanımı her geçen gün artarak insanların günlük hayatlarının önemli bir parçasına haline gelmiştir. İnsanlar, sosyal medya platformları üzerinden paylaştıkları metinlerde duygularını, düşüncelerini, deneyimlerini ve kendileriyle ilgili kişisel birçok bilgiyi ifade edebilmektedir. Yapay zekâ modellerinin, bu verileri insanların takip edilmesinde kullanabilmesi, kullanıcılarda önemli gizlilik endişelerini de beraberinde getirmiştir. Bu tez çalışmasında, sosyal medya platformlarını kullanan bireylerin yapay zekâ modelleri tarafından tespit edilememeleri için yapabileceklerini araştırıyoruz. Araştırmamızda birçok konuda kullanıma açık olan taraf tespiti görevini çeşitli konulardaki Türkçe ve İngilizce veri kümeleriyle ele alıyoruz. BERT ve BERTurk tabanlı dönüştürücü modellerini, yanıltmak amacıyla yeniden ifade etme ve kasıtlı yazım hataları yapma tabanlı yöntemler öneriyoruz. Önerilen 13 farklı yöntemin modellerin performanslarını etkileme seviyelerine göre etkinliklerini araştırıyoruz. Deneylerimiz sonucunda, yazım hataları karşısında BERT ve BERTurk tabanlı modellerin performanslarının belirgin bir şekilde düştüğü gösterilmiştir. Yazım hatalarına yönelik yöntemlerden iki dilde de en etkili yöntemlerin görsel olarak benzer karakterleri birbirleri yerine kullanma, boşluk ekleyerek kelimeyi bölme ve kelimelerdeki harflerin sıralarını karıştırma olduğu sonucuna ulaşılmıştır. Fakat bunula birlikte, yeniden ifade etme yöntemlerinin bu modellerin performanslarını etkileme konusunda başarılı olmadığı görülmüştür. Yöntemlerin uygulanmasında manuel ve otomatik olmak üzere iki farklı yöntem kullanılmıştır. Yöntemlerin otomatik uygulanması sonucunda elde edilen metinlerin hâlâ eski anlamlarını koruyarak okunabilir olması istenmiştir. İki değerlendirici tarafından bu kontroller sağlanmış olup harf sıralarını karıştırma, hashtag silme ve boşluk ekleme yöntemleri kullanılarak yapılan otomatik değişiklikler sonucunda okunurluğun azalması ve anlam değişmeleri gibi durumlar tespit edilmiştir. Bu sebeple bu yöntemlerin uygulanması konusunda daha dikkatli olunması gerektiği sonucuna ulaşılmıştır. Diğer bir nokta ise hashtag'lere dayalı yöntemlerde hashtag seçimleri oldukça önemli olup modellerin daha iyi performans göstermesine de sebep olabilmektedir. Bununla birlikte hashtag silme ve hashtag kullanılmaması çoğu durumda daha etkili sonuçlar vermiştir. Önerdiğimiz yöntemler ve elde ettiğimiz sonuçlar, bilgi ve gizliliklerini yapay zekâ modellerinden korumak isteyen kullanıcılar için yol gösterici nitelik taşımaktadır.

Özet (Çeviri)

The recent advances in natural language processing have led to a better understanding of language complexities and more successful outcomes in text analysis and comprehension models. Social media platforms, which offer large datasets for natural language processing models, have become an integral part of people's daily lives. Individuals express their emotions, thoughts, experiences, and various personal information through the text they share on social media platforms. However, the ability of artificial intelligence models to track and analyze this data has raised significant privacy concerns among users. In this thesis, we investigate what individuals using social media platforms can do to avoid being detected by artificial intelligence models. We address the task of stance detection on various topics using Turkish and English datasets. We propose methods for BERT and BERTurk-based transformer models to deceive the models by rephrasing and introducing intentional spelling errors. We investigate the effectiveness of the 13 different methods based on their impact on the models' performances. Our experiments demonstrate that intentional spelling error methods significantly reduce the performance of BERT and BERTurk-based models for stance detection. The most effective methods for spelling errors in both languages involve using visually similar characters, splitting words by adding spaces and shuffling the order of letters in words. However, paraphrasing methods are found to be unsuccessful in affecting the models' performances. Two different approaches, manual and automatic, were used for applying the methods. The automatic application of the methods aimed to retain the readability and original meanings of the resulting texts. Two evaluators ensured these checks, and some methods were found to result in reduced readability and changes in semantics due to automatic modifications. Hence, caution is advised in applying shuffle, delete hashtag and adding space. Another point is that in methods based on hashtags, hashtag selections are very important and can cause models to perform better. However, removing or not using hashtags has been more effective in most cases. The proposed methods and the results obtained serve as a guiding reference for users who want to protect their information and privacy from artificial intelligence models.

Benzer Tezler

  1. A new approach to corporate social responsibility: Corporate digital responsibility, analysis of Turkish banking and e-commerce sectors

    Kurumsal sosyal sorumluluğa yeni bir yaklaşım: Kurumsal dijital sorumluluk, Türk bankacılık ve e-ticaret sektörlerinin analizi

    CEYDA CİHAN AYDOĞDU

    Doktora

    İngilizce

    İngilizce

    2024

    BankacılıkGalatasaray Üniversitesi

    Radyo Televizyon ve Sinema Ana Bilim Dalı

    PROF. DR. BANU MÜJDE BASKAN KARSAK

  2. Sosyal medya ortamlarında veri mahremiyeti duyarlı farkındalık modelleri geliştirme

    Developing data privacy sensitive awareness models in social media enviroments

    SALİH ERDEM EROL

    Doktora

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Adli Bilişim Ana Bilim Dalı

    PROF. DR. ŞEREF SAĞIROĞLU

    DR. MUSTAFA UMUT DEMİREZEN

  3. Erişkinlerde sosyal medya bağımlılığı, öz bilinç ve sürekli kaygı arasındaki ilişkinin incelenmesi

    Examination of the relationship between social media addiction, self-consciousness and trait anxiety among adults

    İSMAİL ANIL USTA

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    PsikolojiBeykent Üniversitesi

    Psikoloji Ana Bilim Dalı

    DOÇ. DR. NESLİM GÜVENDEĞER DOKSAT

  4. Sosyal medyada veri paylaşım endişesi: Bir ölçek geliştirme çalışması

    Information sharing concern on social media: A scale development study

    BÜŞRA TAŞKESEN ACAR

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Psikolojiİbn Haldun Üniversitesi

    Psikoloji Ana Bilim Dalı

    DOÇ. DR. HASAN TURAN KARATEPE

  5. Sosyal medyada kişisel verilerin korunması sorunu

    The issue of personal data protection in social media

    DAMLA SABİHA VAROL

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    FelsefeMaltepe Üniversitesi

    Disiplinlerarası İnsan Hakları Ana Bilim Dalı

    PROF. DR. BETÜL ÇOTUKSÖKEN