Geri Dön

Toplumsal medyada Türkçe dil modelleri geliştirme

Developing Turkish language models on social media

  1. Tez No: 898277
  2. Yazar: ALI NAJAFI
  3. Danışmanlar: DR. ÖĞR. ÜYESİ ONUR VAROL
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: Sabancı Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 49

Özet

Türkçe, dünyada en çok konuşulan dillerden biridir; ancak, hala az kaynaklı diller arasında yer almaktadır. Bu dilin Twitter, Instagram veya TikTok gibi sosyal medya platformlarında geniş kullanımı ve ülkenin dünya politikasındaki stratejik konumu, sosyal ağ araştırmacıları ve endüstrisi için çekici hale getirmektedir. Bu ihtiyaca yanıt olarak, 894 milyondan fazla Türkçe tweet kullanılarak oluşturulmuş ilk büyük ölçekli önceden eğitilmiş dil modeli olan TurkishBERTweet'i tanıtıyoruz. Model, daha küçük giriş uzunluğuna sahip RoBERTa-base modeli ile aynı mimariyi paylaşarak TurkishBERTweet'i en çok kullanılan model olan BERTurk'ten daha hafif hale getirir ve önemli ölçüde daha düşük çıkarım süresi sunabilir. odelimizi RoBERTa modeline benzer bir yaklaşımla eğittik ve Duygu Sınıflandırması ve Nefret Söylemi Tespiti olmak üzere iki görevde değerlendirdik. TurkishBERTweet'in diğer mevcut alternatiflere göre genelleme yeteneğinde üstün olduğunu ve daha düşük çıkarım süresinin büyük ölçekli veri kümelerini işlemek için önemli avantaj sağladığını gösteriyoruz. Ayrıca, sosyal medya için özel ön işlemcilerin platforma özgü varlıklardan bilgi edinebileceğini gösteriyoruz. Ayrıca, TurkishBERTweet'in ölçeklenebilir ve maliyet etkin olduğunu göstermek için OpenAI ve Gemini gibi ticari çözümler ve diğer mevcut Türkçe LLM'ler ile maliyet ve performans açısından karşılaştırmalar yapıyoruz.

Özet (Çeviri)

Turkish is one of the most spoken languages in the world; however, it is still among the low-resource languages. Wide us of this language on social media platforms such as Twitter, Instagram, or Tiktok and strategic position of the country in the world politics makes it appealing for the social network researchers and industry. To address this need, we introduce TurkishBERTweet, the first large scale pre-trained language model for Turkish social media built using over 894 million Turkish tweets. The model shares the same architecture as RoBERTa-base model with smaller input length, making TurkishBERTweet lighter than the most used model, called BERTurk, and can have significantly lower inference time.We trained our model using the same approach for RoBERTa model and evaluated on two tasks: Sentiment Classification and Hate Speech Detection. We demonstrate that urkishBERTweet outperforms the other available alternatives on generalizability and its lower inference time gives significant advantage to process large-scale datasets. We also show custom preprocessors for social media can acquire information from platform specific entities. We also conduct comparison with the commercial solutions like OpenAI and Gemini, and other available Turkish LLMs in terms of cost and performance to demonstrate TurkishBERTweet is scalable and cost-effective.

Benzer Tezler

  1. Eğitim açısından Türkiye'de bilgi toplumu yapısına geçişi engelleyen faktörler

    The educational factors that prevent the transformation into information society structure in Turkey

    HASAN BOZASLAN

    Doktora

    Türkçe

    Türkçe

    2019

    Eğitim ve Öğretimİnönü Üniversitesi

    Eğitim Bilimleri Ana Bilim Dalı

    PROF. DR. FERİDUN MERTER

  2. Ötekileştirmenin inşası ve etkinliği bağlamında televizyon haberleri: Suriyeli sığınmacılar

    Television news in the context of the construction andactivity of alienation: The Syrian asylum seekers

    ALİ ÖZTÜRK

    Doktora

    Türkçe

    Türkçe

    2018

    Radyo-Televizyonİstanbul Üniversitesi

    Radyo Televizyon ve Sinema Ana Bilim Dalı

    PROF. DR. CEYHAN KANDEMİR

  3. Detecting multilingual offensive language in social media using deep neural networks

    Derin sinir ağlarını kullanarak sosyal medyada çokludilli saldırgan dil tespit etme

    MAHMUD BİRECİKLİ

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇukurova Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. SELMA AYŞE ÖZEL

  4. Sosyal medyada yapay zekâ ile nefret söylemi tespiti

    Detection of hate speech on social media with artificial intelligence

    ÇAĞLA AKSOY

    Doktora

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Adli Bilişim Ana Bilim Dalı

    PROF. DR. ŞEREF SAĞIROĞLU

    DR. MUSTAFA UMUT DEMİREZEN

  5. Sosyal medyada toplumsal cinsiyet: Twitter iletilerinde Mahsa Amini örneği

    Gender on the social media: The sample of Mahsa Amini in tweets

    GÜLSÜM TÖNGEL

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    SosyolojiSakarya Üniversitesi

    Sosyoloji Ana Bilim Dalı

    DOÇ. DR. HANDAN AKYİĞİT