Toplumsal medyada Türkçe dil modelleri geliştirme
Developing Turkish language models on social media
- Tez No: 898277
- Danışmanlar: DR. ÖĞR. ÜYESİ ONUR VAROL
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: Sabancı Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 49
Özet
Türkçe, dünyada en çok konuşulan dillerden biridir; ancak, hala az kaynaklı diller arasında yer almaktadır. Bu dilin Twitter, Instagram veya TikTok gibi sosyal medya platformlarında geniş kullanımı ve ülkenin dünya politikasındaki stratejik konumu, sosyal ağ araştırmacıları ve endüstrisi için çekici hale getirmektedir. Bu ihtiyaca yanıt olarak, 894 milyondan fazla Türkçe tweet kullanılarak oluşturulmuş ilk büyük ölçekli önceden eğitilmiş dil modeli olan TurkishBERTweet'i tanıtıyoruz. Model, daha küçük giriş uzunluğuna sahip RoBERTa-base modeli ile aynı mimariyi paylaşarak TurkishBERTweet'i en çok kullanılan model olan BERTurk'ten daha hafif hale getirir ve önemli ölçüde daha düşük çıkarım süresi sunabilir. odelimizi RoBERTa modeline benzer bir yaklaşımla eğittik ve Duygu Sınıflandırması ve Nefret Söylemi Tespiti olmak üzere iki görevde değerlendirdik. TurkishBERTweet'in diğer mevcut alternatiflere göre genelleme yeteneğinde üstün olduğunu ve daha düşük çıkarım süresinin büyük ölçekli veri kümelerini işlemek için önemli avantaj sağladığını gösteriyoruz. Ayrıca, sosyal medya için özel ön işlemcilerin platforma özgü varlıklardan bilgi edinebileceğini gösteriyoruz. Ayrıca, TurkishBERTweet'in ölçeklenebilir ve maliyet etkin olduğunu göstermek için OpenAI ve Gemini gibi ticari çözümler ve diğer mevcut Türkçe LLM'ler ile maliyet ve performans açısından karşılaştırmalar yapıyoruz.
Özet (Çeviri)
Turkish is one of the most spoken languages in the world; however, it is still among the low-resource languages. Wide us of this language on social media platforms such as Twitter, Instagram, or Tiktok and strategic position of the country in the world politics makes it appealing for the social network researchers and industry. To address this need, we introduce TurkishBERTweet, the first large scale pre-trained language model for Turkish social media built using over 894 million Turkish tweets. The model shares the same architecture as RoBERTa-base model with smaller input length, making TurkishBERTweet lighter than the most used model, called BERTurk, and can have significantly lower inference time.We trained our model using the same approach for RoBERTa model and evaluated on two tasks: Sentiment Classification and Hate Speech Detection. We demonstrate that urkishBERTweet outperforms the other available alternatives on generalizability and its lower inference time gives significant advantage to process large-scale datasets. We also show custom preprocessors for social media can acquire information from platform specific entities. We also conduct comparison with the commercial solutions like OpenAI and Gemini, and other available Turkish LLMs in terms of cost and performance to demonstrate TurkishBERTweet is scalable and cost-effective.
Benzer Tezler
- Eğitim açısından Türkiye'de bilgi toplumu yapısına geçişi engelleyen faktörler
The educational factors that prevent the transformation into information society structure in Turkey
HASAN BOZASLAN
Doktora
Türkçe
2019
Eğitim ve Öğretimİnönü ÜniversitesiEğitim Bilimleri Ana Bilim Dalı
PROF. DR. FERİDUN MERTER
- Ötekileştirmenin inşası ve etkinliği bağlamında televizyon haberleri: Suriyeli sığınmacılar
Television news in the context of the construction andactivity of alienation: The Syrian asylum seekers
ALİ ÖZTÜRK
Doktora
Türkçe
2018
Radyo-Televizyonİstanbul ÜniversitesiRadyo Televizyon ve Sinema Ana Bilim Dalı
PROF. DR. CEYHAN KANDEMİR
- Detecting multilingual offensive language in social media using deep neural networks
Derin sinir ağlarını kullanarak sosyal medyada çokludilli saldırgan dil tespit etme
MAHMUD BİRECİKLİ
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇukurova ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. SELMA AYŞE ÖZEL
- Sosyal medyada yapay zekâ ile nefret söylemi tespiti
Detection of hate speech on social media with artificial intelligence
ÇAĞLA AKSOY
Doktora
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiAdli Bilişim Ana Bilim Dalı
PROF. DR. ŞEREF SAĞIROĞLU
DR. MUSTAFA UMUT DEMİREZEN
- Sosyal medyada toplumsal cinsiyet: Twitter iletilerinde Mahsa Amini örneği
Gender on the social media: The sample of Mahsa Amini in tweets
GÜLSÜM TÖNGEL