Türkçe twitter'da soru algılama
Question identification on Turkish twitter
- Tez No: 364134
- Danışmanlar: DOÇ. DR. BANU DİRİ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2014
- Dil: Türkçe
- Üniversite: Yıldız Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 71
Özet
Twitter gibi mikro-blog servislerinin kullanımının son yıllarda katlanarak arttığı görülmektedir. Her gün tvit adı verilen, 140 karakterden oluşan, kullanıcıların günlük aktiviteleri, görüşleri ve ilgi alanlarından oluşan milyonlarca mesaj gönderilmektedir. Bununla birlikte Twitter; kullanıcılara birbirlerine doğrudan mesaj göndermek yoluyla kendisini takip edenler ile bir sosyal ağ kurma imkânı da sağlamaktadır. Günümüzde kullanıcılar her yerden erişebildikleri için sosyal medya ağlarını bilgi paylaşmak ve sorularına cevap alabilmek için de kullanmaktadırlar. Kullanıcıların Twitter üzerinde oluşturduğu büyük miktardaki ilişkisel ve metinsel veri, araştırmacıları bu alanda çalışmalar yapmaya teşvik etmektedir. Soru algılama Doğal Dil İşleme' nin bilgi çıkarımı alanının bir alt dalıdır. Dilin yapısal kurallarına uyan veya uymayan derlemlerden soru içeren cümleleri tespit etmeyi amaçlar. Soru algılama ile ilgili yapılan ilk çalışmalar kurallı metinler üzerinde olup İnternetin yaygınlaşması ile birlikte forum siteleri gibi düzensiz verilere yönelmiştir. Çalışmalar genellikle, derlemin yazıldığı dile bağlı kural tabanlı olarak tasarlanmış olup eğitim aşamasında çeşitli makine öğrenmesi yöntemlerinden yararlanılmıştır. Tez kapsamında Türkçe tvitlerden oluşan bir veri seti için, Şartlı Rastgele Alanlar metodu kullanılarak geliştirilmiş bir soru algılama sistemi geliştirilmiştir. Çalışma genel olarak dört adımdan oluşmaktadır. İlk olarak Türkçe tvitleri içeren bir veri seti oluşturulmuş ve bir ön-işleme metodu ile tvitler retvit, kullanıcı adı gibi sistem için anlamlı olmayan veriden arındırılmıştır. Çalışmanın ikinci aşamasında, veri setinden kural tabanlı bir yöntem ile soru içermeye aday tvitler belirlenmiştir. Ardından Türkçe için soru kalıpları tanımlanarak, Şartlı Rastgele Alanlar metodu ile soru olmaya aday tvitlerden soru içerenler tespit edilmiştir. Çalışmanın son aşamasında ise veri setindeki yedi farklı soru türünden birini algılamaya yönelik bir sistem yine Şartlı Rastgele Alanlar metodu kullanılarak geliştirilmiştir. Performans değerlendirme sonuçlarına göre, örüntüleri desteklemek için tanımlanan küçük boyuttaki sözlüklerin başarıyı artırdığı gözlemlenmiştir. Ayrıca, özellik olarak tanımlanan örüntülerin hassaslaştırılması; soruların tespiti aşamasındaki başarıyı artırırken, tvitlerin kuralsız veri olmasından dolayı soru olmayan tvitlerin soru olarak etiketlenmesindeki hata oranını artırmaktadır. Bu nedenle, örüntüler her iki taraftaki hatayı dengede tutacak şekilde tanımlanmıştır.
Özet (Çeviri)
The use of micro-blogging services such as Twitter has increased exponentially in recent years. Twitter users are sent to millions of 140-character messages every day which called Tweet. Tweet texts are composed of users' daily activities, opinions and interests. However, Twitter also provides an opportunity for users to establish social networks of people who follow one another's Tweets via send direct messages to each other. Today users are using Twitter to share information and to get answers to their questions so they can access from anywhere. Large amounts of textual and relational data on Twitter, has spurred to researchers working in this field. Question detection is a sub-task of information extraction field of Natural Language Processing. It aims to detect sentences which contain question statements from a regular or an irregular corpus. Earlier studies about question identification are on regular texts. Yet, with the popularization of using the Internet, researchers have turned to irregular data such as online forums and micro-blogging services. Studies about this area are designed as rule based, in training phase various machine learning methods were used. In this study, Conditional Random Fields method is used to identify questions from a data set which consists of Turkish tweets. The study consists of four steps. Initially, it is formed a data set including Turkish tweets and pre-processing method tweets in data set is cleaned from unnecessary data for the system like retweet and user name. In the second stage of study, candidate tweets were identified via a rule-based system. Following, question tweets were detected from candidate tweets using Conditional Random Field method. In the last step, a system has been developed that can detect one of seven different question types. According to the performance evaluation results, it was observed that the small-size dictionaries for using in patterns increased the success. Additionally, sensitizing the patterns that identified as feature increased the success in question detection phase, because of the irregular structure of tweets, labeling non-question tweets as question tweets error rate also increased. Therefore, patterns are identified to hold in balance both of two sides.
Benzer Tezler
- Sosyal medyada anonim kimlik kullanımı bağlamında dijital kimlik sunumu; Twitter örneği
Digital identity presentation in the context of anonymous identity use in social media; Twitter example
ABDULLATİF DOĞAN
Yüksek Lisans
Türkçe
2021
İletişim BilimleriKocaeli Üniversitesiİletişim Tasarımı ve Bilişim Teknolojileri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ YUSUF BUDAK
- Toplumsal hareketler ve sosyal medya ilişkisi: Gezi parkı ve Tahrir Meydanı örnekleri
Social movements and social media relation: The cases of Gezi Park and Tahrir Square
TURGAY YERLİKAYA
Doktora
Türkçe
2018
SosyolojiMarmara ÜniversitesiHalkla İlişkiler ve Tanıtım Ana Bilim Dalı
PROF. DR. ALİ MURAT YEL
- Siyasi aktivizm aracı olarak sosyal medya: Yemen örneği
Social media as a tool for political activism: The case of Yemen
ABUBAKR AL-OWAA
Yüksek Lisans
Türkçe
2019
Siyasal BilimlerMarmara ÜniversitesiRadyo Televizyon ve Sinema Ana Bilim Dalı
PROF. DR. ALİ MURAT YEL
- Eğitimciler Twitter canlı sohbetleri sırasında nasıl etkileşimde bulunurlar ve nasıl yararlanırlar? #Egtkonus, #Bcedchat ve #Ukedchat sohbetlerinin karşılaştırmalı analizi
How do educators interact and benefit during Twitter live chats? Comparative analysis of #Egtkonus, #BCEdChat ve #UKEdChat
ELİF NUR ÇONAK
Yüksek Lisans
Türkçe
2023
Eğitim ve Öğretimİstanbul Medeniyet ÜniversitesiEğitim Yönetimi Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SERKAN UÇAN
- Sosyal medya zekâsı üzerine bir inceleme
A study on social media intelligence
KEVSER ÇİVİ
Yüksek Lisans
Türkçe
2019
Eğitim ve ÖğretimAksaray ÜniversitesiYönetim Bilişim Sistemleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ FERHAT KADİR PALA