SweetTweet: A semantic analysis for microblogging environments
SweetTweet: Microblog ortamlarının semantik analizi
- Tez No: 270486
- Danışmanlar: DR. SUZAN ÜSKÜDARLI
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2010
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 109
Özet
Web 2.0 kavramı, güncel İnternet uygulamalarının geliştirilmesinde kullanıcıların katılımını önemli bir unsur haline getirdi. Artık kullanıcılar İnternette sunulan servisleri sadece kullanmakla kalmıyor, aynı zamanda bu servislerle etkileşime girerek servisin içeriğinin oluşturulmasına katkıda bulunuyorlar. Microblog'lar son zamanlarda İnternet üzerinde bulunan en ilgi çekici uygulama konumundalar. Alışılageldik blog'larla karşılaştırıldıklarında, hızlı, basit ve kullanımları kolay olan Microblog'lar, bu özellikleri ile kullanıcıların dikkatini çekiyor. Twitter en popüler microblog konumunda ve her gün milyonlarca ileti gönderen milyonlarca kullanıcıya sahip. Bu nedenle, Twitter üzerinde muazzam derecede büyük bir veri bulunuyor ve bu veri büyümeye devam ediyor. Bu yüksek lisans tezinde yaptığımız çalışma, gerçekten değerli bilgileri içeren bu verinin kategorilere ayrılması ve analiz edilmesi, kullanıcıların Microblog'a yaptıkları katkının anlaşılabilir olması ve değerli bilgilerin ortaya çıkartılabilmesi için bir yöntem sunmak şeklinde özetlenebilir. Ancak microblog'larda özellikle içerik boyutu konusunda bazı sınırlamalar bulunuyor. Analiz yapabilmek için elimizde bulunan tek veri, kullanıcının mesajlarında bulunan kelimeler olduğundan, bu özellik Twitter üzerinde bulunan verinin analiz edilmesini zorlaştırıyor. Modelimizde ilk adım, kullanıcıların mesajlarının alınıp kelimelere ayrılması, sonraki adımda ise bu mesajların analiz edilmesi ve anlaşılmaya çalışılması olarak sıralanabilir. Mesajların analiz edilmesi aşamasında semantik ağ kaynakları kullanılıyor. Bu tez çalışmasında, Linked Data girişiminin merkezi bir bileşeni olan DBpedia, semantik ağ kaynağı olarak seçildi. DBpedia, WikiPedia'da bulunan verileri RDF formatında sunar ve bu veri seti üzerinde karmaşık SPARQL sorguları yapabilmek için bir arayüz sağlar. Bu tez çalışmasında sunduğumuz model, kullanıcıların mesajlarında en sık kullanılan kelimeleri alır, semantik ağ kaynaklarında sorgular ve bu kaynaktan dönen kategorileri eşleştirir. Analiz işleminin sonunda, kullanıcıların microblog'a yaptıkları katkıları anlamamıza yarayan grup kategori ismi ortaya çıkmış olur.
Özet (Çeviri)
User collaboration became the key factor in the development of today?s Internet applications with the emergence of Web 2.0. Users not only consume the services available on the Internet, but also interact with them and collaborate to provide content generation for the services. Microblogs are recently one of the most interesting applications in the Internet. They are rapid, simple and easy to use when compared to the traditional blogs. These properties of microblogs create user interest and increase the popularity of these services. Twitter is the most popular microblog and it has millions of users posting millions of messages every day. The data available on Twitter is massive and it is growing continuously. This massive data contains valuable information. The work done in this M.S. thesis is to provide a methodology to categorize, analyze this data, understand the user contributions made to microblogs and export valuable information. However, microblogs have some limitations, especially on the size of the content. Same situation also applies for the user posts in Twitter, which are also known as ?tweets?. This makes the analysis of the data on Twitter more challenging, since the only information we have for performing an analysis are the words in user tweets. First step in our method is to retrieve user tweets and parse them into words. Next, we need to analyze and understand the content of the user posts. To achieve this goal, we utilized Semantic Web resources. DBpedia, which is a central node on Linked Data effort, is selected as Semantic Web resource in this thesis work. DBpedia provides the data on WikiPedia in RDF format and it has an interface that enables us to perform complex SPARQL queries on the data set available on it. The model we proposed in this thesis work takes the words which are used frequently on users? posts as input, queries them on Semantic Web resources and finds out the matching categories defined on this resource for these words. At the end of the analysis process, we have a group of category names for the users, which enables us to understand their contributions made to microblogs.