Topic identification within microblog post collections
Kısa ileti kümelerinde konu algılama
- Tez No: 644980
- Danışmanlar: PROF. DR. OSMAN HALUK BİNGÖL, DR. SUZAN ÜSKÜDARLI
- Tez Türü: Doktora
- Konular: Bilgi ve Belge Yönetimi, Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Information and Records Management, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2017
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 163
Özet
Bu tez, konuların bir dizi ilgili unsura karşılık geldiği kısa ileti mesaj kümelerindeki konuları çıkarmayı amaçlamaktadır. İlk yaklaşım olan BounTI, dağınık, yapılandırılmamış ve parçalanmış kısa iletilerin içindeki konuları yakalamak için, herhangi bir alana özel olmayan daha düzgün yazılmış olan Wikipedia'nın kullanımını inceler. Konu unsurlarını bulmak için kullanılan tf hesaplamasında kısa ileti mesaj kümelerini tek bir belge olarak kabul eder. Başka bir genel kısa ileti kümesi, idf hasaplamada kullanılır ve bu hesaplamada her bir kısa iletiyi bir belge olarak kabul eder. İngilizce Wikipedia makalelerinin tf-idf vektörlerini hesaplar. tf-idf vektörlerinin kosinüs benzerliği konuları belirler. Bu yaklaşım 2012 ABD Seçimi sırasında toplanan 1 milyonun üzerinde mesaj ile değerlendirildi ve sonuç olarak 0,96 hassaslık skoru elde edildi (F1=1). İkinci yaklaşım olan S-BounTI, anlamsal olarak yapılandırılmış konuların üretilmesini inceler ve bu sayede, daha fazla bilgi elde etmek için işlenebilmelerini sağlar. S-BounTI, bir mesajın elemanlarını bağlantılı parçalar olarak kabul eder. Aynı mesajda iki parçanın birlikte olmasını bir ilişki olarak kabul eder. İlgili elemanlar ve aralarındaki ilişkilerin çizgesinden, en büyük klikleri kullanarak konuları belirler. Konuları ifade etmek için bu tezde tanımlanan Topico ontolojisini kullanır. Konu elemanıları Bağlı Açık Verilerdeki (LOD) kaynaklara bağlı olduğu için, LOD ile birlikte kullanılabilirler. Bu yaklaşımı incelemek için 2016'daki ABD seçimleriyle ilgili tartışmalar süresince, Carrie Fisher'ın ölümü ve Kuzey Dakota'daki boru hattı gösterileri gibi diğer olaylarda atılan 1 milyondan fazla kısa ileti değerlendirmeye alınmıştır. Nicel ve nitel gözlemler ve konuların kullanımını göstermek örnek için SPARQL sorguları ve sonuçları sunulur. Her iki yaklaşım umut verici sonuçlar vermiştir ve gelecekteki araştırma ve geliştirme için uygundur. S-BounTI'nin ilgili elemanları BounTI'den daha iyi temsil ettiği görülmüştür.
Özet (Çeviri)
This thesis aims to identify topics in collections of microblog posts, where topics correspond to a set of related topic elements. The first approach, BounTI, examines the use of Wikipedia -- well written cross-domain articles -- to capture topics within microblog posts that are messy, unstructured, and fragmented. The topic elements are identified based on their tf-idf scores, where the microblog post set is considered as a single document for tf computation. For idf computation, a public stream post set is used where each post is considered as a document. The tf-idf vectors of Wikipedia articles are computed, and the cosine similarity of the tf-idf vectors determine the topics. This approach was evaluated with more than 1 million tweets gathered during the 2012 US presidential election, resulting in a precision of 0.96 and F1=1. The second approach, S-BounTI, examines the generation of semantically structured topics, so that they can be further processed to yield more information. S-BounTI considers distinguishing elements of a post set as linked entities. Co-occurrence of two elements in the same post is considered as a relation. The related element sets which form topics are maximal cliques of the graph of elements and relations. To express topics, an ontology for microblog topics is introduced. The topics can be utilized in conjunction with LOD. Over 1M posts during the 2016 U.S. presidential election debates, and other events such as the death of Carrie Fisher and the Dakota Access Pipeline demonstrations were considered for evaluation. Quantitative and qualitative observations are provided and example SPARQL queries and their results are presented to show the utilization of the topics. Both approaches gave promising results and are suitable for future research and development. S-BounTI has been found to represent related elements better then BounTI.
Benzer Tezler
- Advancements in structural health monitoring (SHM) in aviation for enhanced aircraft safety
Artırılmış uçak güvenliği için havacılıkta yapısal sağlık izlemede (SHM) gelişmeler
HABIB UR REHMAN
Yüksek Lisans
İngilizce
2024
Makine MühendisliğiAltınbaş ÜniversitesiMakine Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ YASER ALAIWI
- Türk ve Avrupa Birliği hukukuna göre acenteliğin uygulama alanı kapsamındaki çevrimiçi aracılar
Online intermediaries within the commercial agency's scope of application according to Turkish and European Union law
ELİF OĞUZ
- Effective and efficient approaches to retrieving and using expertise in social media
Başlık çevirisi yok
REYYAN YENİTERZİ
- Detection of doss attacks and abnormalities within the network
Doss saldırılarının tespiti ve ağ içindeki anormallikler
MOHAMMED HASHIM MOHSIN ALHAMDI
Yüksek Lisans
İngilizce
2021
Elektrik ve Elektronik MühendisliğiAltınbaş ÜniversitesiElektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı
Assist. Prof. Dr. OĞUZ KARAN
- GNSS ölçüleri ile Güneybatı Anadolu'daki (GBA) blok hareketleri ve gerilim alanlarının belirlenmesi
Identification of the block movements and stress zones in Southwestern Anatolia with GNSS measurements
İBRAHİM TİRYAKİOĞLU
Doktora
Türkçe
2012
Jeodezi ve FotogrametriYıldız Teknik ÜniversitesiHarita Mühendisliği Ana Bilim Dalı
DOÇ. DR. ENGİN GÜLAL
DOÇ. DR. SAFFET ERDOĞAN