Geri Dön

Farklı dil ve platformda semantik analiz

Semantic analysis in different language and platform

  1. Tez No: 641054
  2. Yazar: VOLKAN ALTINTAŞ
  3. Danışmanlar: DR. ÖĞR. ÜYESİ MEHMET ALBAYRAK, DR. ÖĞR. ÜYESİ KAMİL TOPAL
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2020
  8. Dil: Türkçe
  9. Üniversite: Süleyman Demirel Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 97

Özet

Teknolojinin hızlı gelişimi ile beraber, internet, yaygın bir şekilde günlük hayatımızda kullanılmaktadır. İnternet ve internet teknolojilerinin yaygınlaşması ve her alanda kullanılması ile birlikte, üretilen veri miktarı her gün artmaya devam etmektdir. Boyut olarak artan verinin biçimlendirilerek analiz edilebilir hale getirilmiş şekli,“Büyük Veri”olarak adlandırılmaktadır. Büyük verinin, bireyler tarafından analiz edilmesi, yorumlanması ve anlamlı sonuçlara varılabilmesi ihtimali, verinin boyutundan dolayı kalmamıştır. Büyük verinin işlenebilmesi, işlenen verilerden anlamlı sonuçlar çıkarılabilmesi ve verilerin içerisinde varolan tematik bilginin ortaya çıkarılması son yıllarda önem kazanmıştır. Devletler, şirketler ve kurumlar, izleyecekleri politikaları depoladıkları verileri analiz ederek belirlemektedir. Bu konuda gelişen teknoloji ile verinin işleneceği donanım özelliklerinin de gelişmesi, araştırmalara katkı sunmaktadır. Algılayıcılardan toplanan veriler, sosyal medya paylaşımları, firmaların ve devlet kurumların barındırdığı veriler, büyük veri için örnek olarak gösterilebilir. Bu verilerin büyük bir çoğunluğu kullanıcılar tarafından oluşturulmaktadır. Kullanıcı tarafından veri paylaşımının en fazla yapıldığı ortamlar olarak sosyal medya platformları ön plana çıkmaktadır. Sosyal medya platformlarında kullanıcılar karşılaştıkları bir problem, güncel bir sorun veya herhangi bir konu ile ilgili yorumlarını ve deneyimlerini paylaşmaktadır. Bu tez çalışmasında, iki farklı platform ve iki farklı dil için semantik analizi yapılmıştır. Türkçe ve İngilizce dillerinde kullanım oranları dikkate alınarak Reddit ve Ekşi Sözlük sosyal medya platformları seçilmiştir. Çalışmada, bu platformlarda teknoloji kanalında paylaşılan kullanıcı yorumları veri ön işleme adımlarının ardından, Gizli Anlam Analizi (GAA) ve Gizli Dirichlet Ayrımı (GDA) algoritmaları ile konu modellemesi işlemi gerçekleştirilmiştir. İki algoritmanın sonuçlarında oluşan benzerlikler ve farklılıklar hem aynı dilde hem de Türkçe ve İngilizce dilleri için ayrı ayrı incelenmiştir. Konu modellemede öne çıkan yorumlar üzerinden, Varlık İsmi Tanıma (VİT) metotları kullanılarak yorumlar içerisinde geçen varlık isimleri bulunmuştur. Çevrimiçi ansiklopedi olan WikiPedia' daki metinsel bilgilerin semantik algoritmalar yardımıyla formatlı bilgi haline getirildiği DBPedia üzerinde VİT metotları ile tespit edilen varlık isimleri açıklamaları ile eşleştirilmiştir. Analiz edilen büyük veri üzerinde belirlenen sosyal medya platformlarında konuşulan tematik konular tespit edildiği gibi, ayrıca konuların belirlenmesinde etkin olarak geçen yorumlardaki varlık isimleri ve açıklamaları da belirlenmiştir.

Özet (Çeviri)

With the rapid development of technology, the internet is widely used in our daily life. With the spread of internet and internet technologies and their use in every field, the amount of data produced continues to increase every day. The format of the increasing data in size, which has been formatted and analyzed, is called“Big Data.”The possibility of big data being analyzed, interpreted, and meaningful conclusions by individuals are not due to the size of the data. It has gained importance in recent years to be able to process big data, to draw meaningful conclusions from the processed data, to reveal the thematic information existing in the data. States, companies, institutions determine the policies they will follow by analyzing the data they store. In this regard, the development of the technology and the hardware features of the data will contribute to the research. Sensor data, social media shares, data hosted by companies, and government agencies can be shown as examples for big data. Users create the vast majority of this data. Social media platforms come to the fore as environments where data sharing is made most by the user. On social media platforms, users share their comments and experiences about a problem they face, a current situation, or any topic. In this thesis, the semantic analysis was done for two different platforms and two other languages. Reddit and Ekşi Sözlük social media platforms were selected by taking into consideration the usage rates in Turkish and English languages. In this study, the topic modeling process was carried out with Latent Semantic Analyzer (LSA) and Latent Dirichlet Allocation (LDA) algorithms after user comments data preprocessing steps shared on technology channel in these platforms. The similarities and differences in the results of the two algorithms are examined separately for both the same language and Turkish and English languages. Entity names in the comments were found by using Name Entity Recognition (NER) methods. The text names in Wikipedia, the çevrimiçi encyclopedia, are matched with the descriptions of the asset names determined by NER methods on DBPedia, where semantic algorithms are converted into formatted information. The thematic topics spoken on the social media platforms defined on the big data obtained were identified, as well as the asset names and their explanations in the comments that were actively involved in the determination of the topic.

Benzer Tezler

  1. Smart city modeling using big data techniques

    Büyük veri teknikleri kullanarak akıllı şehir modelleme

    MUHAMMET SIDDIK EMEK

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGalatasaray Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ İSMAİL BURAK PARLAK

  2. Metin sınıflandırma teknikleri ile türkçe twitter duygu analizi

    Turkish twitter sentiment analysis using text classification techniques

    ÖNDER ÇOBAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAtatürk Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. GÜLŞAH TÜMÜKLÜ ÖZYER

  3. Global goals, local voices: A multinational comparative sentiment and topic analysis of public transportation in the context of SDGs

    Küresel hedefler, yerel sesler: Sürdürülebilir kalkınma amaçları bağlamında toplu taşımaya yönelik ülkelerin karşılaştırmalı duygu ve konu analizi

    ASLIGÜL AKSAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    İşletme Mühendisliği Ana Bilim Dalı

    PROF. DR. HATİCE CAMGÖZ AKDAĞ

  4. Contextualizing 'context' in architectural theory via a conceptual model

    Mimarlık kuramında bir kavramsal model ile bağlamı bağlamsallaştırmak

    EDANUR KILIÇ

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Mimarlıkİstanbul Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    PROF. DR. YÜKSEL DEMİR

  5. التناص في روايات أحمد زياد محبّكمحمد تركي

    Ahmed Ziyâd Muhabbik'in romanlarında metinlerarasılık

    MOHAMAD TURKEY

    Doktora

    Arapça

    Arapça

    2024

    DilbilimEskişehir Osmangazi Üniversitesi

    Temel İslam Bilimleri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ YUSUF KARATAŞ