Text and predictive analytics; classification of on-line customer opinion surveys
Metin ve tahmine dayalı analitik; çevrimiçi tüketici görüşü anketlerinin sınıflandırılması
- Tez No: 813384
- Danışmanlar: PROF. DR. MARK CARPENTER
- Tez Türü: Yüksek Lisans
- Konular: Bilgi ve Belge Yönetimi, İstatistik, Information and Records Management, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2011
- Dil: İngilizce
- Üniversite: Auburn University
- Enstitü: Yurtdışı Enstitü
- Ana Bilim Dalı: İstatistik Ana Bilim Dalı
- Bilim Dalı: Uygulamalı Veri Bilimi Bilim Dalı
- Sayfa Sayısı: 81
Özet
Depolama yeteneklerindeki ilerlemeler, büyük veri koleksiyonları ve hedef verilere kolay erişim, insanları devasa bir veri havuzunun içinde bıraktı. Bu sorunla baş etmenin en önemli yollarından biri Veri Madenciliğidir. Veri madenciliği, bir veritabanındaki bilgiyi keşfetmenin analiz sürecidir. Ancak Merrill Lynch ve Gartner'ın araştırmalarına göre tüm dünyadaki verilerin %85-90'ı yapılandırılmamış biçimde depolanmaktadır (McKnight, 2005) ve bu nedenle veri madenciliği algoritmaları tek başına yeterli değildir. Bu noktada Metin Madenciliği önemli bir rol oynuyor. Metin madenciliği, yapılandırılmış verileri keşfetme ve yapılandırılmamış veriler koleksiyonundan yararlı bilgiler çıkarma sürecidir. Metin madenciliği yöntemleri iş dokümanlarından müşteri incelemelerine, web sayfalarından e-postalara ve diğer kaynaklara kadar çok farklı alanlarda kullanılabilmektedir. En popüler metin madenciliği tekniklerinden biri tahmine dayalı modellemedir. Karar ağaçları, sinir ağları ve güçlendirilmiş ağaçlar farklı tahmin modeli türleridir. Tahmine dayalı modeller, bir veri kümesinin hangi sınıfa ait olduğunu belirlemek için kullanılır. Örneğin bir teknoloji şirketi, yeni bir model oluşturmadan önce, özellikle müşterileri hedeflemek için tahmine dayalı modelleme algoritmaları uygulayabilir. Güvenilir sonuçlar elde etmek için doğru bir tahmin modeli oluşturmak çok önemlidir. Özellikle iş dünyasında hatalı sonuçlar çok pahalıya mal olabilir. Örneğin yukarıda adı geçen teknoloji firmasının hatalı sonuçlar kullanması ve yeni modelini bu sonuçlara göre üretmesi halinde bu durum firmanın pazarını, müşteri güvenini ve parasını kaybetmesine neden olabilir. Araştırmacılar genel olarak karar ağaçları gibi bir topluluk modeli yaklaşımının daha yüksek doğruluk oranlarına sahip tahmin modelleri üreteceğini düşünmektedir. Bu nedenle deneyimizde bir karar ağacı kullanacağız. Deneyimizde, farklı özellik seçim yöntemlerini kullanarak öncülü araştırıyoruz ve ardından seçilen özellikler için karar ağaçları oluşturuyoruz. 2 Bu tezin geri kalanı şu şekilde organize edilmiştir: Bölüm 2, literatür taramasını ve metin madenciliği süreçlerine ilişkin genel bir bakışı ve çeşitli metin madenciliği algoritmaları ve teknikleri hakkındaki açıklamaları içermektedir. Bölüm 3'te deney tasarımı verilerinin toplanması, materyaller/araçlar ve sonuçlar tartışılmaktadır. Bölüm 4 gelecekteki çalışmalar için fikirler sunmaktadır.
Özet (Çeviri)
Advances in storage capabilities, huge data collections, and easy access to target data left people in an immense data pool. One of the most important ways to deal with this problem is Data Mining. Data mining is the analysis process of discovering knowledge in a database. However, according to research by Merrill Lynch and Gartner, 85-90% of the data all over the world are stored in unstructured form (McKnight, 2005), and thus, data mining algorithms are not enough by themselves. At this point Text Mining plays an important role. Text mining is the process of exploring structured data and extracting useful information from a collection of unstructured data. Text mining methods can be used in very different areas including business documents, customer reviews, web pages, e-mails and other sources. One of the most popular text mining techniques is predictive modeling. Decision trees, neural networks and boosted trees are different types of predictive models. Predictive models are used to determine which class a set of data belongs to. For example, a technology company can apply predictive modeling algorithms to specifically target customers, and so before generating a new model. Building an accurate predictive model is very important to get reliable results. Especially in business, inaccurate results may be very expensive. For example, if the technology company mentioned above uses inaccurate results and produce its new model according to that results, this situation may cause the company lose its market, customer confidence and money. Generally researchers think that an ensemble model approach such as decision trees will produce predictive models with higher accuracy rates. Therefore, in our experiment we are going to use a decision tree. In our experiment we investigate the premise using different feature selection methods and then build decision trees for the selected features. 2 The rest of this thesis is organized as follows: Chapter 2 contains the literature review and a general overview about text mining processes and descriptions about various text mining algorithms and techniques. Chapter 3 discusses the experiment design data collection, materials/tools and results. Chapter 4 presents ideas for future work.
Benzer Tezler
- Excelling customer complaint management through text analytics: Complaint classification in social media and complaint type prediction
Müşteri şikayet yönetiminin metin analitiği yöntemiyle mükemmelleştirilmesi: Sosyal medyadaki şikayetlerin sınıflandırılması ve şikayet tipi tahminlemesi
BİRCE DOBRUCALI
Doktora
İngilizce
2021
İşletmeDokuz Eylül Üniversitesiİşletme (İngilizce) Ana Bilim Dalı
PROF. DR. BURCU İLTER
- Leveraging ai in construction management
İnşaat proje yönetiminde yapay zekadan faydalanma
BARAN AKOL
Yüksek Lisans
İngilizce
2024
Mimarlıkİstanbul Teknik ÜniversitesiMimarlık Ana Bilim Dalı
DOÇ. DR. FATMA PINAR ÇAKMAK
- Extreme learning machine and text mining approach in sentiment analysis on massive open online course evaluations
Kitlesel çevrimiçi açık ders değerlendirmelerinde duygu analizinde aşırı öğrenme makinesi ve metin madenciliği yaklaşımı
RUMEYSA ERDOĞAN
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAnkara Yıldırım Beyazıt ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. BAHA ŞEN
DOÇ. DR. FATMA GİZEM KARAOĞLAN YILMAZ
- Yapay zeka yöntemleri ile uzaktan eğitimdeki sorunların tespiti ve öğrencilerin akademik performanslarının tahmin edilmesi
Detecting the problems in distance education and predicting the academic performance of students by using artificial intelligence methods
HALİT IRMAK
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul ÜniversitesiEnformatik Ana Bilim Dalı
DOÇ. DR. ZÜMRÜT ECEVİT SATI