Developing machine learning methods for business intelligence
İş zekası için makine öğrenmesi yöntemlerinin geliştirilmesi
- Tez No: 541338
- Danışmanlar: DR. ÖĞR. ÜYESİ ZAFER AYDIN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2018
- Dil: İngilizce
- Üniversite: Abdullah Gül Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 69
Özet
Anahtar özelliklerin tespiti, verilerin artması ve büyük belgelerin daha hızlı ve kolay erişilebilir olmasından dolayı giderek ilgi duyulan bir araştırma alanıdır. Anahtar özellik, belgeler için meta veri görevi görür ve doğru özelliklerin keşfi sayesinde, uzun metinlerden önemli bilgi parçalarının yakalanmasını sağlar. Anahtar özellikler, internet alanında giderek artan web sitelerinden daha hızlı ve verimli bilgi keşfetme imkanı sağlayabilir. Bu tezde, verilen bir web sayfası metninden şirket ismini otomatik olarak tespit eden iki aşamalı yeni bir makine öğrenmesi yöntemi geliştirilmiştir. İlk aşamada verilen bir kelimenin şirket ismi olup olmadığını tahmin eden bir sınıflandırma yöntemi geliştirilmiştir. Yöntemin kullandığı öznitelikler doğal dil işleme teknikleri ile ve metinsel verilerdeki örüntülerin incelenmesi sonucu kelimelerin özelliklerini ve içeriğe ilişkin anlamını yansıtacak şekilde çıkarılmıştır. Bu öznitelikler daha sonra naive Bayes, karar ağacı ve rastgele orman gibi sınıflandırma yöntemlerine girdi parametresi olarak aktarılmaktadır. İkinci aşama içinse kural tabanlı bir sınıflandırma yöntemi geliştirilmiştir. Bu yöntem alan ve başlıktaki kelimelerini de tarayarak simge benzerlik ölçütleri ile şirket ismi olmaya aday olan kelimeleri sıralamakta ve en yüksek skorlu kelimeleri şirket ismi olarak tahmin etmektedir. Yapılan deneyler sonucunda birinci aşamadaki sınıflandırıcı ile yüksek hassasiyet oranı elde edilirken özellike zor olan bazı metinlerdeki şirket isimlerinin tanımsız kategorisine atandığı gözlenmiştir. Diğer taraftan kural tabanlı sınıflandırma yöntemi ile yüksek doğruluk oranı elde edilmiştir ancak bu yöntemin hassaslık oranı birinci aşamadaki yöntemden daha düşüktür. İki sınıflandırıcının birleştirilmesi sonucu elde edilen iki aşamalı sınıflandırma yöntemi ile hem genel doğruluk oranı hem de hassaslık oranı yüksek olarak elde edilmiştir.
Özet (Çeviri)
Detection of key attributes in text is an area of research, which attracts attention due to the increase of data and the availability of massive documents. Key attributes serve as metadata for documents and the discovery of accurate characteristics allows to capture significant pieces of information from a lengthy text. They allow faster and efficient information retrieval on the web domain with an ever increasing number of websites. In this thesis, a novel two-stage machine learning method is developed to identify the company name from web page text. The problem is reduced to a classification task at the token (i.e. word) level followed by a post-processing phase for predicting the company name. Features are extracted using natural language processing techniques and by observing patterns present in textual data to reflect the properties and significance of the words in context. Derived features are sent as input to classification algorithms such as naive Bayes, decision tree, and random forest. In addition to the token-based classifier, a rule-based method is designed that also considers tokens from domain as well as page title and ranks tokens by computing similarity metrics. The results demonstrate high precision from the machine learning model along with high undefined cases whereas the rule-based approach obtained high accuracy with precision inferior to the token-based model. When the two classification strategies are combined into a two-stage classifier, high accuracy and precision scores are obtained.
Benzer Tezler
- Detecting the anomalies on number of website sessions with machine learning algorithms
Makine öğrenmesi yöntemleri ile internet sitesi oturum sayılarında anomali tespiti
FURKAN ALVER
Yüksek Lisans
İngilizce
2024
İstatistikYıldız Teknik Üniversitesiİstatistik Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ERHAN ÇENE
- Developing a life insurance recommendation system using machine learning methods
Makine öğrenme yöntemleri kullanarak hayat sigortası öneri sistemi geliştirmesi
ASLI HAZAL AKALTUN
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBahçeşehir ÜniversitesiBüyük Veri Analitiği ve Yönetimi Ana Bilim Dalı
DOÇ. DR. TEVFİK AYTEKİN
- Bakım planlamasında kullanılan makine öğrenme yöntemlerinin çok kriterli karar verme ile analizi
Analysis of machine learning methods used in maintenance planning with multi-criteria decision making
GÖZDE NUR CALAYIR
Yüksek Lisans
Türkçe
2022
Endüstri ve Endüstri MühendisliğiGazi ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
PROF. DR. MEHMET KABAK
- Makine öğrenme algoritmalarıyla hatalı ürün tahmini
Prediction of defective product with machine learning algorithms
ENES ŞANLITÜRK
Yüksek Lisans
Türkçe
2018
Bilim ve Teknolojiİstanbul Teknik Üniversitesiİşletme Mühendisliği Ana Bilim Dalı
PROF. DR. FERHAN ÇEBİ
- Bağlantısallık probleminin cezalı regresyon yöntemleri ile giderilmesi
Eliminating the connectivity problem with penalized regression methods
EMEL CİĞER
Yüksek Lisans
Türkçe
2023
İşletmeMersin Üniversitesiİşletme Bilgi Yönetimi Ana Bilim Dalı
DOÇ. DR. EVRİM ERSİN KANGAL