An intelligent use of stem and morphology analysis in arabic information retrieval
Arapça bilgi erişiminde kök ve biçim analizinin akıllı bir kullanımı
- Tez No: 901228
- Danışmanlar: YRD. DOÇ. DR. MUHAMMED ABDULLAH BÜLBÜL
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Elektrik ve Elektronik Mühendisliği, Computer Engineering and Computer Science and Control, Electrical and Electronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2020
- Dil: İngilizce
- Üniversite: Ankara Yıldırım Beyazıt Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Elektrik ve Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 158
Özet
Son yıllarda, internet üzerindeki Arapça metinlerin çoğalmasıyla, Arapça bilgi erişimi önemli derecede ilgi görmektedir. Çok sayıda araştırmacı Arapça bilgi erişim sistemlerinde, özellikle de internetteki çok büyük miktarda veri yığını oluşmasıyla daha da karmaşık bir probleme dönüşen internet arama motorlarında, biçimbilim ve köke indirgemenin yararlarına dair benzer görüşleri paylaşmaktadırlar. Arapça dili, internetteki diller arasında yedinci sıradadır ve ilk on çevrimiçi dil arasında en hızlı yükselişi göstermektedir. Arapça belgelerin sayısı da hızla artmaktadır. Arapça dilinin, alfabe biçiminin kompleks olması nedeniyle de ayrı bir zorluğu vardır. NLP çalışmalarında, bilgi erişim sistemleri için etkin bir dizin terimi bulmak oldukça zordur. Dolayısıyla terimlerin dizinlenmesi, özellikle mesele Arapça belgelerin dizinlenmesi olduğunda daha da karmaşık ve zor bir süreç haline gelmektedir. Bu araştırma, Arapça köke indirgeme üzerine“Arapça Biçimbilim Bilgi Erişimi (AMIR)”adlı yeni bir yöntem sunmaktadır. Yöntemimizin temel amacı ve avantajı, Arapça bilgi erişiminde metin aramada, dizinleme terimleri olarak kullanmak amacıyla, bir dizi kural uygulayarak ve bazı Arapça harfler arasındaki ilişkiyi eşleştirerek kök oluşturmak/bulmaktır. Ayrıca, bu kuralların kullanımına ve farklı Arapça bilgi erişim sistemleri için faydalarına da dikkat çekiyoruz. AMIR'in minimum biçimsel karmaşıklık düzeylerinde etkili olarak çalıştığı belirtilebilir. Sonuç olarak, AMIR, Arapça tweetler üzerinde, EveTAR (2016) veriseti kullanılarak test edilmiştir ve elde edilen sonuçlar, AMIR'in aynı fonksiyonu gören literatürdeki en güncel araçlardan daha iyi performans sergilediğini göstermiştir. Dolayısıyla bizim yaklaşımımız, her türden köke karşı duyarlı olma kapasitesine sahip olduğu gibi, Arapça kök indirgeme ve bilgi erişiminde performansı daha da iyi bir noktaya taşıyabilecektir ve biz inanıyoruz ki iyi bir destekleyici biçimsel analiz kullanılmadan, yeni bir Arapça bilgi erişim sistemi geliştirmek zor olacaktır.
Özet (Çeviri)
In the past several years, the Arabic information retrieval has garnered significant attention due to increasing the Arabic text on the web. A considerable number of researchers share similar opinions on the benefits of morphology and stemming in Arabic information retrieval systems, especially for internet search engines; a problem exacerbated by the enormous amounts of datasets on the internet. The Arabic language is ranked as the seventh top language on the web. It is the highest growth of the ten top online languages. Therefore, the number of Arabic documents increases rapidly. Also, the Arabic language has a serious challenge due to the complexity of its alphabet morphological. In NLP tasks it becomes hard to select an effective index term of information retrieval systems. Thus, indexing terms is a complex and difficult process, especially when it concerns the indexing of Arabic documents. Year after year, many methods are being published to overcome the Arabic stem problem for successful retrieval of documents. Therefore, this research present a novel method to extracting an Arabic stem called Arabic Morphology Information Retrieval (AMIR. The main goal and advantage of our method are to generate/extract stem by applying a set of rules and matches the relationship between some Arabic letters to find the root/stem of the respective words to use as indexing terms for the text searching in Arabic retrieval systems. Furthermore, we highlight the use of these rules and their benefits for different Arabic information retrieval systems. Consequently. AMIR can be considered to operate around minimum morphological complexity. Finally, AMIR has been tested using the EveTAR (2016) dataset on Arabic tweets and the obtained results show that the AMIR results outperform the state-of-the-art results. Therefore, our approach has been able to improve the performance of Arabic stem and increases retrieval as well as being active against any type of stem and we believe that it's difficult to develop a new Arabic system retrieval method without uses a good morphology analysis support it.
Benzer Tezler
- Türkçe için iyileştirilmiş biçimbilimsel çözümleyici
An improved morphological analyzer for Turkish
SEZGİ YILMAZ
Yüksek Lisans
Türkçe
2009
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. GÜLŞEN CEBİROĞLU ERYİĞİT
- Microsoft Excel öğretimi için zeki öğretim sistemi
An intelligent tutoring system for teaching Microsoft Excel
SİNAN KAYA
Yüksek Lisans
Türkçe
2005
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiElektronik ve Bilgisayar Sistemleri Eğitimi Ana Bilim Dalı
YRD. DOÇ. DR. NURSAL ARICI
- Webquest destekli STEM eğitiminin akademik başarıya etkisi ve zekâ türleri ile öğrenme stilleri arasındaki ilişki
The effect of webquest supported stem on students learning and the correlation of multiple intelligence and learning styles
ALİ SEFA ONSEKİZOĞLU
Yüksek Lisans
Türkçe
2018
Eğitim ve ÖğretimMarmara ÜniversitesiMatematik ve Fen Bilimleri Eğitimi Ana Bilim Dalı
PROF. DR. FİLİZ KABAPINAR
- Nesnelerin interneti (IoT) destekli nano-STEM-GLASS etkinliklerinin tasarlanması ve uygulama sürecinin incelenmesi
Planning internet of things (IoT) aided nano-STEM-GLASS activities and studying the implementation process
İSMAİL ATEŞ
Doktora
Türkçe
2022
Eğitim ve ÖğretimMarmara ÜniversitesiMatematik ve Fen Bilimleri Eğitimi Ana Bilim Dalı
PROF. DR. MUSA ÜCE
- ITUMORPH-Türkçe için daha geniş kapsamlı ve başarılı bir biçimbilimsel çözümleyici
ITUMORPH-Türkçe için daha geniş kapsamlı ve başarılı bir biçimbilimsel çözümleyici
MUHAMMET ŞAHİN
Yüksek Lisans
Türkçe
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. GÜLŞEN ERYİĞİT