Dictionary-based effective and efficient Turkish lemmatizer
Sözlük tabanlı etkin ve verimli Türkçe gövdeleyici
- Tez No: 306841
- Danışmanlar: YRD. DOÇ. DR. ADİL ALPKOÇAK
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2011
- Dil: İngilizce
- Üniversite: Dokuz Eylül Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Bölümü
- Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Sayfa Sayısı: 109
Özet
Bu çalışmada, GPU üzerinde çalışan bir Türkçe gövdeleyici algoritması geliştirdik ve daha sonra bu algoritmanın performansını ve verimliliğini araştırdık. Türkçe sondan eklemeli ve zengin morfolojik yapıya sahip bir dil olarak eşsesli ve yapısal değişkinliğe uğrayabilen kelimeleri içerdiği için sözlük kullanmadan sadece kurallar tanımlanarak gövdeleme yapılması zahmetli ve verimsiz olacaktır. Bu yüzden Türkçe bilgi getirim sistemlerinde, Türkçe kelimelerin etkin ve verimli bir şekilde sözlük tabanlı gövdelenmesi önemlidir. Bu çalışmamız Türkçe dökümanların indekslenmesi ve aranması amacıyla sözlük tabanlı hızlı bir gövdeleyici geliştirmeyi amaçlıyor.Yüksek performanslı programlama amacıyla Nvidia tarafından tanıtılmış, grafik programlama üniteleri üzerinde çalışan ve hala geliştirilmekte olan CUDA kütüphanesi grafik programlama ünitelerinin, grafik programlamanın dışında genel amaçlı performans ortamı olarak kullanılması eğilimini arttırdı. Bugünlerde, araştırmacılar hesaplama kaynaklarının yoğun olarak kullanılmasını gerektiren moleküler dinamikler, akışkan dinamikleri, kriptoloji, görüntü işleme, astrofizik ve genetik gibi bir çok alanda CUDA ile grafik programlama ünitlerinin yüksek hesaplama kabiliyetinden yararlanmaya başladı.(Manavski ve Valle, 2008 gibi) CUDA bilgi getirim işlemlerinin doğasında olan büyük iş yükleri için de kullanılabilir. Bizim programımız GPU üzerinde (NVIDIA GeForce GT240M) ?Radix Trie? veri yapısı mantığıyla geliştirilen gövdeleyici algoritmasının paralel çalışırılması ile CPU üzerinde çalışan seri versiyonuna göre, 90 kata kadar performans artışı sağladı. Bu tezde, kelime gövdeleyici algoritmalarımızın test kelime seti üzerinde çalıştırarak elde ettiğimiz sonuçları gösteriyoruz. GPU üzerinde çalışan gövdeleyici algoritmamızı CPU üzerinde çalışan versiyonuyla karşılaştırdık ve GPU kaynaklarını nasıl daha verimli kullanılabileceğimizi sekiz farklı algoritmayla araştırdık.
Özet (Çeviri)
In this thesis, we present a new Turkish lemmatizer that runs on the GPU and investigate its accuracy and performance. Turkish is an agglutinative language, with a rich morphological structure, contains homographic and inflectional word forms which are lowering the accuracy of stemmers. Thus, in Turkish information retrieval systems, the ability to lemmatize Turkish words efficiently and effectively is important. Our study aims at developing a fast dictionary based lemmatizing approach for indexing and searching documents in Turkish.Recent introduction of CUDA (Compute Unified Device Architecture) libraries for high performance computing on graphic processing units (GPUs) by NVIDIA has increased the trend to use GPUs as general purpose performance environment (GPGPU). Today researchers started to exploit GPU?s high computational capability through CUDA in many applicative contexts requiring intensive use of computational resources such as molecular dynamics, fluid dynamics, cryptology, computer vision, astrophysics and genetics.(e.g. Manavski and Valle, 2008 ) CUDA can be used also in the information retrieval because of its massively workload. Our program, achieves a speedup of as much as 90 times on a recent GPU (NVIDIA GeForce GT240M) over the equivalent CPU-bound version, ultimately with the use of parallelized execution of lemmatization algorithm using a data structure inspired from ?Radix Trie?. Here, we present evaluation results of our string lemmatizing kernels for use in CUDA, which executes parallelized lemmatizing for a test set of query strings. We compared our lemmatization algorithm running on GPU with the serial CPU bound version, and explored issues associated with efficient use of GPU resources with eight different algorithms.
Benzer Tezler
- Ulusal Yapı Enformasyon Modellemesi (YEM/BIM) Kütüphanesi içeriğinin sektörel ihtiyaçları karşılayacak şekilde geliştirilmesi için bir araştırma: kapı örneği
A research for development of National Building Information Modelling (BIM) Library content in line with sectoral needs: The case of doors
GONCA AKKÜÇ
Yüksek Lisans
Türkçe
2019
Mimarlıkİstanbul Teknik ÜniversitesiMimarlık Ana Bilim Dalı
DOÇ. DR. FETHİYE ECEM EDİS
- Yüklenici firmalar için alt yüklenici sözleşme yönetimi olgunluk modeli
Sub- contract management maturity model for contractor companies
NİMET ÖZDEN
Yüksek Lisans
Türkçe
2024
İnşaat Mühendisliğiİstanbul Teknik Üniversitesiİnşaat Mühendisliği Ana Bilim Dalı
DOÇ. DR. DENİZ ARTAN
- Mimarlar için eğitim amaçlı bir veri tabanı modeli
An educational database model for architects
RANA ERBAY
Yüksek Lisans
Türkçe
2004
Mimarlıkİstanbul Teknik ÜniversitesiMimarlık Ana Bilim Dalı
DOÇ.DR. SİNAN MERT ŞENER
- The Effectiveness of computer assisted language learning (Call) in vocabulary instruction to Turkish EFL students
Bilgisayar destekli dil eğitiminin Türk yabancı dil öğrencilerinin kelime bilgisine etkisi
NAFİYE ÇİĞDEM KOÇAK
Yüksek Lisans
İngilizce
1997
Eğitim ve Öğretimİhsan Doğramacı Bilkent ÜniversitesiPROF. DR. THEODORES RODGERS
- Efficient parameter mapping for magnetic resonance imaging
Manyetik rezonans görüntüleme için verimli parametre haritalaması
KÜBRA KESKİN
Yüksek Lisans
İngilizce
2019
Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. TOLGA ÇUKUR