Geri Dön

Turkish morphological disambiguation using multiple conditional random fields

Çoklu koşullu rassal alanlar kullanarak Türkçe biçimbilimsel belirsizlik giderme

  1. Tez No: 349576
  2. Yazar: RAZIEH EHSANI
  3. Danışmanlar: PROF. DR. EŞREF ADALI, YRD. DOÇ. GÜLŞEN ERYİĞİT
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2013
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 77

Özet

Bilgisayarlı dil bilimi, bir dilin yapısal veya istatistiksel özelliklerini inceleyerek o dileait verileri işleyip belli başlı sorunlara çözüm aramak için birçok konuyu inceleyen birbilim dalıdır. Bu konular arasında başta, bilgisayar bilimleri, dil bilimleri, bilişselbilimler ve felsefe gelmektedir. Bilgisayarlı dil bilimlerinde amaç, dilin yapısalözelliklerine ilişkin kuramsal çıkarımlar yapmakla birlikte dili modellemek ve işlemeksuretiyle uygulamada bazı faydalı çözümler üretmektir. Bu konudaki öncü çalışmalar1950'li yıllarda Bilgisayarlı Çeviri alanında görülmüştür. Bu arastirmalarin ortayacikis sebebi daha cok Sovyetler Birligi'nde yayinlanan makaleleri cevirmek sureti ileendustriyel casusluk yapmaktir. Ancak alanin gelismesi sonucunda farkli uygulamaalanlari da belirmistir. Bugun makine cevirme alaninda yapilan arastirmalarin urunuolarak“google translate”gibi basarili makine cevirme uygulamalari mevcuttur.Dogal dil işleme, bilgisayarlı dil bilimi için önemli alanlarından biridir. Doğal dil ˘işlemenin amacı, dili pratik bir amaca hizmet etmek için modellemektir. Kuramsalhesaplamalı dil, diger bilimsel çalışmalardan farklı olarak doğal dil işlemede dilin ˘modellenmesindeki karmaşıklık, hizmet edecek amaca uygun olarak degişebilir. ˘Dolayısıyla burada amaç dili mümkün oldugunca iyi modellemek değil istenen ˘amacı mümkün oldugunca başarılı bir şekilde gerçekleştirmektir. Bilgisayarlı ˘Çeviri, biçimbilimsel inceleme, biçimbilimsel belirsizlik giderme, anlamsal belirsizlikgiderme, bilgi çıkarımı gibi konular dogal dil işlemenin önemli konuları arasındadır. ˘Genelde iki temel yaklaşım oldugu gözlenebilir. Bunlardan ilki, dilin belirli önemli ˘yapısal özellikleri öne çıkarılarak elle belirlenen veya otomatik çıkarılan kurallaryoluyla, istenen amaç gerçekleştirilir. Bu tip calismalar daha cok Noam Chomskyekolu ile ozdeslestirilir. ozellikle 1960-80'li yillarda populer olan bu yaklasim, dahasonra faydaci bazi kaygilar nedeni ile arka plana itilmistir. Bugun daha populer olandiger bir yaklaşım ise dili çeşitli gelişmiş istatistik ve makine öğrenmesi yöntemleri ˘ile modellemektir. Bu alandaki calismalarin bir kismi, dili olasiliksal modellemeksureti ile cikarimlar yapmaya dayali iken, baska bir yaklasim“kapali kutu”algoritmalarkullanarak dogrudan istenilen davranisin bilgisayar tarafindan ogrenilmesidir. Bizimçalışmamız bu ikinci yaklaşımı benimsemektedir.Özellikle karmaşık biçimbilimsel özellikler gösteren dillerde (Türkçe, Fince, Çekçe)biçimbilimsel çözümleme ve belirsizlik giderme konuları önemlidir. Biçimbilimselbelirsizlik giderici, Türkçede, diger doğal dil işleme konularında bir önişleme ˘olarak ele alınmaktadır. Türkçedeki biçimbilimsel belirsizlik, Türkçenin zenginbiçimbilimsel özelliginden kaynaklanmaktadır. Türkçe bir kelime teorik olarak ˘sonsuz sayıda ek alabilmekte ve Türkçenin aldıgı her ek ile kelimenin biçimbilimsel ˘özelligi değişebilmektedir. Bu zenginlik, kelimelerin cümle içinde aldıkları konuma ˘xixgöre daha çok belirsizlige neden olmaktadır. Bazı Türkçe kelimelerin 20'nin ˘üzerinde biçimbilimsel çözümlemelere sahip olduklarını görebiliyoruz. Biçimbilimselçözümleme, Türkçede 116 etiketten oluşmaktadır. Her kelimenin cümledekikonumuna bakılmaksızın bu etiketlerden oluşan bir ek, biçimbilimsel çözümlemedeele alınmaktadır. Bu etiketlerden 12'si Part of Speech olarak, kelimenin sıfat,isim, fiil ve zarf olması gerektigini belirtir. Biçimbilimsel belirsizlik giderici, ˘biçimbilimsel çözümleyicinin belirledigi olası biçimsel çözümlemelerin arasından ˘dogru olanı seçme problemidir. Bu problemi çözmek için, kelimenin içinde bulunduğu˘baglam değerlendirilir. Ana etiket belirsizliği giderme ise kelimenin cümlede aldığı˘konuma göre ana etiketler kümesinden alabilecegi etiketi belirleme yöntemidir. Bu ˘sorun ˙Ingilizce gibi dillerde çok karmaşık bir sorun oluşturmaz. Fakat, Türkçede iseaşılması güç olan sorunlara neden olmaktadır. Çalışmamızın amacı, Türkçenin hemana etiket belirsizligi hem de biçimbilimsel belirsizliğini gidermektir. Bu sorunu daha ˘önce yapılan çalışmalardan farklı olarak istatistiksel makine ögrenmesi yöntemi ile ele ˘almaktayız. Son zamanların dogal dil işleme çalışmalarında yer alan koşullu rassal ˘alanlar yöntemi bu çalışmada kullanılmıştır. Bu yontem Turkce icin daha once deuygulanmaya calisilmis da olsa, bu denemeler istenen basarimi saglayamamistir.Koşullu rassal alanlar, bir koşullu olasılık dagılımıdır. Koşullu rassal alanlar ˘yaklaşımında biçimbilimsel çözümlemeler, kelimelere koşullu olarak bir olasılıkatamaya çalışmaktadır. Biçimbilimsel çözümlemelerin arasındaki herhangi birbiçimbilimsel veya istatistiksel ilişki, koşullu rassal alanlar için bir özellik olarakkullanılmaktadır. Ayrıca biçimbilimsel çözümlemelerin ve kelimelerin arasındakiistatistiksel ve biçimbilimsel özellikleri de kullanılmaktadır. Bu özelliklerin agırlıkları, ˘ögrenme verisinden öğrenilmektedir. Bu çalışmanın temel konularından biri bu ˘özelliklerin tanımı ve yararlı özelliklerin seçilmesidir. Çünkü seçilen dogru özellikler ˘başarıyı daha da yükseltmektedir. Koşullu rassal alanlar, parametre ögrenmede ˘L-BFGS algoritmasını, çıkarım kısmında ise Viterbi algoritmasını kullanmaktadır.Kosullu rassal alanlarda ogrenme problemi, ussel dagilim ailesinde en buyukolabilirlikli (maximum likelihood) parametre ogrenme yonteminin bir ozel durumudurve bu genel problemin bir ozelligi olan icbukeyligi tasir. Bu ozellik, parametreeniyilemesinin biricik cozumu oldugunu ve bu cozume Newton-tipi yontemlerleulasilabilecegini guvence altina alir. L-BFGS algoritmasi, dusuk bellek kullananve genellikle hizli yakinsama yaptigi gozlemlenen sozde-Newton yontemlerindenbirisidir.Bu çalışmada zincir koşullu rassal alanlar kullanılmıştır. Zincir koşullu rassal alanlarbir graftaki komşulukları göz önüne almaktadır. Ögrenme ve deneme amacıyla ˘MALLET aracı kullanılmıştır. Bu araç ayrıca koşullu rassal alanların dogası gereği˘yavaş ve zaman alıcı bir araçtır. Bu çalışmada ayrıca daha başarılı ve daha hızlısonuca varmak için çeşitli yöntemler geliştirilmiştir. Bu yöntemler, hem ana etiketatama probleminde hem biçimbilimsel belirsizlik gidericide koşullu rassal alanlarıncümle bazında optimizasyon yapmasını mümkün kılmıştır ve bu sebepten dolayıbaşarıyı da ayrıca yükseltmiştir. Ana etiket atama probleminde bir tek koşullurassal alan kullanılırken biçimbilimsel belirsizlik gidericide birçok koşullu rassal alankullanılmıştır. Biçimbilimsel belirsizlik giderici, 116 etiketi 9 ayrı kümede toplamıştır.Bu 9 küme, Türkçenin biçimbilimsel özelligine göre düzenlenmiştir. Biçimbilimsel ˘xxbelirsizlik gidericide, bu 9 küme için koşullu rassal alanlar ayrı ayrı egitilmiştir. Bu egitilmiş koşullu rassal alanlar, daha sonra birleştirilerek problem çözümlenmektedir. Daha önceki 2 çalışmaya bakılırsa, birincisi kural tabanlı bir çalışmadır, bu çalışmanındezavantaji ise kelime bazında eniyileme yapmasıdır. İkinci çalışma ise Perceptronalgoritmasından yararlanmıştır, ilkine göre daha yüksek başarı elde edilmiştir. BuradaPerceptron algoritması HHM kullanan bir çalışmanın çıktıları üzerine kullanmak suretiile hızlı ve başarılı bir yöntem gerçeklenmiştir. Bizim tekrar bu konuyu ele almamızınamacı ise, istatistiksel makine ögrenmesi kullanarak bu sorunu çözmektir. Ayrıca başarıyı yükseltmek ve çözümü pratik bir hala getirmek için farklı farklı yöntemlerkullandık. Bu arada ne kadar çalışmanın dilden bagımsız olması doğrultusunda çalışsakta, Türkçenin tüm özelliklerini birer birer incelemiş ve ele almış olduk. Buçalışmada ne kadar hazır kütüphaneler kullanılsada bir çok kütüphaneyi degiştirmek ve baştan yazmak zorunda kaldık. Örnek olarak MALLET'te Viterbi algoritmasınıtamamen degiştirip ve onun yerine Constrained Viterbi algoritmasını baştan yazdık. Daha önce başka diller için yapılan benzeri çalışmalarda koşullu rassal alanlarınkullanılmasını pratik bulamamışlardır. Özellikle Çekce için bunun pratik bir çözümoldugunu gösterememişlerdir. Biz bu zorluğu aşmış durumdayız. Çalışmamız için sorunu kaç farklı probleme ayırıp ve öyle ele almak ise bizim bu sorunu pratikbir çözüm önermemiz için avantajlı kılmıştır. Bu çalışmanın tekrarlanabilmesi vegeliştirilebilmesi için özen gösterdik. Koşullu rassal alanları kullanmamızın asıl amacıistatistiksel makine ögrenmesinde, diğer yöntemlere göre avantajlarının olmasıydı. Örnegin koşullu rassal alanlar gizli markov modellerine ve en buyuk entropi markov modellerine göre avantajlara sahip. Bu avantajlardan koşullu rassal alanların gizlimarkov modellerine göre çok daha az parametre ile ugraşmasıdır. En buyuk entropi markov modellere göre ise koşullu rassal alanlarda label bais sorunun olmamasıdır.Bu sorun agırlıkların olasılık cinsinden olmasından kaynaklanıyor oysa koşullu rassal alanlarda agırlıklar olasılık cinsinden degildir. Ana etiket atama probleminde yüzde 98.60 oranında bir başarı elde edilmiştir.Biçimbilimsel belirsizlik gidericide ise bu başarı yüzde 95.57'dir. Bu degerlerliteraturdeki en iyi basarim oranlarina oldukca yakindir

Özet (Çeviri)

Natural language processing is a branch of computer science that tackles different textprocessing tasks such as machine translation or query answering systems or manyothers. Turkish is an agglutinative language that has complex morphology. Thisproperty yields to the difficult of using the tools basically developped for English. Wedeal with Turkish morphology in this thesis. One word in Turkish, related to context,may have different morphologic properties, for example one word in one contextis noun while in another context is verb. We tackle this problem to disambiguatemorphological ambiguity. Our preferred approach for this goal is based on MachineLearning (ML). ML approaches are successful in many fields in computer science,including NLP. In this regard, we use a popular statistical approach to solve thisproblem. The Conditional Random Fields (CRFs) are a class of statistical modelingmethods widely used in several NLP tasks. Compared with the other statisticalapproaches such as Hidden Markov Models and Maximum Entropy Markov Models,we use CRFs because they are more compatible with the nature of the morphologicaldisambiguation problem. Also, CRFs are robust to over-fitting problem, since thenumber of parameters of the model is relatively less. CRFs can solve Label Biasproblem because the normalization is performed at the sentence level. Furthermore,the likelihood function is convex, which means the global optimum can always befound using gradient based methods. Consequently, CRF is a successful method forsequence classification. Using CRFs, one can explicitly specify desired conditionaldependencies. We define the linguistic features for our modeling. These featureswill be defined as edge features and node features on the rest of thesis. We usedminimum Redundancy Maximum Relevance (mRMR) algorithm for choosing therelevant features. This algorithm shows successful effect in Part of Speech tagging(POS tagging) problem. Before dealing with the main problem of morphologicaldisambiguation, we also tackle the POS tagging problem in this thesis. POS taggingproblem is a part of morphological disambiguation problem, that deals with onlythe main tags whereas in full morphological analysis, the stem, the structure andinflectional features are also determined together with the main tags. Regarded to POStagging problem, we selected features and used them in morphological disambiguationproblem. The main reason of this is to replace the problem with a simpler one whichhas shorter training time.During this work, we were faced with different problems such as inference time,modeling Turkish morphological structure and selecting good features. To use theCRF method, we employed the well-known MALLET library. MALLET libraryimplements the Viterbi algorithm for inference. This“pure”Viterbi method isxviiunsuitable for our purposes, for this reason we use our implementation of constrainedViterbi instead.There are 116 morphological tags in Turkish, if we want to model all of them as onegroup of tags, we face with a significant problem where the training duration may beup to 2 weeks. We solve this problem by dividing the tags into 9 separate groups.All of this categories have special properties. For example, the main part of speechtags category contains main part of speech tags, or the tense category contains tagsrelated to time and tenses. With this modeling, training duration reduces to a day ifwe do not use minor part of speech tags. For the feature selection, we use tools suchas mRMR and MALLET feature induction, although these methods show insufficientperformances which we will discuss in the rest of the thesis.

Benzer Tezler

  1. Using multiple sources of information for constraint-based morphological disambiquation

    Değişik bilgi kaynakları kullanarak biçimbirimsel birikleştirme

    GÖKHAN TÜR

  2. Paragraph and sentence level semantic textual similarity measurement technuques: an application on solving OSYM exam questions

    Paragraf ve cümle düzeyinde anlamsal metinsel benzerlik ölçme teknikleri: ÖSYM sınav soruları çözen uygulama

    ONUR AÇIKGÖZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolIşık Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. OLCAY TANER YILDIZ

  3. İngilizceden Türkçeye istatiksel bilgisayarlı çeviri sistemlerinde paralel derlem boyutu ve kalitesinin etkileri

    The effect of parallel corpus quality vs size in English to-Turkish statistical machine translation

    ERAY YILDIZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. BANU DİRİ

    YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ

  4. Özbekçe'nin biçimbilimsel ve sözdizimsel çözümlemesi ve Özbekçe-Türkçe makine çevirisi sistemi

    A morphological and syntactic analysis of Uzbek and an Uzbek-Turkish morphological machine translation system

    AHMET ERALP KÜÇÜK

    Doktora

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi-Cerrahpaşa

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ATAKAN KURT

  5. An approach to morphological disambiguation problem using conditional random fields

    Koşullu rassal alan algoritması ile biçimbirimsel denkleştirme sorununa bir çözüm önerisi

    BÜLENT BURAK ARSLAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2009

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı Üniversitesi

    Bilgisayar Bilimleri Ana Bilim Dalı

    PROF. DR. KEMAL OFLAZER