Ardışık şartlı rastgele alanlarla sekans etiketleme

Sequence labeling with stacked conditional random fields

PDF İndir

Tez No: 414138
Yazar: METİN BİLGİN
Danışmanlar: YRD. DOÇ. DR. MEHMET FATİH AMASYALI
Tez Türü: Doktora
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2015
Dil: Türkçe
Üniversite: Yıldız Teknik Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 105

Özet

Sekans etiketleme bir giriş dizisine karşılık bir çıkış dizisinin üretimidir. Giriş ve çıkış dizisinin içeriklerine göre doğal dil işlemenin birçok konusu (varlık isim tanıma, makine çevirisi, morfolojik analiz, cümleleri öğelerine ayırma vb.) sekans etiketleme olarak tanımlanabilir. Cümle analizi ve cümleden bir anlam çıkarılması, doğal dil işlemenin ana konularından biridir. Eğer ilgili cümlenin söylemek istediği gerçek anlam çıkartılabilirse bu cümle makineler tarafından eyleme dönüştürülebilir, bir dilden başka bir dile çeviri yapılabilir ya da cümleden duygusal bir anlam çıkartılması sağlanabilir. Bağlılık ayrıştırması, bir cümle içerisindeki sözcükler arasındaki ilişkilerin ve ilişki türlerinin belirlenmesidir ve bir cümlenin anlamsal analizinin yapılabilmesi için şarttır. Bağlılık ayrıştırması sekans etiketleme problemi olarak tanımlandığında iki çıkış dizisinin (ilişki türü, ilişkili kelime) birden üretilmesi gerekmektedir. Bir cümlenin çözümlenmesi, ilgili dilin cümle yapısına bağlıdır. Türkçe, bitişken ve cümle içi öğe dizilişleri serbest bir dildir. Bu nedenle diğer dil ailelerine göre çözümlemesi daha zor bir dildir. Literatürde Türkçe ile ilgili yapılan çalışmalar mevcut olmasına rağmen ağırlıklı olarak İngilizce için gerçekleştirilmiş çalışmalar bulunmaktadır. Türkçe için yapılan çalışmalarda, Destek Vektör Makineleri (Support Vector Machine) tabanlı bir yapı kullanan Malt Parser ile belirli bir doğruluk oranlarına erişilmiştir. Diğer diller için yapılan çalışmalar incelendiğinde bu başarının artırılması için yeni hipotezler üretilmesi ve bunların denenmesi gereği açıktır. Bizim önerimiz, özellikle sekans etiketleme problemlerinin çözümünde sıklıkla kullanılan Şartlı Rastgele Alanların bağlılık ayrıştırması problemi içinde kullanılabilir olduğudur. Ancak Şartlı Rastgele Alanlar tek çıkış üreten bir yöntemdir. Bu zorluğu aşabilmek için iki çıkışlı (Bağlılık Türü ve Bağlanılan Kelime) bir problem olan Bağlılık Ayrıştırması iki parçaya bölünerek çözülmüştür. Ardından elde edilen sonuçlar birleştirilerek sistemin çıktısı olarak verilmiştir. Türkçe için gerçekleştirilen çalışma sonuçları ile literatürdeki sonuçlar karşılaştırıldığında daha yüksek bir başarı oranına ulaşıldığı görülmüştür. Türkçe dışındaki İsveç Dili, Danimarka Dili, Hollanda Dili ve Portekiz dili için de önerdiğimiz yöntem denenmiştir. İlişki türünü belirlemede literatürdeki çalışmaların başarıları aşılmıştır. İlişkili kelimeyi belirleme de ise daha kötü bir performans sergilenmiştir. Buna, Türkçe dışındaki bu dillerin cümle içi bağlılık yapılarının çok daha değişken olmasının sebep olduğu görülmüştür. Gelecek çalışma olarak geliştirilen yöntemin diğer dillerdeki performansını arttırmak için daha dinamik bir yapının geliştirilmesi düşünülmektedir.

Özet (Çeviri)

Sequence labeling is the production of an output sequence in return for an input sequence. Many issues (name entity recognition, machine translation, morphological analysis, resolving the sentence into its elements, etc.) of natural language processing based on the contents of the input and output sequence can be defined as sequence labeling. Sentence analysis and making out the meaning of a sentence are one of the main topics of natural language processing. If real meaning requiring saying the relevant sentence can draw, this sentence can convert into action by machines, translate from one language to other language or enable to get the emotive meaning of the sentence. Dependency Parsing determines the relationships and types of relationships between words within a sentence and is essential to the semantic analysis of a sentence. When attachment discrimination is defined as the problem of sequence labeling, two-output sequence (relationship type, related word) should be generated together. Analysis of a sentence depends on the sentence structure of the relevant language. Turkish is an agglutinative language and free-intrasentence arrangements of element. Therefore, it is a language difficult to analyze compared to other language families. Although some studies exist in the literature about Turkish, there have mainly been studies on English. Studies performed for Turkish were achieved a certain degree of accuracy with Malt Parser using a Support Vector Machines-based structure. When examining the studies performed for other languages, it is clear that new hypothesis should develop and test in order to increase this success. Our suggestion is that conditional random fields used often especially in solving the sequence labeling problems can be available in dependency parsing problem. However, the conditional random fields is a method of producing a single output. In order to overcome this challenge, dependency parsing being a problem with dual outputs (attachment type and connected word) is resolved by dividing into two parts. After, the results is provided as an output of the system by combining. Compared the studies carried out for Turkish with the results in the literature, it shows that a higher success rate was reached. Apart from Turkish, the method we recommended has also been tested for Swedish, Danish, Dutch and Portuguese languages. The success of studies in the literature has been exceeded to determine the kind of relationship. A poorer performance was exhibited to determine related word. This results from more variable of intra-sentence attachment structures of these languages other than Turkish. A more dynamic structure should develop to enhance the performance of the method developed as future work in other languages.

Benzer Tezler

Tez No
341488
Başlangıç şartlı adi diferansiyel denklemlerin çözümü için bazı sayısal yöntemler
Some numerical methods for the solution of ordinary differential equations with initial conditions
ZEYNEP KARABULUT
Yüksek Lisans
Türkçe
2013
Matematik Ondokuz Mayıs Üniversitesi
Matematik Ana Bilim Dalı
DOÇ. DR. VEDAT SUAT ERTÜRK
Tez No
338740
Dört boyutlu hiperkübik örgüde spin-1 Ising modelin kritik davranışının cellular automaton ile incelenmesi
The study of the critical behaviour of spin-1 Ising model for the four dimensional hypercubic lattice on the cellular automaton
AYŞE DURAN
Doktora
Türkçe
2011
Fizik ve Fizik Mühendisliği Gazi Üniversitesi
Fizik Ana Bilim Dalı
PROF. DR. ABDULLAH GÜNEN
Tez No
575528
Bilgisayar destekli ardışık türev metodu ile Padé yaklaşımının Blasius denkleminin bir formuna uygulanması
Application of the computer-assisted successive differentiation method with the Padé approximant to a form of Blasius equation
İMRAN TURAN
Yüksek Lisans
Türkçe
2019
Matematik Selçuk Üniversitesi
Matematik Ana Bilim Dalı
DR. ÖĞR. ÜYESİ HALDUN ALPASLAN PEKER
Tez No
66769
Deri endüstrisi atıksularının ardışık kesikli reaktör ile arıtılması
Başlık çevirisi yok
ÖZDEN GÜN
Yüksek Lisans
Türkçe
1997
Çevre Mühendisliği İstanbul Teknik Üniversitesi
Çevre Mühendisliği Ana Bilim Dalı
PROF. DR. OLCAY TÜNAY
Tez No
568221
Ani işitme kaybı olan yetişkinlerde tedavi öncesi ve sonrası işitmenin ve Tinnitusun değerlendirilmesi
Evaluation of hearing and Tinnitus before and after treatment in adults with sudden hearing loss
DAMLA URHAN YALÇINKAYA
Yüksek Lisans
Türkçe
2019
Kulak Burun ve Boğaz Ankara Yıldırım Beyazıt Üniversitesi
Kulak Burun Boğaz Ana Bilim Dalı
DOÇ. BANU MÜJDECİ

Geri Dön