Geri Dön

A database query based solution for chemical compound and drug name recognition

Veri tabanı sorgulama tabanlı kimyasal bileşik ve ilaç ismi tanıma metodu

  1. Tez No: 368842
  2. Yazar: ÇAĞLAR ATA
  3. Danışmanlar: DOÇ. DR. TOLGA CAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2014
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 56

Özet

Yapısal olmayan serbest metinlerde yapısal bilgi aramak bilgisayar bilimindeki en zor problemlerden biridir. Dokümanlardan uygun bilginin sadece kesin hassasiyet ile değil ayrıca hızlı şekilde kullanıma hazır hale gelmesi gerekmektedir. Her ne kadar sayısız çalışma doküman araştırma alanında yayımlanmışsa da, sadece içlerinden bir kaçı özellikle kimyasal bileşik ve ilaç isimlerini amaçlamıştır. Kimyasal bileşik ve ilaç isimleri doğalarında bazı özgün biçimsel özellikler taşımaktadır. Bu tezde, metin bilgi bulup getirme problemi, çok belirli bir alan üzerindeki veritabanı sorgulamalarını kullanarak kimyasal bileşik ve ilaç isim çıkarma modeline dayalı yeni sunulan bir yöntem ile ele alınmıştır. PubChem Power User Gateway (PUG) sistemi bu metodu örneklemek için ana veritabanı olarak kullanılmıştır. Kimyasal bileşik ve ilaç isimlerinin dil bilgisi ve biçimsel özellikleri modeli oluşturmada temel olarak kullanılmıştır. Bu özellikler derin bir şekilde incelenmiş ve dokümanlardaki kimyasal bileşik ve ilaç isimlerinin bulunmasında kullanılan sorguların iyileştirilmesi ile kesinlik ve hassasiyetin arttırılmasında yardımcı olarak kullanılmıştır. Yeni önerilen yöntem ayrıca verilen dokümanda özellikle kimyasal kelimeleri sınıflandırmak için tasarlanmış özgün bir kimyasal bileşik ve ilaç isim girdi sınıflayıcısı sunmaktadır. Önerilen metod kayda değer miktarda kimyasal bileşik ve ilaç adı içeren doküman üzerinde uygulanmıştır. Sunduğumuz yöntemin sonuçları bu arama problemi için özellikle tasarlanan en gelişkin yöntemler ile karşılaştırılmıştır.

Özet (Çeviri)

Searching structured information in unstructured free text is one of the most difficult challenges in computer science. Relevant information from documents has to be ready for use not only with accurate precision but also be ready in a fast manner. Although numerous studies on document searching has been published, only few of them specifically target chemical compound and drug names. Chemical compound and drug names have specific morphological properties. These unique morphological properties have to be examined before developing automatic text searching methods. These properties should also be integrated into chemical compound and drug name retrieval systems. In this thesis, we focus on named entity recognition problem with a newly proposed method on chemical compound and drug name recognition model using queries on a very domain specific database. PubChem Power User Gateway (PUG) system is used as the main database for this specific domain to demonstrate the method. Chemical compound and drug name grammar and morphological properties are used as base for constructing the model. These features are deeply examined and used for optimizing the queries and increase the recall with precision on finding relevant chemical compound and drug names in documents. This new proposed method also presents a unique chemical compound and drug name tokenizer designed for specifically tokenizing chemical words in an article. The proposed method is applied on significant amount of chemical compound and drug name containing documents. Results of our proposed method are compared against the state of the art methods that target the same problem.

Benzer Tezler

  1. ECODAT: A web-based application and database for limnological monitoring data

    ECODAT: Limnolojik izleme verileri için web tabanlı bir uygulama ve veritabanı

    ALİ DEĞERMENCİ

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    BiyoteknolojiOrta Doğu Teknik Üniversitesi

    Biyoteknoloji Ana Bilim Dalı

    DOÇ. DR. CAN ÖZEN

  2. MikroRNA veri tabanlarında bilgi geri-getirimi

    Information retrieval in microRNA databases

    KORAY AÇICI

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBaşkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. HASAN OĞUL

  3. Nosql veritabanı sistemlerinin performans karşılaştırılması ve analizi

    Comparison and analysis of the performance of nosql database systems

    SÜLEYMAN ÖNDER

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ABDULLAH SEVİN

  4. Towards deeply intelligent interfaces in relational databases

    İlişkisel veri tabanlarında derin akıllı arayüzler üzerine

    ARİF USTA

    Doktora

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ÖZGÜR ULUSOY

  5. Uzman sistemlerin yasal düzenlemelere uygulanarak akıllı veri tabanlarının geliştirilmesi

    Development of intelligent databases by applying expert systems on legal regulations

    HİKMET TOSYALI

    Yüksek Lisans

    Türkçe

    Türkçe

    2008

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMaltepe Üniversitesi

    Bilgisayar Mühendisliği Bölümü

    PROF. DR. E. MURAT ESİN