A database query based solution for chemical compound and drug name recognition
Veri tabanı sorgulama tabanlı kimyasal bileşik ve ilaç ismi tanıma metodu
- Tez No: 368842
- Danışmanlar: DOÇ. DR. TOLGA CAN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2014
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 56
Özet
Yapısal olmayan serbest metinlerde yapısal bilgi aramak bilgisayar bilimindeki en zor problemlerden biridir. Dokümanlardan uygun bilginin sadece kesin hassasiyet ile değil ayrıca hızlı şekilde kullanıma hazır hale gelmesi gerekmektedir. Her ne kadar sayısız çalışma doküman araştırma alanında yayımlanmışsa da, sadece içlerinden bir kaçı özellikle kimyasal bileşik ve ilaç isimlerini amaçlamıştır. Kimyasal bileşik ve ilaç isimleri doğalarında bazı özgün biçimsel özellikler taşımaktadır. Bu tezde, metin bilgi bulup getirme problemi, çok belirli bir alan üzerindeki veritabanı sorgulamalarını kullanarak kimyasal bileşik ve ilaç isim çıkarma modeline dayalı yeni sunulan bir yöntem ile ele alınmıştır. PubChem Power User Gateway (PUG) sistemi bu metodu örneklemek için ana veritabanı olarak kullanılmıştır. Kimyasal bileşik ve ilaç isimlerinin dil bilgisi ve biçimsel özellikleri modeli oluşturmada temel olarak kullanılmıştır. Bu özellikler derin bir şekilde incelenmiş ve dokümanlardaki kimyasal bileşik ve ilaç isimlerinin bulunmasında kullanılan sorguların iyileştirilmesi ile kesinlik ve hassasiyetin arttırılmasında yardımcı olarak kullanılmıştır. Yeni önerilen yöntem ayrıca verilen dokümanda özellikle kimyasal kelimeleri sınıflandırmak için tasarlanmış özgün bir kimyasal bileşik ve ilaç isim girdi sınıflayıcısı sunmaktadır. Önerilen metod kayda değer miktarda kimyasal bileşik ve ilaç adı içeren doküman üzerinde uygulanmıştır. Sunduğumuz yöntemin sonuçları bu arama problemi için özellikle tasarlanan en gelişkin yöntemler ile karşılaştırılmıştır.
Özet (Çeviri)
Searching structured information in unstructured free text is one of the most difficult challenges in computer science. Relevant information from documents has to be ready for use not only with accurate precision but also be ready in a fast manner. Although numerous studies on document searching has been published, only few of them specifically target chemical compound and drug names. Chemical compound and drug names have specific morphological properties. These unique morphological properties have to be examined before developing automatic text searching methods. These properties should also be integrated into chemical compound and drug name retrieval systems. In this thesis, we focus on named entity recognition problem with a newly proposed method on chemical compound and drug name recognition model using queries on a very domain specific database. PubChem Power User Gateway (PUG) system is used as the main database for this specific domain to demonstrate the method. Chemical compound and drug name grammar and morphological properties are used as base for constructing the model. These features are deeply examined and used for optimizing the queries and increase the recall with precision on finding relevant chemical compound and drug names in documents. This new proposed method also presents a unique chemical compound and drug name tokenizer designed for specifically tokenizing chemical words in an article. The proposed method is applied on significant amount of chemical compound and drug name containing documents. Results of our proposed method are compared against the state of the art methods that target the same problem.
Benzer Tezler
- ECODAT: A web-based application and database for limnological monitoring data
ECODAT: Limnolojik izleme verileri için web tabanlı bir uygulama ve veritabanı
ALİ DEĞERMENCİ
Yüksek Lisans
İngilizce
2022
BiyoteknolojiOrta Doğu Teknik ÜniversitesiBiyoteknoloji Ana Bilim Dalı
DOÇ. DR. CAN ÖZEN
- MikroRNA veri tabanlarında bilgi geri-getirimi
Information retrieval in microRNA databases
KORAY AÇICI
Yüksek Lisans
Türkçe
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBaşkent ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. HASAN OĞUL
- Nosql veritabanı sistemlerinin performans karşılaştırılması ve analizi
Comparison and analysis of the performance of nosql database systems
SÜLEYMAN ÖNDER
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ABDULLAH SEVİN
- Towards deeply intelligent interfaces in relational databases
İlişkisel veri tabanlarında derin akıllı arayüzler üzerine
ARİF USTA
Doktora
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ÖZGÜR ULUSOY
- Uzman sistemlerin yasal düzenlemelere uygulanarak akıllı veri tabanlarının geliştirilmesi
Development of intelligent databases by applying expert systems on legal regulations
HİKMET TOSYALI
Yüksek Lisans
Türkçe
2008
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMaltepe ÜniversitesiBilgisayar Mühendisliği Bölümü
PROF. DR. E. MURAT ESİN