Identifying textual personal information with artificial neural networks
Metin içindeki kişisel bilgilerin yapay sinir ağları kullanılarak tespiti
- Tez No: 573128
- Danışmanlar: DR. ÖĞR. ÜYESİ ŞEYDA ERTEKİN BOLELLİ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2019
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 53
Özet
Bu tezde Anonimatik adı verilen çift katmanlı bir yapay sinir ağı modeli tarif edilmiştir. Anonimatik modeli serbest metin şeklinde hazırlanmış hiç üst bilgi içermeyen metinlerin içindeki kişisel bilgi içeren kelimeleri otomatik olarak tespit etmek için geliştirilmiştir. Geleneksel metin anonimleştirme yöntemlerinden farklı olarak, Anonimatik modeli anonimleştirme çalışmaları için hazırlanmış kelime listeleri (özel isim listeleri, tıbbi terim listeleri, genel kelimeler listeleri vb.) kullanmadan çalışmak üzere tasarlanmıştır. Bu yaklaşımla Anonimatik modelinin farklı dillere uygulanabilir olması amaçlanmıştır. Anonimatik modeli cümle içindeki kelimelerin sınıflandırmasını yaparken hedef kelimenin sözlük anlamını kullanmak yerine cümle içindeki anlamını çözümleyerek sınıflandırma yapmaktadır. Model girdi olarak dokuz kelimelik bir dizi alıp, çıktı olarak dizinin ortasındaki kelimenin kişisel bilgi içerip içermediği sınıflandırmasını yapmaktadır. Tasarlanan modelin ilk katmanında kullanılan çift yönlü uzun/kısa dönem bellek ağı (Bi-LSTM) hedef kelimenin cümle içindeki anlamını bir vektör uzayında kodlarken, ikinci katmanda kullanılan derin ileri beslemeli yapay sinir ağı kelimenin sınıflandırmasını yapmaktadır. Oluşturulan model 2006 yılında Informatics for Integrating Biology & the Bedside (i2b2) tarafından düzenlenen otomatik anonimleştirme yarışması kapsamında oluşturulmuş derlem üzerinde denenmiş ve yarışmaya katılan diğer takımların elde ettiği sonuçlar ile kıyaslanabilir bir sonuç elde edilmiştir. Anonimatik modeli, hiçbir ekstra sözlük kullanmadan çalışmak üzere tasarlanan ve tüm araştırmacıların kullanabilmesi için açık kaynak kodlu olarak yayınlanan ilk ve tek otomatik metin anonimleştirme modelidir.
Özet (Çeviri)
In this thesis, a two-layered neural network model named Anonimatik is described. Anonimatik model is developed to automatically detect personal information holding words in plain text that does not contain any metadata. Unlike traditional automatic de-identification systems, Anonimatik neural network model is designed to be used without requiring external knowledge resources (e.g. name lists, medical term lists, common word lists etc.) with the aim of making the model applicable to different languages. Anonimatik model classifies words by processing the local context instead of relying on the dictionary definitions. Anonimatik takes nine-word sequences as input and outputs the classification stating whether the word in the middle of the sequence contains personal information or not. In the first layer of the proposed model, a bi-directional long short term memory (Bi-LSTM) network encodes the local context of the target word. Then in the second layer, a fully connected deep neural network classifies the target word. The model proposed in this thesis is evaluated on the dataset created for the automated de-identification challenge organized by Informatics for Integrating Biology & the Bedside (i2b2) in 2006 and it is shown that proposed model produces comparable results to other teams participated into the challenge. Anonimatik neural model is the only publicly available automated de-identification model that is designed to be used without requiring any external dictionaries.
Benzer Tezler
- Mimari tasarımda öncül analizine yönelik bir araç önerisi
Precedent analysis tool proposal for architectural design
HATİCE MELİKE ÖZBEK
Yüksek Lisans
Türkçe
2024
Mimarlıkİstanbul Teknik ÜniversitesiBilişim Ana Bilim Dalı
PROF. DR. YÜKSEL DEMİR
- Indexing and browsing of multimedia content data with MPEG-7
Çoğul ortamlar verilerinin MPEG-7 ile indekslenmesi ve taranması
OĞUZ İÇOĞLU
Yüksek Lisans
İngilizce
2001
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiPROF. DR. MUHİTTİN GÖKMEN
- A content-based web image retrieval system for person identification structured on the SSIM, PSNR ve SNR
Kişi tanıma için SSIM, PSNR ve SNR tabanlı bır web görüntü erişim sistemi
RAWA AMJAD AMIN
Yüksek Lisans
İngilizce
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSiirt ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ YILMAZ KAYA
- Bir kompozisyon tekniği olarak genişletilmiş tekseslilik
Extended monophony as a compositional technique
ARDA ERDEM
Doktora
Türkçe
2024
MüzikANKARA MÜZİK VE GÜZEL SANATLAR ÜNİVERSİTESİMüzikoloji Ana Bilim Dalı
PROF. DR. HAKKI ALPER MARAL
- Identification of cyberbullying using machine learning techniques
Makine öğrenmesi tekniklerini kullanarak siber zorbalığın tespiti
ALI NAJIB
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇukurova ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. SELMA AYŞE ÖZEL