Yıl 2018, Cilt 6, Sayı 1, Sayfalar 68 - 78 2018-01-31

DocDig: Dijitalleştirilmiş Dokümanlarda İçerik Tabanlı Figür Arama

Süleyman Eken [1] , Burak Atay [2] , Büşra Ceren Sönmez [3] , Ahmet Sayar [4]

152 199

Örüntü tanıma psikolojiden biyometriye, biyoenformatikten gen ifadelerinin analizine, trafikten hesaplamalı finansa kadar birçok alanda kullanılmaktadır. Optik Karakter Tanıma da bu alanlardan bir tanesidir. Kamu ve özel birçok firma, arşivlerindeki klasörlenmiş verilerini taratarak dijital hale getirmekte ve bunun için emek yoğun çalışmalar yapmaktadır. Ancak resim olarak dijitalleştirilen bu verilerin içerik olarak aranması ve işlenmesi ancak operatörlerin manuel olarak taranan resim verisine meta veri eklemesi ile kısmi olarak gerçekleşmektedir. Bu çalışmada, resim olarak taranarak (eng. scan) ve dijital hale getirilen büyük miktarlardaki bu dokümanlar üzerinde içerik bazlı figür aramaları mümkün kılan bir mimari geliştirdik. Kullanıcı, bazı anahtar kelimelerle arama yaparak dijital dökümanlardaki ilgili figürleri başlıklarıyla beraber görüntüleyebilmektedir. Sistemin yapılabilirlik ve başarımı farklı veri setleri üzerinde test edilmiş, başarısonuçlar elde edilmiştir.

Doküman dijitalleştirme, figür/resim saptama, başlık saptama, içerik tabanlı arama
  • [1] K. Jung, K. I. Kim ve A. K. Jain, “Text information extraction in images and video: A survey,” Pattern Recognition, vol. 37, no. 5, pp. 977–997, 2004.
  • [2] C. Patrick, C. Francine ve D. Laurent “Picture Detection in Document Page Images,” ACM Symposium on Document Engineering, Manchester, United Kingdom, 2010, pp. 211–214.
  • [3] S. B. Dan ve R. C. Francine, “Extraction of text-related features for condensing image documents,” SPIE 2660, Document Recognition III, San Jose, CA, United States, 1996, pp. 72–88.
  • [4] L. A. Fletcher ve R. Kasturi “A robust algorithm for text string separation from mixed text/graphics images,” IEEE TPAMI, vol. 10, no. 6, pp. 910–918, 1988.
  • [5] C. Najwa-Maria, D. Pascal ve Y. Charles, “A Robust Algorithm for Text Extraction from Images,” 39th International Conference on Telecommunications and Signal Processing, Vienna, Austria, 2016, pp. 493–497.
  • [6] Y. Vikas ve R. Nicolas, “Text extraction in document images: highlight on using corner points,” 12th IAPR Workshop on Document Analysis Systems, Santorini, Greece, 2015, pp. 281–286.
  • [7] F. Shafait, D. Keysers ve T. M. Breue, “Performance evaluation and benchmarking of six page segmentation algorithms,” IEEE TPAMI, vol. 10, no. 6, pp. 941–954, 2008.
  • [8] T. J. Burns ve J. J. Corso, “Robust unsupervised segmentation of degraded document images with topic models,” Computer Vision and Pattern Recognition, Miami, FL, USA, 2009, pp. 1287–1294.
  • [9] S. Chuai-Aree, C. Lursinsap, P. Sophatsathit ve S. Siripant, “Fuzzy C-Mean: A Statistical Feature Classification of Text and Image Segmentation Method,” International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, vol. 9, no. 6, pp. 661–671, 2001.
  • [10] A. Srivastav veJ. Kumar, “Text detection in scene images using stroke width and nearest-neighbor constraints,” TENCON 2008, Hyderabad, India, 2008, pp. 1–5.
  • [11] M. Jaderberg, A. Vedaldi ve A. Zisserman, “Deep Features for Text Spotting,” 13th European Conference on Computer Vision, Zurich, Switzerland, 2014, pp. 6–12.
  • [12] J. Shi ve J. Malik, “Normalized cuts and image segmentation,” IEEE TPAMI, vol. 22, no. 8, pp. 431–439, 2000.
  • [13] T. Wang, D. J. Wu, A. Coates, ve A. Y. Ng, “End-to-end text recognition with convolution neural networks,” 21st International Conference on Pattern Recognition, Tsukuba, Japan, pp. 3304–3308, 2012.
  • [14] Y. Zhu, J. Sun ve S. Naoi, “Recognizing natural scene characters by convolutional neural network and bimodal image enhancement,” International Workshop on Camera-Based Document Analysis and Recognition, Beijing, China, 2011, pp. 69–82.
  • [15] Tess4J, (17Haziran 2017) [Online]. Erişim: https://github.com/tesseract-ocr/tesseract
  • [16] E. Süleyman, K. G. Fidan, S. Ahmet ve K. Adnan, “Doküman Tabanlı NoSQL Veritabanları: MongoDB ve CouchDB yatay ölçeklenebilirlik karşılaştırması,” 7. Mühendislik ve Teknoloji Sempozyumu, Ankara, Türkiye, pp. 1-7, 2014.
Birincil Dil tr
Konular Mühendislik ve Temel Bilimler
Dergi Bölümü Makaleler
Yazarlar

Orcid: 0000-0001-9488-908X
Yazar: Süleyman Eken
Kurum: KOCAELİ ÜNİVERSİTESİ
Ülke: Turkey


Yazar: Burak Atay
Kurum: KOCAELİ ÜNİVERSİTESİ
Ülke: Turkey


Yazar: Büşra Ceren Sönmez
Kurum: KOCAELİ ÜNİVERSİTESİ
Ülke: Turkey


Yazar: Ahmet Sayar
Kurum: KOCAELİ ÜNİVERSİTESİ
Ülke: Turkey


Bibtex @araştırma makalesi { dubited330094, journal = {Düzce Üniversitesi Bilim ve Teknoloji Dergisi}, issn = {}, eissn = {2148-2446}, address = {Düzce Üniversitesi}, year = {2018}, volume = {6}, pages = {68 - 78}, doi = {10.29130/dubited.330094}, title = {DocDig: Dijitalleştirilmiş Dokümanlarda İçerik Tabanlı Figür Arama}, key = {cite}, author = {Eken, Süleyman and Sönmez, Büşra Ceren and Atay, Burak and Sayar, Ahmet} }
APA Eken, S , Atay, B , Sönmez, B , Sayar, A . (2018). DocDig: Dijitalleştirilmiş Dokümanlarda İçerik Tabanlı Figür Arama. Düzce Üniversitesi Bilim ve Teknoloji Dergisi, 6 (1), 68-78. DOI: 10.29130/dubited.330094
MLA Eken, S , Atay, B , Sönmez, B , Sayar, A . "DocDig: Dijitalleştirilmiş Dokümanlarda İçerik Tabanlı Figür Arama". Düzce Üniversitesi Bilim ve Teknoloji Dergisi 6 (2018): 68-78 <http://dergipark.gov.tr/dubited/issue/34777/330094>
Chicago Eken, S , Atay, B , Sönmez, B , Sayar, A . "DocDig: Dijitalleştirilmiş Dokümanlarda İçerik Tabanlı Figür Arama". Düzce Üniversitesi Bilim ve Teknoloji Dergisi 6 (2018): 68-78
RIS TY - JOUR T1 - DocDig: Dijitalleştirilmiş Dokümanlarda İçerik Tabanlı Figür Arama AU - Süleyman Eken , Burak Atay , Büşra Ceren Sönmez , Ahmet Sayar Y1 - 2018 PY - 2018 N1 - doi: 10.29130/dubited.330094 DO - 10.29130/dubited.330094 T2 - Düzce Üniversitesi Bilim ve Teknoloji Dergisi JF - Journal JO - JOR SP - 68 EP - 78 VL - 6 IS - 1 SN - -2148-2446 M3 - doi: 10.29130/dubited.330094 UR - http://dx.doi.org/10.29130/dubited.330094 Y2 - 2017 ER -
EndNote %0 Düzce Üniversitesi Bilim ve Teknoloji Dergisi DocDig: Dijitalleştirilmiş Dokümanlarda İçerik Tabanlı Figür Arama %A Süleyman Eken , Burak Atay , Büşra Ceren Sönmez , Ahmet Sayar %T DocDig: Dijitalleştirilmiş Dokümanlarda İçerik Tabanlı Figür Arama %D 2018 %J Düzce Üniversitesi Bilim ve Teknoloji Dergisi %P -2148-2446 %V 6 %N 1 %R doi: 10.29130/dubited.330094 %U 10.29130/dubited.330094
ISNAD Eken, Süleyman , Atay, Burak , Sönmez, Büşra Ceren , Sayar, Ahmet . "DocDig: Dijitalleştirilmiş Dokümanlarda İçerik Tabanlı Figür Arama". Düzce Üniversitesi Bilim ve Teknoloji Dergisi 6 / 1 (Ocak 2018): 68-78. http://dx.doi.org/10.29130/dubited.330094