Yıl 2018, Cilt 6, Sayı 4, Sayfalar 754 - 764 2018-08-01

İngilizce Dokümanlarda Tema ve Alt Kavramlar Tespit Modeli

metin TURAN [1] , Sena ÖGTELİK [2]

38 70

Bu makalede dokümanlarda tema ve alt kavram tespiti konusunda bir model önerilmiş ve deneysel bulgular değerlendirilmiştir. Dokümanlarda tema ve alt kavramların tespiti için kullanılabilecek anlamlı sözcüklerin belirlenmesi amacıyla Helmholtz prensibi temelli Gestalt teorisi kullanılmıştır. Bu sözcüklerin girdi olduğu bir Yapay Sinir Ağı (YSA) modeli oluşturulmuş, eğitim dokümanları (140 adet) ile bu ağ eğitilmiştir. Eğitim ve sınama doküman veri seti spor ve eğitim temalarında olup, toplam 14 alt kavram seçilmiştir. YSA’nın çıktısı tema ve alt-kavram bilgilerini vermektedir. 70 adet sınama dokümanı ile farklı sayıda (5, 10, 20) anlamlı kelime seçilerek deneyler yapılmış, başarı oranının konularda yaklaşık olarak %95, alt kavramlarda ise %80 olduğu gözlemlenmiştir.

Doğal Dil İşleme, Yapay Sinir Ağları, Helmholtz Prensibi
  • [1] Y. H. Li A. K. Jain, “Classification of Text Documents,” The Computer Journal,” c. 41, s. 8, ss. 537–546, 1998.
  • [2] Yu, E.S. ve E.D Liddy, “Feature selection in text categorization using the Baldwin effect,” IJCNN '99. International Joint Conference on Neural Networks, Washington, ABD, 1999
  • [3] Bekkerman R., Ran El-Yaniv, Naftali T., Yoad W., “Distributional Word Clusters vs. Words for Text Categorization ,” Journal of Machine Learning Research, ss. 1-48, 2002.
  • [4] Song, F., Liu, S., Yang, J., “A comparative study on text representation schemes in text categorization,” Pattern Analysis and Applications, c.8, s.1-2, 199-209, 2005
  • [5] Amasyalı M.F, Diri, B., “Automatic Turkish Text Categorization in Terms of Author, Genre and Gender,” 11th International Caonferance on Applications of Natural Language to Information Systems-NLDB2006, ss.221-226, 2006
  • [6] Türkoğlu, F., Diri, B., Amasyalı, M. F., “Author Attribution of Turkish Texts by Feature Mining,” International Conference on Intelligent Computing, Qingdao, Çin, ss. 1086-1093, 2007.
  • [7] Çiltik, A. ve Güngör, T., “Time-Efficient Spam E-mail Filtering Using N-gram Models,” Pattern Recognition Letters, c. 29,s. 1, ss.19-33, 2008.
  • [8] Helen Balinsky, Alexander Balinsky, Steven Simske, “Document sentences as a small world,” 2011 IEEE International Conference on Systems, Man, and Cybernetics (SMC), Anchorage, ABD, 2011
  • [9] Ghiassi, M., Skinner, J., & Zimbra, D. “Twitter brand sentiment analysis: A hybrid system using n-gram analysis and dynamic artificial neural network,” Expert System Applications, c. 40,s. 16, ss. 6266-6282, 2013
  • [10] D Tanasa, B Trousse "Advanced data preprocessing for intersites web usage mining,” IEEE Intelligent Systems, c. 19, s.2, 2004
  • [11] V.Chitraa, Dr. Antony Selvdoss Davamani “A Survey on Preprocessing Methods for Web Usage Data,” International Journal of Computer Science and Information Security, c.7, s.3, 2010
  • [12] Helen Balinsky, Alexander Balinsky, Steven Simske, “On the Helmholtz principle for data mining,” Third International Conference on Emerging Security Technologies (EST), Lisbon, Portekiz ,2012
  • [13] Helen Balinsky, Alexander Balinsky, Steven Simske, “On Helmholtz’s principle for documents processing,” Proceedings of the 10th ACM symposium on Document engineering, Manchester, İngiltere, ss. 283-286, 2010 [14] Melike T. Murat Can G., Selim A. ”Metin Sınıflandırma için Eğitimsiz Bir Anlamsal Özellik Seçimi Yöntemi,” Bilgisayar ve Biyomeikal Mühendisliği Sempozyumu, Bursa, Türkiye, 2014
  • [15] Metin T., Coskun S., ”Automatize Document Topic and Subtopic Detection with Support of a Corpus,” Procedia - Social and Behavioral Sciences, c. 177, ss. 169-177
Birincil Dil tr
Konular
Dergi Bölümü Makaleler
Yazarlar

Orcid: 0000-0002-1941-6693
Yazar: metin TURAN (Sorumlu Yazar)
Kurum: İstanbul Ticaret Üniv. İstanbul
Ülke: Turkey


Yazar: Sena ÖGTELİK (Sorumlu Yazar)
Kurum: İstanbul Ticaret Üniv. İstanbul
Ülke: Turkey


Bibtex @araştırma makalesi { dubited420104, journal = {Düzce Üniversitesi Bilim ve Teknoloji Dergisi}, issn = {}, eissn = {2148-2446}, address = {Düzce Üniversitesi}, year = {2018}, volume = {6}, pages = {754 - 764}, doi = {}, title = {İngilizce Dokümanlarda Tema ve Alt Kavramlar Tespit Modeli}, key = {cite}, author = {TURAN, metin and ÖGTELİK, Sena} }
APA TURAN, m , ÖGTELİK, S . (2018). İngilizce Dokümanlarda Tema ve Alt Kavramlar Tespit Modeli. Düzce Üniversitesi Bilim ve Teknoloji Dergisi, 6 (4), 754-764. Retrieved from http://dergipark.gov.tr/dubited/issue/38650/420104
MLA TURAN, m , ÖGTELİK, S . "İngilizce Dokümanlarda Tema ve Alt Kavramlar Tespit Modeli". Düzce Üniversitesi Bilim ve Teknoloji Dergisi 6 (2018): 754-764 <http://dergipark.gov.tr/dubited/issue/38650/420104>
Chicago TURAN, m , ÖGTELİK, S . "İngilizce Dokümanlarda Tema ve Alt Kavramlar Tespit Modeli". Düzce Üniversitesi Bilim ve Teknoloji Dergisi 6 (2018): 754-764
RIS TY - JOUR T1 - İngilizce Dokümanlarda Tema ve Alt Kavramlar Tespit Modeli AU - metin TURAN , Sena ÖGTELİK Y1 - 2018 PY - 2018 N1 - DO - T2 - Düzce Üniversitesi Bilim ve Teknoloji Dergisi JF - Journal JO - JOR SP - 754 EP - 764 VL - 6 IS - 4 SN - -2148-2446 M3 - UR - Y2 - 2018 ER -
EndNote %0 Düzce Üniversitesi Bilim ve Teknoloji Dergisi İngilizce Dokümanlarda Tema ve Alt Kavramlar Tespit Modeli %A metin TURAN , Sena ÖGTELİK %T İngilizce Dokümanlarda Tema ve Alt Kavramlar Tespit Modeli %D 2018 %J Düzce Üniversitesi Bilim ve Teknoloji Dergisi %P -2148-2446 %V 6 %N 4 %R %U
ISNAD TURAN, metin , ÖGTELİK, Sena . "İngilizce Dokümanlarda Tema ve Alt Kavramlar Tespit Modeli". Düzce Üniversitesi Bilim ve Teknoloji Dergisi 6 / 4 (Ağustos 2018): 754-764.