Yıl 2014, Cilt 4, Sayı 7, Sayfalar 13 - 20 2014-12-30

Geniş Metin Koleksiyonlarından İteratif Bilgi Çıkarımı Iterative Information Extraction from Large Text Collections

Gürkan Şahin [1] , Fatih Amasyalı [2]

203 348

— There are various methods about information extraction from large texts. One of them is method of templates. We developed an automatic system that aims to produce pairs which have semantic relation between them using templates. We worked with morphological resolved and unresolved datasets. We obtained better templates from morphological resolved dataset. In our experiments, we observed that if too many templates were used for producing pairs, accuracy of produced pairs decreased. Also, we obtain better results for fixed and more reliable templates with using growing datasets

Geniş metinlerden bilgi çıkarımı konusunda çeşitli yöntemler bulunmaktadır. Bunlardan bir tanesi de şablonlar yöntemidir. Bu çalışmada şablonlar yöntemini kullanarak aralarında belli anlamsal ilişki bulunan ikililerin elde edilmesini sağlayan otomatik bir sistem geliştirilmiştir. Çalışma kapsamında morfolojik olarak çözümlenmiş ve çözümlenmemiş veri setleri üzerinde ayrı ayrı çalışılmıştır. Morfolojik olarak çözümlenmiş veri setinden daha iyi yapıda şablonlar elde edilmiştir. Yapılan denemeler sonucunda sürekli artan sayıda şablon kullanıldığı taktirde üretilen ikililerin doğruluklarının azaldığı görülmüştür. Sabit sayıda daha güvenilir şablonlardan büyüyen veri seti üzerinde daha iyi sonuçlar elde edilmiştir.

 

There are various methods about information extraction from large texts. One of them is method of templates. At this paper, we developed an automatic system that aims to produce pairs which have semantic relation between them using templates. In this study, we worked with morphological resolved and unresolved datasets. We obtained better templates from morphological resolved dataset. After experiments we observed that if many templates were used for producing pairs, accuracy of produced pairs was diminished.  Also, we obtain better results for fixed and more reliable templates with using growing datasets.

  • Miller, G. A., Beckwith, R., Fellbaum, C., Gross, D. and Miller, K., “Introduction to WordNet: An On-line Lexical Database”, 1993.
  • Automatic Extraction of Semantic Relationships Using Turkish Dictionary Definitions", Emre Yazıcı, M.Fatih Amasyalı, EMO Bilimsel Dergi, Vol. 1, No. 1, pp. 1-13, 2011
  • Amasyalı M. F., "Türkçe Wordnet'in Otomatik Olarak Oluşturulması", SIU 2005, 2005.
  • http://lucene.apache.org/core/
  • http://tr.wikipedia.org/wiki/Lucene
  • Hearst, M., ``Automated Discovery of WordNet Relations,'' in WordNet: An Electronic Lexical Database, Christiane Fellbaum (ed.), MIT Press, 1998.
  • htpp://maya.cs.depaul.edu/~classes/etc584/papers/brin.pdf
  • http://rtw.ml.cmu.edu/rtw/
  • Andrew Carlson1, Justin Betteridge1, Bryan Kisiel1, Burr
  • Settles1, Estevam R. Hruschka Jr.2, and Tom M. Mitchell.,
  • “Toward an Architecture for Never-Ending Language Learning”
  • http://tika.apache.org/
  • http://www.kemik.yildiz.edu.tr/?id=28
  • http://tr.wikipedia.org/wiki/Morfoloji
  • http://tr.wikipedia.org/wiki/Zemberek_%28yaz%C4%B1l%C4%B1m%29
Birincil Dil tr
Konular
Dergi Bölümü Akademik ve/veya teknolojik bilimsel makale
Yazarlar

Yazar: Gürkan Şahin

Yazar: Fatih Amasyalı

Bibtex @ { emobd74698, journal = {EMO BİLİMSEL DERGİ}, issn = {1309-5501}, address = {TMMOB Elektrik Mühendisleri Odası}, year = {2014}, volume = {4}, pages = {13 - 20}, doi = {}, title = {Geniş Metin Koleksiyonlarından İteratif Bilgi Çıkarımı Iterative Information Extraction from Large Text Collections}, key = {cite}, author = {Şahin, Gürkan and Amasyalı, Fatih} }
APA Şahin, G , Amasyalı, F . (2014). Geniş Metin Koleksiyonlarından İteratif Bilgi Çıkarımı Iterative Information Extraction from Large Text Collections. EMO BİLİMSEL DERGİ, 4 (7), 13-20. Retrieved from http://dergipark.gov.tr/emobd/issue/5508/74698
MLA Şahin, G , Amasyalı, F . "Geniş Metin Koleksiyonlarından İteratif Bilgi Çıkarımı Iterative Information Extraction from Large Text Collections". EMO BİLİMSEL DERGİ 4 (2014): 13-20 <http://dergipark.gov.tr/emobd/issue/5508/74698>
Chicago Şahin, G , Amasyalı, F . "Geniş Metin Koleksiyonlarından İteratif Bilgi Çıkarımı Iterative Information Extraction from Large Text Collections". EMO BİLİMSEL DERGİ 4 (2014): 13-20
RIS TY - JOUR T1 - Geniş Metin Koleksiyonlarından İteratif Bilgi Çıkarımı Iterative Information Extraction from Large Text Collections AU - Gürkan Şahin , Fatih Amasyalı Y1 - 2014 PY - 2014 N1 - DO - T2 - EMO BİLİMSEL DERGİ JF - Journal JO - JOR SP - 13 EP - 20 VL - 4 IS - 7 SN - 1309-5501- M3 - UR - Y2 - 2019 ER -
EndNote %0 EMO BİLİMSEL DERGİ Geniş Metin Koleksiyonlarından İteratif Bilgi Çıkarımı Iterative Information Extraction from Large Text Collections %A Gürkan Şahin , Fatih Amasyalı %T Geniş Metin Koleksiyonlarından İteratif Bilgi Çıkarımı Iterative Information Extraction from Large Text Collections %D 2014 %J EMO BİLİMSEL DERGİ %P 1309-5501- %V 4 %N 7 %R %U
ISNAD Şahin, Gürkan , Amasyalı, Fatih . "Geniş Metin Koleksiyonlarından İteratif Bilgi Çıkarımı Iterative Information Extraction from Large Text Collections". EMO BİLİMSEL DERGİ 4 / 7 (Aralık 2015): 13-20.