Автоматизація створення сховища даних електронних документів з веб-порталів відкритих даних

Автор(и)

  • О. Б. Кунгурцев Одеський національний політехнічний університет (Одеса, Україна), Україна
  • О. А. Блажко Одеський національний політехнічний університет (Одеса, Україна), Україна
  • С. В. Ковальчук Одеський національний політехнічний університет (Одеса, Україна), Україна
  • М. О. Скрипкін Одеський національний політехнічний університет (Одеса, Україна), Україна

Ключові слова:

електронні документи, відкриті данні, зв`язані данні, синтаксичний аналізатор, сховище даних

Анотація

Розглядається процес створення сховища даних електронних документів національного Веб-порталу відкритих даних України. Для скорочення трудомісткості процесу запропоновано розвиток методу порівняння текстів шляхом визначення інтегральної близькості структурованих текстів та їх елементів у вигляді рядків і стовпців, що дозволяє автоматизувати процес встановлення зв'язку між наборами даних при створенні сховища. Програмне забезпечення методу апробовано на наборах відкритих даних національного Веб-порталу. Результати дослідження можуть бути використані при створенні сховищ даних в системах електронного документообігу.

Біографії авторів

О. Б. Кунгурцев, Одеський національний політехнічний університет (Одеса, Україна)

Кандидат технічних наук, професор,

Кафедра системного програмного забезпечення

О. А. Блажко, Одеський національний політехнічний університет (Одеса, Україна)

Кандидат технічних наук, доцент,

Кафедра системного програмного забезпечення

С. В. Ковальчук, Одеський національний політехнічний університет (Одеса, Україна)

Аспірант,

Кафедра системного програмного забезпечення

М. О. Скрипкін, Одеський національний політехнічний університет (Одеса, Україна)

Магістрант,

Кафедра системного програмного забезпечення

Посилання

Pro zatverdzhennia Polozhennia pro nabory danykh, yaki pidliahaiut opryliudnenniu u formi vidkrytykh danykh: Postanova Kabinetu Ministriv Ukrainy vid 21.10.2015 No. 835. Available at: http://zakon3.rada.gov.ua/laws/show/835-2015-%D0%BF

Barsehian, A., Kupryianov, M., Stepanenko, V., Kholod, Y. (2004). Metodi y modely analyza dannikh: OLAP y Data Mining. Saint Petersburg: BHV-Peterburh, 336.

RDF 1.1 Primer (24.06.2014). W3C Working Group Note. Available at: https://www.w3.org/TR/rdf11-primer/

Auer, S., Bizer, C., Kobilarov, G., Lehmann, J., Cyganiak, R., Ives, Z. (2007). DBpedia: A Nucleus for a Web of Open Data. Lecture Notes in Computer Science, 722–735. doi:10.1007/978-3-540-76298-0_52

Data Catalog Vocabulary (DCAT). (16.01.2014). W3C Working Group Note. Available at: https://www.w3.org/TR/vocab-dcat/. Last accessed: 02.01.2016.

Bizer, C., Heath, T., Berners-Lee, T. (2009). Linked Data − The Story So Far. International Journal on Semantic Web and Information Systems, 5 (3), 1–22. doi:10.4018/jswis.2009081901

Wood, D., Zaidman, M., Ruth, L., Hausenblas, M. (2014). Linked Data. Structured Data on the Web. Manning, 276.

McCrae, J. P., Cimiano, P., Rodriguez-Doncel, V., Vila Suero, D., Gracia, J., Matteis, L., Buitelaar, P. (2015). Reconciling Heterogeneous Descriptions of Language Resources. Proceedings of the 4th Workshop on Linked Data in Linguistics: Resources and Applications, 39–48. doi:10.18653/v1/w15-4205

Peleshchishin, A., Serov, Iu., Sloboda, K. (2010). Structuring content for improving the rank web forum. Eastern-European Journal of Enterprise Technologies, 6(8(48)), 37−39. Available at: http://journals.uran.ua/eejet/article/view/5763/5196

Cherenkov, Y., Orekhov, S. (2013). Approach for extracting events from news stream. Eastern-European Journal Of Enterprise Technologies, 1(4(61)), 62−64. Available at: http://journals.uran.ua/eejet/article/view/9178/7968

Ozhegov, S. I., Shvedova, N. Iu. (2011). Tolkovyi slovar' russkogo iazyka. Moscow: Mir, 736.

JaLingo is a free OS independent dictionary application. (11.12.2006). JaLingo. Available at: http://jalingo.sourceforge.net/. Last accessed: 02.01.2016.

Kunhurtsev, A., Barikyna, Y. (2006). Formyrovanye slovaria predmetnoi oblasty. Iskusstvennyi intellekt, 1, 144–151.

Kunhurtsev, A., Borodavkin, S. (2009). Primenenie setei freimov dlia postroeniia modeli izvlecheniia faktov iz tekstov na estestvennom iazyke. Iskusstvennyi intellekt, 4, 202–207.

Kunhurtsev, A., Borodavkyn, S., Holub, A. (2010). Method of creation of domains dictionaries for extraction of the facts from texts in the natural language. Eastern-European Journal Of Enterprise Technologies, 1(4(43)), 32−36. Available at: http://journals.uran.ua/eejet/article/view/2550/2355

Kunhurtsev, A., Potochniak, Y. (2014). Interfeis dlia obshcheniia pol'zovatelei s informatsionnymi sistemami na estestvennom iazyke. Elektrotehnicheskie i komp'iuternye sistemy, 14, 74–81.

Development API. LanguageTool. Available at: https://www.languagetool.org/development/. Last accessed: 02.01.2016.

Prohrammny paket syntaksycheskoho razbora y mashynnoho perevoda. Available at: http://cs.isa.ru:10000/dwarf/. Last accessed: 24.04.2011

##submission.downloads##

Опубліковано

2016-12-26

Номер

Розділ

Автоматизація та управління механіко-технологічними системами та комплексами