Автоматизація створення сховища даних електронних документів з веб-порталів відкритих даних

О. Б. Кунгурцев, О. А. Блажко, С. В. Ковальчук, М. О. Скрипкін

Анотація


Розглядається процес створення сховища даних електронних документів національного Веб-порталу відкритих даних України. Для скорочення трудомісткості процесу запропоновано розвиток методу порівняння текстів шляхом визначення інтегральної близькості структурованих текстів та їх елементів у вигляді рядків і стовпців, що дозволяє автоматизувати процес встановлення зв'язку між наборами даних при створенні сховища. Програмне забезпечення методу апробовано на наборах відкритих даних національного Веб-порталу. Результати дослідження можуть бути використані при створенні сховищ даних в системах електронного документообігу.


Ключові слова


електронні документи; відкриті данні; зв`язані данні; синтаксичний аналізатор; сховище даних

Повний текст:

PDF

Посилання


Pro zatverdzhennia Polozhennia pro nabory danykh, yaki pidliahaiut opryliudnenniu u formi vidkrytykh danykh: Postanova Kabinetu Ministriv Ukrainy vid 21.10.2015 No. 835. Available at: http://zakon3.rada.gov.ua/laws/show/835-2015-%D0%BF

Barsehian, A., Kupryianov, M., Stepanenko, V., Kholod, Y. (2004). Metodi y modely analyza dannikh: OLAP y Data Mining. Saint Petersburg: BHV-Peterburh, 336.

RDF 1.1 Primer (24.06.2014). W3C Working Group Note. Available at: https://www.w3.org/TR/rdf11-primer/

Auer, S., Bizer, C., Kobilarov, G., Lehmann, J., Cyganiak, R., Ives, Z. (2007). DBpedia: A Nucleus for a Web of Open Data. Lecture Notes in Computer Science, 722–735. doi:10.1007/978-3-540-76298-0_52

Data Catalog Vocabulary (DCAT). (16.01.2014). W3C Working Group Note. Available at: https://www.w3.org/TR/vocab-dcat/. Last accessed: 02.01.2016.

Bizer, C., Heath, T., Berners-Lee, T. (2009). Linked Data − The Story So Far. International Journal on Semantic Web and Information Systems, 5 (3), 1–22. doi:10.4018/jswis.2009081901

Wood, D., Zaidman, M., Ruth, L., Hausenblas, M. (2014). Linked Data. Structured Data on the Web. Manning, 276.

McCrae, J. P., Cimiano, P., Rodriguez-Doncel, V., Vila Suero, D., Gracia, J., Matteis, L., Buitelaar, P. (2015). Reconciling Heterogeneous Descriptions of Language Resources. Proceedings of the 4th Workshop on Linked Data in Linguistics: Resources and Applications, 39–48. doi:10.18653/v1/w15-4205

Peleshchishin, A., Serov, Iu., Sloboda, K. (2010). Structuring content for improving the rank web forum. Eastern-European Journal of Enterprise Technologies, 6(8(48)), 37−39. Available at: http://journals.uran.ua/eejet/article/view/5763/5196

Cherenkov, Y., Orekhov, S. (2013). Approach for extracting events from news stream. Eastern-European Journal Of Enterprise Technologies, 1(4(61)), 62−64. Available at: http://journals.uran.ua/eejet/article/view/9178/7968

Ozhegov, S. I., Shvedova, N. Iu. (2011). Tolkovyi slovar' russkogo iazyka. Moscow: Mir, 736.

JaLingo is a free OS independent dictionary application. (11.12.2006). JaLingo. Available at: http://jalingo.sourceforge.net/. Last accessed: 02.01.2016.

Kunhurtsev, A., Barikyna, Y. (2006). Formyrovanye slovaria predmetnoi oblasty. Iskusstvennyi intellekt, 1, 144–151.

Kunhurtsev, A., Borodavkin, S. (2009). Primenenie setei freimov dlia postroeniia modeli izvlecheniia faktov iz tekstov na estestvennom iazyke. Iskusstvennyi intellekt, 4, 202–207.

Kunhurtsev, A., Borodavkyn, S., Holub, A. (2010). Method of creation of domains dictionaries for extraction of the facts from texts in the natural language. Eastern-European Journal Of Enterprise Technologies, 1(4(43)), 32−36. Available at: http://journals.uran.ua/eejet/article/view/2550/2355

Kunhurtsev, A., Potochniak, Y. (2014). Interfeis dlia obshcheniia pol'zovatelei s informatsionnymi sistemami na estestvennom iazyke. Elektrotehnicheskie i komp'iuternye sistemy, 14, 74–81.

Development API. LanguageTool. Available at: https://www.languagetool.org/development/. Last accessed: 02.01.2016.

Prohrammny paket syntaksycheskoho razbora y mashynnoho perevoda. Available at: http://cs.isa.ru:10000/dwarf/. Last accessed: 24.04.2011


Пристатейна бібліографія ГОСТ


1. Про затвердження Положення про набори даних, які підлягають оприлюдненню у формі відкритих даних [Електронний ресурс]: Постанова Кабінету Міністрів України від 21.10.2015 № 835. – Режим доступу: \www/URL: http://zakon3.rada.gov.ua/laws/show/835-2015-%D0%BF

2. Барсегян, А. А. Методы и модели анализа данных: OLAP и Data Mining [Текст] / А. А. Барсегян, М. С. Куприянов, В. В. Степаненко, И. И. Холод. – Санкт-Петербург: БХВ-Петербург, 2004. – 336 с.

3. RDF 1.1 Primer [Electronic resource] / W3C Working Group Note. – Available at: \www/URL: https://www.w3.org/TR/rdf11-primer/. – 24.06.2014.

4. Auer, S. DBpedia: A nucleus for a web of open data [Text]: International Semantic Web Conference / S. Auer, C. Bizer, G. Kobilarov, J. Lehmann, R. Cyganiak, Z. Ives // Lecture Notes in Computer Science. − 2007. − P. 722–735. doi:10.1007/978-3-540-76298-0_52

5. Data Catalog Vocabulary (DCAT) [Electronic resource] / W3C Working Group Note. – Available at: \www/URL: https://www.w3.org/TR/vocab-dcat/. – 16.01.2014.

6. Bizer, C. Linked Data − the story so far [Text] / C. Bizer, T. Heath, T. Berners-Lee // International Journal on Semantic Web and Information Systems. − 2009. – Vol. 5, № 3. – P. 1–22. doi:10.4018/jswis.2009081901

7. Wood, D. Linked Data. Structured Data on the Web [Text] / D. Wood, M. Zaidman, L. Ruth. M. Hausenblas. – Manning, 2014. − 276 p.

8. McCrae, J. P. Reconciling Heterogeneous Descriptions of Language Resources [Text] / J. P. McCrae, P. Cimiano, V. Rodriguez-Doncel, D. Vila Suero, J. Gracia, L. Matteis, P. Buitelaar // Proceedings of the 4th Workshop on Linked Data in Linguistics: Resources and Applications. − 2015. − P. 39–48. doi:10.18653/v1/w15-4205

9. Пелещишин, А. М. Структурування інформаційного на-повнення для
1. покращення рангу веб-форуму [Текст] / А. М. Пелещишин, Ю. О. Сєров, К. О. Слобода // Східно-Європейський журнал передових технологій. – 2010. – № 6/8 (48). – С. 37–39. − Режим доступу: \www/URL: http://journals.uran.ua/eejet/article/ view/5763/5196

10. Черенков, И. А. Подход выделения событий в новостном потоке [Текст] / И. А. Черенков, С. В. Орехов // Восточно-Европейский журнал передовых технологий. – 2013. – № 1/4 (61). – С. 62−64. − Режим доступа: \www/URL: http://journals.uran.ua/eejet/article/view/9178/7968

11. Ожегов, С. И. Толковый словарь русского языка [Текст] / С. И. Ожегов, Н. Ю. Шведова. – Москва: Мир, 2011. – 736 с.

12. JaLingo is a free OS independent dictionary application [Electronic resource] / JaLingo. – Available at: \www/URL: http://jalingo.sourceforge.net/. − 11.12.2006.

13. Кунгурцев, А. Б. Формирование словаря предметной области [Текст] / А. Б. Кунгурцев, И. В. Барыкина // Искусственный интеллект. – 2006. – № 1. – С. 144–151.

14. Кунгурцев, А. Б. Применение сетей фреймов для построения модели извлечения фактов из текстов на естественном языке [Текст] / А. Б. Кунгурцев, С. М. Бородавкин // Искусственный интеллект. – 2009. – № 4. – С. 202–207.

15. Кунгурцев, А. Б. Метод построения словарей предметных областей для извлечения фактов из текстов на естественном языке [Текст] / А. Б. Кунгурцев, С. Н. Бородавкин, А. П. Голуб // Восточно-Европейский журнал передовых технологий. – 2010. – № 1/4 (43). – С. 32–36. − Режим доступа: \www/URL: http://journals.uran.ua/eejet/article/view/2550/2355

16. Кунгурцев, А. Б. Интерфейс для общения пользователей с информационными системами на естественном языке [Текст] / А. Б. Кунгурцев, Я. В. Поточняк // Электротехнические и компьютерные системы. – 2014. – № 14. – C. 74–81.

17. Development API [Electronic resource] / LanguageTool. – Available at: \www/URL: https://www.languagetool.org/development/

18. Программный пакет синтаксического разбора и машинного перевода [Электронный ресурс]. – Режим доступа: \www/URL: http://cs.isa.ru:10000/dwarf/. – 24.04.2011.



Посилання

  • Поки немає зовнішніх посилань.




Copyright (c) 2016 О. Б. Кунгурцев, О. А. Блажко, С. В. Ковальчук, М. О. Скрипкін

Creative Commons License
Ця робота ліцензована Creative Commons Attribution 4.0 International License.

ISSN 2411-2828 (Online), ISSN 2411-2798 (Print)