Анализ неоднозначности концептуальной разметки русскоязычного текста

Вестник ТюмГУ. Гуманитарные исследования. Humanitates


Выпуск:

2020. Том 6. № 3 (23)

Название: 
Анализ неоднозначности концептуальной разметки русскоязычного текста


Для цитирования: Зиновьева А. Ю. Анализ неоднозначности концептуальной разметки русскоязычного текста / А. Ю. Зиновьева, С. О. Шереметьева, Е. Д. Неручева // Вестник Тюменского государственного университета. Гуманитарные исследования. Humanitates. 2020. Том 6. № 3 (23). С. 38-60. DOI: 10.21684/2411-197X-2020-6-3-38-60

Об авторах:

Зиновьева Анастасия Юрьевна, аспирант кафедры лингвистики и перевода, Южно-Уральский государственный университет (г. Челябинск); zinovevaaiu@bk.ru; ORCID: 0000-0002-7658-7376

Шереметьева Светлана Олеговна, доктор филологических наук, профессор кафедры лингвистики и перевода, Южно-Уральский государственный университет (г. Челябинск); sheremetevaso@susu.ru

Неручева Екатерина Дмитриевна, лаборант НОЦ «Лингво-инновационные технологии», Южно-Уральский государственный университет (г. Челябинск); neruchevaekaterina@mail.ru

Аннотация:

Наличие корректно размеченных (аннотированных) корпусов текстов является критически важным условием создания эффективных средств автоматизированной обработки естественного языка, обеспечивающих оперативное решение как теоретических, так и прикладных лингво-информационных задач. Одной из основных и наиболее сложных проблем корпусной разметки является разрешение неоднозначности меток на конкретном уровне реализации аннотирования (морфологическом, синтаксическом, семантическом и т. д.).

Настоящая статья посвящена проблеме неоднозначности, возникающей на концептуальном, наиболее релевантном для решения информационных задач уровне разметки текстов. Под концептуальной разметкой (аннотированием) понимается специальный тип семантической разметки, как правило, применяемый к корпусам предметных областей для решения конкретных информационных задач (автоматической классификации, контент- и тренд-анализов, машинного обучения, машинного перевода и др.).

При концептуальной разметке корпусы текстов размечаются метками, отражающими контент конкретной предметной области, что ведет к отличному от общесемантического типу неоднозначности, который имеет как универсальные, так и зависящие от конкретного языка и предметной области характеристики. В статье проблема концептуальной неоднозначности исследуется методом кейс-стади на материале русскоязычных текстов предметной области «Терроризм».

Методология исследования сочетает автоматизированные и вручную выполненные этапы работ, включающие а) статистико-качественный анализ корпусного материала; б) использование предварительно разработанных аннотационных ресурсов (онтологии предметной области «Терроризм», русского онтолексикона и компьютерной платформы концептуального аннотирования); в) основанную на онтологическом анализе концептуальную разметку отобранного для кейс-стади корпуса; г) основанное на корпусном подходе выявление и анализ причин возникновения концептуальной неоднозначности; д) исследование статистических параметров концептуальных меток и соотнесенных с ними лексем в аннотированном корпусе; е) разработка и экспериментальная проверка возможных методов разрешения отдельных типов концептуальной неоднозначности.

В настоящем исследовании получены конкретные результаты для русскоязычных текстов, но разработанная методика концептуальной разметки и подходы к разрешению концептуальной неоднозначности применимы к текстам других предметных областей на различных языках.

Список литературы:

  1. Иорданская Л. Н. Автоматический синтаксический анализ / Л. Н. Иорданская. Новосибирск: Наука Сиб. отд-ние, 1967. Том 1. 231 с.

  2. Поляков В. Н. Использование технологий, ориентированных на лексическое значение, в задачах поиска и классификации / В. Н. Поляков // Проблемы прикладной лингвистики: сборник статей. 2004. Вып. 2. С. 101-117.

  3. Рахилина Е. В. Многозначность как прикладная проблема: семантическая разметка в национальном корпусе русского языка / Е. В. Рахилина, Б. П. Кобрицов, Г. И. Кустова, О. Н. Ляшевская, О. Ю. Шеманаева // Труды международной конференции «Диалог 2006». 2006. С. 445-450.

  4. Федеральная служба безопасности РФ. Единый федеральный список организаций, в том числе иностранных и международных организаций, признанных в соответствии с законодательством Российской Федерации террористическими (на 5 июля 2019 г.). URL: http://www.fsb.ru/fsb/npd/terror.htm (дата обращения: 22.09.2020).

  5. DeAngelo T. I. Looking for efficiency: how online news structure and emotional tone influence processing time and memory / T. I. DeAngelo, N. S. Yegiyan // Journalism and Mass Communication Quarterly. 2019. No. 96 (2). Pp. 385-405.

  6. Djemaa M. Corpus annotation within the french framenet: a domain-by-domain methodology / M. Djemaa, M. Candito, Ph. Muller, L. Vieu // Proceedings of the 10th International Conference on Language Resources and Evaluation. 2016. Pp. 3794-3801.

  7. Edmundson H. P. New methods in automatic extracting / Н. Р. Edmundson // Journal of the Association for Computing Machinery. 1969. No. 16 (2). Pp. 264-285.

  8. European Council. Council Decision (CFSP) 2019/1341 of 8 August 2019. URL: https://eur-lex.europa.eu/legal-content/en/TXT/HTML/?uri=CELEX:32019D1341&from=en (дата обращения: 22.09.2020).

  9. Guarino N. Introduction to Applied Ontology and Ontological Analysis / N. Guarino. 2012. URL: https://iaoa.org/isc2012/docs/AppliedOntology_OntologicalAnalysis.pdf (дата обращения: 22.09.2020).

  10. Kim J. D. Corpus annotation for mining biomedical events from literature / J. D. Kim, T. Ohta, J. Tsujii // BMC Bioinformatics. 2008. No. 9. Pp. 9-10.

  11. Nirenburg S. Ontological Semantics / S. Nirenburg, V. Raskin. Cambridge: MIT Press, 2004. 440 pp.

  12. Palmer M. The proposition bank: an annotated corpus of semantic roles / M. Palmer, P. Gildea, P. Kingsbury // Computational Linguistics. 2005. No. 31 (1). Pp. 71-106.

  13. Sheremetyeva S. On modelling domain ontology knowledge for processing multilingual texts of terroristic content / S. Sheremetyeva, A. Zinovyeva // Communications in Computer and Information Science. 2018. No. 859. Pp. 368-379.

  14. Sheremetyeva S. Ontological analysis of e-news: a case for terrorism domain / S. Sheremetyeva, A. Zinoveva // Proceedings of the 14th International Conference on Interactive Systems: Problems of Human-Computer Interaction. 2019. Pp. 130-141.

  15. Sheremetyeva S. Towards creating interoperable resources for conceptual annotation of multilingual domain corpora / S. Sheremetyeva // Proceedings of the 16th Joint ACL — ISO Workshop on Interoperable Semantic Annotation (ISA-16). 2020. Pp. 102-109.

  16. Viju J. S. Concept interpretation by semantic knowledge harvesting / J. S. Viju // International Journal for Research in Applied Science and Engineering Technology (IJRASET). 2018. No. 6 (5). Pp. 477-484.

  17. Wu H. Scientific impact at the topic level: a case study in computational linguistics / H. Wu, J. He, Y. Pei // Journal of the American Society for Information Science and Technology. 2010. Vol. 61. No. 11. Pp. 2274-2287.

  18. Zagorulko M. J. System for semantic annotation of domain-specific text corpora / M. J. Zagorulko, I. S. Kononenko, E. A. Sidorova // Proceedings of the Annual International Conference “Dialogue” 2012. No. 11 (1). Pp. 674-685.