Выпуск:
2020. Том 6. № 3 (23)Об авторах:
Зиновьева Анастасия Юрьевна, аспирант кафедры лингвистики и перевода, Южно-Уральский государственный университет (г. Челябинск); zinovevaaiu@bk.ru; ORCID: 0000-0002-7658-7376Аннотация:
Наличие корректно размеченных (аннотированных) корпусов текстов является критически важным условием создания эффективных средств автоматизированной обработки естественного языка, обеспечивающих оперативное решение как теоретических, так и прикладных лингво-информационных задач. Одной из основных и наиболее сложных проблем корпусной разметки является разрешение неоднозначности меток на конкретном уровне реализации аннотирования (морфологическом, синтаксическом, семантическом и т. д.).
Настоящая статья посвящена проблеме неоднозначности, возникающей на концептуальном, наиболее релевантном для решения информационных задач уровне разметки текстов. Под концептуальной разметкой (аннотированием) понимается специальный тип семантической разметки, как правило, применяемый к корпусам предметных областей для решения конкретных информационных задач (автоматической классификации, контент- и тренд-анализов, машинного обучения, машинного перевода и др.).
При концептуальной разметке корпусы текстов размечаются метками, отражающими контент конкретной предметной области, что ведет к отличному от общесемантического типу неоднозначности, который имеет как универсальные, так и зависящие от конкретного языка и предметной области характеристики. В статье проблема концептуальной неоднозначности исследуется методом кейс-стади на материале русскоязычных текстов предметной области «Терроризм».
Методология исследования сочетает автоматизированные и вручную выполненные этапы работ, включающие а) статистико-качественный анализ корпусного материала; б) использование предварительно разработанных аннотационных ресурсов (онтологии предметной области «Терроризм», русского онтолексикона и компьютерной платформы концептуального аннотирования); в) основанную на онтологическом анализе концептуальную разметку отобранного для кейс-стади корпуса; г) основанное на корпусном подходе выявление и анализ причин возникновения концептуальной неоднозначности; д) исследование статистических параметров концептуальных меток и соотнесенных с ними лексем в аннотированном корпусе; е) разработка и экспериментальная проверка возможных методов разрешения отдельных типов концептуальной неоднозначности.
В настоящем исследовании получены конкретные результаты для русскоязычных текстов, но разработанная методика концептуальной разметки и подходы к разрешению концептуальной неоднозначности применимы к текстам других предметных областей на различных языках.
Ключевые слова:
Список литературы:
Иорданская Л. Н. Автоматический синтаксический анализ / Л. Н. Иорданская. Новосибирск: Наука Сиб. отд-ние, 1967. Том 1. 231 с.
Поляков В. Н. Использование технологий, ориентированных на лексическое значение, в задачах поиска и классификации / В. Н. Поляков // Проблемы прикладной лингвистики: сборник статей. 2004. Вып. 2. С. 101-117.
Рахилина Е. В. Многозначность как прикладная проблема: семантическая разметка в национальном корпусе русского языка / Е. В. Рахилина, Б. П. Кобрицов, Г. И. Кустова, О. Н. Ляшевская, О. Ю. Шеманаева // Труды международной конференции «Диалог 2006». 2006. С. 445-450.
Федеральная служба безопасности РФ. Единый федеральный список организаций, в том числе иностранных и международных организаций, признанных в соответствии с законодательством Российской Федерации террористическими (на 5 июля 2019 г.). URL: http://www.fsb.ru/fsb/npd/terror.htm (дата обращения: 22.09.2020).
DeAngelo T. I. Looking for efficiency: how online news structure and emotional tone influence processing time and memory / T. I. DeAngelo, N. S. Yegiyan // Journalism and Mass Communication Quarterly. 2019. No. 96 (2). Pp. 385-405.
Djemaa M. Corpus annotation within the french framenet: a domain-by-domain methodology / M. Djemaa, M. Candito, Ph. Muller, L. Vieu // Proceedings of the 10th International Conference on Language Resources and Evaluation. 2016. Pp. 3794-3801.
Edmundson H. P. New methods in automatic extracting / Н. Р. Edmundson // Journal of the Association for Computing Machinery. 1969. No. 16 (2). Pp. 264-285.
European Council. Council Decision (CFSP) 2019/1341 of 8 August 2019. URL: https://eur-lex.europa.eu/legal-content/en/TXT/HTML/?uri=CELEX:32019D1341&from=en (дата обращения: 22.09.2020).
Guarino N. Introduction to Applied Ontology and Ontological Analysis / N. Guarino. 2012. URL: https://iaoa.org/isc2012/docs/AppliedOntology_OntologicalAnalysis.pdf (дата обращения: 22.09.2020).
Kim J. D. Corpus annotation for mining biomedical events from literature / J. D. Kim, T. Ohta, J. Tsujii // BMC Bioinformatics. 2008. No. 9. Pp. 9-10.
Nirenburg S. Ontological Semantics / S. Nirenburg, V. Raskin. Cambridge: MIT Press, 2004. 440 pp.
Palmer M. The proposition bank: an annotated corpus of semantic roles / M. Palmer, P. Gildea, P. Kingsbury // Computational Linguistics. 2005. No. 31 (1). Pp. 71-106.
Sheremetyeva S. On modelling domain ontology knowledge for processing multilingual texts of terroristic content / S. Sheremetyeva, A. Zinovyeva // Communications in Computer and Information Science. 2018. No. 859. Pp. 368-379.
Sheremetyeva S. Ontological analysis of e-news: a case for terrorism domain / S. Sheremetyeva, A. Zinoveva // Proceedings of the 14th International Conference on Interactive Systems: Problems of Human-Computer Interaction. 2019. Pp. 130-141.
Sheremetyeva S. Towards creating interoperable resources for conceptual annotation of multilingual domain corpora / S. Sheremetyeva // Proceedings of the 16th Joint ACL — ISO Workshop on Interoperable Semantic Annotation (ISA-16). 2020. Pp. 102-109.
Viju J. S. Concept interpretation by semantic knowledge harvesting / J. S. Viju // International Journal for Research in Applied Science and Engineering Technology (IJRASET). 2018. No. 6 (5). Pp. 477-484.
Wu H. Scientific impact at the topic level: a case study in computational linguistics / H. Wu, J. He, Y. Pei // Journal of the American Society for Information Science and Technology. 2010. Vol. 61. No. 11. Pp. 2274-2287.
Zagorulko M. J. System for semantic annotation of domain-specific text corpora / M. J. Zagorulko, I. S. Kononenko, E. A. Sidorova // Proceedings of the Annual International Conference “Dialogue” 2012. No. 11 (1). Pp. 674-685.