Извлечение ключевых терминов на базе корпуса текстов о разработке нефтяных и газовых месторождений

Вестник ТюмГУ. Гуманитарные исследования. Humanitates


Выпуск:

2016. Том 2. №3

Название: 
Извлечение ключевых терминов на базе корпуса текстов о разработке нефтяных и газовых месторождений


Об авторе:

Ковязина Марина Анатольевна, кандидат филологических наук, доцент кафедры английской филологии и перевода, Институт филологии и журналистики, Тюменский государственный университет; makovyazina@mail.ru

Аннотация:

Статья излагает результаты исследования, посвященного извлечению терминологии на базе текстового корпуса. Автор применяет программное приложение AntConc и корпусную поисковую систему Sketch Engine для формирования корпуса специальных текстов, рассматривающих основные этапы и методы разработки месторождений нефти и газа, и выявления терминологии, являющейся ключевой для данной предметной области. Основная терминология, описывающая область разработки месторождений нефти и газа, извлекается с использованием нескольких корпусных инструментов: построение частотных списков слов, вычисление относительной частоты (ipm) для единиц корпуса, выявление ключевых слов и терминов с применением статистической меры ключевого слова (keyness score), построение дистрибутивного тезауруса на основе меры ассоциации logDice. В результате анализа на базе корпуса выделены единицы, семантически близкие термину «разработка», а также отраслевые и общенаучные термины, ключевые для исследуемой предметной области.

Список литературы:

  1. Захаров В. П. Автоматическое выявление терминологических словосочетаний / В. П. Захаров, М. В. Хохлова // Структурная и прикладная лингвистика. Вып. 10. Изд-во С.-Петерб. ун-та, 2014. С. 182-200. 
  2. Захаров В. П. Автоматическое извлечение терминов из специальных текстов с использованием дистрибутивно-статистического метода как инструмент создания тезаурусов / В. П. Захаров, М. В. Хохлова // Структурная и прикладная лингвистика. Вып. 9. Изд-во С.-Петерб. ун-та, 2012. С. 222-233. 
  3. Захаров В. П. Корпусная лингвистика / В. П. Захаров, С. Ю. Богданова. Иркутск: ИГЛУ, 2011. 161 с. 
  4. Захаров В. П. Корпусно-ориентированный подход к построению тезаурусов и онтологий / В. П. Захаров // Структурная и прикладная лингвистика. Вып. 11. СПб.: Изд-во С.-Петерб. ун-та, 2015. С. 123-141. 
  5. Захаров В. П. Сочетаемость через призму корпусов / В. П. Захаров // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог», Москва, 27–30 мая 2015 г. Вып. 14 (21): В 2 т. Т. 1: Основная программа конференции. М.: Изд-во РГГУ, 2015. С. 667-682. 
  6. Копотев М. В. Введение в корпусную лингвистику / М. В. Копотев. Прага: Animedia Company, 2014. 218 c. 
  7. Andersen G. Evaluation of Alternative Association Measures for Extraction of Terminology Based on a Large Norwegian Corpus / G. Andersen // SYNAPS – A Journal of Professional Communication. 2011. Vol. 26. Pp. 62-68. 
  8. Jakubíček M. The TenTen Corpus Family / M. Jakubíček, A. Kilgarriff, V. Kovář, P. Rychlý, V. Suchomel // 7th International Corpus Linguistics Conference, Lancaster, July 2013. URL: https://www.sketchengine.co.uk/wp-content/uploads/The_TenTen_Corpus_2013.pdf 
  9. Kast-Aigner J. Terms in Context: A Corpus-Based Analysis of the Terminology of the European Union’s Development Cooperation Policy / J. Kast-Aigner // Fachsprache – International Journal of LSP. 2009. No 3-4. Pp. 139-152. 
  10. Kilgarriff A. Finding Terms in Corpora for Many Languages with the Sketch Engine / A. Kilgarriff, M. Jakubíček, V. Kovář, P. Rychlý, V. Suchomel // Proceedings of the Demonstrations at the 14th Conference the European Chapter of the Association for Computational Linguistics. Sweden, April 2014. Pp. 53-56. URL: https://www.sketchengine.co.uk/wp-content/uploads/Finding_Terms_2014.pdf 
  11. Kilgarriff A. The Sketch Engine / A. Kilgarriff, P. Rychlý, P. Smrž, D. Tugwell // Proceedings of the XI EURALEX International Congress. Lorient: Universite de Bretagne-Sud, 2004. Pp. 105-116. URL: https://www.sketchengine.co.uk/wp-content/uploads/The_Sketch_Engine_2004.pdf 
  12. Kilgarriff A. The Sketch Engine: Ten Years On / A. Kilgarriff, V. Baisa, J. Bušta, M. Jakubíček, V. Kovář, J. Michelfeit, P. Rychlý, V. Suchomel // Lexicography ASIALEX. 2014. Vol. 1. Pp. 7-36. URL: http://link.springer.com/article/10.1007/s40607-014-0009-9 
  13. Rychlý P. A Lexicographer-Friendly Association Score / P. Rychlý // Proceedings of Recent Advances in Slavonic Natural Language Processing, RASLAN 2008, Brno, Masaryk University, 2008. Pp. 6–9. URL: https://nlp.fi.muni.cz/raslan/2008/papers/13.pdf 
  14. Statistics Used in the Sketch Engine. Lexical Computing Ltd., 2015. URL: https://www.sketchengine.co.uk/wp-content/uploads/ske-stat.pdf 
  15. Thomas J. Discovering English with Sketch Engine: A Corpus-Based Approach to Language Exploration / J. Thomas. Versatile, 2016. 228 pp.