Вестник ТюмГУ. Физико-математическое моделирование. Нефть, газ, энергетика.


Выпуск:

Выпуски архив. Вестник ТюмГУ. Физико-математические науки. Информатика (№7, 2014)

Название: 
Алгоритм с элементами формальной грамматики для контент-анализа мнений


Об авторах:

Брунова Елена Георгиевна, заведующая кафедрой иностранных языков и межкультурной профессиональной коммуникации естественнонаучных направлений Института математики и компьютерных наук Тюменского государственного университета, доктор филологических наук, профессор
Бидуля Юлия Владимировна, кандидат филологических наук, доцент кафедры информационных систем, Тюменский государственный университет; y.v.bidulya@utmn.ru

Аннотация:

Исследование, выполненное в области математической лингвистики, посвящено анализу субъективной информации, содержащейся в пользовательском контенте. Cоставлен оценочный лексикон (583 единицы), специализированный по предметной области (банковское дело) и языку (русский). В оценочный лексикон включены следующие классы слов: положительная лексика, отрицательная лексика, модификаторы, антимодификаторы и инкременты полярности. Представлен алгоритм REGEX с элементами формальной грамматики для контентанализа мнений. Введены 11 правил формальной грамматики и соответствующие синтаксические модели, которые являются своего рода регулярными выражениями, позволяющими обнаружить определенные элементы текста, упростить каждое предложение и представить текст в целом как формальную модель. На основе предлагаемого алгоритма разработана система SENTIMENTO для оценки качества банковского обслуживания, реализованная в виде интернет-приложения c интерфейсом для апробации модели и ее корректировки. Эффективность предлагаемого алгоритма сопоставлена с эффективностью наивного Байесовского классификатора, в качестве критерия применена мера Ван Ризбергена. Апробация системы на материалах отзывов, опубликованных в народном рейтинге банков на сайте www.banki.ru, показала преимущество разработанного алгоритма. Для одного и того же набора отзывов при использовании предложенного в работе метода величина показателя F1 составила 0.920, в то время как для наивного Байесовского классификатора величина F1 оказалась равна 0.872.

Список литературы:

1. Carenini, G., et al. Extracting Knowledge from Evaluative Text // Proceedings of the 3rd International Conference on Knowledge Capture. 2005. Pp. 11-18.

2. Hu, M., Liu, B. Mining and Summarizing Customer Reviews // Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2004.

Pp. 168-177.

3. Nasukawa, T., Yi, J. Sentiment Analysis: Capturing Favorability Using Natural Language Processing // Proceedings of the 2nd International Conference on Knowledge Capture. Florida, 2003. Pp. 70-77.

4. Pang, B., Lee, L. A Sentimental Education: Sentiment Analysis Using Subjectivity Summarisation Based on Minimum Cuts // Proceedings of the ACL, 2004, Pp. 271-278.

5. Turney, P. Thumbs Up or Thumbs Down?: Semantic Orientation Applied to Unsupervised Classification of Reviews // Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. 2002. Pp. 417-424.

6. Ермаков С.А., Ермакова Л.М. Методы оценки эмоциональной окраски текста // Вестник Пермского университета. Вып. 1(19). 2012. С. 85-89.

7. Лукашевич Н.В., Четверкин И.И. Извлечение и использование оценочных слов в задаче классификации отзывов на три класса // Вычислительные методы и программирование. 2011. Т. 12. С. 73-81.

8. Оробинская Е.А., Кочуева З.А. Технологии Text Mining: Обзор методов и задач обработки смысловой информации // Вестник Херсонского национального технического университета. № 2 (38). 2010. С. 348-353.

9. Пазельская А.Г., Соловьев А.Н. Метод определения эмоций в текстах на русском языке // Компьютерная лингвистика и интеллектуальные технологии: «Диалог-2011». Вып. 10 (17). М.: Изд-во РГГУ, 2011. С. 510-522.

10. Webb, G. et al. Not So Naive Bayes: Aggregating One-Dependence Estimators // Machine Learning. 2005. 58. Pp. 5-24.

11. Hatzivassiloglou, V., McKeown, K. Predicting the Semantic Orientation of Adjectives // Proc. of the 35th Annual Meeting of ACL, Madrid. 1997. Pp. 174-181.

12. Маннинг К., Рагхаван П., Шютце Х. Введение в информационный поиск. М.: Вильямс, 2011. 520 с.