Выпуск:
Выпуски архив. Вестник ТюмГУ. Физико-математические науки. Информатика (№7, 2014)Об авторах:
Брунова Елена Георгиевна, заведующая кафедрой иностранных языков и межкультурной профессиональной коммуникации естественнонаучных направлений Института математики и компьютерных наук Тюменского государственного университета, доктор филологических наук, профессорАннотация:
Исследование, выполненное в области математической лингвистики, посвящено анализу субъективной информации, содержащейся в пользовательском контенте. Cоставлен оценочный лексикон (583 единицы), специализированный по предметной области (банковское дело) и языку (русский). В оценочный лексикон включены следующие классы слов: положительная лексика, отрицательная лексика, модификаторы, антимодификаторы и инкременты полярности. Представлен алгоритм REGEX с элементами формальной грамматики для контентанализа мнений. Введены 11 правил формальной грамматики и соответствующие синтаксические модели, которые являются своего рода регулярными выражениями, позволяющими обнаружить определенные элементы текста, упростить каждое предложение и представить текст в целом как формальную модель. На основе предлагаемого алгоритма разработана система SENTIMENTO для оценки качества банковского обслуживания, реализованная в виде интернет-приложения c интерфейсом для апробации модели и ее корректировки. Эффективность предлагаемого алгоритма сопоставлена с эффективностью наивного Байесовского классификатора, в качестве критерия применена мера Ван Ризбергена. Апробация системы на материалах отзывов, опубликованных в народном рейтинге банков на сайте www.banki.ru, показала преимущество разработанного алгоритма. Для одного и того же набора отзывов при использовании предложенного в работе метода величина показателя F1 составила 0.920, в то время как для наивного Байесовского классификатора величина F1 оказалась равна 0.872.Ключевые слова:
Список литературы:
1. Carenini, G., et al. Extracting Knowledge from Evaluative Text // Proceedings of the 3rd International Conference on Knowledge Capture. 2005. Pp. 11-18.
2. Hu, M., Liu, B. Mining and Summarizing Customer Reviews // Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2004.
Pp. 168-177.
3. Nasukawa, T., Yi, J. Sentiment Analysis: Capturing Favorability Using Natural Language Processing // Proceedings of the 2nd International Conference on Knowledge Capture. Florida, 2003. Pp. 70-77.
4. Pang, B., Lee, L. A Sentimental Education: Sentiment Analysis Using Subjectivity Summarisation Based on Minimum Cuts // Proceedings of the ACL, 2004, Pp. 271-278.
5. Turney, P. Thumbs Up or Thumbs Down?: Semantic Orientation Applied to Unsupervised Classification of Reviews // Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. 2002. Pp. 417-424.
6. Ермаков С.А., Ермакова Л.М. Методы оценки эмоциональной окраски текста // Вестник Пермского университета. Вып. 1(19). 2012. С. 85-89.
7. Лукашевич Н.В., Четверкин И.И. Извлечение и использование оценочных слов в задаче классификации отзывов на три класса // Вычислительные методы и программирование. 2011. Т. 12. С. 73-81.
8. Оробинская Е.А., Кочуева З.А. Технологии Text Mining: Обзор методов и задач обработки смысловой информации // Вестник Херсонского национального технического университета. № 2 (38). 2010. С. 348-353.
9. Пазельская А.Г., Соловьев А.Н. Метод определения эмоций в текстах на русском языке // Компьютерная лингвистика и интеллектуальные технологии: «Диалог-2011». Вып. 10 (17). М.: Изд-во РГГУ, 2011. С. 510-522.
10. Webb, G. et al. Not So Naive Bayes: Aggregating One-Dependence Estimators // Machine Learning. 2005. 58. Pp. 5-24.
11. Hatzivassiloglou, V., McKeown, K. Predicting the Semantic Orientation of Adjectives // Proc. of the 35th Annual Meeting of ACL, Madrid. 1997. Pp. 174-181.
12. Маннинг К., Рагхаван П., Шютце Х. Введение в информационный поиск. М.: Вильямс, 2011. 520 с.