Выпуск:
Выпуски архив. Вестник ТюмГУ. Физико-математические науки. Информатика (№7, 2014)Об авторах:
Глазкова Анна Валерьевна, ассистент кафедры программного обеспечения Института математики и компьютерных наук Тюменского государственного университетаАннотация:
В статье рассматривается задача автоматической классификации текстов на примере их отнесения к определенной возрастной аудитории. В работе приводятся несколько возможных путей формализации данной задачи, обсуждаются их преимущества и недостатки. Предлагается подход к математическому моделированию предметной области, подразумевающий представление категории как множества классификационных признаков и их критических значений, а текста соответственно — как множества признаков и значений признаков. В таком случае классификация множества текстов по некоторому признаку может быть представлена как отображение множества текстов во множество допустимых значений этого признака. В заключительной части работы обосновывается возможность использования нейросетевых технологий в качестве средства компьютерной реализации алгоритмов классификации и приводится краткий обзор работ, посвященных вопросам применения нейронных сетей для автоматической классификации текстов. Подход, предложенный авторами, реализован с использованием нейросетевых технологий в виде прототипа программного комплекса.Список литературы:
1. Thakkar, K., Shrawankar, U. Test Model for Text Categorization and Text Summarization // International Journal on Computer Science and Engineering. 2013. № 3. Pp. 1539-1545.
2. Zhang, M., Zhou, Z. Multi-Label Neural Networks with Applications to Functional Genomics and Text Categorization // IEEE Transactions on Knowledge and Data Engineering. 2006. №18 (10). Pp. 1338-1351.
3. Борисова Н.Ф., Кочуева З.А., Шаронова Н.В., Хайрова Н.Ф. Моделирование процедур систематизации и классификации информационных объектов методом компараторной идентификации // Вестник Херсонского национального технического университета. 2012. № 1. С. 91-95.
4. Каменская О.Л. Текст и коммуникация. М.: Высшая школа, 1990. С. 78.
5. Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: классификация и снижение размерности. М.: Финансы и статистика, 1989. 607 c.
6. Захарова И.Г., Пушкарев А.Н. Математическое обеспечение динамической интегрированной экспертной системы поддержки принятия решений в маркетинге // Вестник Тюменского государственного университета. 2012. № 4. Серия «Физико-математические науки. Информатика». С. 151-155.
7. Дунаев В.В. Об одной модели классификации // Научно-техническая информация.
Сер. 2. 1990. № 3. С. 22-27.
8. Джонс М.Т. Программирование искусственного интеллекта в приложениях.М.,
2013. 312 с.
9. Ruiz, M., Srinivasan, P. Hierarchical Text Categorization Using Neural Networks // Information Retrieval. 2002. № 5 (1). С. 87-118.
10. Шевелев О.Г., Петраков А.В. Классификация текстов с помощью деревьев решений и нейронных сетей прямого распространения // Вестник Томского государственного университета. 2006. № 290. С. 300-307.
11. Jo, T. NTC (Neural Text Categorizer): Neural Network for Text Categorization // International Journal of Information Studies. 2010. № 2(2). С. 83-96.
12. Ramasundaram, S., Victor, S. Text Categorization by Backpropagation Network // International Journal of Computer Applications. 2010. № 8(6). Pp. 1-5.
13. Кошкин Д.Е. Кластеризация текстов с помощью нейронных сетей и временная оценка работы алгоритма // Философские проблемы информационных технологий и киберпространства. 2012. № 1. С. 72-78.
14. Национальный корпус русского языка. 2003-2014. URL: ruscorpora.ru (дата обращения: 30.04.2014).