Подход к моделированию задачи автоматической классификации текстов (на примере их отнесения к определенной возрастной аудитории

Вестник ТюмГУ. Физико-математическое моделирование. Нефть, газ, энергетика.


Выпуск:

Выпуски архив. Вестник ТюмГУ. Физико-математические науки. Информатика (№7, 2014)

Название: 
Подход к моделированию задачи автоматической классификации текстов (на примере их отнесения к определенной возрастной аудитории


Об авторах:

Глазкова Анна Валерьевна, ассистент кафедры программного обеспечения Института математики и компьютерных наук Тюменского государственного университета
Захарова Ирина Гелиевна, кандидат физико-математических наук, профессор кафедры программного обеспечения, Школа компьютерных наук, Тюменский государственный университет, Тюмень, Россия; i.g.zakharova@utmn.ru, https://orcid.org/0000-0002-4211-7675

Аннотация:

В статье рассматривается задача автоматической классификации текстов на примере их отнесения к определенной возрастной аудитории. В работе приводятся несколько возможных путей формализации данной задачи, обсуждаются их преимущества и недостатки. Предлагается подход к математическому моделированию предметной области, подразумевающий представление категории как множества классификационных признаков и их критических значений, а текста соответственно — как множества признаков и значений признаков. В таком случае классификация множества текстов по некоторому признаку может быть представлена как отображение множества текстов во множество допустимых значений этого признака. В заключительной части работы обосновывается возможность использования нейросетевых технологий в качестве средства компьютерной реализации алгоритмов классификации и приводится краткий обзор работ, посвященных вопросам применения нейронных сетей для автоматической классификации текстов. Подход, предложенный авторами, реализован с использованием нейросетевых технологий в виде прототипа программного комплекса.

Список литературы:

1. Thakkar, K., Shrawankar, U. Test Model for Text Categorization and Text Summarization // International Journal on Computer Science and Engineering. 2013. № 3. Pp. 1539-1545.

2. Zhang, M., Zhou, Z. Multi-Label Neural Networks with Applications to Functional Genomics and Text Categorization // IEEE Transactions on Knowledge and Data Engineering. 2006. №18 (10). Pp. 1338-1351.

3. Борисова Н.Ф., Кочуева З.А., Шаронова Н.В., Хайрова Н.Ф. Моделирование процедур систематизации и классификации информационных объектов методом компараторной идентификации // Вестник Херсонского национального технического университета. 2012. № 1. С. 91-95.

4. Каменская О.Л. Текст и коммуникация. М.: Высшая школа, 1990. С. 78.

5. Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: классификация и снижение размерности. М.: Финансы и статистика, 1989. 607 c.

6. Захарова И.Г., Пушкарев А.Н. Математическое обеспечение динамической интегрированной экспертной системы поддержки принятия решений в маркетинге // Вестник Тюменского государственного университета. 2012. № 4. Серия «Физико-математические науки. Информатика». С. 151-155.

7. Дунаев В.В. Об одной модели классификации // Научно-техническая информация.

Сер. 2. 1990. № 3. С. 22-27.

8. Джонс М.Т. Программирование искусственного интеллекта в приложениях.М.,

2013. 312 с.

9. Ruiz, M., Srinivasan, P. Hierarchical Text Categorization Using Neural Networks // Information Retrieval. 2002. № 5 (1). С. 87-118.

10. Шевелев О.Г., Петраков А.В. Классификация текстов с помощью деревьев решений и нейронных сетей прямого распространения // Вестник Томского государственного университета. 2006. № 290. С. 300-307.

11. Jo, T. NTC (Neural Text Categorizer): Neural Network for Text Categorization // International Journal of Information Studies. 2010. № 2(2). С. 83-96.

12. Ramasundaram, S., Victor, S. Text Categorization by Backpropagation Network // International Journal of Computer Applications. 2010. № 8(6). Pp. 1-5.

13. Кошкин Д.Е. Кластеризация текстов с помощью нейронных сетей и временная оценка работы алгоритма // Философские проблемы информационных технологий и киберпространства. 2012. № 1. С. 72-78.

14. Национальный корпус русского языка. 2003-2014. URL: ruscorpora.ru (дата обращения: 30.04.2014).