Конвейерный метод для распознавания комплексных действий объектов в системах видеонаблюдения

Вестник ТюмГУ. Физико-математическое моделирование. Нефть, газ, энергетика.


Выпуск:

2022. Том 8. № 2 (30)

Название: 
Конвейерный метод для распознавания комплексных действий объектов в системах видеонаблюдения


Для цитирования: Егоров Ю. А. Конвейерный метод для распознавания комплексных действий объектов в системах видеонаблюдения / Ю. А. Егоров, И. Г. Захарова // Вестник Тюменского государственного университета. Физико-математическое моделирование. Нефть, газ, энергетика. 2022. Том 8. № 2 (30). С. 165-182. DOI: 10.21684/2411-7978-2022-8-2-165-182

Об авторах:

Егоров Юрий Алексеевич, аспирант, Тюменский государственный университет; y.a.egorov@utmn.ru

Захарова Ирина Гелиевна, кандидат физико-математических наук, профессор кафедры программного обеспечения, Школа компьютерных наук, Тюменский государственный университет, Тюмень, Россия; i.g.zakharova@utmn.ru, https://orcid.org/0000-0002-4211-7675

Аннотация:

Разработка интеллектуальных систем видеонаблюдения — это область активных исследований, в которой представлены решения для использования в определенных условиях. Кроме того, сформулирован ряд проблем, которые требуют решения. В частности, это проблема распознавания комплексных действий, которые состоят из последовательностей элементарных действий и, как правило, трудно поддаются классификации по одному кадру видеозаписи.

Настоящее исследование посвящено решению задачи распознавания комплексных действий на видеозаписях. Целью работы является разработка конвейерного метода (пайплайна) для распознавания комплексных действий, которые совершает наблюдаемый объект на видеозаписях. Новизна работы заключается в подходе к моделированию действия с помощью последовательностей элементарных действий и сочетания нейронных сетей и стохастических моделей. Предлагаемое решение может быть использовано для разработки интеллектуальных систем видеонаблюдения с целью обеспечения безопасности на производственных объектах, включая объекты нефтегазовой отрасли. Было проведено исследование видеозаписей объектов, совершающих различные действия. Выделены признаки, описывающие комплексные действия, и их свойства. Сформулирована задача распознавания комплексных действий, представленных последовательностью элементарных действий. В результате был разработан пайплайн, реализующий комбинированный подход. Элементарные действия описываются с помощью скелетной модели в графической форме. Каждое элементарное действие распознается с помощью сверточной нейронной сети, затем комплексные действия моделируются с помощью скрытой марковской модели. Разработанный пайплайн был протестирован на видеозаписях студентов, действия которых были разделены на две категории: списывание и обычные действия. В результате экспериментов точность классификации элементарных действий составила 0,69 по метрике accuracy, точность бинарной классификации комплексных действий составила 0,71.

Кроме того, были указаны ограничения разработанного пайплайна и выделены дальнейшие пути развития и исследования применяемых подходов, в частности исследование помехоустойчивости.

Список литературы:

1. Егоров Ю. А. Алгоритм FDET для построения пространства признаков классификации сложных объектов в рамках графовой модели / Ю. А. Егоров, М. С. Воробьёва, А. М. Воробьёв // Вестник Тюменского государственного университета. Физико-математическое моделирование. Нефть, газ, энергетика. 2017. Том 3. № 3. С. 125-134. DOI: 10.21684/2411-7978-2017-3-3-125-134

2. Егоров Ю. А. Стохастический метод распознавания действий человека на базе скелетной модели / Ю. А. Егоров, И. Г. Захарова, А. Р. Гасанов, А. А. Филицин // Информационные системы и технологии: тр. Восьмой Междурнар. науч. конф. 2020. С. 96-102.

3. Albanie S. BSL-1K: Scaling up co-articulated sign language recognition using mouthing cues / S. Albanie, G. Varlo, L. Momeni, T. Afouras, J. S. Chung, N. Fox, A. Zisserman // ECCV 2020: Computer Vision — ECCV 2020. 2020. Pp. 35-53. DOI: 10.48550/arXiv.2007.12131

4. Ali S. Variational learning of beta-liouville hidden Markov models for infrared action recognition / S. Ali, N. Bouguila // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). DOI: 10.1109/CVPRW.2019.00119

5. Aslan M. F. Human action recognition with bag of visual words using different machine learning methods and hyperparameter optimization / M. F. Aslan, A. Durdu, K. Sabanci // Neural Computing and Applications. 2020. No. 32. Pp. 8585-8597. DOI: 10.1007/s00521-019-04365-9

6. Bilal M. A transfer learning-based efficient spatiotemporal human action recognition framework for long and overlapping action classes / M. Bilal, M. Maqsood, S. Yasmin, N. U. Hasan, Seungmin Rho // The Journal of Supercomputing. 2022. Vol. 78. No. 2. Pp. 2873-2908. DOI: 10.1007/s11227-021-03957-4

7. Chao Li. Co-occurrence feature learning from skeleton data for action recognition and detection with hierarchical aggregation / Chao Li, Qiaoyong Zhong, Di Xie, Shiliang Pu // IJCAI’18: Proceedings of the 27th International Joint Conference on Artificial Intelligence. 2018. Pp. 786-792. DOI: 10.48550/arXiv.1804.06055

8. Chao Li. Skeleton-based action recognition with convolutional neural networks / Chao Li, Qiaoyong Zhong, Di Xie, Shiliang Pu // 2017 IEEE International Conference on Multimedia & Expo Workshops (ICMEW). 2017. Pp. 597-600. DOI: 10.48550/arXiv.1704.07595

9. Duta I. C. Efficient human action recognition using histograms of motion gradients and VLAD with descriptor shape information / I. C. Duta, J. R. R. Uijlings, B. Ionescu, K. Aizawa, A. G. Hauptmann, N. Sebe // Multimedia Tools and Applications. 2017. Vol. 76. No. 21. Pp. 22445-22472. DOI: 10.1007/s11042-017-4795-6

10. Ghojogh B. Fisherposes for human action recognition using kinect sensor data / B. Ghojogh, H. Mohammadzade, M. Mokari // EEE Sensors Journal. 2018. Vol. 18. No. 4. Pp. 1612-1627. DOI: 10.1109/JSEN.2017.2784425

11. Guha R. CGA: A new feature selection model for visual human action recognition / R. Guha, A. H. Khan, P. K. Singh, R. Sarkar, D. Bhattacharjee // Neural Computing and Applications. 2021. No. 33. Pp. 5267-5286. DOI: 10.1007/s00521-020-05297-5

12. Gul M. A. Patient monitoring by abnormal human activity recognition based on CNN architecture / M. A. Gul, M. H. Yousaf, S. Nawaz, Z. U. Rehman, H. Kim // Electronics. 2020. Vol. 9. No. 12. Pp. 1-14. DOI: 10.3390/electronics9121993

13. Hongsong Wang. Learning content and style: Joint action recognition and person identification from human skeletons / Hongsong Wang, Liang Wang // Pattern Recognition. Vol. 81. 2018. Pp. 23-25. DOI: 10.1016/j.patcog.2018.03.030

14. Kapidis G. Egocentric hand track and object-based human action recognition / G. Kapidis, R. Poppe, E. van Dam, L. P. J. J. Noldus, R. Veltkamp // 2019 IEEE SmartWorld, Ubiquitous Intelligence & Computing, Advanced & Trusted Computing, Scalable Computing & Communications, Cloud & Big Data Computing, Internet of People and Smart City Innovation (SmartWorld/SCALCOM/UIC/ATC/CBDCom/IOP/ SCI). 2019. Pp. 922-929. DOI: 10.48550/arXiv.1905.00742

15. Kundu J. N. Unsupervised feature learning of human actions as trajectories in pose embedding manifold / J. N. Kundu, M. Gor, P. K. Uppala, R. V. Babu // 2019 IEEE Winter Conference on Applications of Computer Vision (WACV). 2019. Pp. 1459-1467. DOI: 10.48550/arXiv.1812.02592

16. Lan Wang. PM-GANs: Discriminative representation learning for action recognition using partial-modalities / Lan Wang, Chenqiang Gao, Luyu Yang, Yue Zhao, Wangmeng Zuo, Deyu Meng // Proceedings of the European Conference on Computer Vision (ECCV). 2018. Pp. 384-401. DOI: 10.48550/arXiv.1804.06248

17. Lei Shi. Two-stream adaptive graph convolutional networks for skeleton-based action recognition / Lei Shi, Yifan Zhang, Jian Cheng, Hanqing Lu // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2019. Pp. 12026-12035. DOI: 10.48550/arXiv.1805.07694

18. Lei Wang. Hallucinating IDT descriptors and I3D optical flow features for action recognition with CNNs / Lei Wang, P. Koniusz, Du Q. Huynh // Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). 2019. Pp. 8698-8708. DOI: 10.48550/arXiv.1906.05910

19. Ludl D. Simple yet efficient real-time pose-based action recognition / D. Ludl, T. Gulde, C. Curio // IEEE Intelligent Transportation Systems Conference (ITSC). 2019. Pp. 581-588. DOI: 10.48550/arXiv.1904.09140

20. Maosen Li. Actional-structural graph convolutional networks for skeleton-based action recognition / Maosen Li, Siheng Chen, Xu Chen, Ya Zhang, Yanfeng Wang, Qi Tian // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2019. Pp. 3595-3603. DOI: 10.48550/arXiv.1904.12659

21. Mengyuan Liu. Enhanced skeleton visualization for view invariant human action recognition / Mengyuan Liu, Hong Liu, Chen Chen // Pattern Recognition. 2017. Vol. 68. Pp. 346-362. DOI: 10.1016/j.patcog.2017.02.030

22. Nadeem A. Accurate physical activity recognition using multidimensional features and Markov model for smart health fitness / A. Nadeem, A. Jalal, K. Kim // Symmetry. 2020. Vol. 12. No. 11. Pp. 1766-1783. DOI: 10.3390/sym12111766

23. Padoy N. Machine and deep learning for workflow recognition during surgery / N. Padoy // Minimally Invasive Therapy & Allied Technologies. 2019. Vol. 28. No. 2. Pp. 82-90. DOI: 10.1080/13645706.2019.1584116

24. Pengfei Zhang. View adaptive recurrent neural networks for high performance human action recognition from skeleton data / Pengfei Zhang, Cuiling Lan, Junliang Xing, Wenjun Zeng, Jianru Xue, Nanning Zheng // Proceedings of the IEEE International Conference on Computer Vision (ICCV). 2017. Pp. 2117-2126. DOI: 10.48550/arXiv.1703.08274

25. Rahmani H. Learning action recognition model from depth and skeleton videos / H. Rahmani, M. Bennamoun // Proceedings of the IEEE International Conference on Computer Vision (ICCV). 2017. Pp. 5832-5841. DOI: 10.1109/ICCV.2017.621

26. Rezazadegan F. Action recognition: From static datasets to moving robots / F. Rezazadegan, S. Shirazi, B. Upcrofit, M. Milford // 2017 IEEE International Conference on Robotics and Automation (ICRA). 2018. Pp. 3185-3191. DOI: 10.48550/arXiv.1701.04925

27. Rui Zhao. Bayesian hierarchical dynamic model for human action recognition / Rui Zhao, Wanru Xu, Hui Su, Qiang Ji // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2019. Pp. 7733-7742. DOI: 10.1109/CVPR.2019.00792

28. Schofield D. Chimpanzee face recognition from videos in the wild using deep learning / D. Schofield, A. Nagrani, A. Zisserman, M. Hayashi, M. Matsuzawa, D. Biro, S. Carvalho // Science Advances. 2019. Vol. 5. No. 9. Pp. 1-9. DOI: 10.1126/sciadv.aaw0736

29. Sijie Song. An end-to-end spatio-temporal attention model for human action recognition from skeleton data / Sijie Song, Cuiling Lan, Junliang Xing, Wenjun Zeng, Jiaying Liu // Proceedings of the AAAI Conference on Artificial Intelligence. 2017. Vol. 31. No. 1. DOI: 10.48550/arXiv.1611.06067

30. Silva V. Skeleton driven action recognition using an image-based spatial-temporal representation and convolution neural network / V. Silva, F. Soares, C. P. Leão, J. S. Esteves, G. Vercelli // Sensors. 2021. Vol. 21. No. 13. Paper 4342. DOI: 10.3390/s21134342

31. Weizhi Nie. SRNet: Structured relevance feature learning network from skeleton data for human action recognition / Weizhi Nie, Wei Wang, Xiangdong Huang // EEE Access. 2017. Vol. 7. Pp. 132161-132172. DOI: 10.1109/ACCESS.2019.2940281

32. Wu Zheng. Relational network for skeleton-based action recognition / Wu Zheng, Lin Li, Zhaoxiang Zhang, Yan Huang, Liang Wang // IEEE International Conference on Multimedia and Expo (ICME). 2019. Pp. 826-831. DOI: 10.48550/arXiv.1805.02556

33. Yansong Tang. Deep progressive reinforcement learning for skeleton-based action recognition / Yansong Tang, Yi Tian, Jiwen Lu, Peiyang Li, Jie Zhou // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2018. Pp. 5323-5332. DOI: 10.1109/CVPR.2018.00558

34. Yi-Fan Song. Stronger, faster and more explainable: A graph convolutional baseline for skeleton-based action recognition / Yi-Fan Song, Zhang Zhang, Caifeng Shan, Liang Wang // Proceedings of the 28th ACM International Conference on Multimedia. 2020. Pp. 1625-1633. DOI: 10.1145/3394171.3413802

35. Zhiguo Pan. Robust basketball sports recognition by leveraging motion block estimation / Zhiguo Pan, Chao Li // Signal Processing: Image Communication. 2020. Vol. 83. Paper 115784. DOI: 10.1016/j.image.2020.115784

36. Zhouning Du. Action recognition based on linear dynamical systems with deep features in videos / Zhouning Du, Hiroaki Mukaidani, Ramasamy Saravanakumar // 2020 IEEE International Conference on Systems, Man, and Cybernetics (SMC). 2020. Pp. 2634-2639. DOI: 10.1109/SMC42975.2020.9283429

37. Zhumazhanova S. S. Statistical approach for subject’s state identification by face and neck thermograms with small training sample / S. S. Zhumazhanova, A. E. Sulavko, D. B. Ponomarev, V. A. Pasenchuk // IFAC-PapersOnLine. 2019. Vol. 52. No. 25. Pp. 46-51. DOI: 10.1016/j.ifacol.2019.12.444

38. Zi-Hao Lin. Temporal image analytics for abnormal construction activity identification / Zi-Hao Lin, Albert Y. Chen, Shang-Hsien Hsieh // Automation in Construction. 2021. Vol. 124. Paper 103572. DOI: 10.1016/j.autcon.2021.103572