Jaringan CNN 3D Berorientasi Konteks Untuk Mengenali Aksi Dengan Memanfaatkan Segmentasi Semantik (CARS)

Authors

  • Kevin H Hutahaean Universitas Budi Darma
  • Sony Bahagia Sinaga STMIK Mulia Darma
  • Chandra Frenki Sianturi Universitas Budi Darma

DOI:

https://doi.org/10.30865/komik.v9i1.9567

Keywords:

CNN 3D; Segmentasi Semantik; CARS; Computer Vision; CBAM; Context Aware

Abstract

Pengenalan aksi manusia menjadi topik penting dalam bidang visi komputer karena beragam aplikasinya, seperti pengawasan, interaksi manusia–komputer, dan sistem otonom. Walaupun metode CNN 3D terbaru mampu menangkap informasi spasial dan temporal dengan hasil yang cukup baik, pendekatan ini masih menghadapi kendala dalam memanfaatkan konteks lingkungan tempat aksi berlangsung. Keterbatasan tersebut mengurangi kemampuannya dalam membedakan aksi yang mirip serta mengidentifikasi skenario rumit secara lebih akurat. Untuk mengatasi permasalahan tersebut, penelitian ini mengusulkan pendekatan baru yang disebut Context-aware 3D CNN for Action Recognition based on Semantic Segmentation (CARS). Metode CARS mencakup modul pengenal adegan intermediari yang memanfaatkan model segmentasi semantik guna mengekstraksi petunjuk kontekstual dari rangkaian video. Informasi kontekstual tersebut kemudian direpresentasikan dan digabungkan dengan fitur yang dipelajari oleh model 3D CNN, sehingga terbentuk peta fitur global yang lebih kaya. Selain itu, CARS memasukkan Convolutional Block Attention Module (CBAM), yang menerapkan mekanisme atensi kanal dan spasial untuk menyoroti bagian paling penting dari peta fitur 3D CNN. Peneliti juga mengganti fungsi kerugian entropi silang konvensional dengan focal loss, yang lebih efektif dalam menangani kelas tindakan manusia yang jarang muncul dan sulit dibedakan. Serangkaian eksperimen pada berbagai dataset benchmark terkenal, seperti HMD51 dan UCF101, menunjukkan bahwa metode CARS yang diusulkan mampu melampaui kinerja pendekatan mutakhir berbasis 3D CNN. Selain itu, modul ekstraksi konteks dalam CARS bersifat generik dan plug-and-play, sehingga dapat meningkatkan akurasi klasifikasi pada berbagai arsitektur 3D CNN.

References

Hara, K., Kataoka, H., & Satoh, Y. (2018). Can spatiotemporal 3D CNNs retrace the history of 2D CNNs and ImageNet? Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).

Feichtenhofer, C., Fan, H., Malik, J., & He, K. (2019). SlowFast networks for video recognition. Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV).

Wang, X., Girshick, R., Gupta, A., & He, K. (2018). Non-local neural networks. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).

Carreira, J., Noland, E., Banki-Horvath, A., Hillier, C., & Zisserman, A. (2018). A short note on the Kinetics-700 dataset. arXiv preprint arXiv:1812.02142.

Girdhar, R., et al. (2019). Video action transformer network. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).

Downloads

Published

2025-11-29