[논문 리뷰 #12] Boundary Denoising for Video Activity Localization, ICLR 2024

(1) 배경

- Video activity localization은 길고 편집되지 않은 video를 의미론적으로 이해하고, 원하는 action을 찾는 것이 목표임

- Action의 경계를 정확히 학습하는 것은 매우 어려움

=> Action은 시간에 따라 지속적으로 변화

=> Action이 변화할 때 확실한 변화 지점을 정의하기 어려움

=> Action의 경계를 정의하는 것은 주관적임

(2) 방법

!! DenoiseLoc는 Video activity localization problem을 Denoising 관점에서 접근 !!

1) Encoder

- Encoder는 input의 sementic information을 추출하기 위한 것

=> 서로 다른 양식의 데이터인 언어, 영상등에서 추출한 feature의 상호 관계 파악

=> long-term temporal dependency

- video snippet feature를 입력받으며 필요시 language token feature를 입력받고 최종 feature(memory) 출력

2) Decoder

-Self Attention-

- Proposal embedding에 대해 적용하였으며 다른 proposal 과의 관계성을 모델링하기 위해 도입

-Align1D-

- ROI Align을 통해 proposal의 start/end time을 기점으로 proposal feature 추출

- 입력은 GT noise spans, learnable spans, memory 임

- GT noise spans 생성 과정

1. Noise vector를 Query 개수만큼 생성

2. GT에 Noise vector를 더해 positive noise span 생성

3. ts_neg, te_neg 에 Noise vector를 더해 negotive noise span 생성

=> negotive noise span은 positive set과 GT를 공유

=> DINO 논문에서 negotive noise GT에 대해 denoising을 진행하고, 이에 대한 결과로 no object를 예측하도록 함

=> DINO 논문에서 positive noise GT에 대해 denoising을 진행하고, 이에 대한 결과로 class score, bounding box를 예측하도록 함

=> 위 과정을 통해 같은 action에 대해 유사한 proposal 예측을 출력하여도 더욱 정확한 proposal을 선택할 수 있도록함

- Dynamic Convolution-

- proposal embedding(learnable embedding) 과 Memory간의 상호작용을 모델링함

- 효과가 거의 없는 bins를 정제하고 최종 출력을 냄

(3) 실험 결과

1) 다른 방법과의 비교

- QVHighlights dataset에서 기존 방법에 비해 상당히 높은 성능 기록

2) Ablation Study

- Query 개수에 따른 성능 비교-

- Denoising training 을 추가하였을 경우 모델은 더욱 빨리 수렴하고 안정적으로 학습됨

- Query개수가 증가하면 모델은 더욱 빨린 수렴하고 높은 성능을 기록

- 특정 threshold 이상 Query개수를 늘리면 모델의 수렴 속도가 늦고 성능 하락

=> Query개수가 증가할수록 negotive set의 개수가 증가하기 때문

-Noise level에 따른 성능 비교-

- Noise level이 너무 작은 경우 오버핏팅 발생

- Noise level이 너무 큰 경우 언더핏팅 발생

- Self Attention, Dynamic Convolution의 영향-

- Self Attention, Dynamic Convolution을 통해 모두 모델의 성능을 상승시킴

- Self Attention을 통한 proposal-proposal interaction이 매우 중요함을 알 수 있음

- Dynamic Convolution을 통해 가장 많은 성능 상승을 이룸

=> proposals 경계를 진동시켜 target domain에 대한 augmentation을 진행, Dynamic Convolutions는 temporal feature에 민감함

(4) 결론

- Action의 경계를 정확히 학습하는 것은 매우 어렵기 때문에 DenoiseLoc는 Video activity localization problem을 Denoising 관점에서 접근

- Denoising training은 action proposal을 진동시켜 augmentation 효과를 냄

- 초기 Noise span을 통해 보다 의미있는 action boundary를 예측할 수 있도록 하였고 SOTA 달성

ROI Align 논문

https://arxiv.org/abs/1703.06870

Mask R-CNN

We present a conceptually simple, flexible, and general framework for object instance segmentation. Our approach efficiently detects objects in an image while simultaneously generating a high-quality segmentation mask for each instance. The method, called

arxiv.org

ROI Align 블로그

https://towardsdatascience.com/understanding-region-of-interest-part-2-roi-align-and-roi-warp-f795196fc193

Understanding Region of Interest — (RoI Align and RoI Warp)

Visual explanation of how RoI Align works and why is it better than standard RoI Pooling?

towardsdatascience.com

DINO

https://arxiv.org/abs/2203.03605

DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection

We present DINO (\textbf{D}ETR with \textbf{I}mproved de\textbf{N}oising anch\textbf{O}r boxes), a state-of-the-art end-to-end object detector. % in this paper. DINO improves over previous DETR-like models in performance and efficiency by using a contrasti

arxiv.org

'논문 리뷰' 카테고리의 다른 글

[논문 리뷰 #14] Benchmarking the Robustness of Temporal Action Detection Models Against Temporal Corruptions, CVPR 2024 (0)	2024.10.29
[논문 리뷰 #13] TE-TAD: Towards Full End-to-End Temporal Action Detection via Time-Aligned Coordinate Expression, CVPR 2024 (0)	2024.10.28
[논문 리뷰 #11] FixMatch: Simplifying Semi-Supervised Learning with Consistency and Confidence, NeurIPS 2020 (0)	2024.10.10
[논문 리뷰 #10] MixMatch: A Holistic Approach to Semi-Supervised Learning, NeurIPS 2019 (0)	2024.09.21
[논문 리뷰 #9] An Image is Worth 16 x 16 Words : Transformer for Image Recognition at Scale, ICLR 2021 (0)	2024.09.06

머신러닝 연구

[논문 리뷰 #12] Boundary Denoising for Video Activity Localization, ICLR 2024

(1) 배경