본문 바로가기
논문 리뷰

[논문 리뷰 #12] Boundary Denoising for Video Activity Localization, ICLR 2024

by rnjsgmldnjs 2024. 10. 15.

(1) 배경

- Video activity localization은 길고 편집되지 않은 video를 의미론적으로 이해하고, 원하는 action을 찾는 것이 목표임

- Action의 경계를 정확히 학습하는 것은 매우 어려움

  => Action은 시간에 따라 지속적으로 변화

  => Action이 변화할 때 확실한 변화 지점을 정의하기 어려움

  => Action의 경계를 정의하는 것은 주관적임

(2) 방법

!! DenoiseLoc는 Video activity localization problem을 Denoising 관점에서 접근 !!

1) Encoder

- Encoder는 input의 sementic information을 추출하기 위한 것

   => 서로 다른 양식의 데이터인 언어, 영상등에서 추출한 feature의 상호 관계 파악

   =>  long-term temporal dependency

- video snippet feature를 입력받으며 필요시 language token feature를 입력받고 최종 feature(memory) 출력

2) Decoder

 

-Self Attention-

- Proposal embedding에 대해 적용하였으며 다른 proposal 과의 관계성을 모델링하기 위해 도입

 

-Align1D-

- ROI Align을 통해 proposal의 start/end time을 기점으로 proposal feature 추출

- 입력은 GT noise spans, learnable spans, memory 임

- GT noise spans 생성 과정

  1. Noise vector를 Query  개수만큼 생성

  2. GT에 Noise vector를 더해 positive noise span 생성

  3. ts_neg, te_neg 에 Noise vector를 더해 negotive noise span 생성 

    => negotive noise span은 positive set과 GT를 공유

    => DINO 논문에서 negotive noise GT에 대해 denoising을 진행하고, 이에 대한 결과로 no object를 예측하도록 함

    => DINO 논문에서 positive  noise GT에 대해 denoising을 진행하고, 이에 대한 결과로 class score, bounding box를 예측하도록 함

    => 위 과정을 통해 같은 action에 대해 유사한 proposal 예측을 출력하여도 더욱 정확한 proposal을 선택할 수 있도록함

 

- Dynamic Convolution-

-  proposal embedding(learnable embedding) 과 Memory간의 상호작용을 모델링함

- 효과가 거의 없는 bins를 정제하고 최종 출력을 냄

(3) 실험 결과

1) 다른 방법과의 비교

- QVHighlights dataset에서 기존 방법에 비해 상당히 높은 성능 기록

 

2) Ablation Study

- Query 개수에 따른 성능 비교-

 

- Denoising training 을 추가하였을 경우 모델은 더욱 빨리 수렴하고 안정적으로 학습됨

- Query개수가 증가하면 모델은 더욱 빨린 수렴하고 높은 성능을 기록

- 특정 threshold 이상 Query개수를 늘리면 모델의 수렴 속도가 늦고 성능 하락

  => Query개수가 증가할수록 negotive set의 개수가 증가하기 때문

 

-Noise level에 따른 성능 비교-

- Noise level이 너무 작은 경우 오버핏팅 발생

- Noise level이 너무 큰 경우 언더핏팅 발생

 

- Self Attention, Dynamic Convolution의 영향-

- Self Attention, Dynamic Convolution을 통해 모두 모델의 성능을 상승시킴

- Self Attention을 통한 proposal-proposal interaction이 매우 중요함을 알 수 있음

- Dynamic Convolution을 통해 가장 많은 성능 상승을 이룸

  => proposals 경계를 진동시켜 target domain에 대한 augmentation을 진행, Dynamic Convolutions는 temporal feature에 민감함

(4) 결론

- Action의 경계를 정확히 학습하는 것은 매우 어렵기 때문에 DenoiseLoc는 Video activity localization problem을 Denoising 관점에서 접근

- Denoising training은 action proposal을 진동시켜 augmentation 효과를 냄

- 초기 Noise span을 통해 보다 의미있는 action boundary를 예측할 수 있도록 하였고 SOTA 달성

 

.

ROI Align 논문

https://arxiv.org/abs/1703.06870

 

Mask R-CNN

We present a conceptually simple, flexible, and general framework for object instance segmentation. Our approach efficiently detects objects in an image while simultaneously generating a high-quality segmentation mask for each instance. The method, called

arxiv.org

 

ROI Align 블로그

https://towardsdatascience.com/understanding-region-of-interest-part-2-roi-align-and-roi-warp-f795196fc193

 

Understanding Region of Interest — (RoI Align and RoI Warp)

Visual explanation of how RoI Align works and why is it better than standard RoI Pooling?

towardsdatascience.com

 

DINO

https://arxiv.org/abs/2203.03605

 

DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection

We present DINO (\textbf{D}ETR with \textbf{I}mproved de\textbf{N}oising anch\textbf{O}r boxes), a state-of-the-art end-to-end object detector. % in this paper. DINO improves over previous DETR-like models in performance and efficiency by using a contrasti

arxiv.org

 

320x100