https://arxiv.org/abs/2403.20254
Benchmarking the Robustness of Temporal Action Detection Models Against Temporal Corruptions
Temporal action detection (TAD) aims to locate action positions and recognize action categories in long-term untrimmed videos. Although many methods have achieved promising results, their robustness has not been thoroughly studied. In practice, we observe
arxiv.org
(1) 배경
- Temporal Action Detection(TAD) 연구는 최근 많은 발전을 이루었지만 TAD 모델의 Robustness에 대해서는 많은 연구가 진행되지 않음
- Video domain에서도 Robustness Benchmarks가 제안되었지만 Temporal continuity의 변화는 고려하지 않음
- Temporal continuity를 고려한 새로운 Robustness Benchmarks를 제안하였고, 기존 TAD 모델은 Temporal Corruptions에 매우 취약하다는 것을 확인
(2) Robustness Benchmark 제안

1) 기존 Robustness Benchmark와의 차별성
- 일상생활에서 쉽게 마주할 수 있으며 특히 Video를 기록하는 도중에 순간적으로 발생할 수 있는 Corruptions에 집중
- 기존 Video domain에서의 Robustness Benchmark는 비디오 전체에 대해 Corruptions를 적용
- 비디오의 일부분에만 Corruptions을 적용하여 시간적 연속성에 변화를 줌
2) Robustness Benchmark 생성 방법
- Black frame, Motion blur, Overexposure, Occlusion, Packet loss 5가지의 Corruptions 적용
- Severity Levels은 3 단계로 구성
- 각 Level에서 {1, 5, 10}%의 Action instance 내부 Frame에 Corruptions을 적용하며 적용 위치는 Action instance의 중앙임
- THUMSO14-C, ActivityNet-v1.3-C 생성
3) Robustness Metrics
-Mean Average Precision(mAP)-
- THUMOS14-C에서 tIOU thresholds 0.5에서 mAP측정
- ActivityNet-v1.3-C에서는 tIoU thresholds 0.5 ~ 0.95, step 0.05에서 AveragemAP 측정
-Relative robustness-
- 사전에 Corruptions가 없는 비디오에 대해 학습시킨 모델 사용
- Clean test set에 대한 평가 결과를 기준으로 Corruption을 적용한 Test set에 대해 성능 변화 정도를 측정
- Corruption 종류, Severity levels을 변화시켜가며 Relative robustness를 측정하고, 평균 냄

M_clean : Clean test set에 대한 평가 결과
M_c,s : Corruption c, Severity levels s 의 Test set에 대한 평가 결과
(3) Benchmarking Robustness of TAD Models
1) Temporal Corruptions에 대한 기존 TAD 모델의 취약성
!! Architectural frameworks, End-to-End or Feature based, Backbone을 변경해 가며 Robustness 측정

- Temporal Corruptions이 추가된 경우 Feature를 추출하는 방법, E2E인지 아닌지에 무관하게 성능이 하락함
- 모델의 구조와 입력 데이터(Feature 추출 방법)에 따라 TAD 모델의 Robustness가 영향을 받는다는 것을 확인
- E2E 방식의 모델이 Feature Based 방식에 비해 Temporal Robustnes가 약함
- Temporal Robustness 부족함은 특정 데이터 셋에 한정된 것이 아님
2) Vulnerability 주요 원인
- False positive profiling-
- 특정 Error를 제거하였을 때 성능 상승 정도를 표시

- Temporal Corruptions를 추가한 경우 Localization Error가 가장 크게 증가함
- 제안한 Robustness Benchmark를 통해 Temporal Localization 능력에 대한 Robustness를 중점으로 평가할 수 있음
3) Corruption 위치의 영향

- Corruption이 Action instance의 중앙에서 일어난 경우 가장 크게 성능이 일어남
- Corruption이 Action instance의 가장자리에서 일어난 경우 Clean data보다 높은 성능을 기록하기도 함
=> Black frame을 Action Boundary로 인식하기 때문에 일어난 현상으로 추측
(5) Defending against Temporal Corruptions

1) FrameDrop Strategy
1. 인접한 Action, Background instance를 하나의 Pair로 구성
2. Pair 내부에서 하나의 Frame을 Black frame으로 교체
- Action instance 내부에만 FrameDrop를 진행할 경우 모델이 Action instance 내부에만 Corruption이 존재하는 것으로 학습할 수 있음
2) Temporal-Robust Consistency Loss(TCR Loss)
1. Clean video, Corruppted video 각각에 대해 Temporal bounding box 예측
2. GT의 중앙 Frame 위치, 각 예측의 중앙 Frame 위치 추출
3. 각 예측에서 GT와 가장 가까운 Top-K Prediction을 추출
4. 추출된 각 예측은 GT와 IoU 연산을 진행하고 이를 통해 tIoU distribution을 얻을 수 있음
5. 두 타입의 tIoU distribution의 평균을 Target으로 하고, 각각 Kullback-Leibler (KL) divergence 연산

3) 실험 결과

-Table 3, Table 4-
- Table 3에서 모든 모델의 Robustness는 매우 크게 상승하였으며 Clean Video에 대한 성능도 상승시킴
=> Anti-interference ability를 Detection head에서 상승시킬 수 있으며, VideoMAE와 호완이 좋음
- Table 4를 통해 데이터 셋의 종류에 상관없이 Robustness를 상승시킬 수 있다는 것을 확인
- 제안하는 학습 방법은 데이터셋, Corruption의 길이에 상관없이 성능 상승을 보임

-Table 5-
- FrameDrop Strategy, TCR Loss에 대한 Ablation study
- 각 요소의 효과를 확인할 수 있음

-Table 6-
- Table 6을 통해 다른 종류의 Corrution에 대해서도 Robustness를 상승시킬 수 있다는 것을 확인할 수 있음 => Generality
- 모델이 단순히 특정 Corruption에 대한 정보를 기억하도록 학습되는 것이 아님을 증명
(6) 결론
- Temporal continuity를 고려한 새로운 Robustness Benchmarks를 제안
- 기존 TAD 모델은 Temporal Corruptions에 매우 취약하다는 것을 확인
- 취약성은 대부분 Localization Errors를 통해 발생하며, Corruption이 Action의 중앙에서 나타난 경우 성능하락이 가장 크게 나타남
- 분석을 바탕으로 FrameDrop Strategy, Temporal-Robust Consistency Loss를 제안함
- TAD 모델의 Robustness를 상승시키며 Clean video에 대한 성능도 상승시킴