[논문 리뷰 #13] TE-TAD: Towards Full End-to-End Temporal Action Detection via Time-Aligned Coordinate Expression, CVPR 2024

https://arxiv.org/abs/2404.02405

TE-TAD: Towards Full End-to-End Temporal Action Detection via Time-Aligned Coordinate Expression

In this paper, we investigate that the normalized coordinate expression is a key factor as reliance on hand-crafted components in query-based detectors for temporal action detection (TAD). Despite significant advancements towards an end-to-end framework in

arxiv.org

(1) 배경

- Object detection에서 E2E 방식이 큰 진전을 이루었지만 Temporal Actrion Detection(TAD)에서는 Query-based 기반 E2E 방식이 큰 진전을 이루지 못하고 있음

- 기존 방식의 문제점-

1. 모델에 입력되는 Video의 시간적 길이가 늘어날 경우(Extended Temporal Coverage) Anchor-based 방식에 비해 낮은 성능을 보임

2. Extended temporal coverage에서 보이는 한계에 의해 Sliding window 방식에 의존하며 NMS가 필수적인 요소로 사용됨

(2) 주요 문제 분석

1) Matching Instability

- Instability(IS)-

- Instability는 이전 epoch, 현재 epoch에서 서로 동일한 GT에 대해 decoder의 예측이 성공해야 낮아짐

- 만약 이전 Epoch에서 예측에 실패했다면 이후에도 실패해야 낮아짐

- Instability가 높은 경우 모델이 같은 Input이지만 다른 값에 의해 학습되도록 하며 모델 성능에 안좋은 영향을 미침

- Temporal Coverage가 증가할수록 같은 sliding windows의 Step이 증가하고 모델의 update가 줄어들기 때문에 Instability가 감소할 것으로 예상

- 그림 3 -

- TadTR 을 통해 Temporal Coverage에 따른 IS, 평균 mAP를 비교

- Temporal Coverage가 증가할수록 Instability가 증가하며 이에 모델의 성능은 하락함

- Temporal Coverage가 증가해도 일정한 성능을 내는 모델을 개발하는 것이 어려움을 나타냄

2) Sensitivity to Localize Action Instances

- 성능 하락의 원인을 분석함

-그림 4 -

- Localization에 대한 모델의 최종 예측에 노이즈를 추가한 경우 성능 변화를 나타냄

- Temporal Coverage가 큰 경우 Action의 중앙에 대한 예측에 작은 노이즈만 추가해도 모델의 성능이 크게 하락함

- 이를 통해 Normalized Coordinate Framework가 Extended Temporal Coverage에서 매우 민감하게 작동함을 확인할 수 있음

- 위 문제를 해결하기 위해 Time-Aligned Coordinate Expression 제안

(3) 제안하는 방법

1) Time-Aligned Query Generation

- 실제 시간과 일치하는 Query 생성

1. Transformer Encoder는 Binary Foreground Score, Segment offsets을 출력함

2. Reference 생성

-Reference Center-

-Reference Width-

!! Reference Center 수식과 생성 코드가 일치하지 않음

- 놓친것이 없다면 실제 수식과 코드는 일치하지 않음

-코드 기반 새로 작성한 Center에 대한 Reference-

- 위 수식이 올바른 것으로 판단됨

- 각 Feature의 중앙이 실제 비디오에서 가지고 있는 시간을 계산

3. Query 생성

- 아래는 Referece 기반 Encoder의 출력을 최종적인 Query로 Decord하는 과정임

- Scale-invariant approach를 위해 Center Offset에 계속해서 d_ref를 곱하고, Width에 대해서는 Exp 함수 입력

2) Adaptive Query Selection

- Video의 길이는 다양하며 긴 비디오에는 많은 Action, 짧은 비디오에는 적은 Action이 있음

- 전체 구간에서 K개의 Query를 선택하는 것은 비디오의 특성을 고려하지 못한것임

- Binary Class Predictions 기반으로 각 영역에서 가장 높은 Score를 가지는 Top-K Query 선택

- 더욱 다양한 Level에서 Query를 선택할 수 있도록함

3) Time-Aligned Segment Refinement

- 기존의 Normalized Coordinate Expression은 Sigmoid Function을 통해 Segmet Refinement를 진행

- 실제 Video의 시간과 일치하도록 Segmet Refinement 과정을 새롭게 구성

- Query 생성과정과 유사함

(3) 실험 결과

-Table1-

- THUMOS-14 데이터 셋에서 기존 SOTA 방식과의 성능비교

- NMS를 사용하지 않고도 Tad TR보다 매우 높은 성능 상승을 이룸

- THUMOS-14는 매우 다양한 길이의 Video를 포함하고 있으며, 이를 통해 TE-TAD의 Length-invaiant 능력이 매우 뛰어남을 알 수 있음

- Anchor-free detectors와 비교해서도 거의 유사한 성능을 보임

-Table2-

- ActivityNet v1.3 데이터 셋에서 기존 SOTA 방식과의 성능비교

- 기존 Query-based 방식에 비해 높은 성능을 달성하였지만 THUMOS-14에서 보다 성능상승이 크지 않음

- ActivityNet v1.3은 THUMOS-14에 비해 다양한 길이의 Video를 적게 가지고 있기 때문임

-Table3-

- EpicKitchen 데이터 셋에서 기존 SOTA 방식과의 성능비교

- EpicKitchen은 매우 다양한 길이의 Video, Action instance를 가지고 있음

- NMS를 사용하지 않아도 상당한 성능을 보였으며, 이를 통해 다양한 길이의 Video, Action instance에 대해서도 강건함을 알 수 있음

-Table4-

- 모델의 각 요소에 대한 Ablation Study

- Time-aligned Expression (TE) 을 추가하지 않은 경우 기존 Baseline 보다 낮은 성능을 지님

- TE가 매우 중요한 요소로서 작동하고 있음을 할 수 있음

- Adaptive Query Selection(AQS)를 추가하여 가장 높은 성능을 달성할 수 있었음

-Table5-

- 각 Attention의 역활에 대해 연구하기 위해 진행한 실험

- #1 Encoder의 Self-attention은 Representational ability에 영향을 미치는 것을 알 수 있음

- #2 NMS를 제거한 경우 매우 낮은 성능을 보이는 것을 보아 Decoder의 Self-attention은 Set-prediction Mechanism에 큰 영향을 미치는 것을 알 수 있음

- #3 Cross-attention을 제거하고 Context information을 추출하지 못하게 되어 모델 학습이 이루어지지 못함

-그림 6-

- Action instance 길이에 따른 False Negative 비율 비교

- XL을 보았을 때 Tad-TR-34.1보다 Tad-TR-∞보다 False Negative비율이 높음

- Feature 길이가 짧은 경우 긴 Action을 잘 탐지하지 못하는 것을 알 수 있음

- TE-TAD는 Action instance의 길이에 무관하게 매우 낮은 False Negative 비율을 보임

-그림 7-

- Adaptive Query Selection의 효과를 확인할 수 있음

- Adaptive Query Selection을 사용한 경우 모든 GT에 대해 예측을 성공한 것을 확인할 수 있음

(4) 결론

- TE-TAD에서 Time-aligned coordinate expression 방식을 통해 NMS와 같은 hand-crafted component에 대한 의존을 줄임- 이를 통해 모델을 매우 간소화 하였고 SOTA 성능을 달성함

'논문 리뷰' 카테고리의 다른 글

[논문 리뷰 #15] UDA-Bench: Revisiting Common Assumptions in Unsupervised Domain Adaptation Using a Standardized Framework, ECCV 2024 (0)	2024.12.07
[논문 리뷰 #14] Benchmarking the Robustness of Temporal Action Detection Models Against Temporal Corruptions, CVPR 2024 (0)	2024.10.29
[논문 리뷰 #12] Boundary Denoising for Video Activity Localization, ICLR 2024 (5)	2024.10.15
[논문 리뷰 #11] FixMatch: Simplifying Semi-Supervised Learning with Consistency and Confidence, NeurIPS 2020 (0)	2024.10.10
[논문 리뷰 #10] MixMatch: A Holistic Approach to Semi-Supervised Learning, NeurIPS 2019 (0)	2024.09.21

머신러닝 연구

[논문 리뷰 #13] TE-TAD: Towards Full End-to-End Temporal Action Detection via Time-Aligned Coordinate Expression, CVPR 2024

https://arxiv.org/abs/2404.02405

(1) 배경