https://arxiv.org/abs/2404.02405
TE-TAD: Towards Full End-to-End Temporal Action Detection via Time-Aligned Coordinate Expression
In this paper, we investigate that the normalized coordinate expression is a key factor as reliance on hand-crafted components in query-based detectors for temporal action detection (TAD). Despite significant advancements towards an end-to-end framework in
arxiv.org
(1) 배경
- Object detection에서 E2E 방식이 큰 진전을 이루었지만 Temporal Actrion Detection(TAD)에서는 Query-based 기반 E2E 방식이 큰 진전을 이루지 못하고 있음
- 기존 방식의 문제점-
1. 모델에 입력되는 Video의 시간적 길이가 늘어날 경우(Extended Temporal Coverage) Anchor-based 방식에 비해 낮은 성능을 보임
2. Extended temporal coverage에서 보이는 한계에 의해 Sliding window 방식에 의존하며 NMS가 필수적인 요소로 사용됨
(2) 주요 문제 분석
1) Matching Instability
- Instability(IS)-
- Instability는 이전 epoch, 현재 epoch에서 서로 동일한 GT에 대해 decoder의 예측이 성공해야 낮아짐
- 만약 이전 Epoch에서 예측에 실패했다면 이후에도 실패해야 낮아짐
- Instability가 높은 경우 모델이 같은 Input이지만 다른 값에 의해 학습되도록 하며 모델 성능에 안좋은 영향을 미침
- Temporal Coverage가 증가할수록 같은 sliding windows의 Step이 증가하고 모델의 update가 줄어들기 때문에 Instability가 감소할 것으로 예상

- 그림 3 -
- TadTR 을 통해 Temporal Coverage에 따른 IS, 평균 mAP를 비교
- Temporal Coverage가 증가할수록 Instability가 증가하며 이에 모델의 성능은 하락함
- Temporal Coverage가 증가해도 일정한 성능을 내는 모델을 개발하는 것이 어려움을 나타냄
2) Sensitivity to Localize Action Instances
- 성능 하락의 원인을 분석함

-그림 4 -
- Localization에 대한 모델의 최종 예측에 노이즈를 추가한 경우 성능 변화를 나타냄
- Temporal Coverage가 큰 경우 Action의 중앙에 대한 예측에 작은 노이즈만 추가해도 모델의 성능이 크게 하락함
- 이를 통해 Normalized Coordinate Framework가 Extended Temporal Coverage에서 매우 민감하게 작동함을 확인할 수 있음
- 위 문제를 해결하기 위해 Time-Aligned Coordinate Expression 제안
(3) 제안하는 방법
1) Time-Aligned Query Generation
- 실제 시간과 일치하는 Query 생성
1. Transformer Encoder는 Binary Foreground Score, Segment offsets을 출력함
2. Reference 생성
-Reference Center-

-Reference Width-

!! Reference Center 수식과 생성 코드가 일치하지 않음
- 놓친것이 없다면 실제 수식과 코드는 일치하지 않음

-코드 기반 새로 작성한 Center에 대한 Reference-

- 위 수식이 올바른 것으로 판단됨
- 각 Feature의 중앙이 실제 비디오에서 가지고 있는 시간을 계산
3. Query 생성
- 아래는 Referece 기반 Encoder의 출력을 최종적인 Query로 Decord하는 과정임
- Scale-invariant approach를 위해 Center Offset에 계속해서 d_ref를 곱하고, Width에 대해서는 Exp 함수 입력

2) Adaptive Query Selection

- Video의 길이는 다양하며 긴 비디오에는 많은 Action, 짧은 비디오에는 적은 Action이 있음
- 전체 구간에서 K개의 Query를 선택하는 것은 비디오의 특성을 고려하지 못한것임
- Binary Class Predictions 기반으로 각 영역에서 가장 높은 Score를 가지는 Top-K Query 선택
- 더욱 다양한 Level에서 Query를 선택할 수 있도록함
3) Time-Aligned Segment Refinement
- 기존의 Normalized Coordinate Expression은 Sigmoid Function을 통해 Segmet Refinement를 진행
- 실제 Video의 시간과 일치하도록 Segmet Refinement 과정을 새롭게 구성
- Query 생성과정과 유사함

(3) 실험 결과

-Table1-
- THUMOS-14 데이터 셋에서 기존 SOTA 방식과의 성능비교
- NMS를 사용하지 않고도 Tad TR보다 매우 높은 성능 상승을 이룸
- THUMOS-14는 매우 다양한 길이의 Video를 포함하고 있으며, 이를 통해 TE-TAD의 Length-invaiant 능력이 매우 뛰어남을 알 수 있음
- Anchor-free detectors와 비교해서도 거의 유사한 성능을 보임

-Table2-
- ActivityNet v1.3 데이터 셋에서 기존 SOTA 방식과의 성능비교
- 기존 Query-based 방식에 비해 높은 성능을 달성하였지만 THUMOS-14에서 보다 성능상승이 크지 않음
- ActivityNet v1.3은 THUMOS-14에 비해 다양한 길이의 Video를 적게 가지고 있기 때문임

-Table3-
- EpicKitchen 데이터 셋에서 기존 SOTA 방식과의 성능비교
- EpicKitchen은 매우 다양한 길이의 Video, Action instance를 가지고 있음
- NMS를 사용하지 않아도 상당한 성능을 보였으며, 이를 통해 다양한 길이의 Video, Action instance에 대해서도 강건함을 알 수 있음

-Table4-
- 모델의 각 요소에 대한 Ablation Study
- Time-aligned Expression (TE) 을 추가하지 않은 경우 기존 Baseline 보다 낮은 성능을 지님
- TE가 매우 중요한 요소로서 작동하고 있음을 할 수 있음
- Adaptive Query Selection(AQS)를 추가하여 가장 높은 성능을 달성할 수 있었음

-Table5-
- 각 Attention의 역활에 대해 연구하기 위해 진행한 실험
- #1 Encoder의 Self-attention은 Representational ability에 영향을 미치는 것을 알 수 있음
- #2 NMS를 제거한 경우 매우 낮은 성능을 보이는 것을 보아 Decoder의 Self-attention은 Set-prediction Mechanism에 큰 영향을 미치는 것을 알 수 있음
- #3 Cross-attention을 제거하고 Context information을 추출하지 못하게 되어 모델 학습이 이루어지지 못함

-그림 6-
- Action instance 길이에 따른 False Negative 비율 비교
- XL을 보았을 때 Tad-TR-34.1보다 Tad-TR-∞보다 False Negative비율이 높음
- Feature 길이가 짧은 경우 긴 Action을 잘 탐지하지 못하는 것을 알 수 있음
- TE-TAD는 Action instance의 길이에 무관하게 매우 낮은 False Negative 비율을 보임

-그림 7-
- Adaptive Query Selection의 효과를 확인할 수 있음
- Adaptive Query Selection을 사용한 경우 모든 GT에 대해 예측을 성공한 것을 확인할 수 있음
(4) 결론
- TE-TAD에서 Time-aligned coordinate expression 방식을 통해 NMS와 같은 hand-crafted component에 대한 의존을 줄임- 이를 통해 모델을 매우 간소화 하였고 SOTA 성능을 달성함