본문 바로가기
반응형

34

[논문 리뷰 #11] FixMatch: Simplifying Semi-Supervised Learning with Consistency and Confidence, NeurIPS 2020 (1) 배경- semi-supervised learning(SSL)은 labeled data, unlabeled data를 모두 사용하여, 생성을 위해 상당한 노동력이 드는 labeled data에 대한 의존을 줄이기 위한 방식- 이전 SSL을 위한 방식은 매우 복잡한 구조를 가짐- FixMatch는 기존 SSL의 방식을 융합해 구조를 단순화하였고, 이를 통해 state-of-the-art를 달성(Consistency regularization, Pseudo-labeling)- FixMatch의 단순함으로 인해 다양한 ablation study를 통해 FixMatch가 높은 성능을 달성할 수 있었던 다양한 factor에 대해 연구(2) 방법 1) supervised Loss- weakly augmenta.. 2024. 10. 10.
[논문 리뷰 #10] MixMatch: A Holistic Approach to Semi-Supervised Learning, NeurIPS 2019 (1) 배경labeled 데이터 셋을 형성하는 데에는 많은 시간과 노력이 들며 label에 대한 정보를 보안상의 이유로 얻지 못할 수도 있습니다. labeled 데이터에 의존하지 않기 위해 다양한 연구가 진행되고 있으며, 이러한 연구의 일환인 semi-supervised learning은 labeled 데이터와 unlabeled 데이터를 함께 사용하여 모델학습을 진행하는 방식입니다. 이를 위해 semi-supervised learning은 labeled 데이터, unlabeled 데이터에 대해 각각 서로 다른 loss term를 사용하여 학습을 진행합니다. 주로 사용되는 semi-supervised learning 방식은 entropy minimization, consistency regularizati.. 2024. 9. 21.
[논문 리뷰 #9] An Image is Worth 16 x 16 Words : Transformer for Image Recognition at Scale, ICLR 2021 위 논문은 널리 사용되는 ViT(vision transformer) 모델을 제안하였습니다.(1) 배경Natural Language Processing(NLP)는 Transformer의 등장으로 인해 급격한 발전을 이루었습니다. 그 이유는 Transformer는 computational efficiency와 scalability라는 특성을 가지며 이를 통해 모델의 사이즈를 쉽게 키울 수 있기 때문입니다. 하지만 Computer vision에서는 아직까지 CNN 기반의 모델을 더욱 많이 사용합니다. Transformer를 CV에 적용하려는 노력이 있었지만 일부분만 Transformer를 사용하거나 완전히 교체하였어도 특이한 attention 방식을 사용하여 scaling을 쉽게 진행하지 못하였습니다. 이 논.. 2024. 9. 6.
[논문 리뷰 #8] Test-Time Zero-Shot Temporal Action Localization, CVPR 2024 위 논문은 Test-Time Zero-Shot Temporal Action Localization 방식을 처음 제안한 논문 입니다. 우선  Zero-Shot Temporal Action Localization(ZS-TAL)은 training time에 보지 못한 action class에 대해서도 test time에 모델이 예측을 할 수 있도록 하는 것이 목표입니다.(1) 배경최근 개발된 Vision language model은 웹에서 추출한 방대한 데이터 셋을 학습하여 일반화 능력이 뛰어납니다. 또한 전통적인 이미지 분류 모델의 성능을 뛰어넘기도 하였습니다. 하지만 Video domain에 적용하여 활용할 경우 image와 video의 구조적인 차이에 의해 추가적인 fine-tuning이 필수적으로 요구.. 2024. 9. 6.
[논문 리뷰 #7] End-to-End Temporal Action Detection with 1B Parameters Across 1000 Frames, CVPR 2024 최근 TAD는 엄청난 발전을 이루었으며 최근 TAD 연구는 end-to-end, scaling up 두가지에 집중하고 있습니다.  하지만 이러한 방법은 GPU 메모리에 의해 많은 제약을 받습니다.  또한 Backbone 전체를 fine-turning하는 것은 catastopic forgetting, Overfitting 등의 문제를 일으킵니다.  이러한 문제를 해결하기 위해 위 논문에서는 Adatad를 제안하였습니다.  Adatad는 Scaling up, E2E방식을 모두 결합하여 가장 높은 성능을 달성하였습니다. 또한 feature based 방식의 최고 성능을 뛰어넘었습니다  (1) E2E 방식의 도입 장점1) Domain gapE2E 방식을 통해 얻을 수 있는 가장 큰 장점은 Pretraining .. 2024. 7. 16.
[논문 리뷰 #6] Tent: Fully Test-Time Adaptation by Entropy Minimization, ICLR 2021 위 논문은 Test entropy minimization(Tent) 방식을 제안합니다. (1) Fully Test-time adaptation 최근 Deep network는 큰 발전을 이루어왔고 Train data와 Test data의 Domain이 같을 경우 엄청난 성능을 보입니다. 하지만 Test data의 domain이 달라질 경우 모델의 성능은 크게 하락합니다. 이를 해결하기 위해 다양한 방법이 제안되었습니다. 기존 Domain Adaptaion 방식은 Source data와 Target data를 모두 활용하여 Target domain에 대한 adaptaion을 진행합니다. 또한 Test-time training은 Source data로 사전학습을 진행할 때 supervised loss, sel.. 2024. 7. 16.
반응형