[논문 리뷰 #20] What does a platypus look like? Generating customized prompts for zero-shot image classification, ICCV 2023

1. 배경

1) 기존 prompt는 사람이 직접 생성한 “a photo of a {}”의 templete으로 구성되어 있었음.

- class 수가 증가하면 prompt를 생성하기 위한 사람의 노동력이 크게 증가.

- prompt는 모든 class에 적용하기 위해 충분히 general 해야함.

- prompt를 생성하기 위해 데이터 셋에 대한 사전 지식을 필요로함

2) 최소한의 hand-constructed sentences을 사용하여 explicit knowledge나 task의 domain 없이 더욱 높은 정확도를 높이는 prompt 생성 방식 제안.

- 위 방식은 LLM을 사용하여 데이터셋의 class에 대한 prompt를 생성함.

- 최소한의 hand-constructed sentences 사용하여 최대한 많은 prompt를 생성해 낼 수 있음.

- prompt는 각각의 class에 대해 customize 되어 있음.

1) LLM-Prompt

- 위 Prompt는 사물을 설명하는 것이 아닌 사물에 대한 설명을 유도하기 위한 것임.

2) Image-Prompt

- LLM-Prompt를 LLM에 입력하여 생성한 Class에 대한 설명이 있는 Prompt.

- 위 논문에서는 GPT-3을 사용하여 생성함.

3) Hand-engineered sentences를 최소한으로 사용함.

- 위 논문에서는 LLM-Prompt를 5개 사용하여 Image-Prompt를 총 80개 정도 생성함.

- Image-Prompt를 Text encoder에 입력하고 평균냄.

- 최종적으로 Class당 1개의 Feature 생성.

- CuPL(base)는 Stacnford Cars, RESISC45를 제외하고 모든 데이터 셋에서 기존방식보다 높은 성능 달성.

- CuPL(Full)은 모든 데이터 셋에서 기존방식보다 높은 성능 달성.

CuPL(base) : 모든 데이터 셋에 대해 동일한 LLM-Prompt 사용.

CuPL(Full) : 데이터셋 마다 서로 다른 LLM-Prompt 사용.

- LLM을 활용해 생성한 Prompt는 기존보다 훨씬 적은 수작업을 통해 다양한 Image Classification task에서 zero-shot 정확도 향상.

- 위 방식의 prompt는 각각의 class에 대해 customize 되어 있음.

- LLM 기반 Prompt 생성은 간단하면서도 효과적이며, prior knowledge 없이도 높은 성능을 달성할 수 있음.

[논문 리뷰 #19] Dual Prototype Evolving for Test-Time Generalization of Vision-Language Models, NeurIPS 2024 (0)	2025.05.09
[논문 리뷰 #18] NOTE: Robust Continual Test-time Adaptation Against Temporal Correlation, NeurIPS 2022 (0)	2025.01.22
[논문 리뷰 #17] Grounded Language-Image Pre-training, CVPR 2022 (0)	2024.12.11
[논문 리뷰 #16] A Broad Study of Pre-training for Domain Generalization and Adaptation, ECCV 2022 (0)	2024.12.08
[논문 리뷰 #15] UDA-Bench: Revisiting Common Assumptions in Unsupervised Domain Adaptation Using a Standardized Framework, ECCV 2024 (0)	2024.12.07