본문 바로가기
논문 리뷰

[논문 리뷰 #20] What does a platypus look like? Generating customized prompts for zero-shot image classification, ICCV 2023

by rnjsgmldnjs 2025. 5. 14.

1.  배경

1) 기존 prompt는 사람이 직접 생성한 “a photo of a {}”의 templete으로 구성되어 있었음.

   - class 수가 증가하면 prompt를 생성하기 위한 사람의 노동력이 크게 증가.

   - prompt는 모든 class에 적용하기 위해 충분히 general 해야함.

   - prompt를 생성하기 위해 데이터 셋에 대한 사전 지식을 필요로함

2) 최소한의 hand-constructed sentences을 사용하여 explicit knowledge나 task의 domain 없이 더욱 높은 정확도를 높이는 prompt 생성 방식 제안.

2. Customized Prompts via Language models (CuPL)

  - 위 방식은 LLM을 사용하여 데이터셋의 class에 대한 prompt를 생성함.

  - 최소한의 hand-constructed sentences 사용하여 최대한 많은 prompt를 생성해 낼 수 있음.

  - prompt는 각각의 class에 대해 customize 되어 있음.

(1) Generating customized prompts

    1) LLM-Prompt

       - 위 Prompt는 사물을 설명하는 것이 아닌 사물에 대한 설명을 유도하기 위한 것임.

    2) Image-Prompt

       - LLM-Prompt를 LLM에 입력하여 생성한 Class에 대한 설명이 있는 Prompt.

       - 위 논문에서는 GPT-3을 사용하여 생성함.

    3) Hand-engineered sentences를 최소한으로 사용함.

       - 위 논문에서는 LLM-Prompt를 5개 사용하여 Image-Prompt를 총 80개 정도 생성함.

(2) Using prompts

 - Image-Prompt를 Text encoder에 입력하고 평균냄.

 - 최종적으로 Class당 1개의 Feature 생성.

3. 실험 결과 

(1) 성능 비교

- CuPL(base)는 Stacnford Cars, RESISC45를 제외하고 모든 데이터 셋에서 기존방식보다 높은 성능 달성.

- CuPL(Full)은 모든 데이터 셋에서 기존방식보다 높은 성능 달성.

CuPL(base) : 모든 데이터 셋에 대해 동일한 LLM-Prompt 사용.

CuPL(Full)  :  데이터셋 마다 서로 다른 LLM-Prompt 사용.

4.  요약

- LLM을 활용해 생성한 Prompt는 기존보다 훨씬 적은 수작업을 통해 다양한 Image Classification task에서 zero-shot 정확도 향상.

- 위 방식의  prompt는 각각의 class에 대해 customize 되어 있음.

- LLM 기반 Prompt 생성은 간단하면서도 효과적이며, prior knowledge 없이도 높은 성능을 달성할 있음.

320x100