1. 배경
1) 기존 prompt는 사람이 직접 생성한 “a photo of a {}”의 templete으로 구성되어 있었음.
- class 수가 증가하면 prompt를 생성하기 위한 사람의 노동력이 크게 증가.
- prompt는 모든 class에 적용하기 위해 충분히 general 해야함.
- prompt를 생성하기 위해 데이터 셋에 대한 사전 지식을 필요로함
2) 최소한의 hand-constructed sentences을 사용하여 explicit knowledge나 task의 domain 없이 더욱 높은 정확도를 높이는 prompt 생성 방식 제안.
2. Customized Prompts via Language models (CuPL)
- 위 방식은 LLM을 사용하여 데이터셋의 class에 대한 prompt를 생성함.
- 최소한의 hand-constructed sentences 사용하여 최대한 많은 prompt를 생성해 낼 수 있음.
- prompt는 각각의 class에 대해 customize 되어 있음.
(1) Generating customized prompts

1) LLM-Prompt
- 위 Prompt는 사물을 설명하는 것이 아닌 사물에 대한 설명을 유도하기 위한 것임.
2) Image-Prompt
- LLM-Prompt를 LLM에 입력하여 생성한 Class에 대한 설명이 있는 Prompt.
- 위 논문에서는 GPT-3을 사용하여 생성함.
3) Hand-engineered sentences를 최소한으로 사용함.
- 위 논문에서는 LLM-Prompt를 5개 사용하여 Image-Prompt를 총 80개 정도 생성함.
(2) Using prompts
- Image-Prompt를 Text encoder에 입력하고 평균냄.
- 최종적으로 Class당 1개의 Feature 생성.
3. 실험 결과
(1) 성능 비교

- CuPL(base)는 Stacnford Cars, RESISC45를 제외하고 모든 데이터 셋에서 기존방식보다 높은 성능 달성.
- CuPL(Full)은 모든 데이터 셋에서 기존방식보다 높은 성능 달성.
CuPL(base) : 모든 데이터 셋에 대해 동일한 LLM-Prompt 사용.
CuPL(Full) : 데이터셋 마다 서로 다른 LLM-Prompt 사용.
4. 요약
- LLM을 활용해 생성한 Prompt는 기존보다 훨씬 적은 수작업을 통해 다양한 Image Classification task에서 zero-shot 정확도 향상.
- 위 방식의 prompt는 각각의 class에 대해 customize 되어 있음.
- LLM 기반 Prompt 생성은 간단하면서도 효과적이며, prior knowledge 없이도 높은 성능을 달성할 수 있음.