본문 바로가기
논문 리뷰

[논문 리뷰 #17] Grounded Language-Image Pre-training, CVPR 2022

by rnjsgmldnjs 2024. 12. 11.

https://arxiv.org/abs/2112.03857

 

Grounded Language-Image Pre-training

This paper presents a grounded language-image pre-training (GLIP) model for learning object-level, language-aware, and semantic-rich visual representations. GLIP unifies object detection and phrase grounding for pre-training. The unification brings two ben

arxiv.org

(1) 배경

- visual recognition 모델은 사전에 추가적인 labeled data가 필요한 domain에 대한 generalization에는 약세를 보임

- clip은 image-text pair 를 학습하여 semantically rich 하고 다양한 downstream task에 사용될 수 있음

- object detection등의 task를 위해서는 fine-grained understanding of images 즉 object level의 visual representation의 이해가 필요함

 

--> phrase grounding은 phrases in a sentence, objects (or regions) in an image의 fine-grained correspondence를 식별

--> object level, language-aware, semantic-rich visual representation을 학습할 수 있음

--> phrase grounding과 object detection tasks를 모두 수행할 수 있는 방식인 Grounded Language-Image Pre-training (GLIP)을 제안

--> object detection 측면에서 grounding data를 통해 풍부한 visual concept를 학습할 수 있음

--> grounding 측면에서 더욱 많은 bounding box annotations을 제공받을 수 있음

(2) 방법

1) Unifying detection and grounding by reformulating object detection as phrase grounding

* Object detection as phrase grounding

- Prompt = “Detect: person, bicycle, car, ... , toothbrush" 로 정의

- 이미지와 prompt를 각각 Image encoder, Language encoder에 입력

- Region-word aligment scores를 image feature와 prompt feature의 dot product로 연산

- Region-word aligment scores에 대한 최종 Loss 연산 진행

 

--> 위 과정을 통해 detection을 grounding과 동일하게 진행할 수 있음

* Language-Aware Deep Fusion

- 각각의 encoder에서 O(Image feature), P(Prompt feature)를 추출하고 cross-modality multi-head attention module (X-MHA)에 입력

- 이후 기존값에 X-MHA 출력값을 더해주고 single modality fusion 진행

- single modality fusion module은 각각 DyHeadModules in DyHead, BERTLayer 임

2) Pre-training with Scalable Semantic-Rich Data

- Teacher 모델을 통해 pseudo dataset을 생성할 수 있지만 concept pool 내에서만 활용 가능함.

- Glip은 detection data 뿐만 아니라 Grounding data를 함께 학습함

- gold grounding data는 기존 detection data보다 많은 vocabulary를 포함하고 있음

- detection data를 scaling up 하지 않고 grounding data를 scaling함

1. gold grounding data를 통해 teacher 모델 사전학습

2. web-collected image-text data에 대해 box를 예측하도록 함

3. gold data와 pseudo grounding data를 통해 student 모델 학습

(3) 실험 결과 

1) Zero-Shot and Supervised Transfer on COCO

- Zero-shot Glip 모델은 SOTA 모델과 유사하거나 더욱 높은 성능을 보임

- GLIP-L은 최신 SOTA 성능을 뛰어넘음(Zero-shot X)

- Zero-shot 모델이 높은 성능을 보이는 이유

-- DyHead-T : Object365와 CoCo data는 서로 유사한 Domain을 가지고 있음 -- 이미 높은 성능을 보임

-- GLIP-T(A) : Grounding 모델로 개조함으로서 약간의 성능하락

-- GLIP-T(B) : Deep fusion layer를 추가해 약간의 성능 상승

-- GLIP-T(C) : gold grounding data를 통해 더욱 높은 성능을 얻음

-- GLIP-T : 추가적인 grounding data가 성능 상승에 영향을 주지 못함

2) Phrase Grounding on Flickr30K Entities

- MDETR은 Grounding 모델이며 GoldG+로만 학습됨

- Glip은 GoldG 만으로도 MDETR과 유사한 성능을 보이는데 이는 SwinTransformer, DyHead 도입에 의한 것으로 보임

- O365 detection dataset을 추가적으로 활용했을 때 성능 증가 --> Grounding + detection의 효과

3) Analysis

- 1 ~ 6 번줄을 보았을 때 detection dataset과 Grounding dataset을 함께 사용하는 것은 성능 증가에 도움을 줌

- 8번 줄은 2.66M 개의 detection data만 활용한 경우임 -> 6번 줄은 detection data 0.66M개, Grounding data 0.8M개만 사용했지만 더욱 높은 성능 달성

--> Grounding data 가 더욱 semantic-rich하고, detection data보다 더욱 scaling에 적합함

 

320x100