Light VLM
PaliGemma | Google for Developers
PaliGemma는 PaLI-3에서 영감을 받아 SigLIP 비전 모델 및 Gemma 언어 모델과 같은 개방형 구성요소를 기반으로 하는 경량의 개방형 비전 언어 모델 (VLM)입니다. PaliGemma는 이미지와 텍스트를 모두 입력으로 사용하며 세부정보와 컨텍스트가 있는 이미지 관련 질문에 답변할 수 있습니다. 즉, PaliGemma는 이미지를 심층 분석하고 이미지 및 짧은 동영상에 대한 캡션, 객체 감지, 이미지 내에 삽입된 텍스트 읽기와 같은 유용한 정보를 제공할 수 있습니다.
https://ai.google.dev/gemma/docs/paligemma?hl=ko

PaliGemma 2
Google for Developers Blog - News about Web, Mobile, AI and Cloud
Explore PaliGemma 2, which offers scalable performance with multiple model sizes and resolutions, and is designed as a drop-in replacement for existing PaliGemma users.
https://developers.googleblog.com/en/introducing-paligemma-2-powerful-vision-language-models-simple-fine-tuning/


Seonglae Cho