본문 바로가기
IT 정보

메타에서 발표한 멀티모달 모델 카멜레온

by Philema 2023. 7. 19.

페이스북의 메타에서 멀티모달 모델 AI를 발표했는데요, 그 이름이 카멜레온(CM3leon)입니다.

요즘, AI의 발전속도를 보면 환호성과 더불어서 두려운 마음이 듭니다.

멀티모달에서 대해서는 앞서 올린 아래 글을 참고하시기 바랍니다.

2023.06.22 - [IT 정보] - 멀티모달(Multi-Modal)이 뭔가요?

그러면 메타에서 발표한 카멜레온(CM3leon)에 대해서 알아보겠습니다. 다음은 메타에서 발표한 내용입니다.


최근 몇 달 동안 기계가 언어를 이해하고 표현할 수 있는 자연어 처리와 텍스트 입력을 기반으로 이미지를 생성할 수 있는 시스템이 발전하면서 생성형 AI 모델에 대한 관심과 연구가 가속화되고 있습니다. 오늘은 텍스트 대 이미지 및 이미지 대 텍스트 생성을 모두 수행하는 단일 기반 모델인 CM3leon("카멜레온"처럼 발음)을 소개합니다.

CM3leon은 대규모 검색 증강 사전 학습 단계와 두 번째 멀티태스크 감독 미세 조정(SFT) 단계를 포함하여 텍스트 전용 언어 모델에서 채택한 레시피로 학습된 최초의 멀티모달 모델입니다. 이 방법은 간단하고 강력한 모델을 생성하며 토큰화 기반 트랜스포머도 기존의 생성 확산 기반 모델만큼 효율적으로 훈련할 수 있음을 보여줍니다. CM3leon은 기존 트랜스포머 기반 방법보다 5배 적은 컴퓨팅으로 학습하면서도 텍스트-이미지 생성을 위한 최첨단 성능을 달성합니다. CM3leon은 낮은 훈련 비용과 추론 효율성을 유지하면서 자동 회귀 모델의 다양성과 효율성을 갖췄습니다. 다른 이미지 및 텍스트 콘텐츠의 임의 시퀀스에 따라 조건이 지정된 텍스트 및 이미지 시퀀스를 생성할 수 있기 때문에 인과적 마스크 혼합 모달(CM3) 모델입니다. 이는 텍스트 대 이미지 또는 이미지 대 텍스트만 가능했던 이전 모델의 기능을 크게 확장한 것입니다.

텍스트 전용 생성 모델은 일반적으로 명령 프롬프트를 따르는 능력을 향상시키기 위해 다양한 작업에 대해 멀티태스크 명령어로 조정되지만, 이미지 생성 모델은 특정 작업에 특화되어 있습니다. 이미지와 텍스트 생성 모두에 대해 대규모 멀티태스크 명령어 튜닝을 CM3leon에 적용하여 이미지 캡션 생성, 시각적 질문 답변, 텍스트 기반 편집, 조건부 이미지 생성 등의 작업에서 성능이 크게 향상되었음을 보여줍니다. 이는 텍스트 전용 모델을 위해 개발된 스케일링 레시피가 토큰화 기반 이미지 생성 모델에 직접 일반화되는 또 다른 강력한 예시를 제공합니다.

가장 널리 사용되는 이미지 생성 벤치마크(제로샷 MS-COCO)에서 성능을 비교했을 때 CM3Leon은 4.88의 FID(프레셰 시작 거리) 점수를 달성하여 텍스트-이미지 생성의 새로운 지평을 열었으며, Google의 텍스트-이미지 모델인 Parti를 능가하는 성능을 보였습니다. 이 성과는 검색 증강의 잠재력을 강조하고 스케일링 전략이 자동 회귀 모델의 성능에 미치는 영향을 강조합니다. 또한 CM3Leon은 아래 예시에서 선글라스와 모자가 달린 화분에 심어진 선인장과 같이 복잡한 구도의 오브젝트를 생성하는 데도 인상적인 능력을 보여줍니다. CM3leon은 시각적 질문에 대한 답변과 긴 형식의 캡션을 포함한 다양한 시각 언어 작업에서 우수한 성능을 발휘합니다. 30억 개의 텍스트 토큰으로만 구성된 데이터 세트에 대한 학습에서도 CM3leon의 제로 샷 성능은 더 광범위한 데이터 세트에 대해 학습된 대규모 모델과 비교했을 때 유리하게 작용합니다.

다양한 작업에서 CM3leon의 성능

CM3leon의 기능을 통해 이미지 생성 도구는 입력 프롬프트를 더 잘 따르는 일관된 이미지를 생성할 수 있습니다. 예를 들어, 많은 이미지 생성 모델은 글로벌 모양과 로컬 디테일을 복구하는 데 어려움을 겪습니다. CM3leon은 이 영역에서 강력한 성능을 발휘합니다. 다음은 단일 모델로 수행되는 다양한 작업에서 CM3leon의 기능을 살펴봅니다:

텍스트 가이드 이미지 생성 및 편집

복잡한 오브젝트나 프롬프트에 출력물에 모두 포함되어야 하는 제약 조건이 많은 경우 이미지 생성은 어려울 수 있습니다. 텍스트 안내 이미지 편집(예: "하늘색을 밝은 파란색으로 변경")은 모델이 텍스트 지침과 시각적 콘텐츠를 동시에 이해해야 하기 때문에 까다롭습니다. CM3leon은 아래 예시에서 볼 수 있듯이 모든 경우에 탁월한 성능을 발휘합니다.

텍스트-이미지 변환

구성이 복잡할 수 있는 프롬프트 텍스트가 주어지면 프롬프트에 따라 일관된 이미지를 생성합니다. 예를 들어 다음 네 개의 이미지가 프롬프트에 대해 생성되었습니다: (1) 사하라 사막에서 밀짚모자와 네온 선글라스를 쓴 작은 선인장. (2) 사람 손의 클로즈업 사진, 손 모델. 높은 품질. (3) 사무라이 검으로 장대한 전투를 준비하는 애니메이션의 너구리 주인공. 전투 자세. 판타지, 일러스트레이션. (4) "1991"이라는 텍스트가 있는 판타지 스타일의 정지 표지판.

카멜레온(CM3leon)이 텍스트로 생성한 이미지(출처 : https://ai.meta.com/blog/generative-ai-text-images-cm3leon/)

 

텍스트 가이드 이미지 편집

이미지와 텍스트 프롬프트가 주어지면 텍스트의 지침에 따라 이미지를 편집합니다. 텍스트 안내 이미지 편집 전용으로 튜닝된 InstructPix2Pix와 같은 이전 모델과 달리, CM3leon 모델의 범용성 때문에 위와 아래의 다른 모든 작업과 동일한 모델을 사용하여 이 작업을 수행했습니다.

(출처 : https://ai.meta.com/blog/generative-ai-text-images-cm3leon/) 텍스트 가이드 이미지 편집 예

텍스트 작업

CM3leon 모델은 다양한 프롬프트에 따라 짧거나 긴 캡션을 생성하고 이미지에 대한 질문에 답할 수도 있습니다.

예를 들어 개가 지팡이를 들고 있다고 가정해 보겠습니다.

프롬프트 질문: 개가 들고 있는 것은 무엇인가요?

모델 생성: 스틱

프롬프트: 주어진 이미지를 아주 자세하게 설명하세요.

모델 생성: 이 이미지에는 개가 막대기를 입에 물고 있습니다. 표면에는 풀이 있습니다. 이미지의 배경에는 나무가 있습니다.

(출처 : https://ai.meta.com/blog/generative-ai-text-images-cm3leon/)

다양한 이미지 캡션 생성 및 시각적 질문에 대한 답변 작업에서 인스트럭션 튜닝 모델을 경험적으로 평가하고 이전의 최첨단 벤치마크와 비교했습니다. CM3leon 모델은 텍스트 데이터(약 30억 토큰)가 플라밍고(100억) 및 OpenFlamingo(40억)에 비해 훨씬 적었지만, MS-COCO 캡션 및 VQA2 질문 답변에서 OpenFlamingo의 제로 샷 성능 수준과 비슷했으며, 심지어 VizWiz 작업에서 플라밍고를 10점 가까이 앞섰습니다.

구조 가이드 이미지 편집

구조 안내 이미지 편집에는 텍스트 지침뿐만 아니라 입력으로 제공되는 구조 또는 레이아웃 정보도 이해하고 해석하는 작업이 포함됩니다. 이를 통해 CM3leon 모델은 주어진 구조 또는 레이아웃 지침을 준수하면서 시각적으로 일관되고 문맥에 적합한 이미지 편집을 생성할 수 있습니다.

오브젝트 대 이미지

이미지의 경계 상자 분할에 대한 텍스트 설명이 주어지면 이미지를 생성합니다.

(출처 : https://ai.meta.com/blog/generative-ai-text-images-cm3leon/)

세그먼트 대 이미지

텍스트 클래스 없이 세분화만 포함된 이미지가 주어지면 이미지를 생성합니다. 여기서 입력은 세그먼테이션을 추출할 이미지를 나타냅니다.

(출처 : https://ai.meta.com/blog/generative-ai-text-images-cm3leon/)

초고해상도 결과물

위의 모든 생성된 이미지는 CM3leon 모델의 원시 출력을 보여줍니다. 그러나 이미지 생성을 위한 일반적인 트릭은 별도로 훈련된 초고해상도 단계를 추가하여 원본 모델 출력에서 더 높은 해상도의 이미지를 생성하는 것입니다. 아래 텍스트-이미지 생성 작업의 예에서 볼 수 있듯이 이 방법은 CM3leon에서도 매우 잘 작동합니다.

각 프롬프트에 대한 네 가지 이미지 예시: (1) 산을 배경으로 김이 모락모락 나는 커피 한 잔. 여행 중 휴식. (2) 해질녘의 아름답고 장엄한 도로. 미적. (3) 호수 한가운데 있는 작은 원형 섬. 호수를 둘러싼 숲. 높은 대비.

(출처 : https://ai.meta.com/blog/generative-ai-text-images-cm3leon/)

프롬프트에 대한 더 많은 예제: (1) 수중에서 헤엄치는 거북이. 미적. 판타지. (2) 물속에서 수영하는 코끼리. 미적. 판타지. (3) 양 무리. 미적. 판타지.

(출처 : https://ai.meta.com/blog/generative-ai-text-images-cm3leon/)

 

CM3leon을 구축한 방법

아키텍처

CM3Leon의 아키텍처는 잘 정립된 텍스트 기반 모델과 유사한 디코더 전용 트랜스포머를 사용합니다. 하지만 CM3Leon의 차별점은 텍스트와 이미지를 모두 입력 및 생성할 수 있다는 점입니다. 이를 통해 CM3Leon은 위에서 공유한 다양한 작업을 성공적으로 처리할 수 있습니다.

학습

최근 작업을 통해 CM3leon의 학습 검색 기능이 강화되어 결과 모델의 효율성과 제어 가능성이 크게 향상되었습니다. 마지막으로, 위에서 설명한 것처럼 다양한 이미지 및 텍스트 생성 작업에 대한 인스트럭션 미세 조정을 수행했습니다.

AI 산업이 계속 발전함에 따라 CM3leon과 같은 생성 모델은 점점 더 정교해지고 있습니다. 이러한 모델은 수백만 개의 예시 이미지를 학습하여 시각적 요소와 텍스트 간의 관계를 학습하지만, 학습 데이터에 존재하는 편견도 반영할 수 있습니다. 업계는 아직 이러한 문제를 이해하고 해결하는 초기 단계에 있지만, 투명성이 발전을 가속화하는 데 핵심이 될 것으로 믿습니다.

따라서 저희는 백서에 설명된 대로 라이선스가 부여된 데이터 세트를 사용하여 CM3leon을 학습시켰습니다. 이는 이전의 모든 모델이 사용했던 것과는 매우 다른 데이터 분포로도 강력한 성능이 가능하다는 것을 보여줍니다. 유니티는 작업 과정을 투명하게 공개함으로써 제너레이티브 AI 분야의 협업과 혁신을 장려하고자 합니다. 함께 협력하면 더 정확할 뿐만 아니라 모두에게 더 공정하고 공평한 모델을 만들 수 있다고 믿습니다.

멀티모달 언어 모델을 위한 길 닦기

고품질 생성 모델을 만드는 것을 목표로 다양한 작업에서 강력한 성능을 발휘하는 CM3leon은 더 높은 충실도의 이미지 생성 및 이해를 향한 한 걸음이라고 생각합니다. CM3leon과 같은 모델은 궁극적으로 메타버스에서 창의성을 높이고 더 나은 애플리케이션을 개발하는 데 도움이 될 수 있습니다. 앞으로도 멀티모달 언어 모델의 경계를 탐구하고 더 많은 모델을 출시할 수 있기를 기대합니다.

(출처 : https://ai.meta.com/blog/generative-ai-text-images-cm3leon/)

728x90

댓글