멀티모달모델 Multi Model Model MMM

멀티모달 AI는 여러 가지 유형의 데이터 또는 정보를 함께 활용하여 인공 지능 시스템을 구축하는 접근 방식을 나타냅니다. 이러한 다양한 유형의 데이터는 주로 텍스트, 이미지, 음성, 비디오 등이 될 수 있습니다. 멀티모달 AI는 이러한 다양한 데이터를 조합하여 더 풍부하고 유용한 결과를 도출하고자 하는 목적으로 사용됩니다.

여러 모달리티(Modalities)는 서로 다른 감각이나 유형의 정보를 의미합니다. 예를 들어, 텍스트 데이터는 언어적인 정보를 담고 있고, 이미지는 시각적 정보를 제공하며, 음성은 청각적 정보를 전달합니다. 멀티모달 AI는 이러한 다양한 정보를 종합적으로 이해하고 처리하여 보다 풍부하고 복합적인 작업을 수행할 수 있습니다.

비전(Vision) AI에서는 컬러 이미지와 뎁스 이미지 또는 라이다, 레이더 등 각종 센서 데이터를 함께 사용하는 방식이 존재합니다. 여러 센서의 결과를 합쳐 특정 작업을 수행하기 때문에 센서 퓨전이라고 표현하기도 합니다.

  • 이미지 캡션 생성 (Image Captioning): 모델은 이미지의 시각적 특징을 이해하고, 그에 맞는 자연어로 캡션을 생성합니다. 예를 들어, 고양이가 있는 이미지에 대한 설명을 생성할 수 있습니다.
  • 시각적 질문 응답 (Visual Question Answering): 이미지와 관련된 질문에 대한 답을 자연어로 생성합니다. 이미지에 대한 질문에 대한 답을 이미지의 내용을 이해한 후에 생성할 수 있습니다.
  • 이미지 분류 및 검색 (Image Classification and Retrieval): 이미지에 대한 텍스트 설명이나 태그를 활용하여 이미지를 분류하거나, 특정 텍스트 쿼리에 대한 이미지를 검색합니다.
  • 감정 분석 (Emotion Analysis): 이미지와 관련된 얼굴 표정 및 텍스트 데이터를 결합하여 보다 정확한 감정 분석을 수행할 수 있습니다.

사용사례

시각적 이해

  • 정보 탐색: 세계 지식을 이미지 및 동영상에서 추출한 정보와 조합합니다.
  • 객체 인식: 이미지 및 동영상에 포함된 객체에 대해 세밀하게 조정된 식별과 관련된 질문에 답변합니다.
  • 디지털 콘텐츠 이해: 인포그래픽, 차트, 숫자, 테이블, 웹 페이지와 같은 콘텐츠로부터 정보를 추출하여 질문에 답변합니다.
  • 정형화된 콘텐츠 생성: 제공된 프롬프트 지침에 따라 HTML 및 JSON과 같은 형식으로 응답을 생성합니다.
  • 자막 생성/설명: 다양한 수준의 세부정보를 사용해서 이미지 및 동영상에 대한 설명을 생성합니다.
  • 외삽: 이미지에 표시되지 않은 내용 또는 동영상 이전 또는 이후에 발생한 내용을 추측합니다.