#061 · 66편 중
멀티모달(Multimodal)이 뭐야? 글·이미지·음성을 다 다루는 AI 5분 정리

멀티모달(Multimodal)이 뭐야? 글·이미지·음성을 다 다루는 AI 5분 정리

ChatGPT에 사진 올리고 “이게 뭐야”라고 물어본 적 있다면, 그게 바로 멀티모달 AI를 쓴 순간이다. 글만 다루던 AI가 이제 이미지·음성·영상까지 한꺼번에 처리한다.

멀티모달 AI 개념을 설명하는 AI 통통 입문 가이드 이미지

멀티모달 한 줄 정의

**멀티모달(Multimodal)**은 글·이미지·음성·영상 같은 여러 종류의 데이터를 한 모델이 동시에 다루는 AI다.

여기서 ‘modality’는 정보의 종류를 뜻한다. 글이 한 modality, 사진이 다른 modality, 음성이 또 다른 modality. 옛 AI는 modality 하나만 다뤘지만, 요즘 주요 상용 모델은 거의 다 멀티모달이다.

핵심 변화는 단순하다. 사용자가 더 이상 모든 정보를 글로 변환할 필요가 없다. 사진을 그대로 보여주고, 음성을 그대로 들려주면 모델이 이해한다.

중학생도 이해하는 비유

멀티모달을 가장 쉽게 설명하는 비유는 여러 감각을 가진 친구다.

옛 AI는 글만 읽을 수 있는 친구였다. 사진 보여주려면 “고양이가 소파에 앉아 있는 사진”이라고 글로 설명해야 했다. 음성 메시지 보내려면 받아쓰기 한 글을 보내야 했다.

멀티모달 AI는 눈도 있고 귀도 있는 친구다. 사진을 보여주면 그대로 본다. 음성을 들려주면 그대로 듣는다. 표·도표·손글씨·스크린샷도 그냥 보여주면 이해한다.

이 차이가 일상에서 큰 변화를 만든다. ChatGPT에 영수증 사진 올리고 “이거 합계 얼마야?”, 손글씨 노트 사진 올리고 “이거 디지털화해줘”가 가능해졌다.

모달리티 종류

모달리티입력 예출력 예
텍스트(Text)질문·글답변·글
이미지(Image)사진·차트·스크린샷생성된 이미지
오디오(Audio)음성·음악음성 응답·음악
비디오(Video)영상 클립(출력은 아직 제한적)
3D·점군3D 스캔 데이터3D 객체
코드(Code)프로그램 소스코드 생성·수정

대부분 상용 모델은 텍스트 + 이미지 + 일부 오디오 입력 + 텍스트 출력 조합이다. 이미지·음성·영상 출력은 모델별로 차이가 크다.

실제 사용 예시

예시 1: 이미지 분석 ChatGPT에 영수증 사진 → “오늘 점심 얼마 썼어?” 사진을 글자로 인식 + 합계 계산 + 한국어 답변. 한 번에 끝난다.

예시 2: 다이어그램 설명 복잡한 차트·플로우차트 사진 → “이 흐름 설명해줘” 이미지 안 텍스트·화살표·박스를 읽고 자연어로 설명.

예시 3: 음성 대화 ChatGPT 모바일 앱의 Voice Mode → 말하면 음성으로 답변. 사용자 음성 → 의도 파악 → 음성 응답 생성. 진짜 대화처럼 흐른다.

예시 4: 코드 + 스크린샷 앱 화면 캡처 + “이 화면 코드로 구현해줘” → React·HTML 코드 생성. 디자인을 그대로 코드로 옮기는 작업이 한 번에.

예시 5: Computer Use Claude의 Computer Use, ChatGPT Operator → AI가 화면을 보고 마우스·키보드 조작. 이미지 이해 + 동작 출력의 결합으로 자동화 영역이 폭발적으로 늘어난다.

어디까지 잘 되고 어디서 막히나

멀티모달은 빠르게 발전 중이지만 여전히 한계가 있다.

잘 되는 영역

  • 사진 → 텍스트 설명: 일반 사진 거의 정확히 설명
  • 차트·표 인식: 막대그래프·표 읽기 양호
  • OCR: 인쇄 글자는 거의 완벽
  • 영수증·메뉴판: 합계·항목 파악 가능
  • 간단한 다이어그램: 플로우차트 등 이해

아직 막히는 영역

  • 한국어 손글씨: 인식률 차이 큼
  • 복잡한 표·중첩 표: 행·열 매핑 가끔 틀림
  • 세밀한 차트: 작은 글자·숫자 누락
  • 영상 실시간 분석: 짧은 클립은 가능, 긴 영상은 제한적
  • 음악 작곡: 가능한 모델은 아직 적음

이 차이를 알고 작업 도구를 선택하면 시간을 많이 아낀다.

비용 주의

멀티모달 입력은 텍스트보다 비싸다.

  • 이미지 한 장 ≈ 수백~수천 토큰 (해상도·모델별)
  • 음성 1분 ≈ 수천~만 단위 토큰
  • 영상은 더 큼

같은 작업이라도 텍스트로 가능하면 텍스트가 저렴. 이미지·음성은 정말 필요한 경우에만.

비슷한 용어와 차이

용어멀티모달과의 차이
Vision API이미지 분석 전용 옛 용어멀티모달의 일부
Speech-to-Text음성→텍스트 변환멀티모달의 한 기능
Text-to-Image텍스트로 이미지 생성멀티모달의 한 형태
Omni-modal모든 modality 자유 입출력멀티모달의 확장 개념
OCR이미지 안 글자 인식멀티모달의 부분 기능

언제 멀티모달을 마주치나

  • AI 챗봇: 사진·음성 첨부 가능 표시
  • AI 코딩 도구: 디자인 캡처 → 코드 생성
  • OS 자동화: Computer Use, OS Operator
  • AI 모델 비교: 멀티모달 능력 벤치마크가 핵심 항목
  • AI 회의 도구: 영상 + 음성 + 슬라이드 동시 처리

관련 용어


멀티모달은 “글·이미지·음성·영상을 한 모델이 동시에 다루는 AI”다. 텍스트만 다루던 AI 시대가 끝나고, 사용자가 그냥 사진을 보여주거나 말로 묻는 자연스러운 사용 방식이 표준이 됐다. 이미지 인식·차트 분석·OS 자동화 같은 새 응용 영역이 멀티모달 위에서 빠르게 만들어지고 있다.


출처

#멀티모달#Multimodal#AI 용어