멀티모달(Multimodal)이 뭐야? 글·이미지·음성을 다 다루는 AI 5분 정리
ChatGPT에 사진 올리고 “이게 뭐야”라고 물어본 적 있다면, 그게 바로 멀티모달 AI를 쓴 순간이다. 글만 다루던 AI가 이제 이미지·음성·영상까지 한꺼번에 처리한다.

멀티모달 한 줄 정의
**멀티모달(Multimodal)**은 글·이미지·음성·영상 같은 여러 종류의 데이터를 한 모델이 동시에 다루는 AI다.
여기서 ‘modality’는 정보의 종류를 뜻한다. 글이 한 modality, 사진이 다른 modality, 음성이 또 다른 modality. 옛 AI는 modality 하나만 다뤘지만, 요즘 주요 상용 모델은 거의 다 멀티모달이다.
핵심 변화는 단순하다. 사용자가 더 이상 모든 정보를 글로 변환할 필요가 없다. 사진을 그대로 보여주고, 음성을 그대로 들려주면 모델이 이해한다.
중학생도 이해하는 비유
멀티모달을 가장 쉽게 설명하는 비유는 여러 감각을 가진 친구다.
옛 AI는 글만 읽을 수 있는 친구였다. 사진 보여주려면 “고양이가 소파에 앉아 있는 사진”이라고 글로 설명해야 했다. 음성 메시지 보내려면 받아쓰기 한 글을 보내야 했다.
멀티모달 AI는 눈도 있고 귀도 있는 친구다. 사진을 보여주면 그대로 본다. 음성을 들려주면 그대로 듣는다. 표·도표·손글씨·스크린샷도 그냥 보여주면 이해한다.
이 차이가 일상에서 큰 변화를 만든다. ChatGPT에 영수증 사진 올리고 “이거 합계 얼마야?”, 손글씨 노트 사진 올리고 “이거 디지털화해줘”가 가능해졌다.
모달리티 종류
| 모달리티 | 입력 예 | 출력 예 |
|---|---|---|
| 텍스트(Text) | 질문·글 | 답변·글 |
| 이미지(Image) | 사진·차트·스크린샷 | 생성된 이미지 |
| 오디오(Audio) | 음성·음악 | 음성 응답·음악 |
| 비디오(Video) | 영상 클립 | (출력은 아직 제한적) |
| 3D·점군 | 3D 스캔 데이터 | 3D 객체 |
| 코드(Code) | 프로그램 소스 | 코드 생성·수정 |
대부분 상용 모델은 텍스트 + 이미지 + 일부 오디오 입력 + 텍스트 출력 조합이다. 이미지·음성·영상 출력은 모델별로 차이가 크다.
실제 사용 예시
예시 1: 이미지 분석 ChatGPT에 영수증 사진 → “오늘 점심 얼마 썼어?” 사진을 글자로 인식 + 합계 계산 + 한국어 답변. 한 번에 끝난다.
예시 2: 다이어그램 설명 복잡한 차트·플로우차트 사진 → “이 흐름 설명해줘” 이미지 안 텍스트·화살표·박스를 읽고 자연어로 설명.
예시 3: 음성 대화 ChatGPT 모바일 앱의 Voice Mode → 말하면 음성으로 답변. 사용자 음성 → 의도 파악 → 음성 응답 생성. 진짜 대화처럼 흐른다.
예시 4: 코드 + 스크린샷 앱 화면 캡처 + “이 화면 코드로 구현해줘” → React·HTML 코드 생성. 디자인을 그대로 코드로 옮기는 작업이 한 번에.
예시 5: Computer Use Claude의 Computer Use, ChatGPT Operator → AI가 화면을 보고 마우스·키보드 조작. 이미지 이해 + 동작 출력의 결합으로 자동화 영역이 폭발적으로 늘어난다.
어디까지 잘 되고 어디서 막히나
멀티모달은 빠르게 발전 중이지만 여전히 한계가 있다.
잘 되는 영역
- 사진 → 텍스트 설명: 일반 사진 거의 정확히 설명
- 차트·표 인식: 막대그래프·표 읽기 양호
- OCR: 인쇄 글자는 거의 완벽
- 영수증·메뉴판: 합계·항목 파악 가능
- 간단한 다이어그램: 플로우차트 등 이해
아직 막히는 영역
- 한국어 손글씨: 인식률 차이 큼
- 복잡한 표·중첩 표: 행·열 매핑 가끔 틀림
- 세밀한 차트: 작은 글자·숫자 누락
- 영상 실시간 분석: 짧은 클립은 가능, 긴 영상은 제한적
- 음악 작곡: 가능한 모델은 아직 적음
이 차이를 알고 작업 도구를 선택하면 시간을 많이 아낀다.
비용 주의
멀티모달 입력은 텍스트보다 비싸다.
- 이미지 한 장 ≈ 수백~수천 토큰 (해상도·모델별)
- 음성 1분 ≈ 수천~만 단위 토큰
- 영상은 더 큼
같은 작업이라도 텍스트로 가능하면 텍스트가 저렴. 이미지·음성은 정말 필요한 경우에만.
비슷한 용어와 차이
| 용어 | 뜻 | 멀티모달과의 차이 |
|---|---|---|
| Vision API | 이미지 분석 전용 옛 용어 | 멀티모달의 일부 |
| Speech-to-Text | 음성→텍스트 변환 | 멀티모달의 한 기능 |
| Text-to-Image | 텍스트로 이미지 생성 | 멀티모달의 한 형태 |
| Omni-modal | 모든 modality 자유 입출력 | 멀티모달의 확장 개념 |
| OCR | 이미지 안 글자 인식 | 멀티모달의 부분 기능 |
언제 멀티모달을 마주치나
- AI 챗봇: 사진·음성 첨부 가능 표시
- AI 코딩 도구: 디자인 캡처 → 코드 생성
- OS 자동화: Computer Use, OS Operator
- AI 모델 비교: 멀티모달 능력 벤치마크가 핵심 항목
- AI 회의 도구: 영상 + 음성 + 슬라이드 동시 처리
관련 용어
- LLM: 멀티모달 모델은 LLM의 확장. LLM이 뭐야? 참고.
- 토큰(Token): 이미지·음성도 결국 토큰으로 환산. 토큰이 뭐야? 참고.
- AI 에이전트: 멀티모달이 에이전트의 화면 이해 능력의 기반. AI 에이전트가 뭐야? 참고.
- 컨텍스트 윈도우: 이미지 첨부 시 컨텍스트 사용량 급증. 컨텍스트 윈도우가 뭐야? 참고.
멀티모달은 “글·이미지·음성·영상을 한 모델이 동시에 다루는 AI”다. 텍스트만 다루던 AI 시대가 끝나고, 사용자가 그냥 사진을 보여주거나 말로 묻는 자연스러운 사용 방식이 표준이 됐다. 이미지 인식·차트 분석·OS 자동화 같은 새 응용 영역이 멀티모달 위에서 빠르게 만들어지고 있다.
출처
- OpenAI, GPT 모델 멀티모달 안내, https://platform.openai.com/docs/guides/vision
- Anthropic, Claude Vision 가이드, https://docs.anthropic.com/
- Google, Gemini 멀티모달 안내, https://deepmind.google/technologies/gemini/