멀티모달이 뭔가요?

글·이미지·음성·영상 같은 여러 종류(modality)의 데이터를 한 모델이 동시에 다루는 AI를 말한다. ChatGPT에 사진 올리고 질문하는 것이 가장 흔한 예다.

텍스트 전용 모델과 어떻게 다른가요?

텍스트 전용 모델은 글만 입력·출력한다. 멀티모달 모델은 한 모델 안에서 사진을 보고 답하거나, 음성을 듣고 글로 받아쓰거나, 글로 이미지를 만들 수도 있다.

ChatGPT, Claude, Gemini 다 멀티모달인가요?

현재 주요 상용 모델 대부분이 멀티모달이다. 입력으로 텍스트·이미지·일부 오디오까지 받고, 출력은 보통 텍스트다. 일부 모델은 이미지 출력도 지원한다.

이미지 입력은 어떻게 토큰으로 계산되나요?

이미지 한 장이 수백~수천 토큰으로 환산된다. 정확한 환산 방식은 모델마다 다르고 공식 가이드 확인이 필요하다. 이미지를 자주 첨부하면 토큰 사용량이 빠르게 늘어난다.

음성 인식과 멀티모달은 같은 건가요?

다르다. 음성 인식은 음성→텍스트 변환만 한다. 멀티모달은 음성을 직접 이해하고 답하거나 글·이미지와 함께 처리할 수 있다.

Computer Use는 멀티모달의 한 형태인가요?

그렇다. AI가 화면을 보고(이미지 입력) 마우스·키보드를 조작하는(텍스트·동작 출력) 형태로, 멀티모달 능력의 응용이다.

한국어 멀티모달 성능은 어떤가요?

주요 상용 모델은 한국어 텍스트·이미지 처리 모두 양호하다. 다만 한국어 PDF 표 인식, 손글씨 같은 특정 영역은 영어보다 정확도가 떨어지는 경우가 있다.

이미지 생성과 멀티모달은 같은 건가요?

이미지 생성도 멀티모달의 한 형태다. 텍스트(프롬프트) → 이미지(출력)이 멀티모달 모델 안에서 일어난다. Midjourney·DALL·E·Flux 등이 그 예다.

Vision API와 멀티모달은 같은 건가요?

비슷하지만 Vision API는 이미지 분석에 특화된 옛 용어, 멀티모달은 더 넓은 범주다. 멀티모달 안에 vision·audio·video가 다 포함된다.

멀티모달이 비싼가요?

텍스트 전용보다 비싸다. 이미지·음성은 토큰 환산이 크고 처리 자원도 더 든다. 자주 쓰는 작업이면 비용 모니터링이 중요하다.

AI Agent에서 멀티모달이 왜 중요한가요?

에이전트가 화면을 보고 동작하려면 이미지 이해가 필수다. Computer Use, OS 자동화 같은 영역의 핵심 능력이 멀티모달이다.

멀티모달 모델은 앞으로 어떻게 발전하나요?

더 자연스러운 멀티모달 입출력(영상 실시간 분석, 음성 스트리밍 대화 등), 더 긴 컨텍스트, 더 빠른 추론 방향으로 발전 중이다. 옴니모달(Omni-modal)이라는 용어도 등장했다.

#061 · 66편 중

멀티모달(Multimodal)이 뭐야? 글·이미지·음성을 다 다루는 AI 5분 정리

2026년 5월 11일 · 수정 2026. 5. 11. AI 통통

ChatGPT에 사진 올리고 “이게 뭐야”라고 물어본 적 있다면, 그게 바로 멀티모달 AI를 쓴 순간이다. 글만 다루던 AI가 이제 이미지·음성·영상까지 한꺼번에 처리한다.

멀티모달 AI 개념을 설명하는 AI 통통 입문 가이드 이미지

멀티모달 한 줄 정의

**멀티모달(Multimodal)**은 글·이미지·음성·영상 같은 여러 종류의 데이터를 한 모델이 동시에 다루는 AI다.

여기서 ‘modality’는 정보의 종류를 뜻한다. 글이 한 modality, 사진이 다른 modality, 음성이 또 다른 modality. 옛 AI는 modality 하나만 다뤘지만, 요즘 주요 상용 모델은 거의 다 멀티모달이다.

핵심 변화는 단순하다. 사용자가 더 이상 모든 정보를 글로 변환할 필요가 없다. 사진을 그대로 보여주고, 음성을 그대로 들려주면 모델이 이해한다.

중학생도 이해하는 비유

멀티모달을 가장 쉽게 설명하는 비유는 여러 감각을 가진 친구다.

옛 AI는 글만 읽을 수 있는 친구였다. 사진 보여주려면 “고양이가 소파에 앉아 있는 사진”이라고 글로 설명해야 했다. 음성 메시지 보내려면 받아쓰기 한 글을 보내야 했다.

멀티모달 AI는 눈도 있고 귀도 있는 친구다. 사진을 보여주면 그대로 본다. 음성을 들려주면 그대로 듣는다. 표·도표·손글씨·스크린샷도 그냥 보여주면 이해한다.

이 차이가 일상에서 큰 변화를 만든다. ChatGPT에 영수증 사진 올리고 “이거 합계 얼마야?”, 손글씨 노트 사진 올리고 “이거 디지털화해줘”가 가능해졌다.

모달리티 종류

모달리티	입력 예	출력 예
텍스트(Text)	질문·글	답변·글
이미지(Image)	사진·차트·스크린샷	생성된 이미지
오디오(Audio)	음성·음악	음성 응답·음악
비디오(Video)	영상 클립	(출력은 아직 제한적)
3D·점군	3D 스캔 데이터	3D 객체
코드(Code)	프로그램 소스	코드 생성·수정

대부분 상용 모델은 텍스트 + 이미지 + 일부 오디오 입력 + 텍스트 출력 조합이다. 이미지·음성·영상 출력은 모델별로 차이가 크다.

실제 사용 예시

예시 1: 이미지 분석 ChatGPT에 영수증 사진 → “오늘 점심 얼마 썼어?” 사진을 글자로 인식 + 합계 계산 + 한국어 답변. 한 번에 끝난다.

예시 2: 다이어그램 설명 복잡한 차트·플로우차트 사진 → “이 흐름 설명해줘” 이미지 안 텍스트·화살표·박스를 읽고 자연어로 설명.

예시 3: 음성 대화 ChatGPT 모바일 앱의 Voice Mode → 말하면 음성으로 답변. 사용자 음성 → 의도 파악 → 음성 응답 생성. 진짜 대화처럼 흐른다.

예시 4: 코드 + 스크린샷 앱 화면 캡처 + “이 화면 코드로 구현해줘” → React·HTML 코드 생성. 디자인을 그대로 코드로 옮기는 작업이 한 번에.

예시 5: Computer Use Claude의 Computer Use, ChatGPT Operator → AI가 화면을 보고 마우스·키보드 조작. 이미지 이해 + 동작 출력의 결합으로 자동화 영역이 폭발적으로 늘어난다.

어디까지 잘 되고 어디서 막히나

멀티모달은 빠르게 발전 중이지만 여전히 한계가 있다.

잘 되는 영역

사진 → 텍스트 설명: 일반 사진 거의 정확히 설명
차트·표 인식: 막대그래프·표 읽기 양호
OCR: 인쇄 글자는 거의 완벽
영수증·메뉴판: 합계·항목 파악 가능
간단한 다이어그램: 플로우차트 등 이해

아직 막히는 영역

한국어 손글씨: 인식률 차이 큼
복잡한 표·중첩 표: 행·열 매핑 가끔 틀림
세밀한 차트: 작은 글자·숫자 누락
영상 실시간 분석: 짧은 클립은 가능, 긴 영상은 제한적
음악 작곡: 가능한 모델은 아직 적음

이 차이를 알고 작업 도구를 선택하면 시간을 많이 아낀다.

비용 주의

멀티모달 입력은 텍스트보다 비싸다.

이미지 한 장 ≈ 수백~수천 토큰 (해상도·모델별)
음성 1분 ≈ 수천~만 단위 토큰
영상은 더 큼

같은 작업이라도 텍스트로 가능하면 텍스트가 저렴. 이미지·음성은 정말 필요한 경우에만.

비슷한 용어와 차이

용어	뜻	멀티모달과의 차이
Vision API	이미지 분석 전용 옛 용어	멀티모달의 일부
Speech-to-Text	음성→텍스트 변환	멀티모달의 한 기능
Text-to-Image	텍스트로 이미지 생성	멀티모달의 한 형태
Omni-modal	모든 modality 자유 입출력	멀티모달의 확장 개념
OCR	이미지 안 글자 인식	멀티모달의 부분 기능

언제 멀티모달을 마주치나

AI 챗봇: 사진·음성 첨부 가능 표시
AI 코딩 도구: 디자인 캡처 → 코드 생성
OS 자동화: Computer Use, OS Operator
AI 모델 비교: 멀티모달 능력 벤치마크가 핵심 항목
AI 회의 도구: 영상 + 음성 + 슬라이드 동시 처리