AI 모델이 텍스트를 처리할 때 쓰는 가장 작은 처리 단위다. 단어보다 더 잘게 쪼갠 조각이라고 보면 된다. ChatGPT, Claude, Gemini 모두 입력과 출력을 토큰 단위로 계산한다.

단어와 토큰은 같은 건가요?

다르다. 영어는 단어 하나가 대략 토큰 1개에 가깝지만, 길거나 합성된 단어는 여러 토큰으로 쪼개진다. 'unhappiness'는 'un', 'happi', 'ness'처럼 3토큰이 될 수 있다.

한국어는 토큰이 얼마나 되나요?

한국어는 영어보다 토큰이 더 많이 잡히는 편이다. 한 글자가 1~2토큰 정도로 쪼개지는 경우가 흔하다. 그래서 같은 분량의 글이라도 영어보다 한국어 사용량이 더 많이 측정된다.

토큰 수를 미리 확인할 수 있나요?

OpenAI는 platform.openai.com에서 Tokenizer 도구를 제공한다. Anthropic도 공식 문서에 토큰 카운팅 가이드가 있다. 텍스트를 붙여 넣으면 토큰 수가 바로 계산된다.

왜 요금이 토큰 기준인가요?

AI 모델이 실제 처리하는 단위가 토큰이기 때문이다. 단어 단위로는 언어마다 길이 차이가 너무 커서 공정한 과금이 어렵다. 토큰은 모델 내부에서 일관된 단위라 입력·출력량을 정확히 측정할 수 있다.

입력 토큰과 출력 토큰의 차이는 뭔가요?

입력 토큰은 사용자가 보낸 프롬프트와 첨부 문서의 양이고, 출력 토큰은 AI가 답변으로 생성한 양이다. 보통 출력 토큰이 입력 토큰보다 단가가 더 비싸다.

1만 토큰은 어느 정도 분량인가요?

영어 기준 약 7,500단어 정도다. A4 용지로 15장 분량 쯤 된다. 한국어는 그보다 적어서 A4 8~10장 분량 가까이 된다.

토큰을 줄이려면 어떻게 해야 하나요?

긴 배경 설명을 짧게 줄이고, 표·코드처럼 토큰을 많이 쓰는 형식은 필요할 때만 첨부하는 게 기본이다. 같은 질문을 반복하지 않고 한 번에 명확하게 묻는 것도 토큰을 아끼는 방법이다.

컨텍스트 윈도우와 토큰은 어떤 관계인가요?

컨텍스트 윈도우는 모델이 한 번에 처리할 수 있는 토큰의 최대 개수다. 예를 들어 컨텍스트 윈도우가 20만 토큰이라면, 입력과 출력을 합쳐 그 안에 들어와야 한다.

API를 안 써도 토큰을 알아야 하나요?

유료 플랜의 메시지 한도, 파일 업로드 크기 제한이 모두 내부적으로 토큰 기준이다. 평소에는 신경 쓰지 않아도 되지만, 긴 문서를 다루다 한도에 닿으면 토큰 개념을 알아두는 게 도움이 된다.

GPT-4와 Claude의 토큰 계산이 다른가요?

기본 원리는 같지만 토크나이저(쪼개는 알고리즘)가 달라서 같은 문장도 모델마다 토큰 수가 조금씩 다르게 잡힌다. 정확한 수치는 각 서비스의 공식 토크나이저로 확인해야 한다.

이미지나 음성도 토큰으로 계산되나요?

최근 멀티모달 모델은 이미지·음성도 내부적으로 토큰 단위로 변환해 처리한다. 이미지 한 장이 수백~수천 토큰으로 환산되는 식이다. 이미지를 자주 첨부하면 토큰 사용량이 빠르게 늘어난다.

#029 · 48편 중

토큰(Token) 뜻 정리: AI 요금이 토큰으로 계산되는 이유

2026년 5월 2일 · 수정 2026. 5. 2. AI 통통

ChatGPT를 길게 쓰다 보면 “메시지 한도 초과” 알림을 만나는 순간이 있다. 그 한도의 진짜 단위가 바로 토큰이다.

AI 토큰(Token) 개념을 설명하는 AI 통통 입문 가이드 이미지

토큰 한 줄 정의

**토큰(Token)**은 AI 모델이 텍스트를 처리할 때 쓰는 가장 작은 처리 단위다.

풀어 말하면, AI는 우리가 쓰는 단어 그대로를 보지 않는다. 텍스트를 더 잘게 쪼갠 조각으로 변환해서 학습하고 답변한다. 이 조각 하나하나가 토큰이다. ChatGPT, Claude, Gemini 모두 내부에서 입력과 출력을 토큰 단위로 처리한다.

영어는 단어 1개가 대략 토큰 1개에 가깝지만, 길거나 흔치 않은 단어는 여러 토큰으로 쪼개진다. 한국어는 더 잘게 쪼개져서 글자 1개당 1~2토큰 정도로 잡힌다.

중학생도 이해하는 비유

토큰을 이해하는 가장 쉬운 비유는 이거다.

“AI는 글을 레고 블록처럼 쪼개서 읽는다” 라고 생각하면 된다.

우리 눈에는 “안녕하세요”가 한 단어로 보이지만, AI는 그 글자를 작은 블록 몇 개로 나눠서 본다. “안”, “녕”, “하”, “세”, “요” 같은 식이다(실제 분할 방식은 모델마다 조금씩 다르다). 영어로 “unhappiness”도 비슷하다. AI 입장에서는 “un”, “happi”, “ness” 같은 블록 3개에 가깝다.

이렇게 쪼개야 하는 이유는 단순하다. 사람이 평생 만나는 모든 단어를 미리 외워둘 수는 없으니, 작은 블록 단위로 쪼개야 처음 보는 단어도 조합해서 이해할 수 있다.

실제 사용 예시

토큰 개념은 보통 이런 상황에서 마주친다.

예시 1: 메시지 한도 무료 ChatGPT나 Claude를 쓰다가 “한도에 도달했습니다” 알림이 뜨는 경우가 있다. 이 한도의 실제 단위가 토큰이다. 짧은 대화 여러 번보다, 긴 문서 한 번 붙여 넣은 쪽이 토큰을 훨씬 많이 쓴다.

예시 2: API 요금 개발자가 OpenAI나 Anthropic API를 쓸 때, 청구서는 토큰 사용량으로 매겨진다. 입력 토큰과 출력 토큰의 단가가 따로 있고, 보통 출력이 더 비싸다. “이 한 번의 호출에 토큰이 얼마나 쓰였나”가 비용 그 자체다.

예시 3: 컨텍스트 윈도우 “컨텍스트 윈도우 20만 토큰”이라는 표현을 만난 적이 있다면, 그건 “이 모델은 한 번에 토큰 20만 개까지 처리할 수 있다”는 뜻이다. 한국어 책 한 권 분량을 한꺼번에 넣을 수 있다는 의미가 되기도 한다.

비슷한 용어와 차이

헷갈리기 쉬운 단위 개념을 정리했다.

용어	뜻	토큰과의 차이
글자(character)	우리가 보는 한 글자	토큰은 글자보다 더 자유롭게 쪼개진다
단어(word)	띄어쓰기로 나뉘는 단위	영어 단어 1개 ≈ 토큰 1개. 한국어는 다름
문장(sentence)	마침표 기준 한 문장	한 문장에 보통 토큰 수십 개가 들어간다
컨텍스트 윈도우	한 번에 처리 가능한 토큰 한도	토큰을 담는 그릇 크기
파라미터(parameter)	모델 내부의 학습 수치	토큰 처리 능력에 영향, 그러나 별개 개념

따라서 “토큰 = 단어”가 아니다. 토큰은 모델의 내부 처리 단위이고, 사람이 보는 단어와 일대일로 맞아떨어지지 않는다.

언제 토큰을 마주치나

토큰이라는 단어는 보통 이런 상황에서 등장한다.

유료 플랜 설명: “월 한도 30만 토큰”, “긴 문서 처리 토큰 한도 확장”처럼 사용량을 안내할 때
API 청구서·대시보드: 개발자 콘솔의 사용량 페이지가 전부 토큰 기준으로 표시된다
컨텍스트 윈도우 비교: “이 모델은 100만 토큰 컨텍스트 지원”처럼 모델 스펙을 비교할 때
AI 코딩 도구의 한도: Cursor, Claude Code 같은 도구도 내부적으로 토큰 한도를 가진다

평소에는 토큰을 의식하지 않아도 된다. 긴 문서를 자주 다루거나 API를 직접 쓰는 단계가 되면 자연스럽게 만나게 된다.