파라미터가 뭔가요?

AI 모델이 학습 중 만들어내는 내부 수치다. 모델이 '어떻게 답할지'를 결정하는 작은 다이얼들의 모음이라고 보면 된다. 보통 수십억~수조 개 단위로 셀 수 있을 만큼 많다.

Llama 3 70B의 70B가 뭔가요?

70B는 70 Billion, 즉 700억 개의 파라미터를 가진 모델이라는 뜻이다. 8B(80억), 70B(700억), 405B(4050억) 같이 모델 크기를 표시할 때 쓴다.

파라미터가 많을수록 똑똑한가요?

일반적으로 그렇지만 절대적 기준은 아니다. 학습 데이터 품질, 학습 방법, 후속 튜닝이 더 중요한 경우도 많다. 작은 파라미터로도 큰 모델 성능에 가까운 사례가 늘고 있다.

ChatGPT, Claude의 파라미터 수는 공개돼 있나요?

OpenAI와 Anthropic은 자체 모델 파라미터 수를 공식 공개하지 않는다. 추정치는 있지만 공식 발표가 아니므로 이 글에서는 구체 수치를 단정하지 않는다.

오픈소스 모델은 파라미터 수가 공개되나요?

그렇다. Llama, Mistral, Qwen 같은 오픈소스 모델은 8B·70B·405B처럼 명시적으로 표기된다. 모델 카드(README)에 다 적혀 있다.

파라미터가 크면 본인 PC에서 못 돌리나요?

그런 경향이다. 7B·8B 모델은 RTX 4060 노트북에서도 가능하지만, 70B 이상은 워크스테이션 GPU(80GB H100 등)가 필요하다. 양자화(quantization)로 메모리를 줄이면 일부 절감 가능.

MoE(Mixture of Experts)는 파라미터를 어떻게 세나요?

MoE 모델은 총 파라미터 수와 한 번에 활성화되는 파라미터 수가 다르다. 예: 총 671B 중 활성 37B처럼 표기한다. '활성' 숫자가 추론 속도·비용에 더 직접 영향이다.

파라미터와 토큰은 같은 건가요?

전혀 다르다. 파라미터는 모델 내부의 학습된 수치, 토큰은 텍스트 처리 단위다. 둘 다 숫자로 표시되지만 차원이 다르다.

Reasoning 모델은 파라미터가 더 큰가요?

꼭 그렇지는 않다. 같은 파라미터 모델에 추론 단계 학습을 추가한 형태가 많다. 파라미터보다 학습 방식 차이가 더 크다.

본인 PC에서 어떤 파라미터 모델로 시작하면 좋나요?

RTX 30·40 시리즈 노트북·데스크톱이면 7B~13B 모델로 시작 권장. Llama 3.1 8B, Mistral 7B, Qwen 7B 등이 무난하다. 16GB+ VRAM이면 양자화 70B도 가능.

파라미터가 많으면 환각이 줄어드나요?

일반적으로 그런 경향이지만 보장은 아니다. 큰 모델이라도 데이터·튜닝이 부족하면 환각이 많을 수 있다. 환각 감소는 파라미터보다 학습 방법·검증 단계가 더 큰 영향을 준다.

파라미터 수 표기는 어떻게 보면 되나요?

B = Billion(10억), T = Trillion(1조), M = Million(100만). 7B는 70억 개. 보통 모델 이름에 함께 표기된다.

#064 · 66편 중

파라미터(Parameter)가 뭐야? 'GPT-4 1조'의 진짜 의미 5분 정리

2026년 5월 12일 · 수정 2026. 5. 12. AI 통통

AI 모델 뉴스에서 가장 자주 보는 단어 중 하나가 “70B 파라미터”, “1조 파라미터” 같은 숫자다. 이 숫자가 정확히 뭘 의미하고 왜 중요한지 알면 모델 비교가 훨씬 빨라진다.

파라미터 개념을 설명하는 AI 통통 입문 가이드 이미지

파라미터 한 줄 정의

**파라미터(Parameter)**는 AI 모델이 학습 중 만들어내는 내부 수치다.

비유하자면 모델 내부의 작은 다이얼들이다. 학습이 끝난 모델은 이 다이얼들의 위치가 다 결정된 상태다. 사용자가 질문을 던지면 그 다이얼들이 함께 작동해 답이 만들어진다.

요즘 LLM은 이 다이얼이 수십억~수조 개 단위다. 70B 모델 = 다이얼 700억 개. 다이얼이 많을수록 더 복잡한 패턴을 학습할 수 있지만, 그만큼 메모리·전력·계산도 많이 든다.

중학생도 이해하는 비유

파라미터를 가장 쉽게 설명하는 비유는 악기 조율 나사다.

피아노 한 대에는 약 230개 줄이 있고, 각 줄마다 조율 나사가 있다. 그 나사 하나하나의 위치가 피아노 소리를 결정한다. 한 나사라도 잘못 돌아가면 그 음이 어색해진다.

LLM도 마찬가지다. 다만 피아노가 230개 나사라면, GPT 같은 모델은 수천억 개 나사를 가진 거대한 악기다. 학습은 그 모든 나사를 정확한 위치로 맞추는 과정이다. 한 번 맞추면 같은 위치로 고정되고, 그 위에서 답이 만들어진다.

큰 악기일수록 다양한 소리를 낼 수 있다. 동시에 운반·조율·연주에 더 큰 자원이 든다. 이게 큰 파라미터 모델의 장단점과 똑같다.

파라미터 수 표기법

표기	의미	예
M	Million (백만, 10⁶)	350M (3억 5천만)
B	Billion (십억, 10⁹)	70B (700억)
T	Trillion (조, 10¹²)	1T (1조)

“Llama 3.1 405B”는 4050억 파라미터, “DeepSeek-V3 671B”는 6710억 파라미터라는 뜻이다. 사용자가 이 숫자만 봐도 모델 크기와 인프라 부담을 빠르게 가늠할 수 있다.

파라미터가 결정하는 것

파라미터가 클수록 다음이 늘어난다.

1. 패턴 다양성 복잡한 언어 패턴, 다양한 분야 지식을 한 모델에 담을 수 있다.

2. 메모리 요구량 70B 모델은 16-bit 정밀도로 약 140GB GPU 메모리 필요. 양자화로 줄일 수는 있지만 한계가 있다.

3. 추론 비용·속도 같은 질문이라도 큰 모델이 답을 만드는 데 더 많은 계산이 든다. 그래서 가격이 비싸고 응답이 더 느리다.

4. 학습 비용 수억~수십억 달러 단위로 들어간다. 그래서 큰 모델은 자본이 풍부한 회사만 만들 수 있다.

다만 파라미터가 항상 정답은 아니다. 작은 모델로도 특정 작업에서 큰 모델 수준 결과를 내는 사례가 늘고 있다. 학습 데이터 품질·후속 튜닝·도메인 특화가 큰 차이를 만든다.

자주 보는 모델 크기 분포

크기	활용	비용·속도
3B 이하	모바일·엣지 디바이스	매우 저렴·빠름
7B~13B	본인 PC 추론 가능	저렴, 일상 업무
30B~70B	워크스테이션 GPU	중간, 본격 활용
100B~700B	클라우드 GPU 클러스터	비싸고 느림, 최고 품질
1T+	거대 데이터센터	최고 비용, 최고 성능

본인 PC 사용은 7B~13B가 현실적 시작점. 본격 비즈니스는 70B 이상 또는 클라우드 API.

MoE 모델의 파라미터

최근 자주 보이는 MoE(Mixture of Experts) 모델은 파라미터 수가 두 가지로 표기된다.

DeepSeek-V3: 671B total, 37B active per token
Mixtral 8x7B: 46.7B total, 12.9B active

총 파라미터(total): 모델 전체 다이얼 수 활성 파라미터(active): 한 번 추론에 실제 동작하는 다이얼 수

추론 비용·속도에 직접 영향을 주는 건 활성 파라미터다. 671B 모델이라도 활성 37B면 70B 일반 모델 정도 비용으로 돌아간다. 같은 파라미터 합계로 더 똑똑한 모델을 만드는 효율적 구조다.

본인 PC에서 어디까지 돌릴 수 있나

하드웨어	추천 파라미터
노트북 (RAM 16GB)	3B 이하 또는 강한 양자화 7B
RTX 4060 (8GB)	7B~8B 양자화
RTX 4090 (24GB)	13B 풀, 70B 강한 양자화
워크스테이션 GPU (80GB)	70B 풀, 405B 양자화
GPU 클러스터	어떤 모델이든 가능

Ollama·LM Studio로 5분 안에 설치 가능. 본인 PC 사양에 맞는 모델부터 시작.

비슷한 용어와 차이

용어	뜻	파라미터와의 차이
토큰(Token)	텍스트 처리 단위	사용량 측정 단위, 모델 내부 아님
컨텍스트 윈도우	한 번에 처리 가능한 텍스트	파라미터 수와 무관
하이퍼파라미터	학습 시 사람이 정하는 설정	학습 결과인 파라미터와 다름
가중치(Weight)	파라미터의 다른 이름	거의 동의어
MoE 활성 파라미터	한 번에 동작하는 부분 집합	총 파라미터의 부분

언제 파라미터를 마주치나

모델 비교: “8B vs 70B 성능 차이” 벤치마크
본인 PC 추론: 사양에 맞는 모델 선택
AI 뉴스: “1조 파라미터 모델 공개” 같은 헤드라인
API 가격 결정: 큰 모델일수록 토큰 단가 높음
오픈소스 활용: 모델 카드(README)의 핵심 정보