파라미터(Parameter)가 뭐야? 'GPT-4 1조'의 진짜 의미 5분 정리
AI 모델 뉴스에서 가장 자주 보는 단어 중 하나가 “70B 파라미터”, “1조 파라미터” 같은 숫자다. 이 숫자가 정확히 뭘 의미하고 왜 중요한지 알면 모델 비교가 훨씬 빨라진다.

파라미터 한 줄 정의
**파라미터(Parameter)**는 AI 모델이 학습 중 만들어내는 내부 수치다.
비유하자면 모델 내부의 작은 다이얼들이다. 학습이 끝난 모델은 이 다이얼들의 위치가 다 결정된 상태다. 사용자가 질문을 던지면 그 다이얼들이 함께 작동해 답이 만들어진다.
요즘 LLM은 이 다이얼이 수십억~수조 개 단위다. 70B 모델 = 다이얼 700억 개. 다이얼이 많을수록 더 복잡한 패턴을 학습할 수 있지만, 그만큼 메모리·전력·계산도 많이 든다.
중학생도 이해하는 비유
파라미터를 가장 쉽게 설명하는 비유는 악기 조율 나사다.
피아노 한 대에는 약 230개 줄이 있고, 각 줄마다 조율 나사가 있다. 그 나사 하나하나의 위치가 피아노 소리를 결정한다. 한 나사라도 잘못 돌아가면 그 음이 어색해진다.
LLM도 마찬가지다. 다만 피아노가 230개 나사라면, GPT 같은 모델은 수천억 개 나사를 가진 거대한 악기다. 학습은 그 모든 나사를 정확한 위치로 맞추는 과정이다. 한 번 맞추면 같은 위치로 고정되고, 그 위에서 답이 만들어진다.
큰 악기일수록 다양한 소리를 낼 수 있다. 동시에 운반·조율·연주에 더 큰 자원이 든다. 이게 큰 파라미터 모델의 장단점과 똑같다.
파라미터 수 표기법
| 표기 | 의미 | 예 |
|---|---|---|
| M | Million (백만, 10⁶) | 350M (3억 5천만) |
| B | Billion (십억, 10⁹) | 70B (700억) |
| T | Trillion (조, 10¹²) | 1T (1조) |
“Llama 3.1 405B”는 4050억 파라미터, “DeepSeek-V3 671B”는 6710억 파라미터라는 뜻이다. 사용자가 이 숫자만 봐도 모델 크기와 인프라 부담을 빠르게 가늠할 수 있다.
파라미터가 결정하는 것
파라미터가 클수록 다음이 늘어난다.
1. 패턴 다양성 복잡한 언어 패턴, 다양한 분야 지식을 한 모델에 담을 수 있다.
2. 메모리 요구량 70B 모델은 16-bit 정밀도로 약 140GB GPU 메모리 필요. 양자화로 줄일 수는 있지만 한계가 있다.
3. 추론 비용·속도 같은 질문이라도 큰 모델이 답을 만드는 데 더 많은 계산이 든다. 그래서 가격이 비싸고 응답이 더 느리다.
4. 학습 비용 수억~수십억 달러 단위로 들어간다. 그래서 큰 모델은 자본이 풍부한 회사만 만들 수 있다.
다만 파라미터가 항상 정답은 아니다. 작은 모델로도 특정 작업에서 큰 모델 수준 결과를 내는 사례가 늘고 있다. 학습 데이터 품질·후속 튜닝·도메인 특화가 큰 차이를 만든다.
자주 보는 모델 크기 분포
| 크기 | 활용 | 비용·속도 |
|---|---|---|
| 3B 이하 | 모바일·엣지 디바이스 | 매우 저렴·빠름 |
| 7B~13B | 본인 PC 추론 가능 | 저렴, 일상 업무 |
| 30B~70B | 워크스테이션 GPU | 중간, 본격 활용 |
| 100B~700B | 클라우드 GPU 클러스터 | 비싸고 느림, 최고 품질 |
| 1T+ | 거대 데이터센터 | 최고 비용, 최고 성능 |
본인 PC 사용은 7B~13B가 현실적 시작점. 본격 비즈니스는 70B 이상 또는 클라우드 API.
MoE 모델의 파라미터
최근 자주 보이는 MoE(Mixture of Experts) 모델은 파라미터 수가 두 가지로 표기된다.
DeepSeek-V3: 671B total, 37B active per token
Mixtral 8x7B: 46.7B total, 12.9B active
총 파라미터(total): 모델 전체 다이얼 수 활성 파라미터(active): 한 번 추론에 실제 동작하는 다이얼 수
추론 비용·속도에 직접 영향을 주는 건 활성 파라미터다. 671B 모델이라도 활성 37B면 70B 일반 모델 정도 비용으로 돌아간다. 같은 파라미터 합계로 더 똑똑한 모델을 만드는 효율적 구조다.
본인 PC에서 어디까지 돌릴 수 있나
| 하드웨어 | 추천 파라미터 |
|---|---|
| 노트북 (RAM 16GB) | 3B 이하 또는 강한 양자화 7B |
| RTX 4060 (8GB) | 7B~8B 양자화 |
| RTX 4090 (24GB) | 13B 풀, 70B 강한 양자화 |
| 워크스테이션 GPU (80GB) | 70B 풀, 405B 양자화 |
| GPU 클러스터 | 어떤 모델이든 가능 |
Ollama·LM Studio로 5분 안에 설치 가능. 본인 PC 사양에 맞는 모델부터 시작.
비슷한 용어와 차이
| 용어 | 뜻 | 파라미터와의 차이 |
|---|---|---|
| 토큰(Token) | 텍스트 처리 단위 | 사용량 측정 단위, 모델 내부 아님 |
| 컨텍스트 윈도우 | 한 번에 처리 가능한 텍스트 | 파라미터 수와 무관 |
| 하이퍼파라미터 | 학습 시 사람이 정하는 설정 | 학습 결과인 파라미터와 다름 |
| 가중치(Weight) | 파라미터의 다른 이름 | 거의 동의어 |
| MoE 활성 파라미터 | 한 번에 동작하는 부분 집합 | 총 파라미터의 부분 |
언제 파라미터를 마주치나
- 모델 비교: “8B vs 70B 성능 차이” 벤치마크
- 본인 PC 추론: 사양에 맞는 모델 선택
- AI 뉴스: “1조 파라미터 모델 공개” 같은 헤드라인
- API 가격 결정: 큰 모델일수록 토큰 단가 높음
- 오픈소스 활용: 모델 카드(README)의 핵심 정보
관련 용어
- LLM: 파라미터로 구성된 거대 언어 모델. LLM이 뭐야? 참고.
- 토큰(Token): 모델 사용량 측정 단위. 토큰이 뭐야? 참고.
- 추론(Inference): 파라미터를 활용해 답을 만드는 단계. 추론이 뭐야? 참고.
- 컨텍스트 윈도우: 파라미터와 별개의 처리 한도. 컨텍스트 윈도우가 뭐야? 참고.
파라미터는 “AI 모델 내부의 학습된 다이얼”이다. 70B = 700억 개 다이얼이라는 뜻이고, 다이얼이 많을수록 복잡한 패턴을 학습할 수 있지만 메모리·비용도 그만큼 늘어난다. 단순히 큰 게 정답은 아니라 데이터·학습 방법이 더 큰 영향을 주는 경우도 많다. 본인 PC 추론은 7B~13B가 현실적 시작점이다.
출처
- Meta, Llama 모델 카드, https://llama.meta.com/
- Mistral AI, 모델 페이지, https://mistral.ai/
- DeepSeek, V3 기술 보고서, https://github.com/deepseek-ai/DeepSeek-V3