#064 · 66편 중
파라미터(Parameter)가 뭐야? 'GPT-4 1조'의 진짜 의미 5분 정리

파라미터(Parameter)가 뭐야? 'GPT-4 1조'의 진짜 의미 5분 정리

AI 모델 뉴스에서 가장 자주 보는 단어 중 하나가 “70B 파라미터”, “1조 파라미터” 같은 숫자다. 이 숫자가 정확히 뭘 의미하고 왜 중요한지 알면 모델 비교가 훨씬 빨라진다.

파라미터 개념을 설명하는 AI 통통 입문 가이드 이미지

파라미터 한 줄 정의

**파라미터(Parameter)**는 AI 모델이 학습 중 만들어내는 내부 수치다.

비유하자면 모델 내부의 작은 다이얼들이다. 학습이 끝난 모델은 이 다이얼들의 위치가 다 결정된 상태다. 사용자가 질문을 던지면 그 다이얼들이 함께 작동해 답이 만들어진다.

요즘 LLM은 이 다이얼이 수십억~수조 개 단위다. 70B 모델 = 다이얼 700억 개. 다이얼이 많을수록 더 복잡한 패턴을 학습할 수 있지만, 그만큼 메모리·전력·계산도 많이 든다.

중학생도 이해하는 비유

파라미터를 가장 쉽게 설명하는 비유는 악기 조율 나사다.

피아노 한 대에는 약 230개 줄이 있고, 각 줄마다 조율 나사가 있다. 그 나사 하나하나의 위치가 피아노 소리를 결정한다. 한 나사라도 잘못 돌아가면 그 음이 어색해진다.

LLM도 마찬가지다. 다만 피아노가 230개 나사라면, GPT 같은 모델은 수천억 개 나사를 가진 거대한 악기다. 학습은 그 모든 나사를 정확한 위치로 맞추는 과정이다. 한 번 맞추면 같은 위치로 고정되고, 그 위에서 답이 만들어진다.

큰 악기일수록 다양한 소리를 낼 수 있다. 동시에 운반·조율·연주에 더 큰 자원이 든다. 이게 큰 파라미터 모델의 장단점과 똑같다.

파라미터 수 표기법

표기의미
MMillion (백만, 10⁶)350M (3억 5천만)
BBillion (십억, 10⁹)70B (700억)
TTrillion (조, 10¹²)1T (1조)

“Llama 3.1 405B”는 4050억 파라미터, “DeepSeek-V3 671B”는 6710억 파라미터라는 뜻이다. 사용자가 이 숫자만 봐도 모델 크기와 인프라 부담을 빠르게 가늠할 수 있다.

파라미터가 결정하는 것

파라미터가 클수록 다음이 늘어난다.

1. 패턴 다양성 복잡한 언어 패턴, 다양한 분야 지식을 한 모델에 담을 수 있다.

2. 메모리 요구량 70B 모델은 16-bit 정밀도로 약 140GB GPU 메모리 필요. 양자화로 줄일 수는 있지만 한계가 있다.

3. 추론 비용·속도 같은 질문이라도 큰 모델이 답을 만드는 데 더 많은 계산이 든다. 그래서 가격이 비싸고 응답이 더 느리다.

4. 학습 비용 수억~수십억 달러 단위로 들어간다. 그래서 큰 모델은 자본이 풍부한 회사만 만들 수 있다.

다만 파라미터가 항상 정답은 아니다. 작은 모델로도 특정 작업에서 큰 모델 수준 결과를 내는 사례가 늘고 있다. 학습 데이터 품질·후속 튜닝·도메인 특화가 큰 차이를 만든다.

자주 보는 모델 크기 분포

크기활용비용·속도
3B 이하모바일·엣지 디바이스매우 저렴·빠름
7B~13B본인 PC 추론 가능저렴, 일상 업무
30B~70B워크스테이션 GPU중간, 본격 활용
100B~700B클라우드 GPU 클러스터비싸고 느림, 최고 품질
1T+거대 데이터센터최고 비용, 최고 성능

본인 PC 사용은 7B~13B가 현실적 시작점. 본격 비즈니스는 70B 이상 또는 클라우드 API.

MoE 모델의 파라미터

최근 자주 보이는 MoE(Mixture of Experts) 모델은 파라미터 수가 두 가지로 표기된다.

DeepSeek-V3: 671B total, 37B active per token
Mixtral 8x7B: 46.7B total, 12.9B active

총 파라미터(total): 모델 전체 다이얼 수 활성 파라미터(active): 한 번 추론에 실제 동작하는 다이얼 수

추론 비용·속도에 직접 영향을 주는 건 활성 파라미터다. 671B 모델이라도 활성 37B면 70B 일반 모델 정도 비용으로 돌아간다. 같은 파라미터 합계로 더 똑똑한 모델을 만드는 효율적 구조다.

본인 PC에서 어디까지 돌릴 수 있나

하드웨어추천 파라미터
노트북 (RAM 16GB)3B 이하 또는 강한 양자화 7B
RTX 4060 (8GB)7B~8B 양자화
RTX 4090 (24GB)13B 풀, 70B 강한 양자화
워크스테이션 GPU (80GB)70B 풀, 405B 양자화
GPU 클러스터어떤 모델이든 가능

Ollama·LM Studio로 5분 안에 설치 가능. 본인 PC 사양에 맞는 모델부터 시작.

비슷한 용어와 차이

용어파라미터와의 차이
토큰(Token)텍스트 처리 단위사용량 측정 단위, 모델 내부 아님
컨텍스트 윈도우한 번에 처리 가능한 텍스트파라미터 수와 무관
하이퍼파라미터학습 시 사람이 정하는 설정학습 결과인 파라미터와 다름
가중치(Weight)파라미터의 다른 이름거의 동의어
MoE 활성 파라미터한 번에 동작하는 부분 집합총 파라미터의 부분

언제 파라미터를 마주치나

  • 모델 비교: “8B vs 70B 성능 차이” 벤치마크
  • 본인 PC 추론: 사양에 맞는 모델 선택
  • AI 뉴스: “1조 파라미터 모델 공개” 같은 헤드라인
  • API 가격 결정: 큰 모델일수록 토큰 단가 높음
  • 오픈소스 활용: 모델 카드(README)의 핵심 정보

관련 용어


파라미터는 “AI 모델 내부의 학습된 다이얼”이다. 70B = 700억 개 다이얼이라는 뜻이고, 다이얼이 많을수록 복잡한 패턴을 학습할 수 있지만 메모리·비용도 그만큼 늘어난다. 단순히 큰 게 정답은 아니라 데이터·학습 방법이 더 큰 영향을 주는 경우도 많다. 본인 PC 추론은 7B~13B가 현실적 시작점이다.


출처

#파라미터#Parameter#AI 용어