DeepSeek 논문 정리
틀린 부분이 있을 수 있습니다.
DeepSeek-R1-Zero
-
DeepSeek-V3-Base 를 기반으로 RL 만을 이용해 학습
처음부터 시작하면 시간과 돈이 많이 들기 때문에 교사 모델로부터 지식 증류(Knowledge Distillation)함
[추측] 여러 방법이 있지만 수십만개의 질문을 던지고 답변을 받아, 그 데이타로 학습했을 듯.
-
지도학습 생략
지도학습(사람이 생성한 질문과 정답 제공) 은 시간과 비용이 많이 들기 때문에 생력
-
RL 만을 이용해 학습
- 기존 보상모델 생략
모델이 답을 내면 사람이 답을 평가하고,
그것(질문+답+평가)을 가지고 평가를 자동화하는 보상 모델을 새로 구측하지만,
이것을 생략함- 답변 평가 자동화
GRPO (Group Relative Policy Optimization) 방법 개발
-
동일한 질문에 답변을 여러개 생성하도록 함
-
미리 정의된 답변 평가 규칙에 따라 점수화 (예시: 수학의 경우 정답이 있음)
-
가장 좋은 점수가 나온 질문-답변으로 학습
-
정답이 없는 질문의 경우 각 답변들을 점수화해서 모두 학습
-
답변이 난해, 언어 혼합 문제(영어,중국어 혼재)
DeepSeek-R1 (이번 연구 모델)
-
순서 : 지식 증류(Knowledge Distillation) => SFT => RL
-
역시 지식증류로 시작
-
소량의 지도 학습 데이타 제공 (사람이 질문 답변 생성)
-
이후 강화학습 시작
- 답변 평가 자동화
GRPO (Group Relative Policy Optimization)
- 보상모델
모델이 특정 형식(예:
<think>
사고 과정</think>
<answer>
최종 답변</answer>
)에 따라 추론하고 답변하도록 유도모델이 자기 평가를 하기 시작함
- 다단계학습
추론과정에서 나온 질문답변을 이용해 재학습
- 언어 일관성
<think>
사고 과정</think>
영역에 단일 언어만 사용하도록 유도목표 언어 단어 비율을 보상에 반영
- 직접 증류
교사 모델에 모델이 직접 질문하게 하고 답변을 학습