DeepSeek 논문 정리

By | 2025년 2월 12일
Table of Contents

DeepSeek 논문 정리

틀린 부분이 있을 수 있습니다.

DeepSeek-R1-Zero

  • DeepSeek-V3-Base 를 기반으로 RL 만을 이용해 학습

    처음부터 시작하면 시간과 돈이 많이 들기 때문에 교사 모델로부터 지식 증류(Knowledge Distillation)함

    [추측] 여러 방법이 있지만 수십만개의 질문을 던지고 답변을 받아, 그 데이타로 학습했을 듯.

  • 지도학습 생략

    지도학습(사람이 생성한 질문과 정답 제공) 은 시간과 비용이 많이 들기 때문에 생력

  • RL 만을 이용해 학습

    • 기존 보상모델 생략

    모델이 답을 내면 사람이 답을 평가하고,
    그것(질문+답+평가)을 가지고 평가를 자동화하는 보상 모델을 새로 구측하지만,
    이것을 생략함

    • 답변 평가 자동화

    GRPO (Group Relative Policy Optimization) 방법 개발

    • 동일한 질문에 답변을 여러개 생성하도록 함

    • 미리 정의된 답변 평가 규칙에 따라 점수화 (예시: 수학의 경우 정답이 있음)

    • 가장 좋은 점수가 나온 질문-답변으로 학습

    • 정답이 없는 질문의 경우 각 답변들을 점수화해서 모두 학습

    • 답변이 난해, 언어 혼합 문제(영어,중국어 혼재)

DeepSeek-R1 (이번 연구 모델)

  • 순서 : 지식 증류(Knowledge Distillation) => SFT => RL

  • 역시 지식증류로 시작

  • 소량의 지도 학습 데이타 제공 (사람이 질문 답변 생성)

  • 이후 강화학습 시작

    • 답변 평가 자동화

    GRPO (Group Relative Policy Optimization)

    • 보상모델

    모델이 특정 형식(예: <think> 사고 과정 </think> <answer> 최종 답변 </answer>)에 따라 추론하고 답변하도록 유도

    모델이 자기 평가를 하기 시작함

    • 다단계학습

    추론과정에서 나온 질문답변을 이용해 재학습

    • 언어 일관성

    <think> 사고 과정 </think> 영역에 단일 언어만 사용하도록 유도

    목표 언어 단어 비율을 보상에 반영

    • 직접 증류

    교사 모델에 모델이 직접 질문하게 하고 답변을 학습

답글 남기기