범용 인공지능 모델에 한국어 추가학습하기 (개념)
기존 범용 인공지능 모델(예: GPT, LLaMA, T5 등)에 한국어 능력을 추가하는 방법을 설명합니다.
크게 2가지 방법이 있습니다.
추가 사전학습 (Continued Pretraining)
기존 모델이 한국어를 거의 모르는 경우에 사용합니다.
범용 한국어 데이터 (한국어 위키백과, 뉴스, 블로그, AI Hub 데이터) 를 준비합니다.
모델 아키텍처에 따라 다음과 같은 학습 방식을 선택할 수 있습니다.
Masked Language Modeling(MLM)
대량의 한국어 데이터를 Masked Language Modeling(MLM) 방식으로 학습시킵니다.
Masked Language Modeling(MLM)은 문장에서 일부 단어를 마스킹(가림)하고, 모델이 이를 예측하도록 학습하는 자연어 처리(NLP) 기법입니다.
문장의 일부 토큰을 랜덤하게 [MASK] 토큰으로 교체합니다.
예시:
- 첫 번째 학습: "나는 오늘 [MASK] 갔다."
- 두 번째 학습: "나는 [MASK] 공원에 갔다."
- 세 번째 학습: "나는 오늘 공원에 [MASK]."
형태소분석은 보통 하지 않습니다.
오타나 신조어에 보다 잘 대응할 수 있기 때문입니다.
Autoregressive Language Modeling (GPT 계열)
이전 단어들을 기반으로 다음 단어를 예측하는 방식입니다.
입력된 텍스트 시퀀스의 다음 토큰을 순차적으로 예측하면서 학습합니다.
예시:
입력: "나는 오늘"
예측: "공원에"
입력: "나는 오늘 공원에"
예측: "갔다"
Sequence-to-Sequence 방식 (T5, BART)
입력 시퀀스를 받아 출력 시퀀스를 생성하는 방식입니다.
인코더-디코더 구조를 활용하여 다양한 태스크(번역, 요약, 질문답변 등)를 학습할 수 있습니다.
손상된 텍스트를 복원하거나 노이즈가 있는 입력을 정제하는 방식으로도 학습이 가능합니다.
파인튜닝 (Fine-tuning)
기존 모델이 한국어를 어느 정도 알고 있는 경우에 사용합니다.
한국어-영어 병렬 데이터 (번역 데이터 등)나 특정 태스크에 맞는 데이터셋을 준비합니다.
준비된 데이터로 특정 태스크에 맞게 모델을 미세조정합니다.
주요 파인튜닝 태스크:
- 기계번역: 한국어-영어 번역 데이터로 학습
- 문서요약: 한국어 문서-요약문 페어로 학습
- 감성분석: 한국어 텍스트와 감성레이블로 학습
- 질의응답: 한국어 질문-답변 페어로 학습