연구 배경
클라우드 의존에서 벗어나 로컬 환경에서 AI 모델을 커스터마이징하는 방법을 연구합니다. 96GB VRAM 단일 GPU를 최대한 활용하여 도메인 특화 모델을 효율적으로 학습합니다.
연구 중인 기법들
파인튜닝
SFT (Supervised Fine-Tuning)
정답 데이터로 직접 학습. 96GB면 32B 모델 Full Fine-tuning 가능. 도메인 특화의 기본
LoRA (Low-Rank Adaptation)
효율성 vs 성능 트레이드오프 연구. Full FT와 비교 실험으로 최적 전략 탐색
강화학습
DPO (Direct Preference Optimization)
Reward 모델 없이 선호도 직접 학습. RLHF보다 50% 적은 컴퓨팅, 더 안정적
GRPO (Group Relative Policy Optimization)
DeepSeek 방식. 검증 가능한 보상(RLVR)과 결합. 엑셀 수식 등 실행 검증에 최적
Diffusion 튜닝
DreamBooth
적은 이미지로 특정 피사체를 학습. 3~20장의 이미지만으로 일관된 캐릭터/객체 생성
스타일 LoRA
50~200장의 이미지로 특정 아트 스타일 학습. 브랜드 일관성 유지에 효과적
경량화 / 배포
양자화 (Quantization)
INT8/INT4 양자화로 모델 크기 축소. 추론 속도 향상과 메모리 절약
Unsloth / vLLM
학습 및 추론 최적화 도구. 2배 이상의 속도 향상과 효율적인 배포
연구 인프라
RTX PRO 6000 96GB
VRAM
96GB GDDR7
아키텍처
Blackwell
FP16 성능
~100 TFLOPS
Unsloth
DeepSpeed
Flash Attention 2
bitsandbytes
TRL (DPO/ORPO)
OpenRLHF
문의하기
연구 내용에 대해 궁금한 점이 있으시면
편하게 연락 주세요.
이메일
contact@lunarabbit.ai
GitHub
github.com/lunarabbit
위치
대한민국