editoy

MoE (Mixture of Experts)

모든 파라미터를 사용하지 않고 필요한 전문가 네트워크만 활성화하여 연산 효율을 높이는 구조

1 / 4

용례

"전문가 가중치가 대부분의 파라미터와 Muon 계산을 보유함."
"총 350억 개의 파라미터를 가지지만 실제로는 30억 개의 파라미터만 활성화되는 효율적인 전문가 혼합 모델임."
"엔비디아는 Vera Rubin 아키텍처를 통해 MoE 모델 훈련에 필요한 GPU 수를 4배 줄일 수 있다고 주장합니다."
"Rubin은 MoE 모델을 효율적으로 실행하여 AI 성능을 극대화합니다."