1. 개념
1) 하나의 큰 모델 대신 여러 개의 작은 expert 모델로 구성
2) input에 따라 일부 전문가만 선택적으로 활성화되어 계산에 참여
2. 구성 요소
1) expert 모델: Linear layer, MLP, etc.을 수행하는 하위 네트워크
2) Router(라우터): input data를 분석하여 어떤 전문가에 할당할지 결정
3) Gater(게이터): 라우터의 결정에 따라 전문가에 할당할 가중치 계산
3. 동작방식
1) input data가 router에게 전달
2) router는 input의 특성을 분석하여 가장 적합한 전문가 선택
3) gater는 선택된 전문가에 대한 가중치 계산
4) 선택된 전문가만 활성화되어 input data 처리
5) 전문가의 출력은 gater의 가중치를 사용하여 통합됨
4. 이점
1) 계산 효율성 증가
2) 과적합 문제 완화