KV 캐시 (KV Cache)
이전 토큰의 계산 결과를 저장하여 중복 계산을 피함으로써 추론 속도를 높이는 메모리 공간
1 / 3
용례
"로컬 추론에서 긴 문맥 처리와 배치 추론을 가능하게 하고 일반 소비자 플랫폼에서도 이를 구현할 수 있게 하는 게임 체인저임."
"100만 토큰 컨텍스트 윈도우를 실행할 때 KV 캐시의 10%만 사용하며, 하이브리드 어텐션을 통해 KV 캐시 메모리 부담을 90% 줄임."
"터보퀀트는 임시 데이터나 키-값 캐시를 압축함으로써 인공지능 모델이 현재처럼 많은 양의 메모리를 독점할 필요가 없게 만듦."