server: args for draft model cache types (#11200) #13782

aa956 · 2025-05-25T17:48:36Z

Should fix the #11200, while keeping the default f16 from #10586.

New command line arguments:

Argument	Explanation
`-ctkd, --cache-type-k-draft TYPE`	KV cache data type for K for speculative decoding model allowed values: f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1 (default: f16) (env: LLAMA_ARG_CACHE_TYPE_K_DRAFT)
`-ctvd, --cache-type-v-draft TYPE`	KV cache data type for V for speculative decoding model allowed values: f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1 (default: f16) (env: LLAMA_ARG_CACHE_TYPE_V_DRAFT)

Adds server parameters for draft model cache type. Fixes ggml-org/lla…

0522270

…ma.cpp/ggml-org#11200

aa956 requested a review from ngxson as a code owner May 25, 2025 17:48

github-actions bot added examples server labels May 25, 2025

ggerganov approved these changes May 30, 2025

View reviewed changes

Provide feedback