presets : add qwen3-30B-a3b FIM #15616

ggerganov · 2025-08-27T11:19:30Z

The Qwen 3 Coder 30B-A3B model seems to now perform equally fast (or even faster) than the old Qwen 2.5 Coder 7B. Adding preset for easy usage with llama.vim, llama.vscode and llama.qtcreator:

llama-server --fim-qwen-30b-default

Perf M2 Ultra:

model	size	backend	n_ubatch	fa	test	t/s
qwen3moe 30B.A3B Q8_0	30.25 GiB	Metal	2048	1	pp512	2045.19 ± 10.70
qwen3moe 30B.A3B Q8_0	30.25 GiB	Metal	2048	1	pp2048	2272.56 ± 3.49
qwen3moe 30B.A3B Q8_0	30.25 GiB	Metal	2048	1	pp16384	1022.81 ± 0.18
qwen3moe 30B.A3B Q8_0	30.25 GiB	Metal	2048	1	tg128	76.31 ± 0.06
qwen2 7B Q8_0	7.54 GiB	Metal	2048	1	pp512	1419.54 ± 1.00
qwen2 7B Q8_0	7.54 GiB	Metal	2048	1	pp2048	1470.14 ± 0.30
qwen2 7B Q8_0	7.54 GiB	Metal	2048	1	pp16384	1037.44 ± 0.24
qwen2 7B Q8_0	7.54 GiB	Metal	2048	1	tg128	71.49 ± 0.04

build: 1bded5a (6299)

…nemotron-nano-15409 * origin/master: (59 commits) scripts: add sqlite3 check for compare-commits.sh (ggml-org#15633) kv-cache : remove LLAMA_SET_ROWS checks (ggml-org#15505) gguf-py: byteswapping improvements (ggml-org#12851) cli : change log to warning to explain reason for stopping (ggml-org#15604) model-conversion : add mmproj conversion target (ggml-org#15628) cuda: Add cublasLt_static linking when GGML_STATIC is enabled (ggml-org#15622) server: higher timeout for tests (ggml-org#15621) presets : add qwen3-30B-a3b FIM (ggml-org#15616) HIP: Enable support for ggml_backend_cuda_register_host_buffer (ggml-org#15615) kv-cache : better estimate of n_kv for multi-sequence batches (ggml-org#15610) CANN: refactor mask handling and improve performance in FA (ggml-org#15561) ggml-cpu : add basic RVV support for vector f32 ops (ggml-org#15057) common : add -m to bash completion for --model [no ci] (ggml-org#15591) OpenCL: add fused group_norm/norm, mul, add (ggml-org#15314) tests : fix test-opt with GGML_BACKEND_DL (ggml-org#15599) SYCL: fix rms_norm_mul_add for tensor dim not a multiple of sg_size (ggml-org#15592) mtmd : fix mtmd ios build (ggml-org#15579) tests: add performance test for mul mat id (ggml-org#15543) llamafile: PowerPC Sgemm Optimization (ggml-org#15558) graph : fix assert in memory-less build_attn (ggml-org#15590) ...

…upport * origin/master: (61 commits) scripts: add sqlite3 check for compare-commits.sh (ggml-org#15633) kv-cache : remove LLAMA_SET_ROWS checks (ggml-org#15505) gguf-py: byteswapping improvements (ggml-org#12851) cli : change log to warning to explain reason for stopping (ggml-org#15604) model-conversion : add mmproj conversion target (ggml-org#15628) cuda: Add cublasLt_static linking when GGML_STATIC is enabled (ggml-org#15622) server: higher timeout for tests (ggml-org#15621) presets : add qwen3-30B-a3b FIM (ggml-org#15616) HIP: Enable support for ggml_backend_cuda_register_host_buffer (ggml-org#15615) kv-cache : better estimate of n_kv for multi-sequence batches (ggml-org#15610) CANN: refactor mask handling and improve performance in FA (ggml-org#15561) ggml-cpu : add basic RVV support for vector f32 ops (ggml-org#15057) common : add -m to bash completion for --model [no ci] (ggml-org#15591) OpenCL: add fused group_norm/norm, mul, add (ggml-org#15314) tests : fix test-opt with GGML_BACKEND_DL (ggml-org#15599) SYCL: fix rms_norm_mul_add for tensor dim not a multiple of sg_size (ggml-org#15592) mtmd : fix mtmd ios build (ggml-org#15579) tests: add performance test for mul mat id (ggml-org#15543) llamafile: PowerPC Sgemm Optimization (ggml-org#15558) graph : fix assert in memory-less build_attn (ggml-org#15590) ...

…g-model-disabled-agent-prefill * origin/master: (76 commits) scripts: add sqlite3 check for compare-commits.sh (ggml-org#15633) kv-cache : remove LLAMA_SET_ROWS checks (ggml-org#15505) gguf-py: byteswapping improvements (ggml-org#12851) cli : change log to warning to explain reason for stopping (ggml-org#15604) model-conversion : add mmproj conversion target (ggml-org#15628) cuda: Add cublasLt_static linking when GGML_STATIC is enabled (ggml-org#15622) server: higher timeout for tests (ggml-org#15621) presets : add qwen3-30B-a3b FIM (ggml-org#15616) HIP: Enable support for ggml_backend_cuda_register_host_buffer (ggml-org#15615) kv-cache : better estimate of n_kv for multi-sequence batches (ggml-org#15610) CANN: refactor mask handling and improve performance in FA (ggml-org#15561) ggml-cpu : add basic RVV support for vector f32 ops (ggml-org#15057) common : add -m to bash completion for --model [no ci] (ggml-org#15591) OpenCL: add fused group_norm/norm, mul, add (ggml-org#15314) tests : fix test-opt with GGML_BACKEND_DL (ggml-org#15599) SYCL: fix rms_norm_mul_add for tensor dim not a multiple of sg_size (ggml-org#15592) mtmd : fix mtmd ios build (ggml-org#15579) tests: add performance test for mul mat id (ggml-org#15543) llamafile: PowerPC Sgemm Optimization (ggml-org#15558) graph : fix assert in memory-less build_attn (ggml-org#15590) ...

…nemotron-nano-15409 * origin/master: (59 commits) scripts: add sqlite3 check for compare-commits.sh (ggml-org#15633) kv-cache : remove LLAMA_SET_ROWS checks (ggml-org#15505) gguf-py: byteswapping improvements (ggml-org#12851) cli : change log to warning to explain reason for stopping (ggml-org#15604) model-conversion : add mmproj conversion target (ggml-org#15628) cuda: Add cublasLt_static linking when GGML_STATIC is enabled (ggml-org#15622) server: higher timeout for tests (ggml-org#15621) presets : add qwen3-30B-a3b FIM (ggml-org#15616) HIP: Enable support for ggml_backend_cuda_register_host_buffer (ggml-org#15615) kv-cache : better estimate of n_kv for multi-sequence batches (ggml-org#15610) CANN: refactor mask handling and improve performance in FA (ggml-org#15561) ggml-cpu : add basic RVV support for vector f32 ops (ggml-org#15057) common : add -m to bash completion for --model [no ci] (ggml-org#15591) OpenCL: add fused group_norm/norm, mul, add (ggml-org#15314) tests : fix test-opt with GGML_BACKEND_DL (ggml-org#15599) SYCL: fix rms_norm_mul_add for tensor dim not a multiple of sg_size (ggml-org#15592) mtmd : fix mtmd ios build (ggml-org#15579) tests: add performance test for mul mat id (ggml-org#15543) llamafile: PowerPC Sgemm Optimization (ggml-org#15558) graph : fix assert in memory-less build_attn (ggml-org#15590) ...

shouse-lab · 2025-08-28T19:42:54Z

I literally can't wait to try this new feature out! Is it feasible to specify a local qwen-30b model I've already downloaded to use with --fim-qwen-30b-default?

presets : add qwen3-30B-a3b FIM

08db374

danbev approved these changes Aug 27, 2025

View reviewed changes

ggerganov merged commit da54f9f into master Aug 27, 2025
48 checks passed

ggerganov deleted the gg/presets-fim-add-qwen3-30b-a3b branch August 27, 2025 12:48

Minh141120 pushed a commit to menloresearch/llama.cpp that referenced this pull request Aug 29, 2025

presets : add qwen3-30B-a3b FIM (ggml-org#15616)

ab02cc2

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

presets : add qwen3-30B-a3b FIM #15616

presets : add qwen3-30B-a3b FIM #15616

ggerganov commented Aug 27, 2025

Uh oh!

Uh oh!

shouse-lab commented Aug 28, 2025

Uh oh!

Uh oh!

presets : add qwen3-30B-a3b FIM #15616

presets : add qwen3-30B-a3b FIM #15616

Conversation

ggerganov commented Aug 27, 2025

Uh oh!

Uh oh!

shouse-lab commented Aug 28, 2025

Uh oh!

Uh oh!