q4 量化的大模型能比原版全精度的差多少？

This topic created in 462 days ago, the information mentioned may be changed or developed.

ollama 上 q4 量化的 qwq-32b 和 r1-32b 刚好都在 20g 以下，一张卡就能跑
感觉已经很能打了

当然是了解它的能力，给他一个在能力范围内的任务
毕竟只有 32b 参数，问他历史观点肯定是胡说，物理数学这些有简单规则的
我感觉很好用了

比如根据一个什么涉密数据的表格，写个报告。完全够用

原版的没试过，有大佬告诉我吗
差距主要体现在哪里？

量化

QwQ-32B

2 replies • 2025-03-06 21:28:31 +08:00

my3157

Mar 6, 2025 via Android

https://github.com/QwenLM/Qwen/blob/main/README.md 这儿有说明，包括不同尺寸量化后对效果，推理等的影响对比

mili100

Mar 6, 2025

https://github.com/ggerganov/llama.cpp/blob/master/examples/quantize/README.md#quantization