Xiangyu Li

Enhancing GPTQv2 Format Support in vLLM: Analysis and Implementation

October 12, 2025

Deep technical analysis of GPTQv2 format limitations in vLLM, and implementation of CUDA kernel adaptations to enable efficient low-bit/asymmetric quantization inference.

Tagged: GPTQ

Enhancing GPTQv2 Format Support in vLLM: Analysis and Implementation