TensorRT-LLM

TensorRT-LLM 是 NVIDIA 推出的开源高性能大语言模型（LLM）推理框架，旨在通过优化计算和硬件适配，显著提升模型在 NVIDIA GPU 上的推理速度和效率。以下是其核心信息：

硬件加速优化
- 量化支持：支持 FP16/BF16、INT8/INT4 权重/激活量化（如 SmoothQuant、GPTQ、AWQ），FP8 格式（基于 Hopper 架构），降低显存占用并提升吞吐量。
- 高效内核：融合注意力机制（如 FMHA/MMHA）、分页注意力（Paged Attention）等技术，优化内存使用和计算速度。
- 多卡并行：支持 Tensor Parallelism 和 Pipeline Parallelism，支持多 GPU 或多节点分布式推理。
开发友好性
- 类 PyTorch API：提供简洁的 Python API，支持快速定义模型并编译为优化的 TensorRT 引擎。
- 预置模型支持：主流模型如 Llama、Mistral、Qwen 等已内置适配，支持自定义扩展。
动态资源管理
- 动态批处理（In-flight Batching）：实时调整批次大小，避免等待填充请求，提升 GPU 利用率。
- 显存分页：通过分页注意力机制，支持超长序列推理。

如需快速体验，可参考官方 Quick Start 指南，通过 Python API 编译模型并部署。对于特定需求（如量化或定制算子），可结合示例代码和预训练模型进行微调。