博客

LLaMA1/2/3 核心差异对比

LLM

“封闭解”（Closed-form solution）

数学

Kubernetes和YARN

Agent2Agent Protocol（代理间协议）

计算访存比（又称计算强度或计算密度）

在TensorFlow中计算模型的FLOPS（浮点运算次数）

TensorFlow

NVIDIA L40S 与 L20 两款 GPU 的核心参数对比

GPU

MLCommons：一个全球性的开放工程联盟

MLPerf：MLCommons 组织开发的一项国际权威基准测试

GPU

lscpu命令：一个用于显示 CPU（中央处理器）详细信息的命令

linux

GPU中的向量算力和张量算力

GPU

NVIDIA的Multi-Instance GPU (MIG)技术

GPU 的 TMUs（Texture Mapping Units，纹理映射单元）

GPU

NCCL（NVIDIA Collective Communications Library）：NVIDIA 开发的一个高性能通信库

工具库架构

NVLink: NVIDIA 的高速互联技术解析

GPU编程

034 Tensorflow | 多GPU编程

tensorflow

Markov Chain Monte Carlo（MCMC，马尔可夫链蒙特卡洛方法）

机器学习机器学习理论

GPU_private 模式：TensorFlow 中用于优化 GPU 计算性能的一种线程分配策略

GPU编程

进程间空分复用

架构

Johnson-Lindenstrauss引理（Johnson-Lindenstrauss Lemma, JL引理）

理论

深度学习技术汇总

Bash 的进阶命令及用法

linux

CLS, COMPOSITE SLICE TRANSFORMER: AN EFFICIENT TRANSFORMER WITH COMPOSITION OF MULTI-SCALE MULTI-RANGE ATTENTIONS

论文 TRANSFORMER

Funnel-Transformer: Filtering out Sequential Redundancy for Efficient Language Processing

论文

CUDA Stream：NVIDIA GPU 编程中的核心并行执行机制

GPU编程

PCIE（Peripheral Component Interconnect Express）：一种高速串行计算机扩展总线标准

架构

CUDA编程中的核心机制，GPU Kernel Launch（内核启动）

CUDA编程

GPU训练过程中硬件相关指标

显存池化技术

NVIDIA A100的显存体系

寒武纪（中科寒武纪科技股份有限公司）

科技公司寒武纪

华为与寒武纪之间的合作与竞争关系

芯片

华为昇腾910B：华为自主研发的高性能人工智能处理器芯片

GPU

论文 | FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness

DNN

LTS版本（Long-Term Support Version）

术语

维度坍塌（Dimensionality Collapse）

算法

加速比：衡量加速效果的一个重要指标

指标

访存，访问存储器（Memory Access）

架构

BERT中的[CLS]

Efficient Long Sequential Low-rank Adaptive Attention for Click-through rate Prediction

TIGER：Recommender Systems with Generative Retrieval 生成式召回

论文推荐系统召回

LLM

数据库

单精度（Single - Precision）、双精度（Double - Precision）、半精度（Half - Precision）、混精度（Mixed - Precision）

网络广告中的pixel（像素）

滑动窗口注意力（Sliding Window Attention）

深度学习注意力机制

论文：Temporal Interest Network for User Response Prediction

序列建模腾讯

branca库：用于创建和处理富文本文档的 Python 库

python

«
1
2
3
4
5
6
…
48
49
»