【「DeepSeek 核心技术揭秘」阅读体验】+看视频+看书籍+国产开源大模型DeepSeekV3技术详解--1

2025-8-23 15:20:09 1638

0 我们来深入解析这张图和对应的公式，这部分内容详细展示了 Multi-Head Latent Attention (MLA) 的内部工作原理。这是一个非常精巧的设计，旨在解决长序列推理中的 KV Cache 瓶颈问题。我们将结合左侧的架构图和右侧的数学公式，一步步进行推导和解释。 1. 技术背景和核心思想问题: 标准的 Transformer 在处理长文本时，需要缓存所有过去 token 的 Key (K) 和 Value (V) 向量（即 KV Cache），导致显存占用随序列长度线性增长，成为推理的瓶颈。 MLA 的核心思想: 不再缓存所有历史 token，而是将历史信息压缩到一个固定大小的潜在向量 (Latent Vector) c_t 中。同时，为了保证对近期上下文的精确感知，它依然会实时计算当前 token 的 K 和 V。最终，注意力机制的计算将同时作用于“压缩的历史（Latent）”和“当前的上下文（Recent）”之上。 2. 实现逻辑与数学推导让我们按照数据流动的顺序，从输入 h_t 和 c_t 开始，推导出最终的输出 u_t。符号定义: h_t: 在时间步 t 的输入隐状态 (Input Hidden state)。 c_t: 在时间步 t 的潜在向量 (Latent vectors)，这是从上一步 t-1 继承并更新而来的“记忆”。图中为了区分用途，画了 c_t^Q 和 c_t^{KV}，但它们很可能源于同一个潜在状态 c_t。 W: 代表各种可学习的权重矩阵（线性变换）。 RoPE: 旋转位置编码 (Rotary Position Embedding)，用于给 token 注入位置信息。 n_h: 注意力头的数量。 i: 代表第 i 个注意力头。上标 C: 代表 "Compressed" 或 "Latent"，即来自潜在向量的部分。上标 R: 代表 "Recent" 或 "Real-time"，即来自当前输入 h_t 的部分。 0 本主题由从前有座_山于 2025-8-24 09:10 审核通过
2025-8-23 15:20:09　　评论淘帖0 举报相关推荐 • 【「DeepSeek 核心技术揭秘」阅读体验】--全书概览 2119 • 【「DeepSeek 核心技术揭秘」阅读体验】+混合专家 393 • 【「DeepSeek 核心技术揭秘」阅读体验】基于MOE混合专家模型的学习和思考-2 1593 • 【「DeepSeek 核心技术揭秘」阅读体验】第三章：探索 DeepSeek - V3 技术架构的奥秘 1743 • 【「DeepSeek 核心技术揭秘」阅读体验】书籍介绍+第一章读后心得 1985 • 【书籍评测活动NO.62】一本书读懂 DeepSeek 全家桶核心技术：DeepSeek 核心技术揭秘 43034 • 深入探讨DeepSeek大模型的核心技术 3292 • 大数据开发核心技术详解 2829 • 【原创】Android视频直播核心技术 4068 • 浅谈DeepSeek核心技术与应用场景 3045