YAML Metadata Warning:empty or missing yaml metadata in repo card

Check out the documentation for more information.

openPangu-R-72B-2512-Int8

中文 | English

1. 简介

openPangu-R-72B-2512 是基于昇腾集群训练的MoE模型。模型总参数量74B,激活参数量15B,采用80选8的专家选择机制,支持128k长序列处理。训练数据总量约24T tokens。同一个模型支持快慢思考两种模式切换,慢思考模式下,支持思维链分档(“低”和“高”两种推理深度)。

openPangu-R-72B-2512-Int8 是 openPangu-R-72B-2512 的量化版本,使用动态 per-token 量化方法,能够减少约一半的显存占用,提升超20%吞吐,综合精度损失小于1%。

2. 模型架构

openPangu-R-72B-2512-Int8 在模型稳定收敛和效果提升方向进行了以下优化:

  • 在注意力机制中引入参数式Sink Token技术: 有效缓解极大激活值问题,训练中最大激活值从$10^3$降至$10^2$量级, 提升训练稳定性并对后量化亲和。

  • K-Norm与Depth-Scaled Sandwich-Norm:为保证attention logits的稳定性,我们采用了K-Norm结构。K-Norm与QK-Norm类似,但只对attention的key施加RMS Norm。K-Norm可起到与QK-Norm类似的稳定性效果,但引入的计算开销更小,同时K-Norm不影响Query的scale,带来更灵活的表达能力。为了保证残差连接的稳定性,我们采用了Depth-Scaled Sandwich-Norm方法。

  • 注意力架构优化:增加Query头数和注意力头维度,使模型能够从更多角度捕获细粒度语义关系。引入Partial RoPE机制,仅对Query和Key中1/3维度应用位置编码。尽管Key头维度有所增加,但通过将KV组数量减半,KV cache仍可减少37.5%,在保持推理阶段显存和速度优化的同时,实现了更低的训练损失和更优的推理性能。

  • Adaptive Aux Free负载优化技术:能够自适应调整专家bias更新幅度,减少均衡震荡现象,优化专家负载分布均衡性。

详细架构参数如下:

Architecture Mixture-of-Experts (MoE)
Total Parameters 74B
Activated Parameters 15B
Number of Layers (Dense layer included) 50
Number of Dense Layers 4
Number of MTP Modules 1
Hidden Dimension 4608
MoE Hidden Dimension (per Expert) 1280
Attention Mechanism GQA
Number of Attention Heads 64
Number of Query Groups 4
Number of Experts 80
Selected Experts per Token 8
Number of Shared Experts 2
Vocabulary Size 153K
Context Length 128K

3. 部署和使用

4. 模型许可证

除文件中对开源许可证另有约定外,openPangu-R-72B-2512-Int8 模型根据 OPENPANGU MODEL LICENSE AGREEMENT VERSION 1.0 授权,旨在允许使用并促进人工智能技术的进一步发展。有关详细信息,请参阅模型存储库根目录中的 LICENSE 文件。

5. 免责声明

由于 openPangu-R-72B-2512-Int8 (“模型”)所依赖的技术固有的限制,以及人工智能生成的内容是由盘古自动生成的,华为无法对以下事项做出任何保证:

  • 该模型的输出通过AI算法自动生成,不能排除某些信息可能存在缺陷、不合理或引起不适的可能性,生成的内容不代表华为的态度或立场;
  • 无法保证该模型100%准确、可靠、功能齐全、及时、安全、无错误、不间断、持续稳定或无任何故障;
  • 该模型的输出内容不构成任何建议或决策,也不保证生成的内容的真实性、完整性、准确性、及时性、合法性、功能性或实用性。生成的内容不能替代医疗、法律等领域的专业人士回答您的问题。生成的内容仅供参考,不代表华为的任何态度、立场或观点。您需要根据实际情况做出独立判断,华为不承担任何责任。

7. 反馈

如果有任何意见和建议,请提交issue或联系openPangu@huawei.com

Downloads last month
158
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support