你的位置：TOREX(特瑞仕)线性稳压器(LDO)电源芯片全系列-亿配芯城 > 话题标签 > Attention

Attention 相关话题

TOPIC

8x7B MoE与Flash Attention 2结合，不到10行代码实现快速推理

2024-01-05

前段时间，Mistral AI 公布的 Mixtral 8x7B 模型爆火整个开源社区，其架构与 GPT-4 非常相似，很多人将其形容为 GPT-4 的「缩小版」。我们都知道，OpenAI 团队一直对 GPT-4 的参数量和训练细节守口如瓶。Mistral 8x7B 的放出，无疑给广大开发者提供了一种「非常接近 GPT-4」的开源选项。在基准测试中，Mistral 8x7B 的表现优于 Llama 2 70B，在大多数标准基准测试上与 GPT-3.5 不相上下，甚至略胜一筹。 ▲图源 ht

芯片资讯

共 1 页/1 条记录