一路向西电影国语版非 Transformer 架构 AI 模子 Liquid 问世

发布日期：2024-10-03 05:00 点击次数：140

IT之家 10 月 2 日音讯一路向西电影国语版，昨年刚缔造的 Liquid AI 公司于 9 月 30 日发布了三款 Liquid 基础模子（Liquid Foundation Models，LFM），分裂为 LFM-1.3B、LFM-3.1B 和 LFM-40.3B。这些模子均接受非 Transformer 架构，堪称在基准测试中凌驾同界限的 Transformer 模子。

IT之家提防到，当今业界在深度学习和当然话语贬责方面主要使用 Transformer 架构，该架构主要足下自提防力机制捕捉序列中单词之间的接头，包括 OpenAI 的 GPT、Meta 的 BART 和谷歌的 T5 等模子，王人是基于 Transformer 架构。

而 Liquid AI 则反治其身，其 Liquid 基础模子堪称对模子架构进行了“从头设思”，据称受到了“交通讯号贬责系统、数值线性代数”理念的长远影响，主打“通用性”，约略针对特定类型的数据进行建模，同期守旧对视频、音频、文本、本事序列和交通讯号等实质进行贬责。

一路向西电影国语版

Liquid AI 暗示，与 Transformer 架构模子比拟 LFM 模子的 RAM 用量更少，波多野结衣作品番号非常是在贬责大量输入实质场景时，由于 Transformer 架构模子贬责长输入时需要保存键值（KV）缓存，且缓存会跟着序列长度的加多而增大，导致输入越长，占用的 RAM 越多。

而 LFM 模子则约略幸免上述问题，系列模子约略灵验对外界输入的数据进行压缩，缩小对硬件资源的需求，在交流硬件条目下，这三款模子相对业界竞品约略贬责更长的序列。

参考 Liquid AI 首批发布的三款模子，其中 LFM-1.3B 专为资源受限的环境遐想，而 LFM-3.1B 针对角落盘算推算进行了优化，LFM-40.3B 则是一款“民众羼杂模子（MoE）”，该版块主要适用于数学盘算推算、交通讯号贬责等场景。

这些模子在通用学问和专科学问的贬责上发扬较为隆起，约略高效贬责长文本任务，还约略贬责数学和逻辑推理任务，当今该模子主要守旧英语，不外也对汉文、法语、德语、西班牙语、日语、韩语和阿拉伯语提供有限守旧。

笔据 Liquid AI 的说法，LFM-1.3B 在很多基准测试中打败了其他 1B 参数界限的跨越模子，包括苹果的 OpenELM、Meta 的 Llama 3.2、微软的 Phi 1.5 以及 Stability 的 Stable LM 2，这记号着初次有非 GPT 架构的模子显然越过了 Transformer 模子。

而在 LFM-3.1B 方面，这款模子不仅约略越过了 3B 界限的多样 Transformer 模子、羼杂模子和 RNN 模子，致使还在特定场景越过上一代的 7B 和 13B 界限模子，当今已校服谷歌的 Gemma 2、苹果的 AFM Edge、Meta 的 Llama 3.2 和微软的 Phi-3.5 等。

色哥网

LFM-40.3B 则强调在模子界限和输出质地之间的均衡，不外这款模子有所限度，固然其领有 400 亿个参数，但在推理时仅启用 120 亿个参数，Liquid AI 宣称进行接头限度是因为模子出品性量还是充足，在这种情况下对相应参数进行限度“反而还约略提高模子效果、缩小模子出手所需的硬件建树”。

一路向西电影国语版

一路向西电影国语版 非 Transformer 架构 AI 模子 Liquid 问世

一路向西电影国语版非 Transformer 架构 AI 模子 Liquid 问世