一路向西电影国语版 非 Transformer 架构 AI 模子 Liquid 问世

发布日期:2024-10-03 05:00    点击次数:140

一路向西电影国语版 非 Transformer 架构 AI 模子 Liquid 问世

IT之家 10 月 2 日音讯一路向西电影国语版,昨年刚缔造的 Liquid AI 公司于 9 月 30 日发布了三款 Liquid 基础模子(Liquid Foundation Models,LFM),分裂为 LFM-1.3B、LFM-3.1B 和 LFM-40.3B。这些模子均接受非 Transformer 架构,堪称在基准测试中凌驾同界限的 Transformer 模子。

IT之家提防到,当今业界在深度学习和当然话语贬责方面主要使用 Transformer 架构,该架构主要足下自提防力机制捕捉序列中单词之间的接头,包括 OpenAI 的 GPT、Meta 的 BART 和谷歌的 T5 等模子,王人是基于 Transformer 架构。

而 Liquid AI 则反治其身,其 Liquid 基础模子堪称对模子架构进行了“从头设思”,据称受到了“交通讯号贬责系统、数值线性代数”理念的长远影响,主打“通用性”,约略针对特定类型的数据进行建模,同期守旧对视频、音频、文本、本事序列和交通讯号等实质进行贬责。

一路向西电影国语版

Liquid AI 暗示,与 Transformer 架构模子比拟 LFM 模子的 RAM 用量更少,波多野结衣作品番号非常是在贬责大量输入实质场景时,由于 Transformer 架构模子贬责长输入时需要保存键值(KV)缓存,且缓存会跟着序列长度的加多而增大,导致输入越长,占用的 RAM 越多。

而 LFM 模子则约略幸免上述问题,系列模子约略灵验对外界输入的数据进行压缩,缩小对硬件资源的需求,在交流硬件条目下,这三款模子相对业界竞品约略贬责更长的序列。

参考 Liquid AI 首批发布的三款模子,其中 LFM-1.3B 专为资源受限的环境遐想,而 LFM-3.1B 针对角落盘算推算进行了优化,LFM-40.3B 则是一款“民众羼杂模子(MoE)”,该版块主要适用于数学盘算推算、交通讯号贬责等场景。

这些模子在通用学问和专科学问的贬责上发扬较为隆起,约略高效贬责长文本任务,还约略贬责数学和逻辑推理任务,当今该模子主要守旧英语,不外也对汉文、法语、德语、西班牙语、日语、韩语和阿拉伯语提供有限守旧。

笔据 Liquid AI 的说法,LFM-1.3B 在很多基准测试中打败了其他 1B 参数界限的跨越模子,包括苹果的 OpenELM、Meta 的 Llama 3.2、微软的 Phi 1.5 以及 Stability 的 Stable LM 2,这记号着初次有非 GPT 架构的模子显然越过了 Transformer 模子。

而在 LFM-3.1B 方面,这款模子不仅约略越过了 3B 界限的多样 Transformer 模子、羼杂模子和 RNN 模子,致使还在特定场景越过上一代的 7B 和 13B 界限模子,当今已校服谷歌的 Gemma 2、苹果的 AFM Edge、Meta 的 Llama 3.2 和微软的 Phi-3.5 等。

色哥网

LFM-40.3B 则强调在模子界限和输出质地之间的均衡,不外这款模子有所限度,固然其领有 400 亿个参数,但在推理时仅启用 120 亿个参数,Liquid AI 宣称进行接头限度是因为模子出品性量还是充足,在这种情况下对相应参数进行限度“反而还约略提高模子效果、缩小模子出手所需的硬件建树”。

一路向西电影国语版