mosaicml 推出 300 亿参数模型 mpt-凯发k8ag旗舰厅

ai 创业公司 mosaicml 近日发布了其语言模型 mpt-30b，该模型具有 300 亿参数，训练成本“仅有其他同类竞品模型的零头”，有望促进行业逐步降低此类模型训练成本，扩大 ai 模型在更广泛领域的运用。

a872adca-0b48-4d2c-a2f5-5e952752643b

mosaicml 公司的首席执行官兼联合创始人 naveen rao 表示，mpt-30b 的训练成本为 70 万美元（约 502.44 万元人民币），远低于 gpt-3 等同类产品所需的数千万美元训练成本。此外，由于 mpt-30b 的成本较低，体积较小，它也可以更快速地被训练，并且更适合部署在本地硬件上。

据悉，mosaicml 使用了 alibi 和 flashattention 技术来优化模型，可以实现更长的文本长度和对 gpu 计算的更高利用率。mosaicml 也是少数几个能够使用 nvidia h100 gpu 的实验室，相比以往成果，当下每块 gpu 的吞吐量增加了 2.4 倍以上，可带来更快的完成时间。

除了让 ai 技术更容易获得之外，mosaicml 还专注于提高数据质量并提高模型性能。他们目前正在开发一款工具，可以帮助用户在预训练过程中分层加入特定领域的数据，以确保训练中开业实现多样化和高质量的数据组合。

将模型扩展到 300 亿参数只是第一步，接下来他们将以降低成本为前提，推出体积更大、质量更高的模型。

目前开发者可以并使用开源的 mpt-30b 基础模型，开发者还可以在本地硬件上使用自己的数据，对模型进行微调。

未经允许不得转载：凯发k8ag旗舰厅 » mosaicml 推出 300 亿参数模型 mpt-30b

mosaicml 推出 300 亿参数模型 mpt-凯发k8ag旗舰厅

相关推荐

最新文章