清华系2b模子杀出，功劳吊打llama

李定轩 2024-02-03 01:15 582

"清华系2b模子杀出，功劳吊打llama,这篇新闻报道详尽，内容丰富，非常值得一读。这篇报道的内容很有深度，让人看了之后有很多的感悟。作者对于这个话题做了深入的调查和研究，呈现了很多有价值的信息。 " 账号设置我的关注我的收藏申请的报道退出登录登录搜索36氪Auto数字时氪将来消费智能涌现将来城市启动Power on36氪出海36氪研究院潮生TIDE36氪企服点评36氪财经(Finance)职场bonus36碳后浪研究所暗涌Waves硬氪媒体品牌企业号企服点评36Kr研究院36Kr创新咨询企业服务核心服务城市之窗行政部门服务创投发布LP源计划VClubVClub投资机构库投资机构职位推介投资人认证投资人服务寻求报道36氪Pro创投氪堂企业入驻创业者服务创投平台首页快讯资讯推荐财经(Finance)科技(Technology)创新城市最新创投汽车(Car)企服专精特新直播视频专题活动搜索寻求报道我要入驻城市合作清华系2B模型杀出，性能吊打LLaMA-13B，170万tokens仅需1块钱AI前线·2024-02-02 15:22关注清华系面壁智能开始卷小模型了：14 天达成用 2B 模型超越 7B、13B，170 万 tokens 仅花 1 块钱

2 月 1 日，面壁智能与清华大学(University)自然(Nature)语言处理实验室共同开源了系列端侧语言大模型 MiniCPM，主体语言模型 MiniCPM-2B 仅有 24 亿（2.4B）的非词嵌入参数量。

在综合性榜单上与 Mistral-7B 相近，在中文、数学、代码能力表现更优，整体性能超越 Llama2-13B、MPT-30B、Falcon-40B 等模型。

具体开源模型包括：

基于 MiniCPM-2B 的指令微调与人类偏好对齐的 MiniCPM-2B-SFT/DPO。基于 MiniCPM-2B 的多模态模型 MiniCPM-V，能力超越基于 Phi-2 的同参数级别多模态模型。MiniCPM-2B-SFT/DPO 的 Int4 量化版 MiniCPM-2B-SFT/DPO-Int4。基于 MLC-LLM、LLMFarm 开发的 MiniCPM 电话端程序，文本及多模态模型均可在电话端进行(Carry Out)推理。

开源地址（内含技术报告）：

MiniCPM GitHub：https://github.com/OpenBMB/MiniCPMOmniLMM

GitHub：https://github.com/OpenBMB/OmniLMM

超越 Mistral-7B、LLaMA-13B

“用最小的规模，做最强的 AI。”面壁智能 CEO 李大海说道。“以小搏大”的典型是 Mistral-7B，其在业内收获了很多赞誉，一度被誉为“开源模型的新王者”，其公司 Mistral AI 也被称为“欧洲 OpenAI”。

面壁智能的 MiniCPM 一定程度上直接对标了 Mistral-7B。在多项主流测评中，MiniCPM-2B 的中英文平均成绩均超过了 Mistral-7B。“Mistral-7B 用 7B 战胜了 LLaMA-13B 的模型，我们(We)用 2B 干掉 LLaMA 的 13B。”面壁智能 CTO 曾国洋说道。

李大海表示，“跟微软相比我们(We)有两大优势，2B 性能小钢炮同等规模能力领先，主流表现大幅超越，能力更全、更强。与 13、20B 和 40B 规模的模型也有掰手腕的能力。”

在英文能力上，MiniCPM 的得分超越了 Llama2-13B、Falcon-40B：

在当前最接近用户体感的评测集 MTBench 上，MiniCPM-2B 超越了 Llama2-70B-Chat、Vicuna-33B、Mistral-7B-Instruct-v0.1、Zephyr-7B-alpha 等众多代表性开源大模型。

小试一下

语言能力方面， MiniCPM 可以一下写十个“深夜忧伤(Sad)”文案：

也能陪你“cosplay”：

可能许小时候出去玩，老师(Teacher)还要求写游记的“头痛”可以缓解下：

此外，MiniCPM 不仅知道黄山、泰山准确海拔，还能计算差值：

当不同语言混在一起时，MiniCPM 可以把两种不同的语言识别出来并自动进行(Carry Out)翻译：

编程能力上，MiniCPM 也会写代码，可以让它自己“开发”自己。

MiniCPM 也具有多模态能力，比如拍个不知名的蘑菇问问它是不是可以吃。

根据清华大学(University)计算机系博士胡声鼎的说法，MiniCPM 大约用了两周的时间进行(Carry Out)训练。随着硬件的发展，将来在电话上跑 7B 甚至几十 B 的模型也是有可能的。

可以电话上部署的多模态大模型

以 MiniCPM-2B 为基础，团队还构建了端侧多模态大模型 MiniCPM-V。MiniCPM-V 可以部署在大多数 GPU 卡和个人计算机上，甚至可以部署在电话等端侧设备上，并支持中英文双语多模态交互。

在视觉编码方面，团队通过 perceiver 重采样器将图像表示压缩为 64 个 tokens，明显少于其他基于 MLP 架构的 lms(通常要大于 512tokens)。这使得 MiniCPM-V 在推理过程中以更少的内存开销和更高的速度运行。

在多个基准（包括 MMMU、MME 和 MMbech 等）中，MiniCPM-V 达成了更先进的性能，超越了基于 Phi-2 构建的现有多模态大模型，甚至达到了与 9.6B Qwen-VL-Chat 相当可能更好的性能。

测试下 MiniCPM-V 的图像识别能力，它成功(Success)识别出了图片中有一只猫，并且正睡在毛毯上，并告诉我们(We)不要打扰它。

面壁智能表示，在进行(Carry Out) Int4 量化后，MiniCPM 只占 2 GB 空间，具备在端侧电话进行(Carry Out)模型部署的条件，消费级显卡也能流畅玩转大模型。

此外，面壁智能还开源了擅长视觉和语言建模的大型多模态模型 OmniLMM，目前(Currently)发布了两个特色版本，OmniLMM-12B 和 OmniLMM-3B。

在多模态视觉交互问答上，OmniLMM 与纯文本的 ChatGPT3.5 结合，表现出了多重能力：实时动作识别，理解玩游戏(Game)的取胜策略等：

面壁智能也把多模态能力集成到更多图片细节体坛能力上，比如导盲犬没有穿标识服装，也可以通过“手杖”和“挽具”推测出它是一个导盲犬：

对于错位图片，OmniLMM 也能够识别出来，实际上是一个人坐在椅子上，另一个人走在路上：

对于幽默向的图片，它也可以识别出来：一只狗穿着蓝色衬衫和短裤在自拍，这不是一只狗的典型行为。

目前(Currently)，团队已经针对不同的操作系统进行(Carry Out)了不同的适配。对于 Android、Harmony 系统，用户需要使用开源框架 MLC-LLM 进行(Carry Out)模型适配，支持文本模型、多模态模型，适用于 MiniCPM-2B-SFT-INT4、MiniCPM-2B-DPO-INT4、MiniCPM-V；对于 iOS 系统，则需使用开源框架 LLMFarm 进行(Carry Out)模型适配，仅支持文本模型，适用于 MiniCPM-2B-SFT-INT4、MiniCPM-2B-DPO-INT4。

在不同电话型号上的相关验证数据

李大海表示，端侧模型能够为大模型和 Agent 服务，因为端跟云的协同能够让应用更好地落地。端侧模型是大模型技术的积累，让模型小型化、云上模型能够用更小的规模达成更好的效果，与大模型技术是一脉相承的。

“省钱大模型”

“省钱大模型”是面壁智能对 MiniCPM 另一个称呼。

在李大海看来，成本会在将来大模型竞争成为隐性竞争优势。“端侧模型的另外一点就是成本，成本是大模型的利润率，2023 年我们(We)做非常多商业化实验的时候发现，客户在很多应用场景下都非常关注模型的成本。虽然千亿模型效果很好，但真要大规模部署时还是有很多障碍。”

当前，MiniCPM 的 int 4 量化版本压缩了 75% 的尺寸，但性能几乎无损，大大降低了模型对于内存和闪存的需求。

以 OPPO 电话为例，骁龙 855 芯片，成本 600 元，一共运行 5 年报废，每秒运行 7.5 tokens。以 5 年时间计算，170 万 tokens 的推理成本仅为 1 元。这是几乎只有在云端运行 Mistral-medium 成本的 1%。而 GPT-4 的推理成本则是 4700 tokens 1 元。

除了在端侧推理之外，MiniCPM 还有持续的成本改进，因为它足够小，只需要 1 台机器持续参数训练、1 张显卡进行(Carry Out)高效参数微调。

李大海表示，当前电话推理未曾深入进行(Carry Out)优化，而 GPU 加速已采用各种采样加速进行(Carry Out)优化，将来电话推理成本还可以进一步降低。

“凡是能在端侧用户手里解决的算力，就不要到云侧运算，否则承担的算力成本是不可想象的。”清华大学(University)长聘副教授刘知远说道。而对于将来更大算力问题的解决，刘知远表示答案一定是云端协同。端侧大模型要找到它的天花板，并把天花板不断抬高，这对商业化的大模型非常重要。

以小搏大，凭什么

李大海表示，小尺寸是模型技术的极限竞技场。那么，面壁智能团队如何达成“以小博大”？

全流程高效 Infra

“Infra 是大模型创业护城河，决定了公司的技术上限。”团队 2021 年开发的高效训练框架 BMTrain，是业界 SOTA 的分布式达成，将千亿模型训练门槛拉低到 64 卡；高效推理框架 BMInf 高效采样加速算法，采用稀疏激活方法达成 3 倍推理加速；高效压缩框架 BMCook 进行(Carry Out) Int4 无损压缩，可达成 5 倍以上推理加速，降低 70% 的存储开销；高效微调框架 BMTune 内含各种工具包。

算法论是面壁智能在过去三年实践中总结出来的训练方法论，把大模型变成了实验科学，面壁智能的团队希望(Hope)将来将其变成理论科学。

模型沙盒实验

面壁智能技术团队提出在小模型上进行(Carry Out)广泛的实验，通过可迁移的配置，获得大模型的最优训练方法。具体而言，团队进行(Carry Out)了 Hyper-paramters、Batch size、Learning Rate、Learning Rate Scheduler、Data Strategy 五个方面的模型沙盒研究。

在超参稳定的模型规模扩增上，团队对模型的各参数模块之间进行(Carry Out)了连接权重的调整、以及对模型初始化的调整，部分调整接近 Cerebras-GPT。

Batchsize 决定了模型的收敛速度和消耗计算资源的平衡。对此，团队在 0.009B，0.036B，0.17B 的模型上分别进行(Carry Out)了 6 个 batchsize 的训练实验，最终体坛到了最优 batchsize 随着 C4 数据集上的 loss 的偏移规律。根据这个规律，团队预估了 2B 模型达到 C4 损失 2.5 左右，4M 是比较合适的 Batchsize。

最优学习率上，团队通过在 0.04B, 0.1B, 0.3B, 0.5B 上分别做的 6 组学习率实验发现，虽然模型大小扩大了 10 倍，但是最优学习率偏移并不明显，均在 0.01 左右。在 2.1B 的规模上进行(Carry Out)了简单验证，发现在 0.01 的学习率确实能取得最低的 Loss。

此外，团队还提出了一种新的学习率调度策略：Warmup-Stable-Decay（WSD）调度器。这种学习率调度器分为三个阶段，warmup 阶段（用 W 表示 warmup 阶段结束时的步数 / 训练量）、稳定训练阶段（用 S 表示稳定训练阶段结束时的步数 / 训练量）和退火阶段（用 D 表示退火阶段的训练量）。

由于 WSD 调度器可以在任何阶段退火，取得该阶段最优的模型，因此团队也探索了如果持续训练一个大小为 N 的模型，最优情况下能超过多大参数量的 Chichilla-optimal 模型。

结果(Result)显示，如果一个模型用面壁智能团队的 WSD 调度器训练，在消耗等量计算量时，可以达到约 5 倍模型参数量的 Chinchilla-optimal 模型。而持续训练下去，有可能超越更大的 Chinchilla-optimal 模型。

同时团队预测，9B 模型的 Chinchilla Optimal 的终态 C4 Loss 约为 2.40，7B 模型约为 2.45。MiniCPM 的最终 C4 Loss 为 2.41，接近于 9B 的 Chinchilla Optimal 模型。

发布 MiniCPM 之前，团队做了上千次的模型沙盒实验，探索出的最优配置为：WSD LRS，batchsize 为 3.93M，Max Learning Rate 为 0.01。

高质量数据

除了技术积累之外，面壁智能在 MiniCPM 的训练中，也追求数据的极致高效。

这次，MiniCPM 公开了训练的两个数据配方。在稳定训练阶段，团队使用了 1T 的去重后数据，其中大部分数据从开源数据中收集而来：

退火阶段，SFT 数据配比如下：

“用更低的成本完成最小的模型，我们(We)没有在追赶，我们(We)一直领先。”刘知远说道。

更多技术细节可以查看：

https://shengdinghu.notion.site/MiniCPM-c805a17c5c8046398914e47f0542095a

结束语

作为 2024 年的首次对外发布，李大海也回顾了面壁智能的成长历程：

“面壁智能是最早的大模型研究团队之一。2018 年，我们(We)脱胎于清华 NLP 实验室发布 ERNIE 模型，ERNIE 模型是全球首个知识指导的预训练模型；2020 年 12 月，我们(We)是悟道大模型首发主力阵容；2022 年 4 月，OpenBMB 开源社区成立；2022 年 8 月，面壁智能公司化运作；2023 年，经历了两轮融资，其中第一轮是知乎独家天使轮融资，也是这一年，面壁智能领跑 Agent 研究发布了 AgentVerse、ChatDev、XAgent 等框架。”

如今已经拥有超 100 人的科研团队，其中“清华”含量 80%，平均年龄 28 岁，还有来自阿里、字节、百度等公司的人才。

将来，面壁智能表示将贯彻“大模型 +Agent”双引擎战略，致力于更小规模、更快速度和更低成本的达成。

小彩蛋

过年前，面壁智能开发了一款名为“心间”的应用，拥有“磕 CP”功能，比如李白和杜甫、清华和北大，大家也可以磕自己想要的 CP～

本文来自微信公众号“AI前线”（ID：ai-front），作者：褚杏娟，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

+13

好文章，需要你的鼓励

AI前线特邀作者0收藏+10评论打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮微博沉浸阅读返回顶部参与评论评论千万条，友善第一条登录后参与讨论(Discuss)提交评论0/1000你可能也喜欢这些文章比死神还准？用AI预知死亡，准确率高达80%今天(Today)，2岁婴儿登上Science，成为AI的语言启蒙师被AI夺走工作的人，决定反抗AI｜深氪lite电话大模型，“VO荣米”内卷新战事番茄小说内测AI辅助写作功能，靠谱吗？直逼GPT-4开源模型大泄漏，AI社区炸锅，Mistral CEO自曝是旧模型，OpenAI再败一局？我们(We)向字节版GPTs“扣子”提出问题后，发现了更多问题大模型这把“火”，烧到了人形机器人马斯克：正和擎天柱一起散步最新文章推荐惠之星挂牌新三板，主营光学级硬化膜等特殊功能薄膜助力货架生意稳增长，2023商品卡免佣年终回顾来啦！北交所变革创新持续推进 920代码号段有新进展除了银泰，阿里还想卖掉谁翻了首航、艾罗、沃太、三晶共4000页的上市材料，我找到了国外户储的5个真相李想担心的事，还是发生了...最强头显Vision Pro：妥协的苹果，迷茫的XR“究极缝合怪”幻兽帕鲁给宝可梦和躺平er上了一课探店1天：第一天送外卖赚了99元，什么水平？清华系2B模型杀出，性能吊打LLaMA-13B，170万tokens仅需1块钱

AI前线特邀作者

作者有点忙，还没写简介

发表文章296篇最近内容清华系2B模型杀出，性能吊打LLaMA-13B，170万tokens仅需1块钱37分钟前性能逼近GPT-4，开源Mistral-Medium意外泄露？CEO最新回复来了昨天(Yesterday)向微软“复仇”，支持OpenAI、Copilot 的Zed编辑器要干掉VS Code：Rust+少插件，速度贼快2024-01-26阅读更多内容，狠戳这里下一篇拼多多旗下Temu惹事，因在美侵犯用户隐私被集体诉讼

拼多多需要摆正姿态了

40分钟前

热门标签祖国石化车托帮路况对标分析玉米十字星外部融资宠物医院谷歌推广脉诊更美app永生传奇世界太空铝网页代码海淀北部漕河泾开发区国庆小长假中秋小长假五一劳动节刺客聂隐娘广深港高铁广东移动商界美邦服饰周成建印度理工学院君子兰藏獒长春君子兰关于36氪城市合作寻求报道我要入驻投资者关系商务合作关于我们(We)联系我们(We)加入我们(We)网站谣言信息举报入口热门推荐热门资讯热门产品文章标签快讯标签合作伙伴