HI,下午好,新媒易不收取任何费用,公益非盈利机构
24小时服务热线: 4000-162-302
请扫码咨询

新媒易动态

NEWS CENTER

大模型是未来科技的发展趋势,更是下一个人工智能的高地

2023-08-25

成为浪潮之上的角逐者,必须有对技能的沉积和堆集。作为小米AI技能的“试验田”和“弹药库”,小米AI实验室会研制中长期的前沿技能,围绕小米事务做储备,在集团需求的时候输出“弹药”。小米对AI的深刻认识与把握的技能才能,也有用地赋能了手机、机器人等各个事务板块。

大模型是未来科技的发展趋势,更是下一个人工智能的高地。2021年开始,小米就对大模型的方向特别重视,并展开了对话大模型的预研作业。在闲谈对话场景下,依托于月活超过1.15亿的智能语音助理小爱同学,小米研制了参数规划为28亿的对话模型,到达了当时同等参数规划下业界的较高水平。这为小米堆集了多卡分布式练习的经历,为后续展开大规划言语模型练习奠定了根底。


2. 小米大模型:轻量化、本地布置

小米具有品类很多的设备,是全球规划抢先的消费级物联网平台。设备多样,运用场景也各不相同,一个大模型难以兼顾。如果把一部分大模型才能下放到端侧,不仅能更好地维护用户隐私、而且有机会在本地完结千人千面的个性化定制。

软硬结合,生态连接,这是大模型技能与小米生态结合的最优计划,让用户既可以具有数据安全,又可以具有大模型的先进生产力。因而,“轻量化、本地布置”是小米大模型技能的主力打破方向。


现在,咱们自研的13亿参数的端侧模型已经在手机端跑通,部分场景作用媲美60亿模型在云端的运算结果。与早些时候市场上放出的手机端大模型的计划比较,小米会调整模型结构和参数巨细,适配各种芯片在内存和算力上的特色,致力于到达功耗、推理速度和生成作用的最佳平衡。


三、布局人工智能,全力打破大模型

1. 自有数据更懂小米

数据上,咱们自己发掘收拾的练习数据占比到达了80%,其间小米自有的产品和事务数据量到达3TB。因而咱们的大模型最懂小米的产品,最懂小米的事务。

2. 功率和作用的最佳平衡

结构上,咱们根据对Transformer结构的理解,融合了本身的实践经历进行改良;并且充分考虑设备端芯片的特色要求,合理设置模型的宽度和深度,致力于到达功率和作用的最佳均衡。

3. 更多策略更少糟蹋

练习策略上,采用小米提出的ScaledAdam优化器和Eden学习率调度器,显著提高收敛速度的一起减少了优化器中显存的糟蹋。由于模型的知识容量有限,需求更精巧地安排练习数据的次序,使得模型尽可能多地把握知识点和技能,减少参数的糟蹋,以此完结“轻量化”。

4. 为用户隐私安全保驾护航

模型布置到端侧后,信息不必上传到云端,所有核算都在本地进行,可以从根本上确保用户隐私不被泄露。即便在端云结合的服务框架下,隐私信息会存储在端侧,触及它们的核算也尽可能在端侧完结。即便偶然需求运用云端的才能,信息也会经过处理和加密。

四、仰望技能星空,脚踏体会实地

截至2023年8月10日,小米自研的大规划预练习言语模型MiLM-6B,参数规划为64亿,在威望中文评测榜单C-EVAL和CMMLU中位列同等参数规划大模型第一。


在C-Eval评价中,MiLM-6B 的平均分为60.2,总榜单排名第10、同参数量级排名第1。

“C-Eval”是由上海交通大学、清华大学、爱丁堡大学共同构建的一个针对根底模型的归纳中文评价套件。它由 13948 道多项选择题组成,包括 52 个不同学科和四个难度等级,掩盖人文、社科、理工,及其他专业四个大方向,用以帮助中文社区研制大模型。

在CMMLU评价中,MiLM-6B在Five-shot和Zero-shot 测验中的平均分分别为57.17和60.37,均位列中文向模型第1。

“CMMLU”是一个归纳性的中文大模型评价基准,包括了从根底学科到高级专业水平的67个主题,触及自然科学、社会科学、人文、以及知识等,专门用于评价言语模型在中文语境下的知识和推理才能。

通过打榜,验证了咱们对特定垂域进行定向增强的技能可以到达怎样的作用,这也是用轻量化模型进行事务定制的必备才能。尽管小米大模型取得了优异的成果,但咱们不会把榜单排名与用户体会画上等号。好成果的背后,更重要的还是打磨技能、沉积方法论,将它们运用到产品,提高用户体会才是咱们的终极目标。

科技应着眼于处理问题,以需求与应用为落点。小米大模型采用“轻量化、本地布置”的计划,可以更好地处理多场景、个性化的用户需求。一方面,大模型本地运转无需担心“弱网、无网”情况,且呼应速度快,运用稳定;另一方面,在供给愈加个性化服务的一起,也可以更好地维护用户隐私,让技能真实改善用户体会,让成果真实落地有用。

相关推荐