摘要

1.大模型构筑AI基石,MaaS未来可期1.1.NLP五级进阶,大模型应运而生从基于规则到基于人的意识,大型语言模型是技术进步的必然产物。自然语言处理发展到大型语言模型的历程可分为五个阶段:规则、统计机器学习、深度学习、预训练、大型语言模型。考虑到机器翻译是NLP中难度最高、综合性最强的任务,可借助该功能来论述不同技术阶段的典型特点。从1956年到1992年,基于规则的机器翻译系统在内部把各种功能...

1.大模型构筑AI基石,MaaS未来可期



1.1.NLP五级进阶,大模型应运而生



从基于规则到基于人的意识,大型语言模型是技术进步的必然产物。自 然语言处理发展到大型语言模型的历程可分为五个阶段:规则、统计机 器学习、深度学习、预训练、大型语言模型。考虑到机器翻译是 NLP 中 难度最高、综合性最强的任务,可借助该功能来论述不同技术阶段的典 型特点。



从 1956 年到 1992 年,基于规则的机器翻译系统在内部把各种 功能的模块串到一起,由人先从数据中获取知识,归纳出规则后教给机 器,然后由机器执行这套规则,该阶段为规则阶段;从 1993 年到 2012 年是统计机器学习阶段,在此期间,机器翻译系统可拆成语言模型和翻 译模型,该阶段相比上一阶段突变性较高,由人转述知识变成机器自动 从数据中学习知识,当时人工标注数据量在百万级左右;从 2013 到 2018 年,进入深度学习阶段,其相比于上一阶段突变性较低,从离散匹配发 展到 embedding 连续匹配,模型变得更大,标注数据量提升到千万级; 预训练阶段存在于 2018 年到 2022 年,跟之前比较,最大变化是加入了 NLP 领域杰出的自监督学习,将可利用数据从标注数据拓展到了非标注 数据。



该阶段系统可分为预训练和微调两个阶段,将预训练数据量扩大 3 到 5 倍,典型技术栈包括 Encoder-Decoder、Transformer、Attention 等。



大模型阶段在数据标注、算法、人机关系三方面的性能均有跨越式提升。 从 2023 年起开始进入大模型阶段,该阶段的突变性很高,已经从专用务转向通用任务或是以自然语言人机接口的方式呈现,旨在让机器遵循 人的主观意志。在数据标注方面,大模型已经从原来需要大量标注数据 进化到运用海量非标注数据,越来越多数据被利用起来,人的介入越来 越少,未来会有更多文本数据、更多其它形态的数据被模型运用。在算 法方面,大模型的表达能力越来越强、规模越来越大,自主学习能力越 来越强,从专用向通用趋势显著。



1.2.从CNN到Transformer,大模型底层架构显著优化



从 CNN 到 RNN 再到 LTSM,语言处理性能得到有效提升。早期NLP注重语法分析,通过设计语法方向实现句子分析。伴随着语料数据复杂化、多 样化,句子分析难度也提升。随后卷积神经网络(CNN)引发计算机视觉 领域的变革,因此 CNN 也逐步用在 NLP 上。但传统神经网络擅长图像识 别,考虑到语言的顺序属性,直接进行文字处理则效果有限。所以,随 后循环神经网络(RNN)模型应用铺开,RNN 将顺序作为权重因子,实现 了较好的效果。但 RNN 单元的记忆力短和梯度不稳定,因而用于长序列 时也有一定局限性。后来长短期记忆网络(LTSM)成为关注点,一定程 度解决了 RNN 的痛点,但针对长段落的处理能力仍需提升。



Transformer 模型可以替代当前的递归模型,消减对输入输出的顺序依 赖。Transformer 模型作为完全基于注意力机制的新神经网络架构,在 技术特征上主要体现为可以并行、速度更快。过往要训练一个深度学习 模型,必须使用大规模的标记好的数据集合来训练,这些数据集合需要 人工标注,成本极高。在 Transformer 下,通过 Mask 机制,遮挡已有文 章中的句段,让 AI 去填空,从而使很多现成的文章、网页等信息就成为 天然的标注数据集,成本节省极为明显;同时,RNN 的顺序计算、单一 流水线的问题在 Transformer 的并行机制下也能得到有效解决。 Transformer 问世后,迅速取代循环神经网络 RNN 的系列变种,可以满 足市面上几乎所有的自然语言处理的需求,成为主流的模型架构基础。 openAI、谷歌、百度等都是基于 Transformer 模型进行大模型研发和应 用。



基于预训练机制,Transformer 标志着“基础模型”时代的开始。 Transformer 作为基础性模型,开始对人脑学习过程重点关注,为其他 模型(GPT、GPT-3、BERT 等)的演化提供基本手段。同时,迁移学习 (Transfer Learning)使得基础模型成为可能,而预训练又是迁移学习 的主要方式。迁移学习的思想是将从一项任务中学习到的“知识”(例如, 图像中的对象识别)应用于另一项任务(例如,视频中的活动识别)。在 Transformer 模型中,预训练(Pre-training)是迁移学习的主要方法: “预训练”是将大量低成本收集的训练数据放在一起,经过某种预训方 法去学习其中的共性,然后将共性“移植”到特定任务模型中,再使用 相关特定领域的少量标注数据进行“微调”来适应下游任务。



大规模化(scaling up)使基础模型更强大,因而 GPT 模型得以形成。大规模需要三个要素:(i)计算机硬件的改进——例如,GPU 吞吐量和 内存在过去四年中增加了 10 倍;(ii)Transformer 模型架构的开发, 该架构利用硬件的并行性来训练比以前更具表现力的模型;以及(iii) 更多训练数据的可用性。基于 Transformer 的序列建模方法现在应用于 文本、图像、语音、表格数据、蛋白质序列、有机分子和强化学习等, 这些例子的逐步形成使得使用一套统一的工具来开发各种模态的基础 模型这种理念得以成熟。例如,GPT-3 在上下文学习中,只需向下游任 务提供提示(任务的自然语言描述),语言模型就可以适应下游任务,这 是产生的一种新兴属性。并且,只有千亿参数规模以上的大模型,才可 能出现“智慧涌现能力”,涌现出包括“思维链”等强大的推理模式,而 具备“涌现能力”的大模型也正是 ChatGPT 得以推出的重要前提条件。



1.3.大模型技术路线各有侧重,MaaS已成产业趋势



大型语言模型研究的发展有三条技术路线:Bert 模式、GPT模式、混合 模式。其中国内大多采用混合模式,多数主流大型语言模型走的是 GPT 技术路线,直到 2022 年底在 GPT-3.5 的基础上产生了 ChatGPT。到 2019 年后,Bert 路线基本没有标志性的新模型更新,而 GPT 技术路线则趋于 繁荣。从 Bert 往 GPT 演化的过程中,模型越来越大,所实现的性能也越 来越通用。



各类大语言模型路线各有侧重,GPT 模式在生成类任务表现最优。大型 语言模型按照从数据到知识来划分,数据可分为通用数据和领域数据, 知识分为语言知识和世界知识。从任务类型来划分,大型语言模型可以 分为单一任务和多任务、理解类和生成类;Bert 模式有两阶段(双向语 言模型预训练+任务 Fine-tuning),适用于理解类以及某个场景的具体 任务,表现得“专而轻”。GPT 模式是由两阶段到一阶段(单向语言模型 预训练+ zero-shot prompt),比较适合生成类任务、多任务,表现得 “重而通”。T5 模式则将两者的方法结合,包含有两阶段(单向语言模 型预训练+Fine-tuning)。根据当前研究结论,如果模型规模不特别大, 面向单一领域的理解类任务,适合用 T5 模式,而 GPT 模式在做生成类 任务时的效果最好。综合来看,当前几乎所有参数规模超过千亿的大型 语言模型都采取 GPT 模式。



基础大模型日趋成熟,MaaS 已成产业趋势。近年来,基础模型(也被称 为预训练模型)的研究从技术层面逐渐趋向于大一统,不同人工智能领域(例如自然语言处理、计算机视觉、语音处理、多模态等)的基础模 型从技术上都依赖三个方面:一是 Transformers 成为不同领域和问题 的通用神经网络架构和建模方式,二是生成式预训练(generative pretraining)成为最重要的自监督学习方法和训练目标,三是数据和模型 参数的规模化进一步释放基础模型的潜力。技术和模型的统一将使得 AI 大模型逐步标准化、规模化,基于标准化的大模型,有助于为大范围产 业化提供基础和可能,从而实现 MaaS 生态(Model as a service)。进 一步借助云部署和云端协作,AI 将有可能成为像水电一样的“新基建” 赋能各行各业,并进一步催生颠覆性的应用场景和商业模式。



基于视觉图像的大模型应用仍得益于大型语言模型的升级演化。扩大模 型规模和数据大小可提高基础模型的泛化能力,从而提升模型的下游迁 移能力。遵循这一理念,科研人员逐渐将模型规模扩大到了数十亿个参 数,这些大模型在语言理解、语言生成等任务上都取得了更好的成效。 同样地,在 CV 领域,具有 30 亿参数的 Swin Transformer v2.0,也证 明了视觉大模型在广泛视觉任务中的优势。再者,微软亚研院提出了将 图像视为一种语言的方式,可直接复用已有的大规模语言模型的预训练 方法,从而更有利于视觉基础模型的扩大。



CLIP 和 BEiT-3 的技术突破和广泛应用催生视觉图像大模型。CLIP是 OpenAI 在 2021 年提出的跨模态模型,该模型专注于从文本特征映射到 图像特征。通过在互联网上抓取大量图片文本,学习一段时间过后,CLIP 能够实现用自然语言解释对图片的理解,也能通过文字描述来生成图片, 这是一种跨模态的生成和转换。之后爆红的文生图大模型 DALL-E 2,能 够通过用户给的一段文字描述生成图片,其背后的技术基础正是 CLIP 模 型。Stable Diffusion 也使用了 CLIP,实现了通过文本提示调整模型, 并借助扩散模型改善图像质量的目的。



2.GPT系列一路领先,海外大模型角逐激烈



2.1.OpenAI:GPT系列大模型一骑绝尘,智能化程度提升迅速



OpenAI 正是基于 Transformer 基础模型推出了 GPT 系列大模型。GPT (Generative Pre-trained Transformer)即生成式预训练 Transformer 模型,模型被设计为对输入的单词进行理解和响应并生成新单词,预训 练代表着 GPT 通过填空方法来对文本进行训练。在机器学习里,存在判 别式模式(discriminative model)和生成式模式(Generative model)两 种类型, 相比之下,生成式模型更适合大数据学习,判别式模型更适合人工标注的有效数据集,因而,生成式模型更适合实现预训练。



GPT 模型依托于 Transformer解除了顺序关联和对监督学习的依赖性的 前提。在 NLP 领域,基于原始文本进行有效学习的能力能够大幅降低对 于监督学习的依赖,而很多深度学习算法要求大量手动标注数据,该过 程极大限制了其在诸多特定领域的适配性。在考虑以上局限性的前提下, 通过对未标记文本的不同语料库进行语言模型的生成式预训练,然后对 每个特定任务进行区分性微调,可以实现这些任务上的巨大收益。和之 前方法不同,GPT 在微调期间使用任务感知输入转换,以实现有效的传 输,同时对基础模型架构的更改最小。



GPT 相比于 Transformer 等模型进行了显著简化。相比于Transformer, GPT 训练了一个 12 层仅 decoder 的解码器,原 Transformer 模型中包含 编码器和解码器两部分(编码器和解码器作用在于对输入和输出的内容 进行操作,成为模型能够认识的语言或格式)。同时,相比于 Google 的 BERT,GPT 仅采用上文预测单词,而 BERT 采用了基于上下文双向的预测 手段。



GPT-2 实现执行任务多样性,开始学习在不需要明确监督的情况下执行 数量惊人的任务。GPT-2 在 GPT 的基础上进行诸多改进,在 GPT-2阶段, OpenAI 去掉了 GPT 第一阶段的有监督微调(fine-tuning),成为了无监 督模型。GPT-2 大模型是一个 1.5B 参数的 Transformer,在其论文中它 在 8 个测试语言建模数据集中的 7 个数据集上实现了当时最先进的结果。 GPT-2 模型中,Transfomer 堆叠至 48 层,数据集增加到 8 百万量级的 网页、大小 为 40GB 的文本。



GPT-2 通过调整原模型和采用多任务方式来让 AI 更贴近“通才” 水平。 机器学习系统通过使用大型数据集、高容量模型和监督学习的组合,在 训练任务方面表现出色,然而这些系统较为脆弱,对数据分布和任务规 范的轻微变化非常敏感,因而使得 AI 表现更像狭义专家,并非通才。考 虑到这些局限性,GPT-2 要实现的目标是转向更通用的系统,使其可以 执行许多任务,最终无需为每个任务手动创建和标记训练数据集。而 GPT-2 的核心手段是采用多任务模型(Multi-task),其跟传统机器学习 需要专门的标注数据集不同(从而训练出专业 AI),多任务模型不采用 专门 AI 手段,而是在海量数据喂养训练的基础上,适配任何任务形式。



GPT-3 取得突破性进展,任务结果难以与人类作品区分开来。GPT-2训 练结果也有不达预期之处,所存在的问题也亟待优化。例如,在 GPT-2 阶段,尽管其模型体系结构与任务无关,但仍然需要任务特定的数据集 和任务特定的微调:要在所需任务上实现强大的性能,通常需要对特定 于该任务的数千到数十万个示例的数据集进行微调,因而成本极高。相 比于 GPT-2 采用零次学习(zero-shot),GPT-3 采用了少量样本(fewshot)加入训练。GPT-3 是一个具有 1750 亿个参数的自回归语言模型, 比之前的任何非稀疏语言模型多 10 倍,GPT-3 在许多 NLP 数据集上都有 很强的性能(包括翻译、问题解答和完形填空任务),以及一些需要动态 推理或领域适应的任务(如解译单词、在句子中使用一个新单词或执行 三位数算术),GPT-3 也可以实现新闻文章样本生成等。GPT-3 论文中论 述到,虽然少量样本学习(few-shot)稍逊色于人工微调,但在无监督 下是最优的,证明了 GPT-3 相比于 GPT-2 的优越性。



InstructGPT(GPT-3.5)模型在 GPT-3 基础上进一步强化。使语言模型 更大并不意味着它们能够更好地遵循用户的意图,例如大型语言模型可 以生成不真实、有毒或对用户毫无帮助的输出,即这些模型与其用户不 一致。另外,GPT-3 虽然选择了少样本学习(few-shot)和继续坚持了 GPT-2 的无监督学习,但基于 few-shot 的效果也稍逊于监督微调(finetuning)的方式,仍有改良空间。基于以上背景,OpenAI 在 GPT-3 基础 上根据人类反馈的强化学习方案 RHLF(reinforcement learning from human feedback),训练出奖励模型(reward model)去训练学习模型 (即:用 AI 训练 AI 的思路)。InstructGPT 使用来自人类反馈的强化学 习方案 RLHF,通过对大语言模型进行微调,从而能够在参数减少的情况 下,实现优于 GPT-3 的功能。



InstructGPT 与 ChatGPT属于相同代际模型, ChatGPT的发布率先引爆 市场。GPT-3 只解决了知识存储问题,尚未很好解决“知识怎么调用” 的问题,而 ChatGPT 解决了这一部分,所以 GPT-3 问世两年所得到的关 注远不及 ChatGPT。ChatGPT 是在 InstructGPT 的基础上增加了 Chat 属 性,且开放了公众测试,ChatGPT 提升了理解人类思维的准确性的原因 也在于利用了基于人类反馈数据的系统进行模型训练。



GPT-4 是 OpenAI 在深度学习扩展方面的最新里程碑。根据微软发布的 GPT-4 论文,GPT-4 已经可被视为一个通用人工智能的早期版本。GPT-4 是一个大型多模态模型(接受图像和文本输入 、输出),虽然在许多现实场景中的能力不如人类,但在各种专业和学术基准测试中表现出人类水 平的性能。例如,它在模拟律师资格考试中的成绩位于前 10%的考生, 而 GPT-3.5 的成绩在后 10%。GPT-4 不仅在文学、医学、法律、数学、 物理科学和程序设计等不同领域表现出高度熟练程度,而且它还能够将 多个领域的技能和概念统一起来,并能理解其复杂概念。



除了生成能力,GPT-4 还具有解释性、组合性和空间性能力。在视觉范 畴内,虽然 GPT-4 只接受文本训练,但 GPT-4 不仅从训练数据中的类似 示例中复制代码,而且能够处理真正的视觉任务,充分证明了该模型操 作图像的强大能力。另外,GPT-4 在草图生成方面,能够结合运用 Stable Difusion 的能力,同时 GPT-4 针对音乐以及编程的学习创造能力也得到 了验证。



2.2.微软:与OpenAI深度绑定,占得行业先机



微软陪跑 OpenAI,双方各取所需。本质上,OpenAI的做法是将公司出租 给微软,租期取决于 OpenAI 的盈利速度。2019 年微软首次注资 OpenAI 后,双方开始在微软的 Azure 云计算服务上合作开发人工智能超级计算 技术,同时 OpenAI 逐渐将云计算服务从谷歌云迁移到 Azure。微软与 OpenAI 合作符合双方各自需求点,一方面 OpenAI 亟需算力投入和商业 化背书。另一方面,微软也需要 OpenAI,微软 2015 年推出 Tay 聊天机 器人十分受挫,在 AI 技术商业化应用方面日渐式微,当时在基础研究层 面也尚无具备广泛影响力的产出,而 AI 能力,尤其大模型 AI 对于每一 个大厂来均是防御性质的刚需领域,因而微软可通过 OpenAI 重获 AI 竞 争力。



微软与 OpenAI 战略合作深入,占得行业先机。2020 年,微软买断 GPT3 基础技术许可,并获得了技术集成的优先授权。2021 年微软再次投资, 双方合作关系正式进入第二阶段,从合作探索期进入蜜月期。一方面, 作为 OpenAI 的云提供商,在 Azure 中集中部署 OpenAI 开发的 GPT、 DALLE、Codex 等各类工具,这也形成了 OpenAI 最早的收入来源——通 过 Azure 向企业提供付费 API 和 AI 工具。与此同时,拥有 OpenAI 新技 术商业化授权,微软开始将 OpenAI 工具与自有产品进行深度集成,并推 出相应产品。例如,2021 年 6 月基于 Codex,微软联合 OpenAI、GitHub 推出了 AI 代码补全工具 GitHub Copilot,以月付费 10 美元或年付费 100 美元的形式提供服务。2022 年,微软开始通过 Edge 浏览器和 Bing 搜索引擎在部分国家和地区提供基于 AI 图像生成工具 DALLE 开发的 Image creator 新功能。同年 10 月,微软宣布将推出视觉设计工具 Microsoft designer。微软也正将 ChatGPT 用于 Office 和搜索引擎 Bing 等产品中,以优化现有工具,改进产品功能。



2020 年微软发布当时最大语言模型 Turing-NLG,为更流畅的人机对话 打下基础。在自然语言模型日趋大型的背景下,微软图灵项目推出了图 灵自然语言生成(T-NLG)技术,该模型包含 170 亿参数量,是此前最大 的语言模型英伟达“威震天”(Megatron)的两倍,是 OpenAI 模型 GPT2 的 10 多倍。通过对比预训练的 T-NLG 模型在标准语言任务,例如 WikiText-103 和 LAMBADA 在下一个单词的预测准确度(越高越好)上的 性能,都打破了已有的最好纪录。当时 OpenAI 使用了额外的处理技术 (停用词过滤)来获得比独立模型更好的成绩,而 Megatron 和 T-NLG 都 不使用停用词过滤技术。同时,在直接回答问题和零次回答能力上,TNLG 会直接用完整的句子回答问题,且无需上下文环境。为了使 T-NLG 尽可能通用,从而为各种类型的文本生成摘要,该项目在几乎所有公开 可用的摘要数据集中以多任务方式调整了 T-NLG 模型,总计约有 400 万 个训练实例。总之,T-NLG 为对话更流畅的聊天机器人和数字助理等应 用铺平了道路。



汲取“两家”所长,Megatron Turing-NLG(MT-NLG)再次刷新模型规模 纪录。微软联手英伟达进一步打造的 MT-NLG 模型容纳 5300 亿参数,训 练过程一共使用了 4480 块英伟达 A100 GPU,最终使该模型在一系列自 然语言任务中——包括文本预测、阅读理解、常识推理、自然语言推理、 词义消歧——都获得了前所未有的准确率。MT-NLG 融合英伟达最先进的 GPU 加速训练设备,以及微软最先进的分布式学习系统,来提高训练速 度,并用上千亿个 token 构建语料库,共同开发训练方法来优化效率和 稳定性。具体实现上,通过借鉴英伟达 Megatron-LM 模型的 GPU 并行处 理,以及微软开源的分布式训练框架 DeepSpeed,创建 3D 并行系统,对 于 5300 亿个参数的模型,每个模型副本跨越 280 个 A100 GPU,节点内 采用 Megatron-LM 的 8 路张量切片,节点间采用 35 路管道并行,然后 再使用 DeepSpeed 的数据并行性进一步扩展到数千个 GPU,最终在基于 DGX SuperPOD 的Selene超级计算机上完成混合精度训练。该模型在PiQA 开发集和 LAMBADA 测试集上的零样本、单样本和少样本三种设置中都获 得了最高的成绩。



打造不同 AI 领域功能融合的多模态基础模型,AI技术和模型大一统渐 露曙光。2022 年 8 月,微软亚洲研究院联合微软图灵团队推出了最新升 级的 BEiT-3 预训练模型,在广泛的视觉及视觉-语言任务上,包括目标 检测(COCO)、实例分割(COCO)、语义分割(ADE20K)、图像分类(ImageNet)、 视觉推理(NLVR2)、视觉问答(VQAv2)、图片描述生成(COCO)和跨模 态检索(Flickr30K,COCO)等,实现了 SOTA 的迁移性能。BEiT-3 创新 的设计和出色的表现为多模态研究打开了新思路,也预示着 AI 大一统 趋势渐露曙光。



2.3.谷歌:扎根基础模型研发,引领技术革新



构筑行业发展基石,大型基础模型持续优化升级。谷歌最早在 2017 年 提出 Transformer 网络结构,成为了过去数年该领域大多数行业进展 的基础。随后在 2018 年,谷歌提出的 BERT 模型,在 11 个 NLP 领域的 任务上都刷新了以往的记录。和 GPT 相比,BERT 最大的区别就是使用 文本的上下文来训练模型,而 GPT 专注于文本生成,使用的是上文。 BERT 使用了 Transformer 的 Encoder 和 Masked LM 预训练方法,因此 可以进行双向预测;而 OpenAI GPT 使用了 Transformer 的 Decoder 结 构,利用了 Decoder 中的 Mask,只能顺序预测。BERT 无需调整结构就 可以在不同的任务上进行微调,在当时是 NLP 领域最具有突破性的一 项技术。



基于 Transformer 结构,T5 明确了大模型性能提升路径。鉴于各个机构 不断提出预训练目标函数,并不断收集更多训练语料,很难分析比较这 些工作的有效贡献量,因此谷歌于 2019 年推出大模型——T5(Text-toText Transfer Transformer),将各种 NLP 任务(翻译、分类、回归、 摘要生成等)都视为 Text-to-Text 任务,从而使得这些任务在训练(预 训练和微调)时能够使用相同的目标函数,在测试时也能使用相同的解 码过程,由此可以方便地评估在阅读理解、摘要生成、文本分类等一系 列 NLP 任务上,不同的模型结构、预训练目标函数、无标签数据集等的影响。本质上 T5 提出的目的不是提出一个新方法,而是对 NLP 领域的 技术支撑点提供较为全面的分析视角,分析各种训练技巧对模型性能提 升的实际影响,从而采用合适的技巧预训练出一个好的模型。



谷歌 LaMDA 实现自然对话突破,释放与技术互动的更自然方式。在 ChatGPT 取得突破性成功之后,谷歌宣布了自己的聊天机器人谷歌 Bard, 而 Bard 这个技术形象背后是 LaMDA 在提供后端支撑。LaMDA 是继 BERT 之后,谷歌于 2021 年推出的一款自然对话应用的语言模型。LaMDA 建立 在谷歌 2020 年发表的早期研究之上,该研究表明,基于 Transformer 的 语言模型经过对话训练,可以学会谈论几乎任何事情。此后,谷歌还发 现,一旦经过训练,LaMDA 可以进行微调,从而大幅提高其反应的合理 性和特异性。与其他大多数语言模型不同,LaMDA 是在对话中训练的, 在训练过程中它发现了一些区别于其他语言形式的开放式对话的细微 差别。总之,LaMDA 的推出虽然在技术上没有新突破,但却提供了很有 价值的落地方案参考。



Switch Transformer 模型进一步提升大模型参数,实现简单且高效计 算。Switch Transformer 的设计原则是以一种简单且高效计算的方式来 最大化 Transformer 模型的参数数量。Switch Transformer 拥有 1.6 万 亿参数,超越了 GPT-3 的规模,成为史上首个万亿级语言模型。Switch Transformer 是由混合专家(Mix of Expert,MoE)AI 模型范式发展而 来的,MoE 模型是指将多个专家或专门从事不同任务的模型放在一个较 大的模型中,并有一个“门控网络(Gating Network)”来选择为任何给 定数据要咨询哪些专家。其论文中指出,Switch Transformer 使用了稀 疏激活技术,该技术只使用了神经网络权重的子集,或者是转换模型内 输入数据的参数,在相同计算资源下,其训练速度上比谷歌之前研发的 最大模型 T5-XXL 还要快 4 倍。



谷歌通用稀疏语言模型 GLaM 在小样本学习上打败GPT-3。虽然大型语言 模型可以通过简单地使用更多参数来获得更好的性能,但更有效地训练 和使用这些模型也十分必要。鉴于此,谷歌在 Switch Transformer 推出 的同年,研发出 GLaM 模型架构,GLaM 也是混合专家模型(MoE),其在多 个小样本学习任务上取得有竞争力的性能。谷歌首先构建了一个高质量、 具有 1.6 万亿 token 的数据集以及开发文本质量过滤器,谷歌应用这个 过滤器来生成 Web 网页的最终子集,并将其与书籍和维基百科数据相结 合来创建最终的训练数据集。完整的 GLaM 总共有 1.2T 参数,每个 MoE 包含 64 个专家,总共 32 个 MoE 层,但在推理期间,模型只会激活 97B的参数,占总参数的 8%。最终谷歌证明了稀疏激活模型在达到与密集模 型相似的 zero-shot 和 one-shot 性能时,训练时使用的数据显著减少。 如果使用的数据量相同,稀疏型模型的表现明显更好。并且,GLaM 训练 时耗能要少于其他模型。



融合传感器模态与语言模型,相较于 ChatGPT新增了视觉功能。2023年 3 月,谷歌和柏林工业大学 AI 研究团队推出了迄今最大视觉语言模型— —PaLM-E 多模态视觉语言模型(VLM),该模型具有 5620 亿个参数,集 成了可控制机器人的视觉和语言能力,将真实世界的连续传感器模态直 接纳入语言模型,从而建立单词和感知之间的联系,且该模型能够执行 各种任务且无需重新训练,其相较于 ChatGPT 新增了视觉功能。PaLM-E 的主要架构思想是将连续的、具体化的观察(如图像、状态估计或其他 传感器模态)注入预先训练的语言模型的语言嵌入空间,这是通过将连 续观测编码为与语言标记的嵌入空间具有相同维度的向量序列来实现 的,因此,以类似于语言标记的方式将连续信息注入到语言模型中。 PaLM-E 是一种仅限解码器的 LLM,它在给定前缀或提示的情况下自回归 地生成文本完成。



基于大模型积累,实现视觉语言与机器人高水平实时互联。基于语言模 型,PaLM-E 会进行连续观察,例如接收图像或传感器数据,并将其编码 为一系列与语言令牌大小相同的向量。因此,模型就能继续以处理语言 的方式“理解”感官信息。而且,同一套 PaLM-E 模型能够达到实时控制 机器人的水准。PaLM-E 还展现出随机应变的能力,例如尽管只接受过单 图像提示训练,仍可实现多模态思维链推理(允许模型对包含语言和视 觉信息在内的一系列输入进行分析)和多图像推理(同时使用多张输入 图像进行推理或预测)。但谷歌展示的 Demo 中的空间范围、物品种类、 任务规划复杂度等条件还比较有限,随着深度学习模型愈发复杂,PaLME 也将打开更多可行性应用空间。



3.国内大模型蓄力已久,赶超动能强劲



3.1.百度:全栈技术积累颇丰,AI应用场景全覆盖



模型与技术积累丰厚,传统业务奠定先发优势。从模型上看,百度手握 文心系列模型(ERNIE1.0,ERNIE2.0,ERNIE3.0,ERNIE3.0-Titan)和 PLATO 系列模型(PLATO1,PLATO2,PLATO-XL),均积累多年,且和自家 核心业务息息相关。此外,百度还有一个从软件到 AI 芯片全栈打通的 Paddle 训练框架生态,其对标 PyTorch 和 TenserFlow,也属国内独家。 在核心业务上,百度在国内牢牢把握着搜索端入口,相比于谷歌则更加 从容,不需要应付同行的快速挑战,可以以自己的节奏过渡到“大模型 +搜索”的问答搜索业务新模式。同时,基于海量中文数据集沉淀,百度 也将获得海量中文问答式搜索反馈数据,该稀缺数据足以让百度巩固和 继续扩大在这方面的优势,形成“数据飞轮”效应。



文心大模型处于百度全栈布局中的模型层。百度经过11年积累了全栈 人工智能技术,从芯片层、框架层、模型层到应用层。这四层之间形成 层到层到反馈、端到端优化,尤其是模型层的文心大模型和框架层的飞 桨(产业级开源开放平台),在开发文心一言的过程中,它们的协同优化 起到了至关重要的作用。模型层的文心大模型包括 NLP 大模型、CV 大模 型和跨模态大模型,在此基础上开发了大模型的开发工具、轻量化工具 和大规模部署工具,而且支持零门槛的 AI 开发平台以及全功能 AI 开发 平台。



2019 年第一个文心大模型和如今的文心一言一样是NLP模型,具备三条 发展主线。文心 NLP 大模型发展过程有三条主线,第一条主线是文心 ERNIE,文心 ERNIE 3.0 以及文心ERNIE 3.0 Titan 模型当时在SuperGLUE 和 GLUE 都超过了人类排名第一的水平;第二条主线是文心 ERNIE 在跨 模态、跨语言以及长文档、图模型等方面获得了突出进展,在各种榜单 尤其视觉语言相关榜单上获得第一;第三条主线是对话生成大模型文心 PLATO,其在对话的流畅性上得到很大提升。



知识增强大模型 ERNIE 具备持续学习框架。在文心ERNIE的框架中,可 以不断从不同的数据和知识上学习,而且不断地构建新任务,比如文本 分类任务、问答任务、完形填空任务等。大模型从不同任务中持续学习, 使能力得到持续提升,从而拥有更多知识。在此基础上,百度研发了知 识增强的预训练模型,该模型能够从大规模知识图谱和海量无结构数据 中学习,突破异构数据统一表达的瓶颈问题;该模型也能够融合自编码 和自回归结构,既可以做语言理解,也可以做语言生成;另外,基于飞 桨 4D 混合并行技术(4D 混合并行是指训练的时候同时有 4 种不同并行 方式),能够节省 50%的时间,从而实现更高效地支持超大规模模型的预 训练。在以上三个特色基础上,百度发布了当时全球首个知识增强的千 亿大模型 ERNIE3.0,拥有 2600 亿参数,在 60 多项的 NLP 任务上取得世 界领先。同时,在这个模型上的实际应用中,能把参数压速到 99%,使 该模型的效果得到大幅提升。



在 Fine-tuning 任务上,文心 ERNIE可以用在不同任务中,用任务数据 做微调。文心 ERNIE 在 21 类 54 个 Fine-tuning 任务中取得领先。这些 任务分布广泛,包括语言理解、语言生成、知识推理等。同时,文心 ERNIE 在零样本和小样本学习的能力也突出,尤其在文本分类、阅读理解、知 识推理、指代消解等任务中取得全面领先。相比 Bert,ERNIE 在理念上 引入了知识图谱等外部知识信息,例如语料里的人名、地名、机构名、 句子间结构关系和逻辑关系等等。在这些特征的赋能下,相比 GPT-3, 文心 ERNIE 在复杂知识推理能力上有 8 个百分点的绝对提升。



跨语言大模型 ERNIE-M 解决小语种语料资源不足的问题。跨语言的学 习过程中,中文和英文语种语料资源较为丰富,但诸多小语种语料资源 缺乏,因此,百度用少量平行语料和大量非平行语料通过回译的机制进学习的方式来解决问题。该过程使用统一模型建模了 96 种语言,并在 5 类语言任务上刷新世界最好结果,例如在自然语言推断、语义相似度、 阅读理解、命名实体识别、跨语言检索等任务中,都获得了极大提升, 同时在权威跨语言理解榜单 XTREME 上获得第一。



跨模态大模型 ERNIE-ViL首次引入场景知识,助力跨模态任务有效执行。 引入场景知识的目的是为了理解图像中细粒度的语义,比如房子、车子 和人之间的关系以及车的颜色等。通过构建场景图的方式,模型能够对 图像进行细粒度的语义理解,从而在跨模态任务上取得最好的效果,比 如视觉问答、视觉常识推理、图像检索等。ERNIE-ViL 在权威视觉常识 推理任务 VCR 榜单上也排名第一。借助跨模态语义对齐算法,图文转化效果处于全球领先水平。文心 ERNIR-ViLG 作为全球最大规模的中文跨模态生成大模型,其特点是在一 个模型中能同时兼顾文本到图像的生成,以及图像到文本的生成,通过 跨模态的语义对齐算法,实现双向生成。现在模型参数规模已经达到了 百亿级,并且在效果上领先于 OpenAI DALL·E。



ERNIE-Sage图模型通过知识图谱对搜索中的关联信息进行增强。鉴于应 用中很多场景具备关联知识,为了建模关联知识,百度提出了文心 ERNIE-Sage 的图模型。基于该模型,能在搜索中通过文档的 Title 和 Query,去构建 Query 与 Title、Query 和 Query 之间的关系,同时也能 通过知识图谱的知识去增强这种关联。为了解决在应用中长尾数据稀疏 的问题,百度加入了知识图谱信息以及其他领域知识信息,以便能够更 好地增强图模型知识之间的关联,以及通过图学习、预训练方法的加持, 来提升文本图语义的理解,这样的模型被百度广泛用在搜索、地图等应 用中。在地图中,能够建模 POI 之间的关系,通过图的模式能够使用户 的搜索效率提升,很好地纠错地图语义的理解。



基于隐变量和角色建模,PLATO 实现多样化回复。在对话生成中,尤其 在开放域的对话生成中,需要对用户的任何话语进行连贯且有意义的回 复,任何上文序列都应该有合理的答复且存在多个合理的答复。基于该 现象,百度提出了隐变量的大规模对话生成模型,通过隐变量和角色建 模,能够很好实现建模,以及针对上文生成多样化回复。基于该框架发 布的文心 PLATO-XL 具备规模大、效果好、能耗低的特点,PLATO-XL 有 110 亿个参数,其模仿人类自然语气的能力很强,且拿下了“全球对话技术顶级赛事 DSTC”等多个冠军。



3.2.腾讯:优化大模型训练,加速大模型应用落地



腾讯 2022 年底发布国内首个低成本、可落地的NLP万亿大模型——混 元 AI 大模型。HunYuan 协同腾讯预训练研发力量,旨在打造业界领先的 AI 预训练大模型和解决方案,以统一的平台,实现技术复用和业务降本, 支持更多的场景和应用。当前 HunYuan 完整覆盖 NLP 大模型、CV 大模 型、多模态大模型、文生图大模型及众多行业/领域任务模型,自 2022 年 4 月,先后在 MSR-VTT、MSVD 等五大权威数据集榜单中登顶,实现跨 模态领域的大满贯;2022 年 5 月,于 CLUE(中文语言理解评测集合)三 个榜单同时登顶,一举打破三项纪录。基于腾讯强大的底层算力和成 本高速网络基础设施,HunYuan 依托腾讯领先的太极机器学习平台,推 出了 HunYuan-NLP 1T 大模型并登顶国内权威的自然语言理解任务榜单 CLUE。



探索大模型应用机制,实现工业界快速落地。HunYuan 模型先后在热启 动和课程学习、MoE 路由算法、模型结构、训练加速等方面研究优化, 大幅降低了万亿大模型的训练成本。用千亿模型热启动,最快仅用 256 卡在一天内即可完成万亿参数大模型 HunYuan-NLP 1T 的训练,整体训 练成本仅为直接冷启动训练万亿模型的 1/8。此外,业界基于万亿大模 型的应用探索极少,对此腾讯研发了业界首个支持万亿级 MoE 预训练模 型应用的分布式推理和模型压缩套件“太极-HCF ToolKit”,实现了无需 事先从大模型蒸馏为中小模型进而推理,即可使用低成本的分布式推理 组件 /服务直接进行原始大模型推理部署,充分发挥了超大预训练模型带来的模型理解和生成能力的跃升,HunYuan 也成为业界首个可在工业 界海量业务场景直接落地应用的万亿 NLP 大模型。



打造高效率开发工具,降低模型训练成本。为了使大模型能够在可接受 的推理成本下最大化业务效果,腾讯设计了一套“先蒸馏后加速”的压 缩方案实现大模型的业务落地,并推出太极-HCF ToolKit,它包含了从 模型蒸馏、压缩量化到模型加速的完整能力,为 AI 工程师打造从数据预 处理、模型训练、模型评估到模型服务的全流程高效开发工具。其中, 太极-HCF distributed(大模型分布式推理组件)融合了分布式能力和 单卡推理优化,兼顾分布式高效推理能力的构建和易用性建设。太极SNIP(大模型压缩组件)结合量化、稀疏化和结构化剪枝等多种加速手 段,进一步加速了 student 模型的推理速度。总之,腾讯在技术上从蒸 馏框架和压缩加速算法两方面,实现了迭代更快,效果更好,成本更低 的大模型压缩组件。



降低显存压力,突破模型参数扩大瓶颈。随着预训练模型的参数不断增 大,模型训练需要的存储空间显著增加,如万亿模型仅模型状态需要 17000 多 G 显存,仅仅依靠显存严重束缚着模型参数的扩大。因此,基 于 Zero-Infinity 的理念,腾讯自主研发了太极 AngelPTM,AngelPTM 将 多流异步化做到了极致,在充分利用 CPU 和 GPU 进行计算的同时最大化 的利用带宽进行数据传输和 NCCL 通信,使用异构流水线均衡设备间的 负载,最大化提升整个系统的吞吐。



HunYuan 商业化拓展迅速,大模型效益得到验证。HunYuan先后支持了 包括微信、QQ、游戏、腾讯广告、腾讯云等众多产品和业务,通过 NLP、 CV、跨模态等 AI 大模型,不仅为业务创造了增量价值而且降低了使用成 本。特别是其在广告内容理解、行业特征挖掘、文案创意生成等方面的 应用,在为腾讯广告带来大幅 GMV 提升的同时,也初步验证了大模型的 商业化潜力。



3.3.阿里:聚焦通用底层技术,开源释放大模型应用潜力



率先探索通用统一大模型,快速提升参数量级。阿里达摩院一直以来深耕多模态预训练,并率先探索通用统一大模型。2021 年,阿里达摩院先 后发布多个版本的多模态及语言大模型,在超大模型、低碳训练技术、平台化服务、落地应用等方面实现突破。其中使用 512 卡 V100 GPU 实 现全球最大规模 10 万亿参数多模态大模型 M6,同等参数规模能耗仅为 此前业界标杆的 1%,极大降低大模型训练门槛。M6 具有强大的多模态表 征能力,通过将不同模态的信息经过统一加工处理,沉淀成知识表征, 可以为各个行业场景提供语言理解、图像处理、知识表征等智能服务。



跟其他大模型类似,M6 也是以预训练模型的形式输出泛化能力,下游只 需提供场景化数据进行优化微调,就能快速产出符合行业特点的精准模 型。2022 年 4 月,清华大学、阿里达摩院等机构联合提出“八卦炉” (BaGuaLu)模型,其为第一项在新一代神威超级计算机上训练脑尺度模 型的工作,通过结合特定于硬件的节点内优化和混合并行策略,在前所 未有的大型模型上实现了良好的性能和可扩展性,BaGuaLu 可以使用混 合精度训练 14.5 万亿参数模型,其性能超过 1 EFLOPS,并有能力训练 与人脑中突触的数量相当的 174 万亿参数模型。



持续聚焦大模型通用性及易用性,打造了国内首个 AI 统一底座。2022 年 9 月,达摩院发布阿里巴巴最新通义大模型系列,其打造了国内首个 AI 统一底座,并构建了通用与专业模型协同的层次化人工智能体系,将 为 AI 从感知智能迈向知识驱动的认知智能提供先进基础设施。通义大 模型整体架构中,最底层为统一模型底座,通义统一底座中借鉴了人脑 模块化设计,以场景为导向灵活拆拔功能模块,实现高效率和高性能。 中间基于底座的通用模型层覆盖了通义-M6、通义-AliceMind 和通义-视 觉,专业模型层深入电商、医疗、娱乐、设计、金融等行业。



M6-OFA 覆盖多模态任务,在一系列视觉语言任务中实现了 SOTA性能。 基于统一学习范式,通义统一底座中的单一 M6-OFA 模型,将涉及多模态 和单模态(即 NLP和CV)的所有任务都统一建模成序列到序列(seq2seq) 任务,可以在不引入任何新增结构的情况下同时处理图像描述、视觉定 位、文生图、视觉蕴含、文档摘要等 10 余项单模态和跨模态任务,并达到国际领先水平,这一突破最大程度打通了 AI 的感官。M6-OFA 统一多 模态模型在一系列视觉语言任务中实现了 SOTA 性能,在 Image Caption 任务取得最优表现,长期在 MSCOCO 榜单排名第一。



开源深度语言模型,模块化统一趋势明显。通义-AliceMind是阿里达摩 院开源的深度语言模型体系,包含了通用语言模型 StructBERT、生成式 PALM、结构化 StructuralLM、超大中文 PLUG、多模态 StructVBERT、多 语言 VECO、对话 SPACE1.0/2.0/3.0 和表格 STAR1.0/2.0,过程中形成了 从文本 PLUG 到多模态 mPLUG 再到模块化统一模型演化趋势。2022 年, 基于 AliceMind/StructBERT 模型结果在中文语言理解测评基础 CLUE 上 获得了三榜第一。另外,270 亿参数版 AliceMind-PLUG 也是当时规模最 大的开源语言大模型。



视觉大模型在电商、交通等领域应用空间巨大。通义视觉大模型自下往 上分为底层统一算法架构、中层通用算法和上层产业应用。根据阿里云 社区资料,通用-视觉大模型可以在电商行业实现图像搜索和万物识别 等场景应用,并在文生图以及交通和自动驾驶领域发挥作用。



3.4.华为:昇腾AI打造全栈使能体系,定位行业级CV应用



打造业界首例,盘古 NLP 与 CV 大模型赶超迅速。2021 年,华为云发布 盘古系列超大规模预训练模型,包括 30 亿参数的视觉(CV)预训练模型,以及与循环智能、鹏城实验室联合开发的千亿参数、40TB 训练数据 的中文语言(NLP)预训练模型。盘古 NLP 大模型是业界首个千亿参数中 文大模型,具备领先的语言理解和模型生成能力,2021 年当时在权威的 中文语言理解评测基准 CLUE 榜单中,盘古 NLP 大模型在总排行榜及分 类、阅读理解单项均排名第一,刷新三项榜单世界历史纪录。盘古 NLP 大模型预训练阶段学习超 40TB 文本数据,并通过行业数据的小样本调 优,提升模型在场景中的应用性能;盘古 CV 大模型发布时也是业界最大 CV 大模型,旨在解决 AI 工程难以泛化和复制的问题。盘古 CV 大模型的 出现,让 AI 开发进入工业化模式,即一套流水线能够复制到不同的场景 中去,大大节约研发人力和算力。



聚焦 CV 领域,开启工业化 AI 行业适配。由于高价值的数字化场景主要 以视觉为主,因此华为近年来聚焦在 CV 模型的行业适配上。盘古 CV 大 模型首次兼顾图像判别与生成能力,能同时满足底层图像恢复与高层语 义理解需求,能够简单高效融合行业知识,快速适配各种下游任务。盘 古 CV 大模型已经在百余项实际任务中得到验证,大幅提升了业务测试 精度,能够节约 90%以上的研发成本。例如在电力行业,应用盘古 CV 大 模型利用海量无标注电力数据进行预训练和筛选,并结合少量标注样本 微调的高效开发模式,独创性地提出了针对电力行业的预训练模型;在 医药研发领域,华为研发了盘古药物分子大模型,实现了针对化合物表 征学习的全新深度学习网络架构,进行了超大规模化合物表征模型的训 练,在 20 余项药物发现任务上实现性能最优(SOTA)。总之,盘古 CV 模 型在适配行业应用过程中均在降低开发成本的优势下,实现了样本筛选 效率、筛选质量、平均精度的显著提升。



昇腾(Ascend)AI 能力提供大模型全流程使能体系,构筑盘古大模型演 化基石。企业用户要开发大模型,需要考虑基础开发、行业适配、实际 部署等问题,华为直接打造的大模型开发使能平台,覆盖从数据准备、 基础模型开发、行业应用适配到推理部署全开发流程,发布了大模型开 发套件、大模型微调套件以及大模型部署套件。在大模型开发套件中, 昇思 MindSpore 与 ModelArts 结合既提供了像算法开发基础能力,还具 备了像并行计算、存储优化、断点续训的特殊能力。在算法开发上,昇 思 MindSpore 提供了易用编程 API,既能满足多种需求,算法还能百行 代码就可实现千亿参数的 Transformer 模型开发;昇腾 MindX 提供的大 模型微调套件,其功能包括两部分:一键式微调、低参数调优,即通过 预置典型行业任务微调模板、小样本学习等手段,直接冻结局部参数, 自动提示或者直接激活特定的参数;在推理部署方面,昇腾 AI 在 MindStudio 中提供了分布式推理服务化、模型轻量化、动态加密部署三 方面能力,通过多机多卡分布式推理,可以大幅提高计算吞吐量。



面向各模态应用领域,量身打造异构计算架构 CANN。昇腾AI全栈涵盖 了计算硬件层、异构计算架构层、AI 框架层面和应用使能层面。计算硬 件是 AI 计算的底座,有了强力的芯片及硬件设备,上层的加速才有实施 的基础。面向计算机视觉、自然语言处理、推荐系统、类机器人等领域, 华为量身打造了基于“达芬奇(DaVinci)架构”的昇腾 AI 处理器,提 升用户开发效率和释放昇腾 AI 处理器澎湃算力,同步推出针对 AI 场景 的异构计算架构 CANN,CANN 通过提供多层次的编程接口,以全场景、低 门槛、高性能的优势,支持用户快速构建基于平台的 AI 应用和业务。



4.算力及硬件承压,模型训练多路径优化



4.1.海量参数开路,算力瓶颈渐至



大模型海量参数训练所需算力日益攀升。头部厂商近期推出的大模型的 参数量规模都达到万亿、10 万亿级别,GPT-3 大模型参数量多达 1750 亿 个,且使用了 3000 亿单词、超过 40T 的大规模、高质量数据进行训练, 而刚刚发布的 GPT-4 大模型更是赋予了升级版多模态任务处理能力。日 益增加的模型参数自然提升了算力需求。以 GPT-3 为例,GPT-3 的训练使用了微软专门建设的 AI 计算系统,由 1 万个 V100 GPU 组成的高性能 网络集群,总算力消耗约 3640PF-days(即假如每秒计算一千万亿次,需 要计算 3640 天)。如此大规模、长时间的 GPU 集群训练任务,对网络互 联底座的性能、可靠性、成本等各方面都提出极致要求。



计算资源投入呈指数级增长,高算力需求推动了训练成本快速上扬。以 ChatGPT 的总算力消耗 3640PFdays 计算,需要 7-8 个投资规模 30 亿、 算力 500P 的数据中心支撑运行。因而,头部玩家 OpenAI 获得微软为其 专门打造的 E 级超级计算机,用来在 Azure 公有云上训练超大规模的人 工智能模型,该超级计算机拥有 28.5 万个 CPU 核心,超过 1 万颗 GPU。 据 OpenAI 测算,自 2012 年以来,全球头部 AI 模型训练算力需求 3-4 个 月翻一番,每年头部训练模型所需算力增长幅度高达 10 倍。与仅能处理 NLP 的 GPT-3.5 相比,支持多模态的 GPT-4 能够以较强的逻辑分析能力 同时处理图像及文本输入,并生成文本输出,GPT-4 在完成这一系列更 为丰富和复杂的任务的同时,其对算力的需求也在 GPT3.0 的基础上成 倍增加。



4.2.模型日益复杂,硬件需求承压



芯片是算力服务器最大价值所在,AI 计算芯片首当其冲。从用途分类角 度来看,芯片可以包括存储芯片、计算芯片、通信芯片、感知芯片等, 而目前 AI 技术浪潮下,计算芯片需求首当其冲,再是存储芯片。而人工 智能计算芯片又主要包括图形处理器(GPU)、现场可编程门阵列(FPGA)、 专用集成电路(ASIC)、神经拟态芯片(NPU)等,考虑到 AI 深度算法对 并行处理能力有强大需求,所以 GPU 是当下主流的 AI 计算加速芯片, 而其他计算芯片大都不能够满足现今巨量数据的并行计算。因此关注 GPU 硬件进展可以有效分析 AI 大模型的算力空间,而大模型复杂度的日 益增加又提升了 GPU 性能需求,因为数据维度越多,模型参数量则越多, 同时模型越复杂,模型的准确度越高,因而对算力的指数需求越高。



而 GPU 硬件发展的速度难以满足 Transformer模型规模发展的需求。近 四年来,模型参数量增长了十万倍,但 GPU 的显存仅增长 4 倍。例如, 在不包括训练过程中产生的激活值所需的存储的前提下,万亿模型的模 型训练仅参数和优化器状态需要 1.7TB 以上的存储空间,至少需要 425 张 A100(40G)。在该背景下,大模型训练不仅受限于海量的算力,更受限 于巨大的存储需求。AI 大模型的演化对于芯片的多核并行运算、片上存 储、带宽、低延时的访存等也都提出了较高的需求,因此,硬件性能也 逐步成为大模型升级的重要挑战。



基于 GPU 集群网络的深度定制,追求极致网络性能,可以用来支撑集群 极致算力。GPU 计算集群领域,业界主流 GPU 集群网络技术路线的选择 可以考量多类因素,比如网络规模、网络拓扑架构选型、接入带宽与网 络容量、网络协议选择、甚至与计算芯片的联合优化设计等等。为了解 决 GPU 在模型训练上的性能瓶颈问题,业界厂商通常会根据自身需求, 选择不同的网络技术路线。目前呈现 3 大网络技术路线趋势,首先是商 用网络方案,即采用商用 GPU+商用网络组网、协议,以 Nvidia 售卖的 DGX SuperPod 为代表,该方案整体集成度高,网络深度优化,性能最优, 但是价格高昂;其次,自研以太网络方案采用商用 GPU+自研网络协议, 该方案经过自研协议优化后,性能接近商用方案,成本较低;第三种是自研计算芯片+自研网络方案,其能做到计算芯片与网络深度配合优化, 性价比最优。未来随着 GPU 算力的持续提升,GPU 集群网络架构也需要 不断迭代升级,才能保证大模型算力的高利用率与高可用性。



4.3.聚焦技术路线优化,突破模型算力瓶颈



硬件优化效果有限,模型训练手段改良需求凸显。基本的神经网络运算 成本,即浮点运算(FLOPs)的成本可以通过硬件(例如从 GPU 转向 TPU) 以及框架级的优化来降低,因为可以充分利用并行性优势。诸多大型模 型的训练成本也正随着硬件的创新和训练方法的改进而出现相应的下 降,尽管如此,虽然硬件改进可以降低 FLOPs 成本,但大模型的持续升 级使得总成本却一直在增加,因此,具体的训练计划和架构的改良十分 重要。



国外的大模型预训练创新解决方案目前占据业界主流。业内大模型预训的解决方案主要包括微软的 DeepSpeed 和英伟达的 Megatron-LM。 DeepSpeed 引入 ZeRO(Zero Redundancy Optimizer)优化器,将模型参 数、梯度、优化器状态按需分配到不同的训练卡上,满足大模型对存储 的极致要求;Megatron-LM 基于 3D 并行(张量并行、流水并行、数据并 行)将模型参数进行切分,满足大模型在有限显存资源下的训练诉求。 国内玩家各显神通,提升大模型训练效率。随着参数规模指数级增加以 及由此带来的训练成本急剧攀升,即使是最大容量的 GPU,也存不下如此规模的参数,如果不特别注意优化算法、软件和硬件堆栈,则所需的 大量计算操作可能会导致训练时间过长。在此背景下,国内各玩家均另 辟蹊径,通过改变模型训练手段以及优化模型架构来达到算力规模与效 率的平衡。



极致利用存储空间,ZeRO-Cache 策略助力优化模型训练。腾讯为了以最 小的成本和最快的性能训练大模型,太极机器学习平台对 DeepSpeed 和 Megatron-LM 进行了深度定制优化,推出了 AngelPTM 训练框架,腾讯发 布的混元 AI 大模型便是基于 AngelPTM 框架训练而来。具体技术优化 策略上,腾讯是基于 ZERO 策略,将模型的参数、梯度、优化器状态以模 型并行的方式切分到所有 GPU,并自研 ZeRO-Cache 框架把内存作为二级 存储 offload 参数、梯度、优化器状态到 CPU 内存,同时也支持把 SSD 作为第三级存储。而为了最大化和最优化的利用内存和显存进行模型状 态的缓存,腾讯引入了显存内存统一存储视角,将存储容量的上界由内 存扩容到内存+显存总和。同时,将多流异步化做到极致,在 GPU 计算的 同时进行数据 IO 和 NCCL 通信,使用异构流水线均衡设备间的负载,最 大化提升整个系统的吞吐。ZeRO-Cache 将 GPU 显存、CPU 内存统一视角 管理,减少了冗余存储和内存碎片,增加了内存的利用率,将机器的存 储空间“压榨”到了极致。



创新平台技术架构,突破计算效率极限。为了给各类科研和智能企业机提供强大高效的智能计算服务,阿里推出了飞天智算平台。通过先进 的技术架构,飞天智算平台采用先进的技术架构,将衡量算力效率的核 心指标“千卡并行计算效率”,从传统架构的 40%提升至 90%,可将算力 资源利用率提高 3 倍以上,AI 训练效率提升 11 倍,推理效率提升 6 倍; 同时,该平台支持“一云多芯”,提供基于阿里云磐久基础设施的融合算力和大数据 AI 一体化平台整体解决方案,可以运行在 X86、GPU、ARM 等 多种芯片类型的服务器上,实现“一云多芯”,支持多种处理器混合部署、 统一调度,并可进行应用优化,部分性能提升 100%以上。



借助软硬协同优化手段,打造训练加速套件。百度考虑到虽然使用更好 的硬件可以加速性能,但大部分情况下存在硬件计算能力未充分发挥的 情况,核心原因在于训练代码的执行效率并没有调到最优或更优的状态。 鉴于此,百度打造了百度百舸 AI 异构计算平台,目标是为 AI 场景提供 软硬一体化的解决方案,通过 AI 计算、AI 存储、AI 加速、AI 容器四层 技术栈,满足上层业务场景的需求。基于该框架,为了进一步调优模型 训练性能,百度推出了 AIAK-Training 加速套件,旨在通过抽象易用性 的接口降低优化成本,并通过软硬协同的优化手段,来充分加速客户在 百度智能云上的模型训练性能。



降低 AI 使用门槛,发力便捷式产业应用。相较于百度、腾讯和阿里,华 为更为专注在基于 CV 大模型的产业应用优化上。华为在发布盘古大模型前就充分考虑到了 AI 应用开发定制化、碎片化和手工作坊式的局限 性,盘古大模型的设计是在利用超大规模的神经网络来吸收数据的前提 下,借助强大的网络结构保证最高的性能,最后基于优良的泛化能力, 来覆盖各个产业场景。基于多任务、大模型、少样本技术的 AI 共建方 案,成功突破了大模型微调的难题。盘古大模型通过 Prompt 将下游监督 任务加入预训练阶段,采用超多任务的大规模预训练方式,大幅降低了 微调难度,解决了以往大模型难以为不同那个行业场景进行微调的难题。



(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

中国教育信息订阅号二维码
中国教育信息微信服务号