燧原科技创新研究院院长、首席科学家姚建国教授：构建基础算力底座，推动国产算力发展

5月23日，36氪举办「颠覆·AIGC」产业发展峰会。本次峰会汇聚产业力量，共同探讨企业、行业在面临变革时的应对策略，分享思考，探索和发现产业中最具潜力的企业与最具价值的技术，在激荡的环境中探寻前行的方向。

(资料图片)

大会上，燧原科技创新研究院院长、首席科学家姚建国教授发表了题为《新一代AIGC算力底座》的主题演讲，从算力视角分享了自己在大模型发展历程中的见闻。姚建国教授坦言，大模型的快速发展已超出意料，两年前关于大模型落地的解决方案仍不够明晰，但目前看来大模型用武之处颇多。姚建国教授也表示，大模型的发展不是一蹴而就，而算力是大模型发展的重要助推器。

同时，姚建国教授进一步指出，国内芯片技术与软件生态建设较国外仍有差距。首先，随着智能算力的需求增加，利用系统级设计解决大模型算力可能会成为未来的发展方向；其次，软件生态产业应构建国内软件生态，寻求与国际创新体系相结合。最后，产业界的内部合作将加速算力基础设施落地商用，共同推动国产算力发展。

燧原科技创新研究院院长、首席科学家姚建国教授

以下为姚建国演讲实录（经36氪整理编辑）：

我本身在燧原科技和上海交大两个单位，所以整个算力视角，我会从产业界、学术界包括研究界的角度分享一下。

其实算力的主要分为需求、场景、芯片和系统四个层次。2022年左右有多少朋友相信大模型落地？我和很多朋友分享过，也讨论过整个后续大模型发展，大模型真正有一个算力之问，模型越大真的能够提升算力水平吗？

其实这个问题2023年之前，很多朋友都不信，为什么呢？因为我们原来很多小的模型都能解决我们的问题，比如说原来NLP、CV也好都是通过经典模型解决。模型越大，能力越强，泛化越好，就有能力解锁新的技能，这是出乎很多人意料的一个期望，最终2023年，现在很多人相信了。所以很多发展原来受限于算力、模型、软件硬件迭代式交互结果，这也是大家熟悉的发展历程。

谷歌2017年提出Transformer，把Attention机制介绍到学术界， OpenAI整个发展历程通过了好几代迭代。整个过程不是一蹴而就的，模型不停迭代去做。在大模型开始之初是有极大风险的，他们自己都不太相信，或者是怀疑这个能做到什么样的程度，通过了几代的迭代，去年年底开始有了突破性的成果。所以我们还是期望国内有一款对标ChatGPT的通用大模型，我们能够愿意付费使用，这样会对整个产业有重大的推动作用。

这个过程中，算力起到什么作用呢？一般来讲都说，大模型的参数很多，参数很多时候算力要求很大。比如OpenAI的开放文献中提到：3640PFLOS天，这个相当于1万张A100加速卡的算力水平。可以看到真正通用大模型算力水平是通过大量算力去做，也因此ChatGPT的投入巨大，风险巨大。

2020年之前从研究界一直关注Transformer模型，Transformer相关一些机制到NLP解决，后来移到CV上，当然CV还在提升精度。从整个发展水平和发展规律来看，算力在整个大模型基础设施里面起了重大推动作用。埃隆马斯克要做，首先买了一万张GPU卡，这个是基本的配置。

算力的种类很多，包括通用算力、超算、智算，通用算力就是我们用的云计算；超算方面，比如说天气预报、超算中心；智能计算这几年的发展呈指数级增长，超越了摩尔定律。2012-2018年AI训练算力增长了30万倍，而通用计算增长只有7倍，所以说从算力发展来讲，目前算力水平包括算力需求的话还是智能计算为主的计算发展趋势。

我记得前两年去企业交流时，很多人都在问，大模型怎么落地？当时我也不知道，但现在看来都觉得哪儿都可以落地，所以说很多发展，都是在意料之外的发展。这个意料之外的过程中，我们怎么去找一下规律，看一下未来国内机会哪，我们沿着别人走过的路，能够找一些其他的方向发展，所以整个发展是生成能力改变了生产力的智能。

什么叫生产力智能？就是能够帮我们人类做很多事情，能够解决生产力问题，我本人负责研究生，我们在研究生培养里面，今年开始改了一些考试规则，比如说研究生复试编程，如果GPT能做出来，研究生就不需要学了，这样考试内容基本不能和GPT能力相当，人类还是要解决复杂问题的，通用的基本智能，可以交给机器去做，这个很多是生成能力，未来会给大家很多想象空间。

这里就有算力需求，不同的算力需求应对不同的大模型，基础大模型，场景大模型和应用大模型。基础大模型与ChatGPT类似，是很基础，是通过巨大的算力生成模型，通过预训练，由超大算力去支撑。这一般都是巨大的智算中心去做的，小的智算中心还达不到要求。

场景大模型是在大模型的基础上做调优，可以适用到不同的应用场景，赋能到不同行业，可以用普惠训练算力做。

还有应用大模型，主要是推理算力，是相对来讲性价比比较高的算力。推理现在有两种趋势，一个云端推理调用一下返回来；另外还有端侧，现在开始要有，本身的大模型部署开始往端侧做。

还有就是“模型即服务”，这个事已经发展很久了，但是发展并不好，原来我们AI这个通用一些自动化AI算法，有很多的BAT都做过，但用下来之后，包括客户反馈是一般的。但如果“模型即服务”是通过通用人工智能提供的话，可以带来不同一些体验，比如文字生成图。

所以我们一致认为，AIGC给大家带来全民体验AI能力，这个非常重要，现在我们大街上随便找人都可以说AI能力这个事情，因为都体验过。这就是很多“模型即服务”能力部署的范围提供。

我们再看一下芯片，上个月上海学术界做一个讨论，大模型我们差多远？学术界给的说法至少差一代，芯片当然也差，只有知道差在哪以后我们才有能力追赶。不管是模型、算法也好，还是芯片能力也好，国内一直以来都在讲追赶。

智能芯片目前还是英伟达占统治地位，这个是不可否认事实，而且大家看到全球AI芯片的增长的话，是快速的增长，因为智能算力的需求在增加，智能算力主要芯片载体就是AI计算加速卡，叫GPU、DSA也好，都是AI算力的特定计算。

从市场来讲还是有很大需求，但是我们怎么办呢？其实我们要深刻看一下历史发展，和我们将来发展路径一个耦合度，比如超算。超算也是做大系统，主要靠互联去解决大算力问题，这样的话能够实现E级计算。它的重要特点就是单核能力差，系统能力相当，我单个打不过你整个系统还是可以，因为它实现了整体算力。

智能计算未来类似芯粒，单die算力有限，但是系统级设计包括互联能够解决大模型算力这种智算水平，未来很可能往这个方面发展。

最近很多的研究、初创企业都在提系统级创新，包括AMD、英特尔都在提，这是技术的趋势。系统级创新的问题来源于算力水平，不仅仅是单颗芯片解决，一定是通过系统解决方案去实现整个算力的变化。

目前存储和运算的性能提升很多，但是带宽提升有限，有一个9万倍计算性能提升，但是有一个30倍带宽性能提升，这肯定是不匹配的，未来会有通信瓶颈。所以要去解决高速通讯下实现高速互联，高速互联实现可扩展智算水平的问题。

另一方面，现在功耗太大，大家知道智算中心其实都是高耗能产业。解决这种高能效一些计算，比如英特尔做了7nm以下数据搬运，能够占63%的能耗水平。现在很多大模型计算都是数据密集型的计算，因此它的能耗会很高。另外大模型需求还要去做专门的加速，刚才咱们看到大模型发展从技术来讲可以追溯到2017年谷歌发的Attention的文章，那篇文章在模型上提供了一个专门的算法，现在包括英伟达在内的各类加速设备，都在做专门的加速，针对特定模型、特定算子，特定的计算范式可以做专门加速，整个实现模型算力就会有这种呈指数提高，这就是系统性创新。

另外整个智算系统的发展趋势来讲，芯片还是要大算力，高速互联下的高算力，这个能够实现系统级的解决方案。目前来讲单独的服务器、单独的集群无法解决大模型预训练，但推理还是可以的。预训练会有一些专门加速，比如说H100提供Transformer引擎，提供低精度的数据格式，这样也是提升算力利用率。这里还有很多互联创新，所以未来会有很大创新是集中在系统级层面。

此外还有生态，软件生态其实是我们产业最关心一件事情。前段时间讨论，软件生态提了好多年了，为什么软件生态还没有成长起来？现在大家都认为做软件生态，首先是在国内包括研究界自己要把软件生态产业支撑起来，并与国际创新体系相结合。

所以说，还是在开放的软件生态下，去做类似于大模型编程，现在出了新的编程模型，包括编程方法，支撑大模型更有效地、更容易地编程。这也是智算系统的发展趋势。

燧原科技是做整个算力的基础设施和数字底座，有芯片、软件、系统，包括解决方案，目前AI芯片主要还是两类，是第二代训练和第二代推理，现在已经实现了整个算力集群的部署。由于集群都需要高速互联，我们也实现了自己的协议高速互联，替代原有协议，这样可以实现多机多卡，实现大规模千卡以上互联下的集群算力。

同时，燧原也提供了液冷智算集群的解决方案，实现了低能耗、高能效。目前已经在智算中心、泛互联网、以及智慧城市和金融的人工智能应用场景里落地商用了。未来也是需要我们和产业界朋友一起推动国产算力发展，构筑新一代AIGC的算力底座。