新闻中心


NEWS

如何赢在大模型时代,两位创业者给出了答案 | ChatGPT一周年


 

编者按:

 

2022年11月30日,ChatGPT横空出世,并以史上最快速度实现上亿活跃用户,在诞生首年就实现了10亿美金级的收入,并在一周年之际爆出了令世人震惊的高层“宫斗”事件。

 

开源模型也不甘落后,Llama2支持商用给顾虑自身数据安全的产业界提供了更多选择。传统产业几年的演进进程被高度压缩到一年时间,足以可见大模型的迭代和进化速度堪称一场“代际”碾压。

 

中国,一方面在底层模型上加紧追赶,在各家模型百花齐放的同时,真正具备自主预训练模型能力的第一阵营开始凸显出来;另一方面,无论产业界还是投资界,大家开始更加关心如何将大模型加快应用到更多产业场景,实现产业化落地。

 

于是,我们提出了如下问题:

 

1、在中国产业和监管环境下,中国底层大模型应该如何构建产业化、商业化生态,才能让更多的产业、企业快速、安全地部署大模型支撑的应用?与OpenAI有哪些“同”与“不同”?

 

2、大模型产业化应用从POC—商业化订单—可持续的商业化订单,产业化路径如何规划?产业化瓶颈应该如何突破?

 

3、美国和中国的大模型和AIGC创业引领全球,硅谷和中国现在正在发生什么?在大模型的应用领域,有哪些新的投资趋势?投资热潮下,如何能够及早地发现并且以合理估值投到优秀项目?

 

4、中国的投资人如何评估和看待大模型与其应用的投资机会和风险?底层大模型、多模态、AI Infra、AI Agent、具身智能等各个细分赛道在中国进展到什么阶段?投资拐点预计在什么时候到来?

 

为了回答这些问题,11月28日,盛景举办《大模型与AIGC闭门研讨会》,找到了在中国和美国创业和投资一线的企业家、投资人和财务顾问,一起分享AI创业心得,碰撞智慧和文明的火花。他们是:

 

智谱AI技术副总裁李智星:智谱AI创始团队源自清华大学,是中国大模型独角兽公司中先进入和布局的企业;

 

深势科技创始人、CEO孙伟杰:深势科技创始团队源自北京大学,是成功地将AI模型技术推进到规模化商用阶段的科学智能创业公司,盛景也是其早期投资人;

 

TSVC创始合伙人夏淳:TSVC是美国硅谷最成功的种子期科技基金,也是Zoom的种子轮投资人。TSVC创始团队源自清华大学,在大模型与AIGC领域各个细分赛道均有积极布局;

 

将门创投创始人杜枫:中国成功的早期人工智能投资机构,创始团队来自微软孵化器,在科技创新加速以及人工智能技术社区建设方面有独到的经验和竞争力,也是智谱AI的A轮投资人;

 

华兴资本董事总经理、产业和科技负责人徐锟:华兴资本中国一级市场头部财务顾问机构,在TMT、产业数智化、科创赛道上有着丰富的经验和全局的视野,也是中国大模型与AIGC赛道最活跃的财务顾问,中国主要的大模型独角兽公司都是华兴客户。

 

盛景嘉成管理合伙人王湘云主持了本次研讨会,嘉宾与来宾展开了深入的互动与探讨。小编将各位分享嘉宾的精华观点与互动研讨精心整理,以飨读者。

 

此前,我们分享了《ChatGPT一周年:论道大模型与AIGC的趋势、投资与产业化之综述篇》ChatGPT一周年:论道大模型与AIGC的趋势、投资与产业化之投资篇》,今天带来的是【创业篇】。

 

《智谱AI大模型的产业化与生态化思考》

智谱Al技术副总裁李智星

 

李智星:清华大学博士后,历任阿里巴巴人工智能实验室知识问答算法负责人,满帮集团AI算法总监。欧盟第七框架国际合作项目XLIKE主研,三项国家重点研发计划研究骨干,主持并完成国家级项目一项,省部级项目三项。

 

智谱AI专注自主研发原生基座大模型。公司主导研发了ChatGLM多语言千亿级超大规模预训练模型,构建了高精度通用知识图谱,并把两者有机融合打造了数据与知识双轮驱动的认知引擎。

 

智谱AI 走出了属于自己的大模型框架道路,今天的 ChatGLM,源自公司在 2020 年底开始研发的 GLM(通用语言模型)预训练架构。它是一个自回归填空模型,结合了 GPT 和 BERT 的优势,不仅能从前文预测后文,也能从后文猜前文内容,其理论训练效率比 GPT 更高,也能理解更复杂的场景。

 

对标 OpenAI 全模型产品线

 

10月27日,智谱AI推出了全自研的第三代基座大模型 ChatGLM3 及相关系列产品。至此,智谱 AI已成为目前国内唯一一个有对标Open AI 全模型产品线的大模型创业公司。

 

具体来说,在对话模型上,对标 ChatGPT 的是 ChatGLM;在文生图方面,对标 DALL.E 的是 CogView;代码生成上,与 Codex 相对的是 CodeGeeX;搜索增强上,与 WebGPT 相对的是 WebGLM。另外,在多模态、图文理解领域,与 GPT-4V 对标的有 ChatGLM3。

 

ChatGLM3做了五大全新技术升级:

 

1、更强大的性能:

今年以来,这是我们第三次对ChatGLM基座模型进行了深度优化。我们采用了独创的多阶段增强预训练方法,更丰富的训练数据和更优的训练方案,使训练更为充分。

评测显示,与 ChatGLM 二代模型相比,在44个中英文公开数据集测试中,ChatGLM3在国内同尺寸模型中排名首位。其中,MMLU提升36%、CEval提升33%、GSM8K提升179% 、BBH提升126%。

 

2、瞄向GPT-4V的技术升级:

瞄向GPT-4V,ChatGLM3 本次实现了若干全新功能的迭代升级,包括:多模态理解能力的CogVLM,看图识语义,在10余个国际标准图文评测数据集上取得SOTA;代码增强模块 Code Interpreter 根据用户需求生成代码并执行,自动完成数据分析、文件处理等复杂任务;

网络搜索增强WebGLM,接入搜索增强,能自动根据问题在互联网上查找相关资料并在回答时提供参考相关文献或文章链接;ChatGLM3的语义能力与逻辑能力大大增强。

 

3、全新的 Agent 智能体能力:

ChatGLM3 本次集成了自研的 AgentTuning 技术,激活了模型智能体能力,尤其在智能规划和执行方面,相比于ChatGLM二代提升 1000% ;开启国产大模型原生支持工具调用、代码执行、游戏、数据库操作、知识图谱搜索与推理、操作系统等复杂场景。

 

4、Edge端侧模型:

ChatGLM3 本次推出可手机部署的端测模型 ChatGLM3-1.5B 和 ChatGLM3-3B,支持包括vivo、小米、三星在内的多种手机以及车载平台,甚至支持移动平台上 CPU 芯片的推理,速度可达20 tokens/s。精度方面 ChatGLM3-1.5B 和 ChatGLM3-3B 在公开 Benchmark 上与 ChatGLM2-6B 模型性能接近。

 

5、更高效推理/降本增效:

基于最新的高效动态推理和显存优化技术,我们当前的推理框架在相同硬件、模型条件下,相较于目前最佳的开源实现,包括伯克利大学推出的 vLLM 以及 Hugging Face TGI 的最新版本,推理速度提升了2-3倍,推理成本降低一倍,每千 tokens 仅0.5分,成本最低。

 

与OpenAI的三大不同

与OpenAI相比,我们开源做地更彻底,也具有更丰富的开源生态。今年3月,智谱 AI 推出了千亿基座的对话模型 ChatGLM,并开源了单卡版模型 ChatGLM-6B,使得研究者和个人开发者进行微调和部署成为可能。ChatGLM-6B具有 62 亿参数,结合模型量化技术,可基于消费级显卡进行本地部署(最低只需 6GB 显存)。ChatGLM-6B 系列模型目前已经获得了超过 1000 万的下载量。

为了进一步推动开源生态,智谱还把包括 ChatGLM3-6B、ChatGLM3-6B-32K、CogVLM-17B 和 AgentLM 在内的多个模型开源。开源社区主要依赖社区成员的共同努力和影响,模型开源后可以吸引更多的人使用,从而提高项目的质量和成熟度。此外,开源也可以带来大量的流量。

商业模式上,我们支持完全的私有化部署,把模型、训练框架、训练代码、训练脚本,全部都部署到对方的环境里。

另外,我们还会花比较多的精力做业务场景的落地。业务层面,我们跟客户也摸索出来了一套“大模型应用开发共建工程”的打法。分为三个阶段:第一阶段,跟客户去做一个小场景或者受限场景的样板工程的建设,落地之后,把接下来要做的事情做好规划;第二阶段,把客户技术平台基于我们的大模型去做一个能力体系的提升;第三阶段,当客户对大模型的理解到了一定的阶段,再进行创新体系,去发展新业务,而不是满足于当前的一个业务。

最后,智谱AI需要与硬件伙伴、数据伙伴和生态伙伴合作,共同支撑政务、金融、能源、通信、零售制造、医疗等各行各业进入生成式AI“第二阶段”。

 

《AI赋能产业的路径探索和模式进化》

 

深势科技创始人、CEO 孙伟杰

孙伟杰:北京科学智能研究院战略发展顾问,中国管理科学研究院商学院“专精特新”企业培育专家库特聘专家。孙伟杰拥有北京大学法学及管理学学位,在创立深势科技前曾作为天使投资人活跃在科技、教育、企业服务等领域;同时,孙伟杰曾任北京大数据研究院分子动力学计算中心常务副主任,在分子动力学模拟、人工智能等领域有丰富的研究经验。2021年,孙伟杰入选福布斯中国U30精英榜并当选封面人物,2022年,入选福布斯亚洲U30精英榜并当选封面人物。

 

打造自然科学领域的“ChatGPT”

AI for Science新范式,即通过AI学习数物模型、模拟真实数据,解决工业中的复杂推演计算问题。Al for Science,then for Industry,用AI先学习解决事物底层的科学原理问题,再进一步解决这些科学原理问题映射的工业问题。
AI for Science已经进入预训练模型时代,大模型学到了世界最基本的这些规律,在基础之上的微调才能使得自己的模型得到更好的效果。利用大数据和算法的力量对生物大分子进行深度挖掘更加可行和高效,在大分子研发中,序列、结构、动力学这三类预训练模型都有非常大的开发空间。
虽然构成世间万物的化学元素只有元素周期表上的100多种,但这些化学元素可以组合成各种不同的微观结构,从而形成具有不同性质的物质。通过将所有化学元素及其可能的微观结构统一训练到一个大模型中,可以预测所有物质的性质。
深势科技发布了首个覆盖元素周期表近70种元素的深度势能原子间势函数预训练模型—— DPA-1。DPA-1可模拟原子规模高至100亿,目前已经在高性能合金、半导体材料设计等应用场景中证明了其领先性和优越性。过去,GPT主要用于生成对话和多模态图片,但现在可以预测任何材料或物质的性质,甚至可以基于物质性质的需求智能生成新材料。
而其实 AI for Science大模型也是一个多模态的模型,不只是具有原子间相互作用、分子模拟的模态。整个世界的中心法则是序列决定结构、结构决定动力学、动力学决定性质,不同模型的模态本质上就是预训练不同的自变量。按照自变量的不同,我们有几种模型:
第一是和大语言模型很相似的语言/序列大模型,包括多模态科学文献大模型Uni-SMT(Universal Science Multimodal Transformer)和核酸预训练模型Uni-RNA。生命最基本的构成物质就是基因和蛋白质,而基因和蛋白质都是用序列来表示的,我们对RNA的序列做了一个预训练模型,能帮助我们更好的对RNA的三维结构以及它的下游性质进行预测。
结构决定性质,三维结构对于科学研究而言,是个非常关键的自变量。我们对于微观的分子比如说化学小分子和生物大分子(蛋白质和RNA)的三维结构进行了预训练,得到了分子结构与性质预训练模型Uni-Mol。
在这个预训练模型上,基于结构可以进行性质预测,比如说预测这个药物ADMET的性质、物质的溶解度、磁性、响应性质,甚至预测香料的香型、材料的吸附性能、电解液材料的性能、油料添加剂的性能等等。
我们在300多项性质预测上都拿到了全球的冠军,而且非常让我们惊奇的是,我们的预训练的过程都是用一个物理模型产生的数据和文献里公开的数据,没有接触到客户的任何私域数据。
得益于包括DPA、Uni-Mol在内的一系列AI4S预训练模型的发展,深势科技将蓄力打造生物医药的GPT,为行业研发提供新起点。

 

为AI for Science科学研究及工业发展打造基础设施——“四梁N柱”

时至今日,深势科技已经积累了超过300项全球领先的算法,无论在开源社区里的影响力还是在软件里的影响力都在全球排名前列。
我们做了这么多先进的算法,到底有什么用?反过来从科研或者研发的场景来看这个问题。基于我们对所有的科学研究和工业研发的理解,科研最基本的三项任务是文献阅读、理论计算仿真模拟、实验探究。
AI for Science时代,这三项基本任务都会发生比较大的改变。基于大模型可以很方便进行检索和阅读,我们也推出了相应的文献和专利检索模型Uni-Finder。
在理论计算上,过去我们面临的问题是计算慢、计算准确度低。有了AI for science之后。用AI去学习一系列的物理模型,用AI去加速对于科学数据的处理。可以既保证数据处理、理论模型计算的精度,同时也能保证计算效率。
而在实验这方面,有了更好的理论计算方法之后,一是不必要做那么多实验。二是我们做实验表征,本质上就是拿显微镜或者拿望远镜对一个物体拍照片,再去查看里面有哪些原子是错排的、有哪些地方有缺陷。AI对这些照片的处理能力是远远高于人类的。
AI for science本质上对科研最基本的几项任务都带来了很大的效率提升和研发方式的改变。
鄂维南院士指出,发展 AI for Science,推动走向“平台科研”模式,需要解决不同科研领域的共性问题,打造AI时代的科研支柱(概括为“四梁”),即替代文献的数据库与知识库系统,高效率、高精度的实验表征工具系统,基本原理与数据驱动的模型算法与软件系统,高度整合的算力调度系统。以基础设施为支撑,赋能工业应用的实际场景(概括为“N柱”),将在材料科学、能源化工、航空航天、药物研发等方向上带来巨大变革,支撑国家战略需求。
基于“四梁N柱”的平台架构以及多年来积累的坚实底层技术能力,深势科技打造了Bohrium®科研云平台、Hermite®药物计算设计平台、RiDYMO®难成药靶标研发平台及 Piloteye™电池设计自动化平台等工业设计与仿真基础设施,并推出了与之配套的行业解决方案。
黄仁勋曾经说过,如果我们想要把AI带到它旅程的下一个阶段,当前最紧要的是AI一定要学会最基本的这些物理规律。现阶段AGI发展终点是数字世界和物理世界的连接,AI for Science,就是让AI学到物理世界与数字世界间的密码子。

 

精彩问答:

 

问:随着智谱AI的发展逻辑和趋势,您认为中国的创业者在赛道选择和业务方向上有哪些需要提醒和注意的地方?

 

智谱Al技术副总裁李智星:

大模型基础能力就像水位一样,越往上走,越会覆盖一些简单通用的功能。创业者要抓住目标客户的需求,去理解自己的客户。不管我们能力再怎么提升,客户的具体需求、业务场景这方面是很难顾及到的。如果创业公司能够做到这一点,我们的模型能力提升只会是帮助,而不是一个侵蚀。

 

阅读原文:https://mp.weixin.qq.com/s/JCmE4JC3ZuquckL-kBscgQ

推荐新闻