新闻中心
NEWS
如何赢在大模型时代,两位创业者给出了答案 | ChatGPT一周年
发布时间:
2023-12-27 18:27
来源:
编者按:
2022年11月30日,ChatGPT横空出世,并以史上最快速度实现上亿活跃用户,在诞生首年就实现了10亿美金级的收入,并在一周年之际爆出了令世人震惊的高层“宫斗”事件。
开源模型也不甘落后,Llama2支持商用给顾虑自身数据安全的产业界提供了更多选择。传统产业几年的演进进程被高度压缩到一年时间,足以可见大模型的迭代和进化速度堪称一场“代际”碾压。
中国,一方面在底层模型上加紧追赶,在各家模型百花齐放的同时,真正具备自主预训练模型能力的第一阵营开始凸显出来;另一方面,无论产业界还是投资界,大家开始更加关心如何将大模型加快应用到更多产业场景,实现产业化落地。
于是,我们提出了如下问题:
1、在中国产业和监管环境下,中国底层大模型应该如何构建产业化、商业化生态,才能让更多的产业、企业快速、安全地部署大模型支撑的应用?与OpenAI有哪些“同”与“不同”?
2、大模型产业化应用从POC—商业化订单—可持续的商业化订单,产业化路径如何规划?产业化瓶颈应该如何突破?
3、美国和中国的大模型和AIGC创业引领全球,硅谷和中国现在正在发生什么?在大模型的应用领域,有哪些新的投资趋势?投资热潮下,如何能够及早地发现并且以合理估值投到优秀项目?
4、中国的投资人如何评估和看待大模型与其应用的投资机会和风险?底层大模型、多模态、AI Infra、AI Agent、具身智能等各个细分赛道在中国进展到什么阶段?投资拐点预计在什么时候到来?
为了回答这些问题,11月28日,盛景举办《大模型与AIGC闭门研讨会》,找到了在中国和美国创业和投资一线的企业家、投资人和财务顾问,一起分享AI创业心得,碰撞智慧和文明的火花。他们是:
智谱AI技术副总裁李智星:智谱AI创始团队源自清华大学,是中国大模型独角兽公司中先进入和布局的企业;
深势科技创始人、CEO孙伟杰:深势科技创始团队源自北京大学,是成功地将AI模型技术推进到规模化商用阶段的科学智能创业公司,盛景也是其早期投资人;
TSVC创始合伙人夏淳:TSVC是美国硅谷最成功的种子期科技基金,也是Zoom的种子轮投资人。TSVC创始团队源自清华大学,在大模型与AIGC领域各个细分赛道均有积极布局;
将门创投创始人杜枫:中国成功的早期人工智能投资机构,创始团队来自微软孵化器,在科技创新加速以及人工智能技术社区建设方面有独到的经验和竞争力,也是智谱AI的A轮投资人;
华兴资本董事总经理、产业和科技负责人徐锟:华兴资本中国一级市场头部财务顾问机构,在TMT、产业数智化、科创赛道上有着丰富的经验和全局的视野,也是中国大模型与AIGC赛道最活跃的财务顾问,中国主要的大模型独角兽公司都是华兴客户。
盛景嘉成管理合伙人王湘云主持了本次研讨会,嘉宾与来宾展开了深入的互动与探讨。小编将各位分享嘉宾的精华观点与互动研讨精心整理,以飨读者。
此前,我们分享了《ChatGPT一周年:论道大模型与AIGC的趋势、投资与产业化之综述篇》和《ChatGPT一周年:论道大模型与AIGC的趋势、投资与产业化之投资篇》,今天带来的是【创业篇】。
▼
《智谱AI大模型的产业化与生态化思考》
智谱Al技术副总裁李智星
李智星:清华大学博士后,历任阿里巴巴人工智能实验室知识问答算法负责人,满帮集团AI算法总监。欧盟第七框架国际合作项目XLIKE主研,三项国家重点研发计划研究骨干,主持并完成国家级项目一项,省部级项目三项。
智谱AI专注自主研发原生基座大模型。公司主导研发了ChatGLM多语言千亿级超大规模预训练模型,构建了高精度通用知识图谱,并把两者有机融合打造了数据与知识双轮驱动的认知引擎。
智谱AI 走出了属于自己的大模型框架道路,今天的 ChatGLM,源自公司在 2020 年底开始研发的 GLM(通用语言模型)预训练架构。它是一个自回归填空模型,结合了 GPT 和 BERT 的优势,不仅能从前文预测后文,也能从后文猜前文内容,其理论训练效率比 GPT 更高,也能理解更复杂的场景。
对标 OpenAI 全模型产品线
10月27日,智谱AI推出了全自研的第三代基座大模型 ChatGLM3 及相关系列产品。至此,智谱 AI已成为目前国内唯一一个有对标Open AI 全模型产品线的大模型创业公司。
具体来说,在对话模型上,对标 ChatGPT 的是 ChatGLM;在文生图方面,对标 DALL.E 的是 CogView;代码生成上,与 Codex 相对的是 CodeGeeX;搜索增强上,与 WebGPT 相对的是 WebGLM。另外,在多模态、图文理解领域,与 GPT-4V 对标的有 ChatGLM3。
ChatGLM3做了五大全新技术升级:
1、更强大的性能:
今年以来,这是我们第三次对ChatGLM基座模型进行了深度优化。我们采用了独创的多阶段增强预训练方法,更丰富的训练数据和更优的训练方案,使训练更为充分。
评测显示,与 ChatGLM 二代模型相比,在44个中英文公开数据集测试中,ChatGLM3在国内同尺寸模型中排名首位。其中,MMLU提升36%、CEval提升33%、GSM8K提升179% 、BBH提升126%。
2、瞄向GPT-4V的技术升级:
瞄向GPT-4V,ChatGLM3 本次实现了若干全新功能的迭代升级,包括:多模态理解能力的CogVLM,看图识语义,在10余个国际标准图文评测数据集上取得SOTA;代码增强模块 Code Interpreter 根据用户需求生成代码并执行,自动完成数据分析、文件处理等复杂任务;
网络搜索增强WebGLM,接入搜索增强,能自动根据问题在互联网上查找相关资料并在回答时提供参考相关文献或文章链接;ChatGLM3的语义能力与逻辑能力大大增强。
ChatGLM3 本次集成了自研的 AgentTuning 技术,激活了模型智能体能力,尤其在智能规划和执行方面,相比于ChatGLM二代提升 1000% ;开启国产大模型原生支持工具调用、代码执行、游戏、数据库操作、知识图谱搜索与推理、操作系统等复杂场景。
ChatGLM3 本次推出可手机部署的端测模型 ChatGLM3-1.5B 和 ChatGLM3-3B,支持包括vivo、小米、三星在内的多种手机以及车载平台,甚至支持移动平台上 CPU 芯片的推理,速度可达20 tokens/s。精度方面 ChatGLM3-1.5B 和 ChatGLM3-3B 在公开 Benchmark 上与 ChatGLM2-6B 模型性能接近。
基于最新的高效动态推理和显存优化技术,我们当前的推理框架在相同硬件、模型条件下,相较于目前最佳的开源实现,包括伯克利大学推出的 vLLM 以及 Hugging Face TGI 的最新版本,推理速度提升了2-3倍,推理成本降低一倍,每千 tokens 仅0.5分,成本最低。
与OpenAI相比,我们开源做地更彻底,也具有更丰富的开源生态。今年3月,智谱 AI 推出了千亿基座的对话模型 ChatGLM,并开源了单卡版模型 ChatGLM-6B,使得研究者和个人开发者进行微调和部署成为可能。ChatGLM-6B具有 62 亿参数,结合模型量化技术,可基于消费级显卡进行本地部署(最低只需 6GB 显存)。ChatGLM-6B 系列模型目前已经获得了超过 1000 万的下载量。
为了进一步推动开源生态,智谱还把包括 ChatGLM3-6B、ChatGLM3-6B-32K、CogVLM-17B 和 AgentLM 在内的多个模型开源。开源社区主要依赖社区成员的共同努力和影响,模型开源后可以吸引更多的人使用,从而提高项目的质量和成熟度。此外,开源也可以带来大量的流量。
商业模式上,我们支持完全的私有化部署,把模型、训练框架、训练代码、训练脚本,全部都部署到对方的环境里。
另外,我们还会花比较多的精力做业务场景的落地。业务层面,我们跟客户也摸索出来了一套“大模型应用开发共建工程”的打法。分为三个阶段:第一阶段,跟客户去做一个小场景或者受限场景的样板工程的建设,落地之后,把接下来要做的事情做好规划;第二阶段,把客户技术平台基于我们的大模型去做一个能力体系的提升;第三阶段,当客户对大模型的理解到了一定的阶段,再进行创新体系,去发展新业务,而不是满足于当前的一个业务。
最后,智谱AI需要与硬件伙伴、数据伙伴和生态伙伴合作,共同支撑政务、金融、能源、通信、零售制造、医疗等各行各业进入生成式AI“第二阶段”。
《AI赋能产业的路径探索和模式进化》
深势科技创始人、CEO 孙伟杰
打造自然科学领域的“ChatGPT”
为AI for Science科学研究及工业发展打造基础设施——“四梁N柱”
精彩问答:
问:随着智谱AI的发展逻辑和趋势,您认为中国的创业者在赛道选择和业务方向上有哪些需要提醒和注意的地方?
智谱Al技术副总裁李智星:
大模型基础能力就像水位一样,越往上走,越会覆盖一些简单通用的功能。创业者要抓住目标客户的需求,去理解自己的客户。不管我们能力再怎么提升,客户的具体需求、业务场景这方面是很难顾及到的。如果创业公司能够做到这一点,我们的模型能力提升只会是帮助,而不是一个侵蚀。
阅读原文:https://mp.weixin.qq.com/s/JCmE4JC3ZuquckL-kBscgQ
推荐新闻