文 | 曹双涛
编辑 | 杨博丞
题图 | IC Photo
AI大模型的竞争,本质是顶尖AI人才的竞争。
海外市场上,为抢夺AI顶尖人才,欧美科技巨头纷纷高薪挖人、留人。meta、谷歌针对AI相关岗位年薪总包最高均在千万元以上。Open AI从谷歌挖人时,承诺年薪(主要以股票形式)将在500万美元-1000万美元之间。
国内市场上,重点高校+知名教授带队的AI项目,成为国内AI创投圈疯抢的对象,“清华系创投公司”前期更是不缺资金。如由清华大学计算机系技术成果转化的智谱AI,2023年Q3单季度完成多笔融资,融资速度之快在创投圈中几乎少见。
“清华系创投公司”的深言科技、面壁智能、月之暗面,三家公司创始人岂凡超师从孙茂松、曾国洋师从刘知远、杨植麟师从唐杰,这三位清华教授均参与清华大学AI研究院基础模型研究中心的筹建,孙茂松任首席科学家、刘知远任副主任、唐杰任研究中心主任。
4月份,月之暗面和面壁智能相继传出拿下新一轮融资,其中面壁智能本轮融资春华创投、华为哈勃领投,北京市人工智能产业投资基金等跟投,老股东知乎战略跟进。
国内顶尖高校技术学派,创始人年轻且奋斗在技术一线,初创公司没有如阿里、字节“大厂病”。种种优势加持下,“清华系创投公司”的技术能力正走到国际前沿。
以面壁智能围绕TOB推出的面壁MiniCPM2开源模型为例,据面壁智能透露,MiniCPM2模型在同等性能参数更小、同等参数性能更强,超越Mistral-7B、谷歌Gemma、Llama2-13B、 ChatGLM3-6B等,且170万tokens的推理成本仅需1元。
MiniCPM2多次登顶GitHub Trending,跻身HuggingFace 50万模型TOP3一周,GitHub星标3.4K,全网下载量37万。
同样的也有MiniCPM-1.2B模型,它在参数减少50%下,仍保持上一代2.4B模型87%的综合性能。在多个公开权威测试榜单上,1.2B模型取得了综合性能超过阿里通义Qwen1.8B、Llama2-7B,甚至超过Llama2-13B。
但在当前国内AI大模型商业化尚不明朗、行业加速迎来洗牌期,资本市场寒冬带来的不确定性下,仅有技术和产品恐怕远远不够。且面壁智能团队过于年轻化,缺乏企业实际管理和商战经验,面壁智能未来也需解决重重难题。
一、TOC端产品面壁露卡Luca,频频报错
面壁智能围绕TOC端的基座模型产品面壁露卡Luca,去年11月获得审批后对外开放。我们实测面壁露卡Luca时发现,其输出的结果一言难尽。
在文本输出能力上,当我们询问面壁露卡Luca“您如何看待中国市场新能源汽车的价格战时”,面壁露卡Luca首次结果显示,政府对新能源汽车产业给予大力支持和补贴是新能源汽车价格战的成因之一。
二次结果显示,新能源汽车价格战有利于整个行业健康发展,同时也有益于消费者。三次结果显示,这既是机遇也是挑战。
不管首次结果和2022年新能源汽车补贴退坡取消现实情况不符,还是后二次结果的前后矛盾,面壁露卡Luca的文本输出能力仍需大幅度提高。
我们将难度稍微升级,让面壁露卡Luca帮我们写一篇800字的小米SU7文章,本是新能源汽车的小米SU7,两次输出结果均显示小米SU7是一款智能手机。
不知为提升小米SU7销量,又是直播又是给车主开车门各种卖力宣传的雷军,看到这个结果会作何感想。更甚者说,在小米本就没有SU7这款机型时,面壁露卡Luca的这些信息又从何而来?
投资机构Atreides Management高层Gavin Baker曾称,从人类回馈中进行强化学习的方法来说,若无法取得专有、即时的数据,且没有足够的部署管道,基础模型或将成为历史上折旧最快的资产。
Gavin Baker的这句话对也不对,对于各种通用大模型、经济类大模型而言,信息更新速度既要快也要有深度。如金融TOB类大模型,要求极高精准度,不允许出现任何错误,时效性也快。时效问题可能通过算力升级来解决,可精准度又要如何解决呢?
但对于如情感类、国学类小模型,以及包括学而思、网易有道等K12教育类垂直大模型来说,对信息更新速度并不是要求很高。毕竟从古至今人性具有很大共性,K12学科类不少知识点具有固定化。面壁露卡Luca作为一款通用大模型,若文本输出信息屡屡出错,又何谈TOC端用户增长呢?
在测试解读图片信息方面,我们选取网络平台上一张同时包含中国传统神话故事中四大神兽的图片。面壁露卡Luca不仅将玄武识别为狮子,且图片中的朱雀也未能识别出,四大神兽变成三大神兽。
在测试逻辑推理时,我们选取2023年新课标2卷上的一道高考数学真题,但面壁露卡Luca在识别这道真题识首问时,无法准确识别原题,更别提后面的证明过程。
第二问将原题中的“cosax”中的a识别丢失下,面壁露卡Luca居然还能给出完整的推理过程以及a的取值范围,这实在有些让我们费解。
从2023年至今国内大模型技术快速迭代,尤其是kimi、文心一言都在卷长文本输出能力下,面壁露卡Luca的这些能力真的是2024年大模型该有的水平吗?
二、TOB端AI Agent,商业化落地远比想象的难
TOC端面壁露卡Luca表现欠佳,可能和面壁智能对TOB端更重视有关。围绕TOB端,面壁智能推出基于AI代码生成工具的ChatDev,核心能力包括快速生成应用程序、AI Agents群体智能协作等。
除面壁智能外,目前国内多家厂商也纷纷推出TOB端AI Agent。如阿里云ModelScopeGPT、联汇科技OmBot、澜码科技AskXBot、昆仑万维天工SkyAgents、实在智能实在Agent等等。
但AI Agent想要在国内市场探索清晰的商业化之路,仍有很长的路要走。对标SaaS产业来看,只有给客户带来明确价值的SaaS产品,客户才愿意买单。小到餐饮店购买SaaS点餐软件,大到零售行业需零售类SaaS完成日常商品进销存、记录供应商货款等等。刚需性较强下,零售类SaaS也是2021年国内行业垂直SaaS最大的市场。
AI大模型市场上,不管是淘宝上卖GPT4会员账号付款人数较多,抖音平台各种AI课程的高转化率。或是备受争议的李一舟AI课程的火爆,越来越多的“大佬”从质疑李一舟到成为李一舟,均符合该逻辑。
但目前很多企业主并没有真正意识到AI所带来的价值,尤其是在各类SaaS已满足企业核心业务需求以及企业纷纷追求降本增效下,企业主很难在AI Agent上投入太多费用。
即使有企业基于AI Agent做小模型,但投产比也是一大问题。有自媒体反馈称,目前包括百家号、头条号、抖音等自媒体平台,均对AI生成的图文、视频严重限流。
企业开发小模型,一方面企业要投入大量人员从代码部署到模型训练,到后续企业小模型商业化推广。另一方面,考虑到信息安全问题,后续也需购买AI服务器,预估整个成本约在百万级。高投入下后续又要靠什么摊薄成本、实现盈利?
更深层来看,给客户带来明确价值的背后,最好是要服务企业核心业务流程,才能让企业主看到价值。但目前AI Agent仍需持续努力,才能满足这些。
来自国内某互联网大厂技术总监朱杨告诉DoNews,以阿里云Model Scope GPT对外宣传的多模型协同能力,这种能力相当于“搭积木”。但积木是有限的,且若是我需要圆形积木或异形积木,它只提供方形积木也很难满足我的需求。同理当企业端核心业务相对复杂时,不管积木如何搭配,也无法解决业务实际需求。
同样的情况也适用于面壁智能的ChatDev,以OTA类软件为例,从航班查询到机票购买,从机票推荐机制到捆绑保险,从用户最终下单到后续改签、退款带来的售后,从用户行程完成到机票价格按比例给平台会员返现。整个过程中不仅要加密缓存大量数据,且要打通如航司、支付、保险、售后等多个数据接口。
业务场景高度复杂化下,除要和对应业务产品经理确定需求外。即使AI能帮助开发人员提高编写代码效率,但开发人员也只能全程手动编写代码,不可能全部使用AI提供的代码。
毕竟一旦AI给到的代码存在语法和逻辑错误,很容易对公司核心业务构成影响,直接影响开发人员考核。更重要的是,互联网的软件开发并不是简单地编写代码,还有各种数据、缓存、接口、配置等基础服务需要对接,每家企业情况又不同。
因很多大型互联网业务成熟,想要实现重大版本更新并非易事。在互联网流量红利彻底退潮下,新软件面临着推广成本高、用户获取难、盈利难的问题。这让AI Agent陷入互联网大企业应用少,小企业没钱用,技术人员使用低,不懂技术的人不知道如何开发的尴尬局面,这种情况预估3—5年才有所改善。
如朱杨所言,飞书在颠覆时期员工数量超八千多人,产研人员占比2/3的情况下,近半年发布的版本多以小升级为主,更别提资金实力不占优势的小型互联网企业。
三、如何快速退去青涩,增加现实主义?
除朱杨所提到的技术问题外,AI大模型想要在TOB端占领市场也需做到:
一是AI能力对所服务企业的运营流程有所理解,并可根据这种流程进行AI能力的调整。如文生图成为AI大模型的标配,但中大型企业对外的营销图有着严格的VI视觉规范,尤其是牵扯到品牌代言人时要求更高。那么AI大模型针对不同企业的VI视觉规范又要如何生图,又要如何进行约束,又要如何保存呢?
同理,AI大模型也需对客户业务流程中的传入参数和传出参数有所理解,毕竟参数是客户的“生命线”,甚至能根据这种参数衍生出不同场景。如人脸识别的视频流,既牵扯到横向和竖向视频,又牵扯到1080和1920分辨率,又牵扯到视频画面是否稳定、光线是否稳定等等。
二是想要和客户业务流程耦合,AI应用也要以API Centric方式进行设计规划。但在客户调取API数据接口,又要如何做到悄无声息、无影无形呢?如互联网APP短信验证码登录为有形的,用户搜索某关键词时,后台检索关键词生产内容和商品对用户是无形的。
但国内目前又有多少AI公司能同时做到上述两点呢?另对标SaaS产业来看,定制路线意味着回款周期长,且客户需求差距大带来企业投入成本高、可复制程度低。市场竞争激烈下,SaaS公司议价能力低。
同时考虑到目前企业对大模型定制需求不高,如从2019年至2023年完成七轮融资的竹间智能,2023年初就推出大模型相关的产品和服务,并为大型企业自建大模型提供一站式服务。但今年年初竹间智能公告称,因客户需求较少停工半年。
这就意味着未来3—5年国内走TOB端商业化的AI公司很难盈利,面壁智能或将需要资本持续输血,才能解决研发过程中资金流不足问题,进而保证技术能力始终走到前列。可若是持续引入资本,又是否会像智谱AI创始人张鹏这样,股权被持续稀释呢?
另外面壁智能作为初创企业,相较于大厂而言,仍有很多短板需要补齐。
一方面,对不同行业高质量的数据积累不足,客户资源积累深度不够、缺乏更多实战经验。
另一方面,面壁智能目前团队年龄多集中在28岁以研发人员为主,团队稍显年轻,缺乏明显的商战经验和企业管理经验。
如面壁智能CEO李大海曾指出,在服务TOB端时,我们倾向于选择擅长跟客户沟通、交付能力强的合作伙伴,我们提供平台、工具,合作伙伴去做好交付落地工作。在这个合作链条中,我们只要把各自擅长做的事做好,就能一起给客户产生价值。
短期来看,这种合作模式是能够帮助面壁智能增加项目经验。但长期来看,面壁智能在整个项目执行过程中充当丙方的角色,暂且不说来回沟通下,是否能完整理解客户需求。
客户不攥在自己手中,不进行长期的客情维护,很容易产生大客户流失。同时大客户回款周期相对较长,又牵扯到乙方这很容易出现三角债问题,且若是未来行业爆发和SaaS产业、数据库产业、云产业这样的价格战,面壁智能还能拿到多少利润呢?这很容易影响到面壁智能的现金流稳健。
在和TOB端到底合作上,面壁智能高层们或许真的需要找国内老牌SaaS厂商金蝶和用友好好取经了。如何退掉身上的书生气和理想主义,增加“江湖气”和现实主义,将是面壁智能高层们需要尽快解决的问题。
结语:
我们始终坚信随着“清华系初创公司”的不断努力,必然会加速国内AI产业的迅速发展,逐渐缩小和欧美在AI大模型上的差距。但企业毕竟要生存,在资本压力下要做大规模,面壁智能对资本的依赖、团队经验不足等问题,整个“清华系初创公司”都存在类似。