• 首页 >  人工智能 >  AI产业
  • 海外科技行业解码DeepSeek开源周:超预期的开源程度与低成本属性-250316(27页).pdf

    定制报告-个性化定制-按需专项定制研究报告

    行业报告、薪酬报告

    联系:400-6363-638

  • 《海外科技行业解码DeepSeek开源周:超预期的开源程度与低成本属性-250316(27页).pdf》由会员分享,可在线阅读,更多相关《海外科技行业解码DeepSeek开源周:超预期的开源程度与低成本属性-250316(27页).pdf(27页珍藏版)》请在薪酬报告网上搜索。

    1、分析师分析师联系人联系人郝艳辉郝艳辉登记编号:S1220524050002康百川康百川登记编号:S1220524060001张丰淇张丰淇登记编号:S1220524070002曹敦鑫曹敦鑫登记编号:S1220525020002朱壹朱壹超预期的开源程度与低成本属性超预期的开源程度与低成本属性解码解码DeepSeek开源周开源周海 外海 外 团 队团 队 行 业 深 度 报 告行 业 深 度 报 告证券研究报告|海外科技|2025年03月16日摘要摘要2DeepSeek开源周揭示开源周揭示V3/R1在单在单GPU计算速度计算速度、GPU间传输速度及间传输速度及GPU利用率方面的极致提效利用率方面的极

    2、致提效。2025年2月24日至28日,DeepSeek通过连续五天的“开源周”活动,开源了Infra关键组件的代码库。具体而言,如果将模型训练和推理简化为计算和通信两大任务,FlashMLA和DeepGEMM主要专注于提升计算效率,即通过映射向量的降维以及运算位数的下降来减少计算过程中的缓存空间占用,从而提高单位GPU能实现的计算速度上限。DeepEP则面向通信任务,在MoE架构下采用NVSHMEM来适配频繁的小规模传输需求,提高GPU间通信速度上限。DualPipe和EPLB负责不同计算与通信子任务之间的灵活调度,通过流水线双向交错执行和热门专家复制等方法来避免子任务分配不当带来的GPU空置

    3、。最后,3FS则是在正式进行计算和通信前,为数据的读取与准备工作提供支持,基于高速缓存与读取架构提升文件的随机读写效率。DeepSeek V3/R1推理架构在极致的工程优化下实现高吞吐和低时延推理架构在极致的工程优化下实现高吞吐和低时延,模型推理的理论利润率达到模型推理的理论利润率达到545%。开源周DAY6发布V3/R1推理系统的概览,用于将前五天开源的各项底层组件整理到推理流程中,通过在整个推理架构贯穿工程细节优化来实现高吞吐和低时延。基于所有Token(包括Web、App及API端)都按照R1的标准收费、仅考虑2美元/小时GPU租赁成本(未计入折旧、运维、能耗与租金等)的假设,公司称其模

    4、型服务的理论利润率达到545%。DeepSeek超预期的开源程度与低成本属性为超预期的开源程度与低成本属性为AI应用与云服务兑现带来积极信号应用与云服务兑现带来积极信号。我们在2025年2月4日发布的报告从算力、应用及终端层面看DeepSeek R1的影响中指出,基于DeepSeek开源+低成本属性,AI产业在算力、应用和终端三个维度迎来实质性变革,港股AI资产也有望迎价值重估。通过这次开源周,我们更清晰地看到DeepSeek正在推动大模型算法向开源、低精度(FP8)、MoE三个方向演进,同时Infra层面的工程优化相对简单堆料更显重要。随着技术放开带动更多企业和开发者参与AI应用研发,我们继

    5、续看好以上三条主线的长期空间,并且进一步强调算力与应用层的逻辑变化:1)DS开源的技术完全针对NV Hopper架构进行深度优化,技术迁移/国产适配需芯片厂商完善对FP8等特性的支持并相应优化推理侧解决方案;2)超出预期的“低成本”或为云平台算力服务创造更大需求与盈利空间;3)更大程度的开源为二次定制开发和应用创新提供足够自由度,企业有望充分发挥自身数据和行业know-how优势,龙头受益趋势更为确定。投资建议投资建议:在DS R1发布-腾讯元宝加速落地-阿里云投入超预期-Manus AI发布等多轮催化带动估值上修的背景下,港股有望开启以科技成长为主线的长线行情,我们看好后续行情的三个演绎方向

    6、1)云服务云服务:阿里巴巴-W、商汤-W、金山云;2)通用应用通用应用:腾讯控股;3)细分场景应用细分场景应用:垂类软件板块,金蝶国际、金山软件、美图-W、迈富时、明源云;内容娱乐板块,快手-W、哔哩哔哩-W、网易-W、阅文集团。wUmYnNoRvNzQtOpRaQdNbRtRmMsQmRfQqQnOfQqRqP9PrRxOvPoNsMNZoOsR摘要摘要3阿里巴巴阿里巴巴-W:依托技术依托技术+生态生态+算力承接算力承接DS流量流量,发布发布QwQ-32B强化开源布局强化开源布局。DeepSeek R1的发布显著降低了大模型使用门槛,但其官网因算力资源有限难以承载流量高峰,导致需求外溢。“模

    7、型易得、算力难求”矛盾迫使开发者转向拥有稳定算力支持的云厂商。阿里云掌握自研芯片(如含光)、推理引擎优化及全球算力集群,可低成本承接高并发需求,凭借头部地位和基础设施优势成为DeepSeek流量主要承接者。同时阿里进一步强化其Qwen系列的开源布局,发布并开源全新的推理模型通义千问QwQ-32B。R1和QwQ-32B推出有助于进一步壮大阿里的开源模型生态,将短期流量转化为长期基础设施收益。且公司明确表示将积极投资于AI基础设施建设,未来三年集团在云和AI的基础设施投入预计将超越过去十年的总和。我们认为当前阿里估值锚点短期转向AI驱动的云业务增长弹性,但中长期价值重估仍须以核心电商基本面复苏为基

    8、石。腾讯控股腾讯控股:AI探索进入加速期探索进入加速期,微信向微信向AI Agent方向探索有望重构互联网流量和服务分发逻辑方向探索有望重构互联网流量和服务分发逻辑。DeepSeek R1推出前,腾讯AI战略以业务需求为导向,AI作为工具嵌入现有产品,且AI团队分散于不同事业群(如AI Lab、优图实验室、微信AI),侧重解决业务部门的具体需求。但DeepSeek R1模型能力+较低的成本,腾讯在ToC端功能的试错成本达到可接受范围,从微信接入DeepSeek、AI产品矩阵梳理划分至CSIG到元宝买量投入,腾讯AI领域布局明显加速。我们认为腾讯AI落地的重点在于微信,考虑到公众号、小程序、视频

    9、号、搜一搜等功能,微信能提供的服务已无限接近于互联网本身,叠加其用户使用频次和时长、全面的用户数据维度,天然适合作为个人AI Agent的交互中枢,整合生活服务(小程序)、社交沟通、支付、内容消费等场景,有望重构流量和服务分发逻辑。金蝶国际金蝶国际:DeepSeek R1提供充足后训练空间与强推理能力提供充足后训练空间与强推理能力,加速加速Agent带来的场景付费带来的场景付费+模块增购模块增购。R1的特性在于开源及推理,一方面,软件厂商能够本地部署并基于完整的数据库去调优,极大改善过去找闭源模型厂商的开发人员做优化带来的黑箱以及潜在竞争问题;另一方面,四阶段强化学习塑造了R1强大的推理能力,

    10、使其在面对不同类型的问题时能够更好地适应,有望改善Agent工具调用准确率低以及泛化能力差的问题。考虑到IT开支占GDP的比重相对稳定,同时对AI应用的长期稳定需求可能会带动投资向AI基础设施转移,我们认为短期AI Agent更多是间接带动模块的增购,使份额向有云和AI优势的厂商集中为降低Agent在跨越分布式系统调用工具的出错率,对底层架构的一致性要求相应提高,以此推动up-sell和cross-sell。更长期看,AI软件OpEx替代人力OpEx带动ERP市场扩容为较明确的趋势。结合基本面情况、短期份额变动&长期市场扩容带来的增量预期,我们看好云ERP龙头金蝶的估值修复。风险提示风险提示:

    11、AI技术发展不及预期、AI技术路径变化、大模型竞争加剧、AI应用竞争加剧、地缘政治风险。目录目录41 DeepSeek开源技术详解开源技术详解1.1 概览:DS开源周项目是针对模型的哪一环节进行创新?1.2 DAY1 Flash-MLA:信息降维+分块计算-减少缓存空间占用-提高内存带宽和计算速度1.3 DAY2 DeepEP:细粒度异步通信-减少启动和同步成本-提高传输带宽利用率及通信效率1.4 DAY3 DeepGEMM:两级精度架构-平衡内存占用与误差;动态编译-减少启动开销1.5 DAY4 DualPipe+EPLB:流水线并行+专家并行-时间和空间维度减少GPU的空置率1.6 DAY

    12、5 3FS+Smallpond:SSD+RDMA-低时延随机读取;链式复制-提高一致性1.7 DAY1-5总结:单GPU计算速度+GPU间传输速度+GPU利用率多方面极致提效1.8 DAY6 推理系统概览:把底层组件组合成一条推理流水线,对高吞吐和低时延的追求贯穿全架构2 DeepSeek开源周影响总结及核心标的近况更新开源周影响总结及核心标的近况更新2.1 DeepSeek为港股AI资产带来重估机会,但行情持续仍待基本面反转支撑2.2 阿里巴巴-W:依托技术+生态+算力承接DS流量,发布QwQ-32B强化开源布局2.3 腾讯控股:AI探索进入加速期,微信向AI Agent方向探索有望重构互联

    13、网流量和服务分发逻辑2.4 金蝶国际:DS提供充足后训练空间与强大推理能力,加速Agent带来的场景付费+模块增购1.1 概览概览:DS开源周项目是针对模型的哪一环节进行创新开源周项目是针对模型的哪一环节进行创新?5资料来源:百度智能云,方正证券研究所图表:模型训练与推理原理概览分配给不同参数的权重输入层输入层隐藏层隐藏层输出层输出层x1x2x3y1y2y3正向传播,获取损失(实际值和预测值的差异)w11w12w31w21w33逆向传播,通过最小化损失来优化参数/权重分配损失为Y(预测值)和f(X)(实际值)的差异 输入:苹果图像目的是识别出这个物体是苹果 参数一:形状参数二:颜色参数三:如果

    14、更重视形状参数,可能识别出来是苹果(70%概率)/桃子(30%);如果更重视颜色参数,可能识别出来时苹果(50%)/瓢虫(50%)计算损失,在第一种权重分配下的误差=苹果-苹果或苹果-桃子;在第二种权重分配下的误差=苹果-苹果或苹果-瓢虫 输入一张水果图像后,基于设定好的权重与参数对其进行分析,直接输出分析结果大模型本质是大参数/规模的神经网络,通过增加模型容量来学习更复杂的知识。在训练过程中,已知映射关系X-f(X),首先进行正向传播:输入数据X,让模型计算出Y;预测值Y和实际值f(X)的差异代表计算误差。模型在此基础上通过逆向传播进行动态调整,以最小化误差为目标不断倒推调整参数/权重。推理

    15、则是基于已经训练好的网络,对新输入的数据进行前向计算,生成结果。推理 在90%形状+10%颜色权重分配下,误差=苹果-苹果=0的可能性最大,故设置w1=90%、w2=10%,完成模型训练主要功能主要功能拿到纯文本,先把每个词(或字、子词)转成Token ID将离散的Token ID转为连续向量(方便计算)并添加位置信息每个 Token 聚合与自身最相关的上下文信息,并给因子分配权重(基于Query在Key-Value间找映射)对融合完的信息再做单词级别的深度思考或加工把最终的词向量映射回词表,得到下一步要输出的词类比理解类比理解获得开会前的参会名单每个小组成员贴上“我是谁”和“我在哪儿”的标签

    16、会上自由讨论:每个人都问我需要从谁那里获得信息?(Q),其他人告诉他我能提供什么(K/V),每个人最终吸收最有用的内容大家在讨论完后,再各自消化、深度思考大会结束:把每个人最后想法翻译成真正要说出的话,决定下一个单词是什么主流方案主流方案HDFS可学习嵌入(Learned Token Embedding)+旋转位置编码(Positional Encoding,RoPE)多头自注意力机制(Multi-Head Self-Attention,MHA)标准稠密结构(两层 MLP)、混合专家模型(Mixture of Experts,MoE,专家间用NCCL通信)DeepSeek创新方案创新方案DAY

    17、5:3FS(加速文件的加载与读取)DAY1:FlashMLA(减少KV Cache)DAY2:DeepEP(MoE专家间直接通信)1.1 概览概览:DS开源周项目是针对模型的哪一环节进行创新开源周项目是针对模型的哪一环节进行创新?6资料来源:APIDOG,百度智能云,53AI,方正证券研究所输入层输入层隐藏层隐藏层输出层图表:神经网络架构拆分以及DeepSeek开源项目所处的环节输入层(Input)嵌入层(Embedding)自注意力层(Attention)前馈神经网络层(Feed Forward Network,FFN)输出层(Output)DAY3:DeepGEMM(优化矩阵计算)DAY4

    18、:DualPipe/EPLB(提高并行效率)输入层输入层输出层输出层隐藏层承担了模型大部分的计算任务隐藏层承担了模型大部分的计算任务,是效率优化的重点领域是效率优化的重点领域。在隐藏层内部,根据功能和算法设计可以进一步拆分为嵌入层(将离散的输入数据转换为方便计算的连续向量)、自注意力层(权重分配)和前馈神经网络(沿着网络向前计算、提炼输出信息)等模块。DeepSeek开源周项目主要围绕隐藏层开展工程创新开源周项目主要围绕隐藏层开展工程创新,创新方向是减少每一环节及每一任务在时间和空间维度上的冗余创新方向是减少每一环节及每一任务在时间和空间维度上的冗余,具体包括具体包括:DAY1减少自注意力层缓

    19、存占用的FlashMLA、DAY2减少FFN层通信启动成本的DeepEP、DAY3提高矩阵运算效率的DeepGEMM、DAY4提高流水线并行与专家并行效率的DualPipie/EPLB以及DAY5加速输入层文件读取的3FS。底层优化形成分类标签找到标签匹配的值输入问询条件1.2 DAY1 Flash-MLA:信息降维信息降维+分块计算分块计算-减少缓存空间占用减少缓存空间占用-提高内存带宽和计算速度提高内存带宽和计算速度7Attention可以理解为可以理解为:在一串输入中在一串输入中,基于相关性来判断不同信息的重要程度基于相关性来判断不同信息的重要程度(用权重来表示用权重来表示),使后续计算

    20、能够聚焦重点使后续计算能够聚焦重点。MHA(Multi-Head Attention)是Attention机制的标准配置,其原理为对输入向量做三次变化(常称作为Q/K/V,类似“我要问什么”/“我是谁”/“我能提供什么”),基于词之间的相关性来做聚类,为关联度更高的因子赋更高的权重。而随着输入序列加长,KV投影过程产生的缓存会占用庞大的内存。MLA(Multi-Head Latent Attention)在此基础上通过引入一组Latent Variable(非直接观测的、起到信息抽象作用的潜变量),在较低维度上存储和传递信息,显著减少KV Cache对内存的占用;该技术首次在DS-V2中引入。

    21、DS DAY1开源的开源的Flash-MLA则是进一步融合了则是进一步融合了Flash Attention和和MLA架构架构。Flash Attention指将输入序列拆分成小块,分块进行中间计算,以避免一次性加载完整的大矩阵;结合其减少瞬时内存峰值以及MLA将键值对降维为潜变量节省长期存储空间的特性,Flash-MLA可在H800上实现3000GB/s的内存带宽及580TFLOPS的计算峰值,相比传统方案提升2-3倍性能。图表:Attention架构下Q-K-V工作机制资料来源:Medium,GitHub,方正证券研究所Key(键键)Query(查询查询)Value(值值)以识别苹果为例,Q

    22、可以看作是“是否有苹果?”这一查询的特征描述 通过计算Q与所有K之间的相似度,确定哪些区域与“苹果”最相关 用这些相似度作为权重对对应的V进行加权求和,从而形成最终的输出每个输入区域都需要生成独立的K和V 从而在计算过程中会产生大量的KV cache 如何降低KV Cache为缓解内存和计算负担的关键MLAMHAFlashMLA原理原理独立处理每个输入-Q-K-V的映射通过潜变量对KV进行有损压缩在MLA基础上,将输入序列分割成小块,逐块计算Q/K/V映映射关系射关系Q-K-V一一对应Q-Latent(K,V)Q-Latent(K,V)计算方式计算方式完整矩阵进行中间计算完整矩阵进行中间计算分

    23、块矩阵并行进行中间计算图像表示图像表示图表:Attention架构演变目的是:把输入内容(Q)和模型通过训练学到的表达方式(KV)匹配,匹配依据是相关性,匹配结果为带权重的抽象信息部分Q共用一组降维后的KV,长期降低计算过程中的存储空间分块(例如灰色部分)计算,降低一次性加载完整矩阵带来的瞬时内存峰值通信特征通信特征有启动延迟、大批量、连续、同步通信低延迟、可单侧、高细粒度、异步通信适用任务适用任务适合一次性的同步集体操作,从而摊薄通信启动和同步的开销适合频繁的小规模传输,降低启动延迟开发难度开发难度NNCL提供简单且高效的计提通信接口,可无缝调用NVSHMEM需要开发者重新设计数据调度和通信

    24、策略,开发和维护的复杂度更高1.3 DAY2 DeepEP:细粒度异步通信细粒度异步通信-减少启动和同步成本减少启动和同步成本-提高传输带宽利用率及通信效率提高传输带宽利用率及通信效率8FFN层是基于层是基于Attention模块传递的加权信息进行再提炼模块传递的加权信息进行再提炼,使输入表示更匹配模型的使输入表示更匹配模型的“知识库知识库”,主要包括主要包括Dense和和MoE两种架构方案两种架构方案。前者为单一的全连接网络,每个Token都需经过同样的完整网络处理;而MoE(Mixture of Experts,混合专家模型)则将网络拆成了多个专家子网,每个Token只激活与其最相关的To

    25、p K个专家(Dispatch),再将这K个专家的输出组合到一起(Combine)。在Dispatch和Combine的过程中,需要在不同专家(或不同GPU之间)进行All-to-All通信。传统GPU间通信通常依赖基于CUDA的NCCL(NVIDIACollective Communications Library,为NV提供的服务GPU高效通信的库),专为单次启动、大批量且连续的数据传输场景设计,因此在通信模式相对简单和连续的Dense架构中表现很好。而在MoE架构下,由于Dispatch和Combine过程中需要频繁进行小批量数据交换,每调用一次NCCL,都需要一定的固定时间用于初始化、

    26、数据准备与同步,而这些固定开销在小数据量下无法被充分摊薄,影响带宽的利用率,成为MoE扩展到超大参数规模的关键瓶颈。DS DAY2开源的开源的DeepEP使用使用NVSHMEM优化优化MoE架构下的架构下的GPU通信通信。NVSHMEM(NVIDIA Shared Memory,为NV提供的服务GPU低延迟单边通信的库),允许一个GPU直接访问另一个GPU的内存,无需经过复杂的启动和同步过程,在处理小批量数据和不规则交换的场景下能够实现更高的带宽利用率和通信效率,更加适配MoE架构的需求;DeepEP能在H800上通过NVLink实现153-158 GB/s带宽,相比传统方案的解码延迟压缩40

    27、%以上。图表:MoE架构下GPU通信机制的迭代历程资料来源:GitHub,Medium,方正证券研究所MoEDenseDispatchCombineGPU All-to-All通信通信传统(NCCL)DeepEP(NVSHMEM)Dense架构下,每个输入都会经过同样的完整网络处理,产生实时、大批量的集体通信需求MoE架构下,每个输入都会选择与自己相关的专家来激活,产生小规模的、不规则的通信需求1.4 DAY3 DeepGEMM:两级精度架构两级精度架构-平衡内存占用与误差平衡内存占用与误差;动态编译动态编译-减少启动开销减少启动开销9GEMM(General Matrix Multiplic

    28、ations,通用矩阵乘法通用矩阵乘法)是正向和逆向传播的底层运算方式是正向和逆向传播的底层运算方式,实现效率受数据调度方式的影响很大实现效率受数据调度方式的影响很大。常用库为CUTLASS(CUDA Templates for Linear Algebra Subroutines),其设计初衷是面向大规模、相对统一形状的矩阵乘法,注重稳定性和通用性,更偏向FP32/FP16等传统精度(每个数用32/16位浮点数存储,数位越多,占用的存储空间和带宽就越多);为了适配各种典型大小的矩阵,CUTLASS需要在编译阶段预生成很多“模版”,方便后期运算时直接调用。因此,CUTLASS在高精度处理常见尺

    29、寸矩阵下性能较优,但1)随着大模型越来越大,显存带宽和算力成为瓶颈,更低的数据精度(如FP8)能显著减少数据的存储体积与传输开销,但也会带来更多的计算误差;2)当矩阵规模多样时,频繁调用不同模版会带来额外的启动开销。DS DAY3开源的开源的DeepGEMM针对精度和误差的取舍以及预购建模版启动开销的问题进行了优化针对精度和误差的取舍以及预购建模版启动开销的问题进行了优化。为了在低精度模式下最小化误差,DeepGEMM采用1)FP8乘法+FP32累加的两级架构结合低精度的速度优势和高精度的数值稳定性优势;2)细粒度量化将数据划分成多个小块,使每个小块有自己的量化参数,减少数值误差。为了减少编译

    30、模板化带来的多次启动开销,1)JIT(Just-In-Time,即时编译)在运行时根据具体需求(如矩阵大小、数据布局等)动态生成最优的内核,不受预购建的代码限制;2)分组计算,即把多组小矩阵乘法合并到一次GPU调用中,减少启动次数和调度开销。对于普通矩阵计算来说,DeepGEMM相对CUTLASS性能提升1.4-2.7倍。图表:GEMM(通用矩阵乘法)的运作流程及DeepGEMM带来的改进资料来源:GitHub,MarkTechPost,方正证券研究所预处理和调度预处理和调度默认读取FP32/16格式根据实际矩阵大小,调用最接近的模版代码每个线程块拿到一块数据之后,用FP32/16的做乘法及累

    31、加数据读取数据读取矩阵乘法与累加矩阵乘法与累加预设需要读取多大的矩阵用细粒度量化将FP32/16转换为FP8格式动态编译,根据实际大小与精度生成代码在一次调用中并行处理所有小矩阵先用FP8做乘法,再把乘积按照FP32累加(两级架构)对于大矩阵很成熟高效;对于“小而多”的矩阵来说,频繁调用的启动开销很高,尤其不适配MoE架构高精度位数存储带来的储存空间与带宽占用较多高精度位数存储带来的储存空间与带宽占用较多;但如果直接采用低精度格式,误差可能较大传统做法传统做法(CUTLASS)DS V3/R1做法做法(DeepGEMM)假设专家1为热门专家,专家4/5/6为冷门专家;在传统架构下,GPU1调用

    32、次数会高于GPU2,导致GPU2存在空闲时间=复制一个专家1,并将副本分配到GPU2上,平衡两个GPU的负载1.5 DAY4 DualPipe+EPLB:流水线并行流水线并行+专家并行专家并行-时间和空间维度时间和空间维度减少减少GPU的空置率的空置率10大模型训练会同时用到多种并行策略大模型训练会同时用到多种并行策略(比如流水线并行比如流水线并行、专家并行专家并行)来减少来减少GPU的空闲时间的空闲时间。1)流水线并行:传统的正向与逆向计算只按照一个方向传递数据,在时间和空间维度上存在优化空间。流水线并行(PP,Pipeline Parallelism)指将模型按层次切分到多张GPU上,让前

    33、向或后向的计算在不同设备上分段进行。1F1B(One Forward,One Backward)是最常见的PP方式,先在第1、2、n个GPU上跑完前向计算,再依次在n、n-1、1个GPU上做反向传播,强调按顺序算完正向之后才开始做反向,导致前向或后向某一端常常处于“等对方算完才轮到我”的状态,出现大段的GPU空间时间(或者叫流水线气泡,Pipeline Bubble)。2)专家并行:MoE架构下存在多路专家,每个专家会分配到不同GPU,但不同专家的热门程度(调用次数)不同,不常被调用的专家对应的GPU可能存在较多空闲。DS DAY4开源的开源的DualPipe让正向和逆向的计算和通信在时间轴上

    34、交错重叠让正向和逆向的计算和通信在时间轴上交错重叠,在第一个批次的正向计算还在往后传时,另一个批次的逆向计算已经在前传,避免顺序执行导致的空闲。此外,DualPipie并且尽可能让计算与通信同时发生,即某张GPU做完某个批次的计算之后,可以立即发起通信并处理其他计算任务DualPipe帮助大幅减少GPU气泡损耗,将设备等待时间从常规的35%降到 DualPipe允许双向传输,减少空闲GPU的数量并增加单个GPU的负载“写”操作刚刚完成,其他副本的同步需要时间,读时可能拿到旧数据1.6 DAY5 3FS+Smallpond:SSD+RDMA-低时延随机读取低时延随机读取;链式复制链式复制-提高一

    35、致性提高一致性11文件系统主要用于管理文件系统主要用于管理、存储并读写海量数据存储并读写海量数据,传统常用传统常用HDFS(Hadoop Distributed File System),其专为其专为连续处理大批量连续处理大批量离线数据离线数据的设计的设计,对模型训练及推理没有针对性支持对模型训练及推理没有针对性支持。一方面,HDFS默认的数据管理都是针对大吞吐而非细粒度操作,导致小文件和随机读写(不按照顺序读写)性能差;另一方面,其设计仅注重“最终一致性”,即更新操作不会在所有副本上立即生效,而是会逐步传播,但在此期间可能会存在数据不一致的情况。而模型训练和推理场景往往需要随机抽样(以获取多

    36、样化的训练数据)或低延迟读取向量,都要求文件系统有更强的随机读写能力、更低的访问延迟和更严格的一致性。DS DAY5开源的开源的3FS(Fire-Flyer File Sysytem)具备强一致性并优化了随机访问能力具备强一致性并优化了随机访问能力,专为专为AI场景提供底层存储与数据支持场景提供底层存储与数据支持。针对一致性问题,3FS引入链式复制架构,将存储节点按顺序排成一条链,“写”操作会依次传递给链中的每个副本节点,只有当操作到达链末端并成功写入后,才能提交成功;而“读”操作默认从链的末端提取,确保读到的数据是已经被全部副本确认的最新版本。针对随机低延迟访问,3FS采用SSD(固态硬盘)

    37、代替机械硬盘,在随机读写场景下有数量级的延迟优势;并且结合RDMA(远程直接内存访问)实现从SSD直接读取数据,不必经过中间的CPU拷贝,极大降低网络的往返延迟。3FS在180节点集群中实现6.6 TiB/s的读取吞吐量。Smallpond则基于则基于3FS的轻量级数据处理框架的轻量级数据处理框架,专注于专注于PB级数据的高效处理级数据的高效处理,凭借低开销和易用性补充了凭借低开销和易用性补充了3FS的功能的功能。图表:文件系统迭代历程资料来源:GitHub,DEV Community,方正证券研究所读数据读数据把大文件切成几个块,依次写入普通硬盘找到相应的写入节点,按顺序读取大块数据写数据写

    38、数据采用SSD(高速仓库)+RDMA(高速取货通道)并行写入数据用链式复制确保“写”操作按序完成,并且“读”末端数据擅长按顺序处理大文件,但如果是随机处理大量小文件,性能会明显下降传统做法传统做法(HDFS)DS V3/R1做法做法(3FS)图表:传统文件系统 VS 3FS架构对比对于小型/中型矩阵来说,DeepGEMM相对CUTLASS性能提升1.4-2.7倍1.7 DAY1-5总结总结:单单GPU计算速度计算速度+GPU间传输速度间传输速度+GPU利用率多方面极致提效利用率多方面极致提效12资料来源:Github,Medium,DEV Community,Apidog,AINEWS,CSD

    39、N,MarkTechPost,方正证券研究所图表:从任务维度看DeepSeek开源的创新内容3FS提高单GPU能实现的计算速度上限计算计算通信通信传输任务3计算计算计算任务1计算任务2计算任务3数据数据读写读写如果将模型训练和推理简化为计算和通信两大任务,FlashMLA和DeepGEMM主要专注于提升计算效率,即通过映射向量的降维以及运算位数的下降来减少计算过程中的缓存空间占用,从而提高单位提高单位GPU能实现的计算速度上限能实现的计算速度上限。DeepEP则面向通信任务,在MoE架构下采用NVSHMEM来适配频繁的小规模传输需求,提高提高GPU间通信速度上限间通信速度上限。DualPipe

    40、和EPLB负责不同计算与通信子任务之间的灵活调度,通过流水线双向交错执行和热门专家复制等方法来避免子任务分配不当带来的避免子任务分配不当带来的GPU空置空置。最后,3FS则是在正式进行计算和通信前,为数据的读取与准备工作提供支持,基于高速缓存与读取架构提升文件的随机读写效率提升文件的随机读写效率。DeepGEMMFlashMLADeepEPDualPipe/EPLB计算任务1计算任务2计算任务3传输任务1传输任务2提高计算和通信前读写准备工作的效率提高GPU间的传输效率缓解子任务分配带来的GPU空置问题图表:从神经网络层级维度看DeepSeek开源的创新内容输入层输入层隐藏层隐藏层输出层输入层

    41、嵌入层自注意力层前馈神经网络层输出层输入层输入层输出层输出层3FSFlashMLADeepEPDeepGEMMDualPipe/EPLB底层优化将设备空间时间从常规的35%降到 减少缓存空间占用-提高内存带宽和计算速度1.3 DAY2 DeepEP:细粒度异步通信-减少启动和同步成本-提高传输带宽利用率及通信效率1.4 DAY3 DeepGEMM:两级精度架构-平衡内存占用与误差;动态编译-减少启动开销1.5 DAY4 DualPipe+EPLB:流水线并行+专家并行-时间和空间维度减少GPU的空置率1.6 DAY5 3FS+Smallpond:SSD+RDMA-低时延随机读取;链式复制-提高

    42、一致性1.7 DAY1-5总结:单GPU计算速度+GPU间传输速度+GPU利用率多方面极致提效1.8 DAY6 推理系统概览:把底层组件组合成一条推理流水线,对高吞吐和低时延的追求贯穿全架构2 DeepSeek开源周影响总结及核心标的近况更新开源周影响总结及核心标的近况更新2.1 DeepSeek为港股AI资产带来重估机会,但行情持续仍待基本面反转支撑2.2 阿里巴巴-W:依托技术+生态+算力承接DS流量,发布QwQ-32B强化开源布局2.3 腾讯控股:AI探索进入加速期,微信向AI Agent方向探索有望重构互联网流量和服务分发逻辑2.4 金蝶国际:DS提供充足后训练空间与强大推理能力,加速

    43、Agent带来的场景付费+模块增购2.1 从算力从算力、应用及终端层面看应用及终端层面看DeepSeek的影响的影响15我们在我们在2025年年2月月4日发布日发布从算力从算力、应用及终端层面看应用及终端层面看DeepSeek R1的影响的影响点评报告点评报告,说明基于说明基于DeepSeek开源开源+低成本属性低成本属性,核心关核心关注算力注算力、应用和终端三条主线应用和终端三条主线:算力层面看算力层面看,短期存在深度和广度的博弈短期存在深度和广度的博弈,长期投资尚起步长期投资尚起步。市场规模方面,1)训练侧,算力使用效率的提升不代表Scaling Law失效。伴随高质量语言数据资源的消耗,

    44、预训练阶段的Scaling Law出现天花板;以OpenAI o1、Gemini 2.0为代表的模型开启推理时代,通过在后训练阶段中提升RL训练的探索时间和增加模型推理思考时间来实现性能提升,即Post-Training Scaling Law。我们看到R1在V3的基础上进行了两次RL,获得性能的明显提升,再次验证Post-Training Scaling Law的有效性;2)推理侧,低成本降低AI应用的开发与应用门槛,推理算力需求加速兑现。市场格局方面,R1训练不再依赖CUDA(但使用了PTX)和大规模高端算力,英伟达的绝对垄断地位预期在短期受到动摇,算力叙事或进一步向云厂ASIC(海外)/

    45、国产算力厂商(国内)演绎。应用层面看应用层面看,模型部署成本降低模型部署成本降低,加速加速AI应用商业化落地应用商业化落地。Deepseek自成立之初始终坚持开源路线,R1发布意味着高性价比模型能力的平民化,增强应用落地及商业化的可行性,为AI ROI带来更多空间。进一步看,R1解除中国AI应用发展在模型能力和算力方面的压制因素,中国AI应用企业或将更加受益;且R1作为推理系列模型,符合Agent产品逻辑,有望推动产品形态加速升级。终端方面终端方面,R1蒸馏效果得到验证蒸馏效果得到验证,端侧端侧AI落地可行性增强落地可行性增强。DeepSeek发布了基于Llama与Qwen蒸馏的六个小模型(在

    46、多项基础测试集中性能对标o1-mini),验证能够通过用推理模型的输出对非推理小模型进行微调,将其转变为具备推理能力的模型。此外,R1产品协议明确可“模型蒸馏”,有望加速端侧模型在广度和深度方面的发展,增强端侧AI落地的可行性。通过这次开源周通过这次开源周,我们更清晰地看到我们更清晰地看到DeepSeek正在推动大模型算法向开源正在推动大模型算法向开源、低精度低精度(FP8)、MoE三个方向演进三个方向演进,同时同时Infra层面的工程层面的工程优化相对堆料回归更显重要优化相对堆料回归更显重要。随着技术放开带动更多企业和开发者参与到随着技术放开带动更多企业和开发者参与到AI应用的研发应用的研发

    47、,我们继续看好以上三条主线的长期空间我们继续看好以上三条主线的长期空间,并且进并且进一步强调算力层和应用层的逻辑变化一步强调算力层和应用层的逻辑变化:1)DS开源的技术完全针对开源的技术完全针对NV Hopper架构进行深度优化架构进行深度优化,技术迁移技术迁移/国产适配需芯片厂商完善对国产适配需芯片厂商完善对FP8等特性的支持并相应优化推理侧解决方案等特性的支持并相应优化推理侧解决方案;2)超出预期的超出预期的“低成本低成本”或为云平台算力服务创造更大需求与盈利空间或为云平台算力服务创造更大需求与盈利空间;3)更大程度的更大程度的开源为二次定制开发和应用创新提供足够自由度开源为二次定制开发和

    48、应用创新提供足够自由度,企业有望充分发挥自身数据和行业企业有望充分发挥自身数据和行业know-how优势优势,龙头受益趋势更为确定龙头受益趋势更为确定。2.1 DeepSeek为港股为港股AI资产带来重估机会资产带来重估机会,但行情持续仍待基本面反转支撑但行情持续仍待基本面反转支撑16资料来源:Wind,方正证券研究所图表:纳斯达克100与恒生科技指数收盘价变化(以2023年1月3日为基期)连续两月在听加息,FOMO情绪继续吸引更多资金进入市场,支撑Q1强劲上涨50bps降息落地,带来衰退与软着陆的博弈;大选不确定性加剧波动,市场震荡上行受通胀数据过热以及中东地区地缘政治紧张影响,市场出现短期

    49、调整就业市场超预期疲软,降息预期转变为衰退预期,同时日元套系交易的逆转进一步从资金层面放大了市场的波动指数上涨约40%,启动于底部+核心标的业绩不断超预期+交易宏观经济政策指数下跌约15%,前期累计了一定涨幅,+基本面上无催化相对还可以的财报+美联储降息预期,对股价形成较强支撑短时间内上涨约35%,美联储降息+国内开启的刺激政策回调约20%,之前上涨过快过猛的正常回调,叠加国内刺激政策低于预期(之前市场预期过高)DS引发发AI投资热潮增长、就业、通胀均出现放缓迹象,降息预期重燃,叠加英伟达财报指引超预期,开启第二轮上涨交易中国宏观经济衰退预期大选结束,震荡横盘通胀降温;ChatGPT发布开启A

    50、IGC投资周期美债收益率提升,资金流出;叠加巴以冲突,避险情绪升温分母端被充分price in,利润继续释放、股东回报深入人心,但依然被宏观压制失业率降至低点,通胀降幅放缓,加息预期叠加衰退预期带动下跌债务上限谈判陷入僵局,指数横盘停止加息,英伟达业绩超预期,带动算力产业链表现强势-40%-20%0%20%40%60%80%100%120%纳斯达克100恒生科技指数从纳斯达克从纳斯达克100 VS 恒生科技走势看恒生科技走势看AI投资异同投资异同:AI行情开启需要满足流动性向好与基本面反转前提行情开启需要满足流动性向好与基本面反转前提。纳斯达克100自22年末起多次开启以AI为主线的投资周期,

    51、从中我们分析,AI行情开启并带动大盘走到新支撑位的前提在于:流动性宽松且存在AI产业链标的持续兑现业绩。而恒科成分股在此轮DS行情前大多未给AI估值对价,一方面是受到宏观经济的压制,另一方面国内外模型能力存在差距+高端算力受限使市场对中国AI应用存在悲观预期。今年2月,DeepSeek打破关于国内外模型能力差距以及高端算力卡脖子的质疑,市场关于AI应用的预期以此为起点开始修复,此后在腾讯元宝接入DS、阿里capex超预期、Manus AI发布等多轮催化下,港股大盘以AI为投资主线迅速走高;行情的可持续性仍需要基本面反转支撑,核心看好云服务核心看好云服务(对应阿里对应阿里)、通用应用通用应用(对

    52、应腾讯对应腾讯)及垂直场景应用及垂直场景应用(对应金蝶对应金蝶)三个演绎方向三个演绎方向。2.1 DeepSeek为港股为港股AI资产带来重估机会资产带来重估机会,但行情持续仍待基本面反转支撑但行情持续仍待基本面反转支撑17资料来源:Bloomberg,方正证券研究所;注:1)数据均按日历年计算,以阿里巴巴为例,CY2024收入为FY24Q4-25Q3四季度之和;2)利润口径均为调整后净利润2024A/E2025E2026E2024A/E2025E2026E2024A/E2025E2026E2024A/E2025E2026E2024A/E2025E2026E0700.HK腾讯控股4381565

    53、767149773721812386266133.2%33.4%34.4%6.76.15.720.118.416.59988.HK阿里巴巴-W238899818103681117415331724194815.6%16.6%17.4%2.42.32.115.613.912.31810.HK小米集团-W121863581446053102513254157.0%7.3%7.8%3.42.72.348.537.429.43690.HK美团-W958733703922447243854967213.0%14.0%15.0%2.82.42.121.917.414.30981.HK中芯国际4837578

    54、6957903564786.1%9.2%9.9%8.47.06.1136.375.961.91024.HK快手-W264212721406153917721726413.9%15.5%17.2%2.11.91.714.912.210.02015.HK理想汽车-W2222145819172364901291806.2%6.7%7.6%1.51.20.924.717.312.39868.HK小鹏汽车-W16884157641015-57-1916-13.8%-2.5%1.6%4.12.21.7-0992.HK联想集团13464747537658251111121382.3%2.1%2.4%0.30

    55、.30.212.112.19.80285.HK比亚迪电子10501715193321364662772.7%3.2%3.6%0.60.50.523.117.013.62382.HK舜宇光学科技8893844334822633396.7%7.5%8.1%2.32.11.834.627.322.79626.HK哔哩哔哩-W66126830333201931-0.1%6.4%9.2%2.52.22.0-34.321.60020.HK商汤-W590455876-35-21-11-78.6%-36.1%-14.6%13.110.17.8-3888.HK金山软件52010311913615192414.4

    56、%16.2%17.5%5.04.43.835.127.021.90268.HK金蝶国际516657688-125-1.1%2.6%5.6%8.06.85.8-AAPL.O苹果24032128492302183202876618118811126.9%26.9%25.3%8.48.07.531.429.629.6MSFT.O微软20488218850213462420066787516872535.4%35.2%36.1%10.99.68.530.727.323.5NVDA.O英伟达19224094091478318300535581061021556.9%54.8%55.8%20.413.01

    57、0.535.923.718.8AMZN.O亚马逊15092445934505565578758515589678812.7%11.1%12.2%3.33.02.725.827.022.2GOOG.O谷歌14568921249248762670872098346939933.9%33.6%35.2%6.95.95.520.217.515.5META.OMeta11117311844136651554344904728547337.9%34.6%35.2%9.48.17.224.823.520.3TSLA.O特斯拉5372770348090974660672810008.6%9.0%10.3%7.

    58、66.65.588.673.853.7总市值总市值名称名称代码代码PS估值估值PE估值估值净利率净利率利润利润收入收入图表:核心标的估值对比表(单位:亿元人民币;预测数据来自2025年3月12日彭博一致预期)2.2 阿里阿里:借力阿里云借力阿里云,从模型从模型、开发及应用层完善开发及应用层完善2B AIaaS布局布局18资料来源:阿里公告,阿里官网,阿里云官网,通义官网,方正证券研究所淘天垂类模型星辰处于内测阶段24M324M5通义千问2.5发布25M1通义千问2.5-MAX发布2017AI应用到阿里云、钉钉、淘天等业务2019通义千问大模型发布23M4通义千问2.0发布23M10开始汇集AI

    59、科学家2012成立数据科学与技术研究院2014成立达摩院一级分类一级分类收入结构收入结构(FY25H1)EBITA结构结构(FY25H1)业务概览业务概览AI赋能原业务赋能原业务原生原生AI应用应用淘天集团淘天集团45%109%淘宝、天猫、1688;客户管理(广告+佣金 32%)+直营淘宝问问淘宝问问(电商智能导购,免费使用)千牛千牛copilot(商家辅助经营助理,提供经营知识问答、AI作图、AI文案、AI数据分析等能力,订阅或按量计费)万相实验室万相实验室(AI广告创意助手,自动生成营销素材,免费使用)全站推广全站推广(提高广告ROI)云智能集团云智能集团12%6%阿里云Modelscop

    60、e模型社区(MaaS,按量计费)通义智能体通义智能体(Agent定制平台,按调用次数计费)智能导购助手智能导购助手(实时分析用户行为,按使用量计费)阿里国际数字商业集团阿里国际数字商业集团13%-8%Lazada、速卖通、Trendyol等菜鸟集团菜鸟集团11%1%菜鸟本地生活本地生活7%-1%饿了么、高德大文娱大文娱2%0%优酷、大麦网、阿里影业所有其他所有其他21%-3%盒马、钉钉、阿里健康、飞猪、灵犀互娱、智能信息(UC优视)钉钉钉钉AI助理助理(额外订阅付费)通义千问通义千问聊天助手,免费使用通义万相通义万相文生图应用,订阅付费通义听悟通义听悟音频处理助手,按时长计费通义仁心通义仁心医

    61、疗助手,订阅付费通义法睿通义法睿法律助手,合同审查按量计费、法律咨询按次数计费通义灵码通义灵码代码助手,订阅付费通义星尘通义星尘角色生成应用,免费使用通义晓蜜通义晓蜜客服外呼助手,订阅或按调用次数付费通义智文通义智文阅读助手,支持摘要生成、导读等,免费使用通义点金通义点金金融分析工具助手,按调用量付费通义系列模型模型包括通用领域的LLM Qwen-turbo/max等、多模态Qwen-VL以及垂直领域的Qwen-coder等TX-DeepLearning开发工具开发工具开源深度学习框架图表:阿里基本业务情况及AI布局梳理25M2QwQ(基于Qwen2.5-MAX的推理模型)发布寒光芯片芯片推理

    62、芯片2.2 阿里阿里:AI驱动云业务驱动云业务24Q4增长再提速增长再提速,预计未来三年投入超越过去十年总和预计未来三年投入超越过去十年总和19资料来源:Wind,公司公告,方正证券研究所图表:阿里云业务收入及同比增速图表:阿里SOTP估值阿里披露24Q4业绩,收入2802亿元,+7.6%yoy,高于市场预期2774亿元,调整后EBITA 549亿元,高于市场预期536亿元,NON-GAAP归母净利润513亿元,高于市场预期461亿元。AI驱动阿里云增长再提速驱动阿里云增长再提速,未来三年投入将超越过去十年总和未来三年投入将超越过去十年总和。CY24Q4,云智能集团收入+13%yoy(市场预期

    63、10%),由于DeepSeek带动AI推理需求激增出现在25Q1,四季度增长已经体现云业务强劲的内生增长动能,且AI相关收入连续六季度保持三位数增长,公共云产品收入双位数增长验证AI+云战略成效。考虑25年国内AI需求迅猛增长,我们预计云业务将环比继续加速,云业务已明确重回加速增长道路。此外,阿里本季度实现capex 318亿,如果以此为基础,预计2025年capex至少达到1200亿水平。且公司明确表示将积极投资于AI基础设施建设,未来三年集团在云和AI的基础设施投入预计将超越过去十年的总和。我们认为当前阿里估值锚点短期转向我们认为当前阿里估值锚点短期转向AI驱动的云业务增长弹性驱动的云业务

    64、增长弹性,但中长期价值重估仍须以核心电商基本面复苏为基石但中长期价值重估仍须以核心电商基本面复苏为基石。从竞争格局改善从竞争格局改善、经营效率优化经营效率优化、盈利质量修复三维度观察盈利质量修复三维度观察,淘天集团已呈现明确边际改善信号淘天集团已呈现明确边际改善信号。0%2%4%6%8%10%12%14%-5,000 10,000 15,000 20,000 25,000 30,000 35,00022Q222Q322Q423Q123Q223Q323Q424Q124Q224Q324Q4云智能集团营收(百万元)yoy业务拆分业务拆分收入收入(Rmb mn)EBITA(Rmb mn)估值方法估值方

    65、法Value(Rmb mn)股价股价(HK$)淘天淘天470,187 206,882 10 x PE2,068,821 116国际数字商业国际数字商业151,954(7,598)1x PS151,954 9云智能云智能141,109 13,123 5x PS705,547 39本地生活本地生活74,894(2,247)0.5x PS37,447 2菜鸟菜鸟109,984 1,100 1x PS109,984 6大文娱大文娱23,830(715)0.3x PS7,149 0所有其他所有其他205,891(10,295)0.3x PS61,767 3合计合计3,142,6711762.2 阿里阿里

    66、:依托技术依托技术+生态生态+算力承接算力承接DS流量流量,发布发布QwQ-32B强化开源布局强化开源布局20资料来源:阿里云官网,通义大模型公众号,华尔街见闻,方正证券研究所DeepSeek R1的发布显著降低了大模型使用门槛,但其官网因算力资源有限难以承载流量高峰,导致需求外溢。虽然开发者可轻松获取R1的代码,但要部署其满血版(671B参数)硬件优化和运维成本极高(至少8张A100显卡)。这种“模型易得、算力难求”矛盾,迫使开发者转向拥有稳定算力支持的云厂商。阿里云掌握自研芯片阿里云掌握自研芯片(如含光如含光)、推理引擎优化及全球算力集群推理引擎优化及全球算力集群,可低成本承接高并发需求可

    67、低成本承接高并发需求,凭借头凭借头部地位和基础设施优势成为部地位和基础设施优势成为DeepSeek流量主要承接者流量主要承接者。同时阿里云也通过接入DeepSeek推理模型,并提供价格低于DeepSeek官网的R1调用服务,吸引大量用户迁移至其平台,完成留存拉新的阶段性任务。目前云厂商的核心盈利逻辑已并非API接口的直接变现,最终获益的还是整套云计算基建规模化后效益。头部云服务厂商的战略重心在于AI时代的流量入口卡位,云上多模调用已是大趋势。用户初始调用行为将形成技术路径依赖,后续服务器、存储、构建应用等持续消费将沉淀于同一平台,最终通过用户全生命周期价值挖掘实现ROI优化。DeepSeek的

    68、开源模式促使阿里云进一步强化其的开源模式促使阿里云进一步强化其Qwen系列的开源布局系列的开源布局。3月6日凌晨,阿里发布并开源全新的推理模型通义千问QwQ-32B,QwQ-32B属于中等参数模型,它最大的亮点是做到了大参数推理模型才具备的效果。该模型整体性能比肩DeepSeek-R1,并将部署成本进一步降到了消费级显卡水平上,推理能力叠加低消耗,使得该模型适合快速响应或对数据安全要求高的应用场景。目前阿里已构建全球最大开源模型族群(200+款模型,覆盖全模态/全尺寸),Qwen系列衍生模型超10万款,超越Llama成为开源社区主流选择。R1和QwQ-32B推出有助于进一步壮大阿里的开源模型生

    69、态,将短期流量转化为长期基础设施收益。图表:QwQ-32B在数学推理、编程能力和通用能力上已比肩R1图表:针对R1阿里云提供了灵活多样的模型部署方案2.3 腾讯腾讯:AI探索进入加速期探索进入加速期,微信向微信向AI Agent方向探索有望重构互联网流量和服务分发逻辑方向探索有望重构互联网流量和服务分发逻辑21资料来源:腾讯公告,腾讯官网,腾讯云官网,方正证券研究所SaaS产品接入混元23M424M5腾讯元宝与元器发布24M9混元Turbo发布24M12HunyuanVideo(文生视频)发布2016混元模型发布,初步用于广告投放业务2022腾讯云上线MaaS服务23M6混元LLM正式发布23

    70、M9微信AI团队成立2011优图实验室成立2012AI Lab成立一级分类一级分类二级分类二级分类收入结构收入结构(FY24Q3)GP结构结构(FY24Q3)业务概览及商业模式业务概览及商业模式AI赋能原业务赋能原业务原生原生AI应用应用2B2C增值服务增值服务本地市场游戏9%53%QQ游戏平台、ACGs、MMOGs、移动游戏会员订阅或单次购买付费GiiNEX(游戏全生命周期AI引擎,提供图像、动画、3D、音乐等生成能力,适用NPC角色生成、场景制作以及内容生成等方面,开始自用)智能客服助手智能客服助手(提供个性化问答,主要应用在游戏产品中)国际市场游戏22%社交网络18%数字内容(视频、音乐

    71、、阅读、动画、运动、播客)订阅或单次购买付费;会员(SVIP、QQ VIP、QQ空间)订阅付费;微信读书微信读书+混元混元(AI问书、AI总结大纲,免费使用)营销服务营销服务16%18%社交网络、内容平台广告位竞价计费推荐算法优化推荐算法优化(优化内容排名与广告推荐的标注与分类)、妙思妙思(提高广告生产与投放效率),提高广告ROI金融科技金融科技及企业服务及企业服务金融科技34%29%1)支付:信用卡提现、商品销售抽佣,备付金利息;2)理财:基金&保险代销,按比例分成;3)借贷:通过微众银行开展小额借贷,在其收入中按比例分成企业服务腾讯云,按使用量计费腾讯会议、企业微信、腾讯文档、WeCom等

    72、软件订阅付费腾讯云腾讯云提供1)MaaS服务;2)AI Infra“腾讯云智算”;3)知识库、图像创作与视频创作引擎,降低应用开发门槛;4)AI代码助手,按量计费腾讯会议腾讯会议+混元混元(提供会议转录及总结等功能,属于会员高级功能)腾讯文档腾讯文档+混元混元(提供文本生成等功能,免费使用)其他1%0%包括投资、为第三方制作与发行电影及电视节目、内容授权、商品销售等腾讯元宝腾讯元宝通用问答助手,用于文件分析&总结、基于腾讯自有内容生态的智能搜索,免费使用腾讯元器腾讯元器一站式AI Agent创作与分发平台,供用户定制AI Agent并将其分发到腾讯渠道,用户有1亿Token免费体验额度,超出上

    73、限后按量计费混元系列模型模型具备文本、图片、视频生成能力的大模型,最新版本混元Turbo S发布于25M2,采用Mamba+MoE架构TI-ONE/Matrix开发工具开发工具供客户训练模型/开发应用ima copilot学习助手,整合搜索、知识库管理和写作功能于一体,免费使用图表:腾讯基本业务情况及AI布局梳理腾讯混元腾讯混元AI视频视频视频生成助手,用户有7/2次文生视频/图生视频体验额度25M2元宝、ima、微信搜索等接入DS-R125M2快思考模型Turbo-S发布25M3HunyuanVideo I2V(图生视频)发布紫霄芯片芯片推理芯片第三方大模型(DS)2.3 腾讯腾讯:Deep

    74、Seek R1推出前推出前,腾讯腾讯AI战略以业务需求为导向战略以业务需求为导向,AI作为工具嵌入现有产品作为工具嵌入现有产品22资料来源:环球网,腾讯官网,方正证券研究所Deepseek R1推出前推出前,腾讯腾讯AI战略聚焦于垂直场景落地战略聚焦于垂直场景落地,依托其庞大的依托其庞大的C端生态端生态(微信微信、游戏游戏、内容平台内容平台)和和B端业务端业务(云服务云服务、金融科金融科技技),将将AI技术嵌入现有产品技术嵌入现有产品,且且AI团队分散于不同事业群团队分散于不同事业群(如如AI Lab、优图实验室优图实验室、微信微信AI),侧重解决业务部门的具体需求侧重解决业务部门的具体需求。

    75、腾讯此前腾讯此前AI领域动作领域动作“谨慎谨慎”的原因的原因:马化腾曾表示“认为AI是几百年不遇的、类似发明电的工业革命一样的机遇”、“早一个月把电灯泡拿出来不那么重要”,从这里感受到腾讯对AI是非常重视的,但“AI可以后发取胜,不急于一时”,这也符合腾讯“谨慎”的业务拓展风格。而AI产品能力基本约等于大模型能力,传统互联网产品、运营等层面的增量贡献非常薄,腾讯首要任务更应该专注于大模型能力的提升,而微信在用户量、粘性、频次及内容质量等层面拥有深不可测的护城河,这也是腾讯耐心的底气。另一方面,微信的用户量级决定了任何一点改动对于用户的体验影响都不小,腾讯也应该谨慎。图表:腾讯过往各季度财报业绩

    76、会上关于AI的描述季度季度AI布局描述布局描述2023Q1 混元大模型进展较好,通过高质量数据收集、内部特性数据利用、大数据培训和高性能计算集群支持,结合丰富用户场景,实现降本增效和内容改善,推动稳健发展。2023Q3通过扩大模型规模、增强通用人工智能能力,将AI应用于SaaS服务(如腾讯会议和腾讯文档)、广告精准投放、游戏制作等领域,同时利用丰富的AI芯片库存支持持续发展,并探索国产替代芯片,以提升整体业务效率和竞争力。2023Q4(1)逐步释放AI系统改善广告收入,拓展视频号与电商广告前景,同时长期投入云和2B业务,寻找AI合作机会。(2)通过AI技术实现游戏创新,提高效率,创造更多价值。

    77、(3)在内容生成、游戏开发、广告营销等多领域部署AIGC技术,提升效率、降低成本,并推动创收和变现能力。(4)推出专有基础模型-腾讯混元,现已跻身中国顶级模型行列,具有强大的中文内容生成能力和逻辑推理能力,下一个重要的进化是Sora的方向,将不断提升文本转变成多媒体的能力。2024Q1(1)AI技术用于优化广告投放,提升CTR。(2)混元模型正在不断扩大规模,在游戏方面目前主要用于游戏客服,未来将把混元发展为多模态模型,支持文本到图片、文本到视频的生成能力,直接助力游戏研发和内容创作。(3)未来AI技术还将运用于云服务优化、企业微信和腾讯会议等SaaS产品、支付平台和理财服务、风险管理、视频号

    78、与微信搜索等方面。2024Q2(1)广告业务:通过AI技术提升CTR,利用神经网络和GPU基础设施优化广告投放,实现更精准的用户意图捕捉和广告推荐,推动广告收入增长。(2)内容推荐:在视频号等平台中,利用AI驱动的内容推荐系统,提升用户参与度和使用时长,增强内容生态系统的活力。(3)游戏:利用AI技术弥合PVE(玩家对环境)和PVP(玩家对玩家)之间的差距,提升游戏体验的真实性和趣味性,同时探索AI在游戏开发中的应用,如内容生成和玩法创新。(4)云服务与企业解决方案:推出AI驱动的平台解决方案,包括图像生成引擎、视频生成引擎和知识引擎,为企业提供高性能计算基础设施和模型服务,推动AI相关外部收

    79、入增长。(5)大语言模型(LLM):建立了领先的MOE架构模型,并在元宝应用中推出与LLM互动的功能,逐步将LLM整合到公司生态系统的不同部分,如增强搜索功能。(6)AI基础设施:通过高性能计算基础设施支持AI模型的训练和部署,满足企业对GPU租赁的需求,推动云业务的增长。(7)视频号与电商:利用AI优化视频号的内容推荐和电商交易能力,构建整合微信生态的电商系统,提升用户体验和商家销售能力。2024Q3(1)元宝当前并不会嵌入商业搜索结果。目前的重点是提升元宝对用户的吸引力,而非过早的商业化。(2)AI的具体变现,当前主要集中在内容推荐和广告投放上。关于基础设施即服务(IaaS)收入,现阶段A

    80、I占比已达两位数%(3)目前AI作为生产力工具已在广泛使用,各产品线也在测试和集成AI 技术,未来实际用例逐步扩展到一定规模。2.3 腾讯腾讯:DeepSeek R1降低应用试错成本降低应用试错成本,腾讯腾讯AI原生应用进入加速探索期原生应用进入加速探索期23资料来源:腾讯校招官网,腾讯网,东南早报,同花顺财经,九派新闻,方正证券研究所Deepseek R1推出后推出后,从微信接入从微信接入DeepSeek、AI产品矩阵梳理划分至产品矩阵梳理划分至CSIG到元宝买量投入到元宝买量投入,我们认为这背后的原因在于我们认为这背后的原因在于,DeepSeek突突出的模型能力出的模型能力+较低的成本较低

    81、的成本,腾讯在腾讯在ToC端功能的试错成本达到可接受范围端功能的试错成本达到可接受范围。底层模型层面预计腾讯仍将高度重视并持续投入,待成熟后将底层大模型切换为自研大模型,而且我们认为受益于DeepSeek的开源贡献,腾讯等其他厂商的模型能力提升速度有望加速。微信向微信向AI Agent方向探索有望重构互联网流量和服务分发逻辑方向探索有望重构互联网流量和服务分发逻辑。考虑到公众号、小程序、视频号、搜一搜等功能,微信能提供的服务已无限接近于互联网本身,叠加其用户使用频次和时长、全面的用户数据维度,天然适合作为个人AI Agent的交互中枢,整合生活服务(小程序)、社交沟通、支付、内容消费等场景,有

    82、望重构流量和服务分发逻辑。图表:DeepSeek R1推出后腾讯AI布局变化及最新CSIG事业群组织架构2025年年2月月15日日2025年年2月月17日日2025年年2月月17日日2025年年2月月19日日2025年年2月月13日日腾讯元宝应用更新,接入DeepSeek R1版本微信搜一搜功能内测“AI搜索”,接入DeepSeek-R1腾讯元宝上线自研的混元深度思考模型Thinker(T1),开启小范围灰度测试AI产品线调整,继腾讯元宝后,QQ浏览器、搜狗输入法、ima等产品线整合至CSIG腾讯旗下多款产品(如腾讯文档、腾讯地图、QQ音乐等)宣布同时支持混元大模型与DeepSeek-R1模型

    83、金蝶国际是国内领先的金蝶国际是国内领先的ERP厂商厂商,产品覆盖本地部署的传统许可软件及云端部署的产品覆盖本地部署的传统许可软件及云端部署的SaaS解决方案解决方案。传统许可软件包括针对大型、中型及小微企业的EAS、K/3 WISE及KIS。云服务方面,公司提供EAS、K/3 WISE及KIS的云托管版本,以及基于原生PaaS平台苍穹的SaaS应用星瀚、星空、星辰与精斗云。AI产品循序渐进产品循序渐进,经历从经历从Copilot到到Agent的迭代的迭代,持续寻找高价值落地场景持续寻找高价值落地场景。苍穹作为底层PaaS平台,接入第三方通用大模型(DS、豆包等)与金蝶自研的垂类模型;基于该AI

    84、原生底座,公司于23年发布Copilot产品苍穹GPT+X,24年发布Agent产品Cosmic AI及Agent定制开发平台Cosmic Studio,相比Copilot产品更加侧重在实际业务场景的自主学习与决策。预购建功能的Agent主要面向1)财务模块:支持检测财务交易异常、预测坏账风险、自动催收;2)供应链模块:支持预测市场需求并据此调整库存水平,实时优化物流运输等。CosmicStudio的特点在于把大部分的技术环节封装完整,并在UI层为客户留了定制化的空间,通过低代码和生成式AI配置,降低部署难度。2.4 金蝶金蝶:基本业务优势卡位基本业务优势卡位ERP云化云化+国产化趋势国产化趋

    85、势,AI Agent积极推进积极推进24资料来源:金蝶官网,金蝶云苍穹公众号,方正证券研究所苍穹GPT模型模型财务垂类大模型,计划向人力资源、供应链、生产领域扩展Cosmic Studio开发工具开发工具第三方大模型供客户定制化开发AI Copilot及Agent等一级分类一级分类二级分类二级分类收入收入(FY24H1)业务介绍及商业模式业务介绍及商业模式AI布局布局Copilot-苍穹苍穹GPT+XAgent-Cosmic AI(嵌入产品嵌入产品)&苍穹苍穹APP(移动端助手移动端助手)云服务业务云服务业务企业云服务58.67%针对中大型企业客户的苍穹(PaaS)、星瀚(SaaS-大型企业)

    86、与星空(SaaS-中型企业)等的ERP云,订阅+许可收入1)财务Copilot:财务报告生成、财务智能审核2)HR Copilot:人才报告解读、招聘文案生成3)程序开发Copilot:代码生成1)财务:自动记账、坏账风险预测与催收等;2)供应链:合同风险审查、修改处比较等;3)决策:BOSS助理,自动化业务数据分析-潜在风险识别等。此外覆盖供应链、合同管理等多模块(按模块订阅付费)小微财务云服务20.49%针对小微企业的星辰(SaaS-小型企业)和精斗云(SaaS-微型企业)等的ERP云,订阅+许可行业云服务4.10%针对垂直行业的ERP云,订阅+许可ERP业务业务及其他及其他软件及硬件产品

    87、销售4.14%本地部署ERP的传统许可收入及私有云部署的收入提供软件安装、运维服务及其他12.62%部署、运维等服务收入图表:金蝶基本业务情况及AI布局梳理DeepSeek R1开源为公司提供充足的后训练空间开源为公司提供充足的后训练空间,叠加模型自身更强的推理能力叠加模型自身更强的推理能力,有望优化有望优化Agent产品体验产品体验。考虑到通用AI难以理解和完成需要业务运营能力的复杂业务任务,软件厂商需给通用模型头尾特定业务知识和流程逻辑,以创建专家级AI Agent。R1的特性在于开源及推理,一方面,软件厂商能够本地部署并基于完整的数据库去调优,极大改善过去找闭源模型厂商的开发人员做优化带

    88、来的黑箱以及潜在竞争问题;另一方面,强化学习塑造了R1强大的推理能力,使其在面对不同类型的问题时能够更好地适应,有望改善Agent工具调用准确率低以及泛化能力差的问题。DeepSeek R1有望加速有望加速Agent带来的场景付费与模块增购带来的场景付费与模块增购,推动份额向有推动份额向有SaaS和和AI优势的厂商集中优势的厂商集中。随着DS热度攀升,当下能观察到企业采用AI的意愿相对积极,但考虑到IT开支占GDP的比重相对稳定(2023年该比重0.6%),预算总量仍受到宏观经济的影响;同时对AI应用的长期稳定需求可能会带动投资向AI基础设施转移,使当期软件开支承压。我们认为短期较难看到基于A

    89、I Agent的场景付费给公司TAM/业绩带来明显贡献,更多是间接带动模块的增购,使份额向有云和AI优势的厂商集中为降低AI Agent在跨越分布式系统调用工具的出错率,对底层架构(包括数据标准等)的一致性要求相应提高;若客户希望采用金蝶的AI Agent产品,最好是搭配公司PaaS平台原生的SaaS应用,以此推动up-sell和cross-sell。更长期看,AI软件OpEx替代人力OpEx带动ERP市场扩容为较明确的趋势。结合基本面情况、短期份额变动&长期市场扩容带来的增量预期,我们看好云ERP龙头金蝶的估值修复。2.4 金蝶金蝶:DS R1提供充足后训练空间与强大推理能力提供充足后训练空间与强大推理能力,加速加速Agent带来的场景付费带来的场景付费+模块增购模块增购25资料来源:彭博,方正证券研究所图表:公司1-yr forward PS及股价表现051015202530352015/3/132016/3/132017/3/132018/3/132019/3/132020/3/132021/3/132022/3/132023/3/132024/3/131-yr forward PS(x)股价(人民币元)分析师声明与免责声明分析师声明与免责声明26评级说明评级说明27