• 首页 >  人工智能 >  大模型
  • 佐思汽研:2024汽车AI大模型TOP10分析报告(59页).pdf

    定制报告-个性化定制-按需专项定制研究报告

    行业报告、薪酬报告

    联系:400-6363-638

  • 《佐思汽研:2024汽车AI大模型TOP10分析报告(59页).pdf》由会员分享,可在线阅读,更多相关《佐思汽研:2024汽车AI大模型TOP10分析报告(59页).pdf(59页珍藏版)》请在本站上搜索。

    1、产业研究 战略规划 技术咨询2预训练语言模型预 训 练微 调将模型在大规模无标注数据上进行自监督训练得到预训练模型将模型在下游各种自然语言处理任务上的小规模有标注数据进行微调得到适配模型AI大模型就是预训练语言模型通过在大规模宽泛的数据上进行训练后能适应一系列下游任务的模型预训练语模型“预训练+微调”技术范式规模标注本数据模型预训练不同特定任务有标注训练数据模型微调测试数据最终模型从海量数据中自动学习知识Big-data Driven,模型基于大规模语料训练而成;Multi-tasks Adaptive,支持多种任务,包括自然语言生成NLG和自然语言理解NLU类的任务;Few-shot(Zer

    2、o-shot),在少甚至无标注样本的条件下支持推理(自监督学习)。产业研究 战略规划 技术咨询3大模型发展历程众多预训练模型相继涌现,OpenAI 以 GPT2、GPT-3、ChatGPT 等系列模型为代表,持续引领大模型时代的浪潮2017 年,Google提出Transformer 框架在机器翻译中取得显著进步,其分布式学习和强大编码能力受到广泛关注。2018 年 Google 和 OpenAI 基于Transformer 提出了预训练语言模型 BERT 和 GPT,显著提高了NLP 任务的性能,并展示出广泛的通用性。AlexNet(图灵奖得主Hinton)CAN(Gioodfellow.图

    3、灵奖得主Bengio)Word2Vec(Google.引用78550)Attention(图灵奖得主Bengio)ResNet(MSR.引用183222)Transformer(Google.引用91332)BERT(Google)GPT(OpenAI)GPT-2(OpenAI)GPT-3(OpenAI)FoundationModel(Stanford)PaLM(Google)ChatGPT(OpenAI)ViT(Google)DALL E2(OpenAI)GPT-4V(OpenAI)ERNIE(百度)CPM(智源)GLM(洁华)20122013201420152016201720182019

    4、2020202220222023跨模态模型预训练模型大模型计算机视觉自然语言处理认知感知来源:大模型驱动的群体智能行业白皮书产业研究 战略规划 技术咨询4大模型参数规模不断增长,推动 AIGC技术升级。AIGC技术发展的背后是大模型(Foundation Models)技术的持续迭代。从 2017 年 Transformer 结构的提出,加速了深度学习模型的参数学习能力。另一方面,GPU算力也在指数级增长。图1:2018-2023 年模型参数规模变化图 来源:中国人工智能系列白皮书图2:CPU与GPU算力演进比较 来源:techovedas,国元证券产业研究 战略规划 技术咨询5英伟达每2年推

    5、出一个微架构,对产品线进行升级,6 月 2 日,英伟达在 Computex 2024大会上发布了至2027年的芯片路线图,GPU迭代周期由 2年缩短到1年,走类似英特尔的Tick-Tock 模式(一年工艺一年架构)。同时,英伟达践行“Buy More Save More”让算力成本指数级下降。图3:英伟达GPU架构演进图图4:训练芯片算力成本呈下降趋势 我国高端GPU芯片进口从2019年以来就一直有被限制,只是之前主要针对的厂商是AMD,在应用场景上又以超算中心为主;2023年10月17日,美国加强了面向中国市场的AI芯片禁令。其中明确将性能、密度作为出口管制标准,将单芯片超过300teraf

    6、lops算力,以及性能密度超过每平方毫米370 gigaflops的芯片都纳入了禁止出口行列。禁令涉及A100、H100等主流AI训练用英伟达GPU。来源:浙商证券研究所、华泰证券研究所产业研究 战略规划 技术咨询6中国科技企业的市场导向和商业化压力常使得大厂技术部门在追求KPI的同时,难以专注于前言技术的研发中国科技企业较少开展全球化经营,导致在营收、人才获取、全球化商业场景方面制约明显发展AI大模型相关的软硬件技术需要大量人才,大量的优秀本科生选择出国深造,而其中超过60%的毕业生选择在海外工作,导致长期的优秀人才流失。另外在中西方脱钩的背景下,美西方限制了对中国高科技人才的培养与学术合作

    7、交流行业高精数据短缺中国在高质量数据获取方面面临挑战,主要由于缺乏完善的数据法规、行业内固有的竞争性保密性,对开源合作文化的不足相较于英文、中文高质量开源数据非常少,特别是在构建通用领域大模型的百科类、问答类、图书贡献、学术论文、报告杂志等高质量内容由于各类政策管制和商业模式复制壁垒低,导致的基础数据和语言语料同质化数据人才中文语料短缺数据和语料的同质化商业化压力大全球化经营人才流失与人才短缺产业研究 战略规划 技术咨询7科技大厂创业新势力产业研究 战略规划 技术咨询8综合各测评平台的方法论来看,在基础能力的测评维度基本相同,仅测评数据集和评估权重占比不同;而在基础能力之外,各测评平台侧重点不

    8、同?OpenCompass 2.0?AgentIDCTo C通用场景类To B特定行业类Agent特定行业类超长文本道德责任Language?Knowledge?Reason?Math?Code?Other?产业研究 战略规划 技术咨询9?问答理解类推理类数学类创作表达类代码类?问答理解类常识、专业知识、多语言、多模态、角色扮演+多轮对话、安全陷阱推理类情感推理、演绎推理、逻辑推理、归纳推理、类比推理创作表达类文字创作&创意、内容改写/续写、修改/润色、文字处理、编辑/语义匹配、摘要提取、关键、字提炼、标题生成、文本风格迁移、图像创作、短视频创作(文生视频)、其他创作(文学艺术、商业通用)数学

    9、类小学数学、初中数学高中数学、高等数学推理类代码生成、编程翻译代码解释、代码纠错代码自动补全生成代码文档单元测试toC通用场景类生活助手办公工具toB特定行业类工业:产品设计辅助&生产规划教育:智能问答、试题生成法律:智能法律助手,法律咨询医疗:问诊,用药咨询科研金融:推荐场景金融/咨询服务:财报/市场分析互联网/媒体:文案/海报设计、广告词创作、视频生成场景零售/电商:客服问答IDC测试题目分为基础能力和应用能力两个大类共7个维度IDC 采取实测的方式,成立产品测试团队,通过多个维度对基础大模型及相关产品进行评测,并邀请外部专家团队深入分析各个产品答案准确性、合理性等,在审核委员会的监督下,

    10、最终得出各厂商的评估结果,供用户选型参考。产业研究 战略规划 技术咨询10我们跟踪研究了多个通用大模型,其中包括:Qwen-Max-0428SenseChat V5Ernie-4.0Tencent HunyuanSpark 4.0 UltraYi-Large GLM-4 Pangu 5.0Baichuan4CongRong 2.0 产业研究 战略规划 技术咨询11在2024年,大模型的技术发展将趋向多功能与小型化,同时产业端将强调自主研发和行业标准化?模型整合统一未来的技术演进方向是实现大模型底层框架的整合与标准化,从多样的架构(如双编码器、单边解码等)转向统的、效率最优化的开源底层框架,提升

    11、模型的通性和可维护性。参数规模扩展为确保模型质量和性能,未来的大模型将采更深层的络结构和更庞的数据集进预训练,尤其在数据量和参数量上将迎来显著跃升。多模态融合大模型将逐渐融入图、频、视频等多种模态信息,实现跨模态的交互与理解,从拓宽其应场景和实价值。大模型小模型化在产业应层,结合底层基础大模型和针对特定业的精简数据微调,将训练出更为实用、更易于产业落地的小型化大模型。?国产AI芯片自主研发为确保中国大模型的长远发展和避免外部制裁风险,国内AI计算芯片的自主研发将成为关键战略方向。数据产权标准深化优化和完善现有数据标准和规范,是 推动大模型“燃料”质量提升和数量增长的重要驱动力,在2024年将作

    12、为产业发展的首要任务。“套壳”微调策略为满足产业实际需求并适应中小企业的发展特点,“套壳”微调(即在现有大模型基础上进针对性调整)将成为除行业巨头外企业的主要发展策略。人工智能伦理责任随着大模型性能的飞速提升和实性的增强,确保AI技术与社会伦理道德标准相致将成为模型持续发展的关键考量因素。来源:沙利文中国大模型测评报告产业研究 战略规划 技术咨询12来源:面壁智能公众号?MMLU?大模型的知识密度每8个月左右会翻一倍,同等知识量的模型参数量会减半右图显示了过去四年大语言模型在 MMLU 榜单(评估大模型知识能力)上的性能表现,红色曲线表明,大模型的知识密度平均每8个月左右会翻一倍,同等知识量的

    13、模型其参数量会减半知识密度=知识量/参数量产业研究 战略规划 技术咨询13来源:面壁智能公众号?GPT-4V?在 2 0 2 4 年 5 月 发 布 的 多 模 态 大 模 型 MiniCPM-Llama3-V 2.5 仅凭 8B 参数,实现了“以最小参数,撬动最强性能”的最佳平衡点。面壁智能迭代的最新版本MiniCPM-S 1.2B采用了高度稀疏架构,通过将激活函数替换为 ReLU及通过带渐进约束的稀疏感知训练,巧妙地解决了此前主流大模型在稀疏激活上面临的困境。在通用大模型越来越卷参数规模和算力的情况下,如何通过架构和算法创新去规避算力和成本的短板,我们认为小参数、高性能模型是一个重要的趋势

    14、,特别对于手机、车载终端而言,这样的端侧模型具有现实的需求。产业研究 战略规划 技术咨询14来源:文心一言官网与百度的方案类似,各科技大厂基于云平台、算力基础设施和大模型技术相结合,推动行业应用落地,汽车产业链当然也是最重要的落地场景之一。?文心一言沿袭了 ERNIE 3.0 的海量无监督文本与大规模知识图谱的平行预训练算法,模型结构上使用兼顾语言理解与语言生成的统一预训练框架。为提升模型语言理解与生成能力,研究团队进一步设计了可控和可信学习算法。?结合百度飞桨自适应大规模分布式训练技术和“鹏城云脑”领先算力集群,解决了超大模型训练中的多个公认技术难题。在应用上,首创大模型在线蒸馏框架,大幅降

    15、低了大模型落地成本产业研究 战略规划 技术咨询15?规模法则驱动下,海量的算力成为开发优秀AI算法的基础目前海外特斯拉、Wayve、Comma.ai,国内包括小鹏、理想、华为、蔚来汽车、元戎启行、商汤、地平线等诸多玩家都提出自己的端到端自动驾驶方案,在算法上端到端已经成为大势所趋。但在发展路径上,行业预计也会经历渐进的过程。早期玩家致力于将算法从模块化架构平稳过渡到端到端,远期大语言模型和端到端基础模型有望结合形成“系统一”和“系统二”共同赋能自动驾驶,最终强大的通用人工智能(AGI)或许可覆盖所有驾驶能力。对自动驾驶而言,与所有AI应用类似,算力、算法、和数据三要素都必不可少?数据的体量、质

    16、量、以及收集方式、处理方式、以及模型的训练和验证体系都考验着开发者的技术和工程能力?如何构建一个性能优异且稳定可靠的算法来支撑功能落地,亦尤为关键端 到 端 模 型多模态大语言模型AGI通用世界模型产业研究 战略规划 技术咨询16?竞争因素评选原则 四种竞争要素缺一不可;持续的产品迭代能力;逐步建立于自研芯片或者国产芯片的算力建设;汽车行业的合作与量产应用;多场景的覆盖能力与量产应用;持续的产品迭代能力;走向通用世界模型的潜力;单一场景的技术积累;广泛的汽车行业客户与量产应用;可以允许“套壳”与API调用;单场景技术方向的领先发展潜力;数据服务场景场景数据算法算力算法数据框架产业研究 战略规划

    17、 技术咨询17?Tier1?产业研究 战略规划 技术咨询181?供应商1供应商3供应商22?主机厂1主机厂23?主机厂N公司2公司1?产业研究 战略规划 技术咨询19Ernie-4.0SenseChat V5Tencent HunyuanSpark 4.0 UltraPangu 5.0FSD V12.3XGPTDrive GPT2.0DFM-2MiniCPM百度BAIDU?产业研究 战略规划 技术咨询212024年6月28日,百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰在WAVE SUMMIT深度学习开发者大会2024上宣布了文心一言的最新数据,并正式发布文心大模型4.0 Tu

    18、rbo、飞桨框架3.0等最新技术2019.03中国首个正式开放的预训练模型Ernie1.02019.07全球首个大规模隐变量对话模型Plato2021.07全球首个知识增强百亿大模型Ernie3.02021.09全球首个百亿中英对话生成模型Plato-XL2021.12全球最大中文跨模态生成模型Ernie-viLG2021.12全球首个知识增强千亿大模型鹏程百度文心2023.03.16文心一言大模型3.02023.10文心一言大模型4.02024.06.28文心一言大模型4.0 Turbo“文心一言”发展历程产业研究 战略规划 技术咨询22?&?航空航天气象&海洋能源动力材料研发新药研发疫苗设

    19、计飞行器&汽车风阻预测座舱散热天气预报凸包能预测蛋白质结构预测?数据驱动机理驱动数理融合?PaddleScience PaddleHelix DeepXDENvidia ModulusNvidia ModulusDeePMD-kit算力中心智算中心?算子库高阶自动微分 原生复数机制 线性代数运算 计算库概率统计 方程符号化定义神经算子学习 大范围分布式并行计算编译器硬件算子适配飞桨深度学习框架?百度自研昆仑芯,同时也与国内外机构合作,搭建算力中心和异构计算平台?其飞桨框架已经更新到3.0版本。实现大模型混合并行训练策略、编译器自动优化、大模型多硬件适配和推训一体?开发飞桨的各类组建?文心一言推

    20、出多种功能各有侧重的文心大模型,包括文心轻量级、文心3.5、文心4.0、文心4.0工具版。其中,文心轻量级模型适合解决确定场景的问题;文心3.5适用于日常信息处理和文本生成任务;文心4.0模型参数更大、具备更强的理解能力、逻辑推理能力与更丰富的知识,提供专业且深入的帮助;文心4.0工具版则基于智能体技术,善于综合运用多种工具和数据,按要求完成非常复杂的任务。最新发布的文心4.0 Turbo则是文心4.0的升级版。产业研究 战略规划 技术咨询23IntelNVIDIAArmCPU:飞腾、海光、鲲鹏、龙芯、申威操作系统:麒麟、统信、普华AI芯片:昆仑芯、海光、寒武纪、瑞芯微、算能、高通、Graph

    21、core、Ambarella与浪潮、中科曙光等服务器厂商合作形成软硬一体的全栈AI基础设施工具与组建端到端开发套件基础模型库核心框架动化深度学习强化学习联邦学习图学习科学计算量机器学习物计算可视化分析具云上部署编排具安全与隐私具低代码开发具预训练模型应具资源管理与调度具语音理解文字识别图像分类目标检测图像生成大模型推训一体图像分割自然语言处理计算机视觉语音时间序列文心大模型推荐动态图大规模分布式训练产业级数据处理静态图模型压缩边缘与移动端推理引擎前端推理引擎服务器推理引擎服务化部署全场景统一部署学习与实训社区开发训练推理部署?产业研究 战略规划 技术咨询24?能源金融航天制造传媒城市社科影视自

    22、然语言处理视觉跨模态生物计算ERNIE 3.0 Zeus|鹏城-百度文心ERNIE 3.5|ERNIE 4.0文心一言 ERNIE Bot对话 PLATO-XL|搜索 ERNIE-Search跨语言 ERNIE-M|代码 ERNIE-Code语言理解与生成 ERNIEOCR图像表征学习VIMER-StrucTexT多任务视觉表征学习VIMER-UFO视觉处理多任务学习VIMER-TCIR自监督视觉表征学习VIMER-CAE文档智能ERNIE-Layout文图生成ERNIE-ViLG视觉-语言ERNIE-ViL语言-语言ERNIE-SAT化合物表征学习HelixGEM蛋白质结构预测HelixFo

    23、ld单序列蛋白质结构预测HelixFoldSingle产业研究 战略规划 技术咨询25名称:知识增强的汽车行业大模型吉利-百度文心与主机厂合作落地使用了百度文心ERNIE 3.0大模型,在智能客服知识库扩充、车载语音系统短答案生成、汽车领域知识库构建三个任务上进行了微调与验证。该大模型在2300万条吉利汽车专业领域无标注数据上进行模型预训练,并联合双方的人工智能专家和汽车行业专家一起研发。百度使用半监督、自训练方案对大模型进行训练应用于提升百度自动驾驶感知算法 先用有标签数据对模型进行初始启动训练,后将模型在无标签数据上进行推理得到伪标签,最后合并有标签数据和伪标签数据对模型进行进一步训练。如

    24、此往复。训练完感知大模型后,百度利用知识蒸馏的方法将伪标签用于车载小模型的学习,从而增强车载小模型的远距离感知能力。文心大模型在百度感知2.0中发挥了重要作用,主要提升3D感知能力,解决远距离检测和长尾物体识别两大难题。华为HUAWEI?产业研究 战略规划 技术咨询272024?华为常务董事、华为云CEO张平安指出,华为正在通过“云网端芯”架构上的协同创新,来构建可持续发展的AI算力基础,包括云基础设施系统架构创新、芯端算力上云、面向AI的网络架构升级三大方面。切?切?切?华为云推出了全新的CloudMatrix架构,以“一切可池化”“一切皆对等”“一切可组合”三大创新设计,从算力规模、扩展模

    25、式和使用模式上,匹配超大规模的算力诉求,通过技术创新来解决行业难题。透过CloudMatrix架构创新展现华为云全栈的AI能力,包含盘古大模型、昇腾AI云服务、分布式QingTian架构、AI-Native Storage和全球存算网等。产业研究 战略规划 技术咨询282024?6?22?2024?HDC 2024?华为常务董事、华为云CEO张平安正式发布盘古大模型5.0,在全系列、多模态、强思维三个方面全新升级;还分享了盘古大模型在自动驾驶、工业设计、建筑设计、具身智能、媒体生产和应用、高铁、钢铁、气象等领域的丰富创新应用和落地实践,持续深入行业解难题。盘古大模型5.0包含不同参数规格的模型

    26、,以适配不同的业务场景。十亿级参数的Pangu E系列可支撑手机、PC等端侧的智能应用;百亿级参数的Pangu P系列,适用于低时延、高效率的推理场景;千亿级参数的Pangu U系列适用于处理复杂任务;万亿级参数的Pangu S系列超级大模型能够帮助企业处理更为复杂的跨领域多任务。盘古大模型5.0能够更好更精准地理解物理世界,包括文本、图片、视频、雷达、红外、遥感等更多模态。在图片和视频识别方面,可支持10K超高分辨率;在内容生成方面,采用业界首创的STCG(Spatio Temporal Controllable Generation,可控时空生成)技术,聚焦自动驾驶、工业制造、建筑等多个行

    27、业场景,可生成更加符合物理规律的多模态内容。复杂逻辑推理是大模型成为行业助手的关键。盘古大模型5.0将思维链技术与策略搜索深度结合,极大地提升了数学能力、复杂任务规划能力以及工具调用能力。产业研究 战略规划 技术咨询29该平台基于盘古大模型和ModelArtsAI开发生产线,已经在多个车企和商用车场景中成功运用。该平台基于盘古大模型和ModelArts AI开发生产线,提供了数据生成、自动标注、模型训练、云端仿真、虚实结合仿真、数据闭环等一系列能力。该平台预集成了超过25万个场景库,包括500多类功能场景和200多项测评指标体系,将传统纯实车测试时的场景搭建工作从数天降低到分钟级,车企还可以基

    28、于盘古训练出自己需要的模型。2024年6月22日,盘古大模型5.0通过创新的可控时空生成技术,结合场景视频生成、4D BEV视频生成、自动驾驶仿真库及路网信息,能更好地理解物理规律,大规模生成和实际场景相一致的驾驶视频数据,还可以灵活增加控制条件,生成不同路况、不同光照、不同天气的训练视频数据,加速自动驾驶技术的快速成熟。?EI?通过数智融合架构打破数据、AI资源管理边界,在一个平台即可完成开发、测试、交付上线工作,让业务创新提效2倍,实现数据加速;借助盘古大模型在认知、感知、决策、优化等全领域的能力,车企可以快速基于盘古训练出自己需要的模型,实现算法加速;基于昇腾AI云服务,可针对自动驾驶3

    29、00+算法进行优化,60+实现精度性能提升,可以做到千卡训练数月不中断,实现算力加速。目前上述三种华为自动驾驶相关大模型中,只有场景理解大模型已有客户(比亚迪)合作落地(工程师仅需调用华为云提供的API就可以用场景理解大模型来完成给视频数据分类的工作)。但是大模型的训练成本高昂。GPT-3训练一次的成本可能在1200万人民币。而华为方面,在训练千亿参数的盘古大模型时,也调用了超过2000块的昇腾910,进行了超过2个月的训练,成本极高。一方面选择小样本训练,通过自监督的方法,以更少的标注数据来做训练,以降低成本;另一方面盘古大模型的三层架构能在结构上实现降本。L0层是通识性的大模型,具备鲁棒性

    30、和泛化性;大模型训练好了之后不用再重复训练,只需在L1和L2层做适应性训练,成本关系是上一层的5-10%。产业研究 战略规划 技术咨询30华为云是具备自动驾驶数据闭环工具链全栈自研能力的云厂商之一。除了给用户提供大模型的能力外,华为云也可以提供数智融合架构、ModelArtsAI开发生产线、昇腾AI云服务等一系列配套设施,用户可以在华为云的自动驾驶开发平台上同时实现数据加速、算法加速和算力加速。ModelArts AI开发生产线包含DataTurbo、TrainTurbo、InferTurbo 三部分,分别提供数据加载、模型训练、模型推理的加速工具,倍速提升模型训练效率。为了应对模型训练的算力

    31、需求,各家科技公司、主机厂等纷纷开始自建/合建算力中心,打造算力集群。华为云在乌兰察布和贵安数据中心同时上线了昇腾AI云服务,为模型训练提供澎湃算力,单集群性能可达2000P Flops。华为自动驾驶研发平台解决方案架构图大规模的算力集群通常会面临业务连续性的问题,因为单点故障就可能导致整个大规模分布式任务失败。为保证训练任务不中断,华为云开发了断点续训的方法,假如在训练过程中出现了单点故障,系统会将这个点排除掉,用新的节点替换掉故障节点,并且原地重启。据悉,昇腾AI云服务可以实现千卡训练一个月以上不中断,断点恢复时长不超过10分钟。科大讯飞KEDAXUNFEI?产业研究 战略规划 技术咨询3

    32、22023?10?24?V3.0?3.0?AI?AI?2024?6?27?4.0?星火大模型在识别中,两人混叠场景准确率已经到了91%,三人混叠场景准确率达85%以上。在-5dB的高噪场景,噪音已经比人讲话还要高不少的情况下,星火语音识别依然能做到90%以上的准确率。“2023年到2024年的国际连续最权威的语音识别比赛,国际多通道语音分离和识别大赛CHiME-7,星火继续拿了全球第一;今年的上 半 年 国 际 声 学、语 音 和 信 号 处 理 会 议 I C A S S P 2 0 2 4(International Conference on Acoustics,Speech,and S

    33、ignal Processing)的旗舰赛事国际车载多通道语音识别挑战赛科大讯飞是全球第一,这个不是中文的,是英文和多语种的比赛。”语音交互已经搭载了5700多万辆的汽车,去年中国500多万辆汽车出海,成为中国出海的“新三样”,其中的多语种智能语音技术几乎全是科大讯飞提供的。科大讯飞与红旗、奇瑞、广汽、一汽签订了战略合作协议,越来越多的车企开始用讯飞星火“能听会说、能理解会思考”的汽车方案。产业研究 战略规划 技术咨询33?除了急速的语音对话、多方言多语种之外,通过多模态的识别,它可以了解到你的身体参数,知道你是否疲劳驾驶、是否有异常情况。星火在汽车的音效上还有一个非常重要的特点,通过AI大模

    34、型和音效结合,可以把十几万的国产车音效,做到比四五十万的车的音效还好,40多万的车可以超过柏林之声的音效。不仅音效提升,开车时可以随时要求去掉原唱,跟着它的伴唱、对唱、分享等,这些都是大模型带来的功能,智能座舱中可以实现全双工交互,实现多语种多方言的免切换交流,多情感多模态的拟人交互,而且能够多模态感知,知道驾驶人身体健康程度,是否疲劳、血压过高、心跳过快;还可以贯穿内外信源,在车上完成任务,科大讯飞星火有了语言理解,就可以更自由地对接外部信源了。产业研究 战略规划 技术咨询34?2.0“随着大模型具身智能的帮助,今天的陪伴机器人,尤其是人形机器人开始进入到全新的发展阶段,未来如果没有陪伴机器

    35、人,老年社会的幸福是没有办法保障的。”通过大模型可以在后台做理解、做规划,在前端通过专门的硬件设备实现麦克风阵列,实现人脸、手势的各种识别,从而可以“听说看认”,最后再与机器人厂商共同来做具身模型,把这个能力开放给讯飞星火的合作伙伴。直接用科大讯飞的方案,每一个机器人厂商都可以定制自己的机器人超脑。2022年推出讯飞超脑平台,是专门给机器人的机器人超脑平台1.0,现在已经有410家机器人企业,大概占了至少60%的机器人市场份额。机器人超脑平台进一步升级。升级的核心是后端星火超脑2.0的硬件版,能够极大地提升具身智能和最后相关的理解能力,包括任务规划和前端的摄像头、麦克风一体化的模块。产业研究

    36、战略规划 技术咨询35?V4.0?目标可以更好地照进现实。这个是什么目标?能不能用一句话提要求,大模型就能理解我的意图,然后分解出这句话所对应的各个步骤的任务,然后找到每个任务所对应的工具,让每个工具去调用内外部的各种信息,有的是内部信息,有的是外部信息,最后完成任务给出结果,这就叫智能体。简单地说,就是叫它干一件事,它能自动规划,找到工具自动完成。?第一是AI的原子能力,比如人工智能开放平台上的各种各样的专有能力,会成为工具被它调用;第二个是各种外部信源;最后要打通公司内部系统。这三个能力构建起来,再有大模型能力,就可以搭建企业智能体了。在这方面科大讯飞已经走在了行业前列,不仅有了基本能力,

    37、现在AI的原子能力有400多项,已经集成了外部的90多个重要的信源,关乎到研、产、供、销、服、管各个领域,天气、股票、航班等这些全部都在。打通了内部IT、ERP财务、法务、OA等系统。商汤科技SENSE TIME?产业研究 战略规划 技术咨询37在2023世界人工智能大会(WAIC)上展示2023?7?2024?2?2024?4?23?2024?7?5?升级至SenseNova4.0,日日新商量大模型各版本同步升级至V4。商汤科技发布日日新5.0(SenseChatV5),采用混合专家架构(MoE),参数量高达6000亿,支持200K的上下文窗口。据官方披露,SenseChat V5具备更强的

    38、知识、数学、推理及代码能力,综合性能全面对标GPT-4 Turbo。商汤科技在WAIC 2024举办“大爱无疆向新力”人工智能论坛,发布国内首个具备流式原生多模态交互能力大模型日日新SenseNova5.5,综合性能较两个月前的日日新5.0提升30%,交互效果和多项核心指标实现对标GPT-4o。端侧模型全面升级,发布日日新 5.5 Lite,相比4月5.0版模型精度提升10%,推理效率提升15%,首包延迟降低40%。?5.5?6000亿参数基模型性能全面提升。大量使用合成高阶思维链数据,提升推理思维能力,在数理逻辑、英文、指令跟随等方面能力增强明显。率先推出国内首个“所见即所得”模型日日新 5

    39、o,流式多模态交互,带来全新AI交互模式。产业研究 战略规划 技术咨询38应用层插件库应用商店公有云、私有化部署提示词广场数据标注服务评测工具插件、app和API开发者生态串联层Function callCode interpreter 沙盒环境知识融合安全和价值观对齐MOE混合专家模型管理服务发布模型层通用对话模型商汤大模型体系基础底座大模型代码生成模型逻辑推理模型多模态感知模型文生图模型人像模型3D物体生成模型行业数据自动爬取自动采集和分类回流自动标注/人工Refine大批量数据自动清洗自动PROMPT构建数据质量评估数据平台基础底座大模型基础层商汤算力中心STPU预训练、微调、RLHF工

    40、具算力支撑MOE、多模态、Embedding训练思维链和自反思迭代系统国产化NV多语言扩展/多人设支持上下文长度扩增代码和数理逻辑训练千卡并行训练工具多后端支持TrtfttritonPPI动态批次、调度和扩编容MOE、多模态、Embedding训练云边端支持国产化芯片适配压缩优化INT8INT4模型水印、编译加密和授权训练工具推理部署工具产业研究 战略规划 技术咨询39目前商汤绝影已经合作蔚来汽车、吉利极氪、广汽埃安、哪吒汽车等品牌车型,此外,虽然具体车型未明确提及,但商汤绝影已与本田、比亚迪、长城、红旗、奇瑞等超过30家国内外车企合作,覆盖了超过90款车型。商汤绝影为智能汽车前瞻构建了Uni

    41、AD、DriveAGI以及面向座舱的多模态场景大脑等系列原生态大模型,加速端到端自动驾驶和大模型在智能座舱场景的落地;全栈的数据生产管线,实现大模型的高质量训练。?商汤绝影还在进一步探索舱驾融合,实现智能驾驶和智能座舱在硬件、软件及应用层面的全面融合,提升用户体验、降低系统成本,进一步打破舱内外的界限和束缚,涌现更多创新功能,带来更安全、更加全方位,更具人文关怀的新体验。?7月5日上午,在WAIC 2024人工智能论坛上,商汤绝影宣布在行业率先实现原生多模态大模型的车端部署,并在现场演示了搭载在200 TOPS+平台上的8B模型(即80亿参数)车端部署方案,展示强多模态感知和交互能力。商汤绝影

    42、车载端侧8B多模态模型可以实现首包延迟可低 至 3 0 0 毫 秒 以 内,推 理 速 度 4 0 Tokens/秒。?商汤绝影打造了高性能异构计算平台HyperPPL。它综合了大语言模型、多模态模型、CNN模型、前后处理完整的优化能力。HyperPPL目前扩展并支持主流车载计算硬件,兼容多种主流操作系统,适配多个车载芯片的部署平台,使得商汤绝影原生多模态大模型在主流芯片平台均可快速部署上线。同时,HyperPPL支持flash decode、segment prefill等400多个硬件算子,并对算子进行性能优化,同时量化支持int8、int4模式,并支持训练后量化,从而实现极致推理效率。?

    43、腾讯TENCENT?产业研究 战略规划 技术咨询41?2022年4月,腾讯首次对外披露混元AI大模型的研发进展。基于腾讯太极机器学习平台进行研发,借助 GPU 算力,实现快速的算法迭代和模型训练。在全球MSR-VTT,MSVD,LSMDC,DiDeMo 和 ActivityNet 五大跨模态视频检索数据集榜单中,“混元”AI 大模型先后拿下第一名的成绩2022年12月,混元推出国内首个低成本、可落地的NLP万亿大模型。2023年2月,腾讯针对类 ChatGPT 对话式产品成立混元助手(HunyuanAide)项目组。2023年9月,混元AI大模型正式发布。?完整覆盖 NLP、CV、多模态、文生

    44、图等基础模型和众多行业模型;跨模态视频检索、中文语义理解能力领先。拥有超千亿参数规模,预训练语料超2万亿tokens,具备强大的中文创作能力,复杂语境下的逻辑推理能力,以及可靠的任务执行能力。腾讯表示,混元大模型的中文能力已经超过GPT3.5。?在预训练上从零启动训练,优化预训练算法及策略,精调及强化学习,改进注意力机制,并开发了思维链新算法。?采用的是自主研发的机器学习框架Angel,训练速度相比业界主流框架提升1倍,推理速度比业界主流框架提升1.3倍。?采用基于云星星海自研服务器的新一代HCC高性能算力集群,搭载了超强算力GPU,性能提升了3倍。?3.2T?业界最10?为AI模型带来通过自

    45、研TiTa协议和自研TCCL通信库,星脉网络可将网络利用率从普通以太网的60%提升到90%以上,极大提高整体集群的算力利用率。腾讯新一代计算集群可以帮助混元NLP大模型训练在同等数据集下,将训练时间由50天缩短到4天。产业研究 战略规划 技术咨询42?结合腾讯云,有系统的研发布局和解决方案?腾讯副总裁汤道生表示混元大模型已经支持了内部600多个应用,同时开拓更多调用大模型的产业场景,满足客户生图文、生图、生视频、生3D的需求。不同客户场景,对模型也有不同需求。除了混元外,腾讯云也支持客户选择其他模型,有些客户也会用腾讯的模型工具来精调其他开源模型如百川、GLM等。?腾讯各事业部结合产品思考怎么

    46、用AI来提升用户体验、提高使用效率。比如在CSIG的企业应用中,腾讯会议就用大模型来生成会议纪要,腾讯乐享就用大模型构建熟悉企业文档库的智能助手,Coding研发平台用大模型来生成代码。产业研究 战略规划 技术咨询43?AI?AI?toB?根据腾讯的规划,混元大模型将作为行业大模型服务的底座,企业不仅可以直接通过API调用混元,也可以将混元作为基底模型,为不同产业场景构建专属应用。目前,混元支持金融、公共服务、社交媒体、电子商务、交通运输、游戏等行业。多轮对话具备上下文理解和长文记忆能力,流畅完成各专业领域的多轮问答。在多个场景下,腾讯混元大模型已经能够处理超长文本,通过位置编码优化技术,混元

    47、大模型对于长文处理效果和性能得到了提升。内容创作支持文学创作、文本摘要、角色扮演能力逻辑推理准确理解用户意图,基于输入数据或信息进行推理、分析AI问答支持AI输入文字内容,然后给出相应的回答,可有效解决事实性、时效性问题,提升内容生成效果。具有识别“陷阱”的能力,通过强化学习方法拒绝被“诱导”,当用户可能问出难以回答甚至无法回答的问题,针对此类安全诱导类问题的拒答率可以提升20%,减少了错误、无效回答的情况,提升回答内容的可信度。多模态(计划推出)AI绘画,使用者描述画面内容,根据关键字生成画作。座舱应(计划推出)基于座舱垂域大模型的应用,结合感知车辆感知数据、语音输入和用户行为分析等因素,该

    48、模型能够提供场景化分析和智能决策,带给用户更自然的对话体验、生成式的交互界面、多样化的场景编排和更个性化的出行服务建议等。特斯拉TESLA?产业研究 战略规划 技术咨询45?2021?引入BEV+Transformer,将多摄像头数据统一成俯视角度。2022?提出Occupancy Networks判断空间占用。规划层引入交互搜索,逐步增加约束条件(其他参与者博弈行为)做最优路径规划。2023?8?26?特斯拉演示FSD Beta V12,是有史以来第一个端到端AI自动驾驶系统(Full AI End-to-End)。2024?1?特斯拉FSD v12 开始正式向用户推送,将城市街道驾驶堆栈升

    49、级为端到端神经网络。?没有规则代码,只有神经网络。市面上常见的自动驾驶系统,大多采用分模块设计,包括感知、决策、控制三个模块,各任务内部采用各自的算法模型。从CNN单head络迭代?FSD V12的C+代码控制减少了10倍,从2万多行减少到2千行。特斯拉99%的决策都交给神经网络给出,视觉输入,控制输出,就像人类大脑一样。另外,它所拥有的超强能力,是经过巨量的视频数据、1万个H100加持下完成的。FSD Beta V12仍在调试中,因此还没有确定正式发布的时间。小鹏XIAOPENG?XGPT?产业研究 战略规划 技术咨询47XBrain:更像人类的大脑,为智能驾驶系统提供了理解和学习能力。它能

    50、够处理复杂场景,快速响应各种驾驶环境中的指令。XBrain可以识别待转区、潮汐车道、特殊车道和路牌文字,并根据这些信息做出安全高效的驾驶决策。XNet:类似于人类的眼睛,是一个结合动态视觉、静态视觉和2K纯视觉技术的深度感知神经网络。它能够以裸眼3D效果重构现实世界的3D图像,感知范围扩大了两倍,相当于1.8 个足球场的面积,并能识别50多种目标物,使驾驶系统的视野更加清晰、广阔。XPlanner:更像人类的小脑,是基于神经网络的规划大模型。通过大量的数据训练,它逐渐进化出类似人类驾驶员的操作能力,使驾驶过程更加平稳,提升了用户的驾驶舒适性和安全性。?2024?5?20?小鹏汽车举办了一场主题

    51、为“开启AI智驾时代”的AIDAY活动,展示了在AI方面的最新进展,并宣布将全面推送AI天玑系统。AI天玑系统包括AI智驾和AI座舱。?小鹏汽车自动驾驶端到端大模型包括深度视觉感知神经网络XNet、规划大模型 XPlanner和大语言模型XBrainAI司机,拥有AI代驾、AI泊车功能,全面覆盖行车、泊车在内的全场景,使得车辆能洞悉外界环境,为驾驶者提供实时信息,确保行车的安全性和便捷性。小鹏大语言模型Xbrain和天玑系统智能座舱方案融合了智谱AI的基座大模型和多模态模型。AI?三种AI角色:AI小P-生活助理,人机共驾-AI保镖和出行助理-AI司机毫末智行HAOMO?DRIVEGPT产业研

    52、究 战略规划 技术咨询492023?4?11?第八届HAOMO AI DAY上,毫末智行正式对行业首发了DriveGPT 1.0自动驾驶生成式大模型,同时也公布了其中文名“雪湖海若”。2023?10?11?第九届HAOMO AI DAY上,毫末智行CEO顾维灏详细介绍了毫末DriveGPT大模型在推出200天后的整体进展。首先是DriveGPT训练数据规模提升。截至2023年10月DriveGPT雪湖海若共计筛选出超过100亿帧互联网图片数据集和480万段包含人驾行为的自动驾驶4D Clips数据。进一步升级引入多模态大模型,获得识别万物的能力;与NeRF技术进一步整合,渲染重建4D空间;借助

    53、LLM(大语言模型),让自动驾驶认知决策具备了世界知识。产业研究 战略规划 技术咨询50?DriveGPT首先通过构建视觉感知大模型来实现对真实物理世界的学习,将真实世界建模到三维空间,再加上时序形成4D向量空间;毫末进一步引入开源的视觉文本多模态大模型,构建更为通用的语义感知大模型,实现文、图、视频多模态信息的整合,从而完成4D向量空间到语义空间的对齐,实现跟人类一样的“识别万物”的能力。?基于通用语义感知大模型提供的“万物识别”能力,DriveGPT通过构建驾驶语言(Drive Language)来描述驾驶环境和驾驶意图,再结合导航引导信息以及自车历史动作,并借助外部大语言模型LLM的海量

    54、知识来辅助给出驾驶决策。毫末基于DriveGPT大模型开发模式的七大应用实践,包括驾驶场景理解、驾驶场景标注、驾驶场景生成、驾驶场景迁移、驾驶行为解释、驾驶环境预测和车端模型开发。对于今年火热的大模型上车,毫末智行有前瞻性的策略。在车端模型开发模式变革方面,毫末尝试用蒸馏的方法,也就是用大模型输出的伪标签作为监督信号,让车端小模型来学习云端大模型的预测结果,或者通过对齐Feature Map的方式,让车端小模型直接学习并对齐云端的Feature Map,从而提升车端小模型的能力。产业研究 战略规划 技术咨询51?MANA OASIS?2023?1?5?合作伙伴:毫末智行&火山引擎联合打造 能力

    55、:该智算中心每秒浮点运算达67亿亿次,存储带宽每秒2T,通信带宽每秒800G。数据管理能力方面:毫末智行建立了面向大规模训练的Data Engine,从单帧单要素变为连续帧全要素。实现百P数据筛选速度提升10倍、百亿小文件随机读写延迟小于500微秒;算力优化方面:毫末与火山引擎联合部署了Lego高性能算子库、ByteCCL通信优化能力以及大模型训练框架,可以让算力进一步优化;训练效率方面:基于Sparse MoE,通过跨机共享,轻松完成千亿参数大模型训练,且百万个Clips(毫末视频最小标注单位)训练成本只需百卡周级别,训练成本降低100倍。?2000?GPU?90%?思必驰AISPEECH?

    56、产业研究 战略规划 技术咨询532021?,发布UniDU(DFM-0),即统一生成式对话理解框架;2022?,统一理解、生成、表征等任务,研发DFM-1,即统一生成式通用对话基础模型,作为10亿及大模型进行小规模产品应用;2023?7?12?,思必驰正式发布自研的对话式语言大模型DFM-2,并与梅赛德斯-奔驰、上汽通用五菱、长城汽车、合众新能源、博泰车联网、联通智网等多家汽车产业链上的企业举行了签约仪式。DFM-2?提升人机语言交互五种核心能力:外部信源增强的精准推理决策、基于深度认知的通用语义理解、基于文档理解的可信主动知识问答、面向用户个性化的多人设交互、面对复杂任务的自动规划与执行;?

    57、大模型与全链路综合对话技术能力的联动。如数字人、语音合成技术DUI 2.0在智能汽车领域的应用为:思必驰汽车语音助手天琴系统全面升级至6.0,支持多模态、多意图、多音区、全场景多轮连续对话。注:DUI开放平台,是思必驰提供智能语音产品开发、智能语音技能定制等一站式行业解决方案,为全行业搭建的全链路智能对话开放平台。?将DUI平台与DFM-2大模型相结合,推出DUI 2.0,升级对话式AI全链路技术,并应用于多个领域产业研究 战略规划 技术咨询54思必驰基于自研全链路智能语音语言交互技术、DFM大模型以及大数据构建“中枢大模型”架构,打造“1+N”模式,即“1”个百模中台(中枢大模型)与“N”个

    58、专业大模型组合上车,打通前端语言处理、用车场景与后端模型生态,形成车载垂域的生态圈,使车载AI体验从“语音指令”迈向“语言智能”+“工具智能”。全链路语音方言多语种(国际化)中英混合60领域大模型语义多意图超拟人TTS多语种声音复刻端 APP云服务算法模型端 APP云服务算法模型端 APP云服务算法模型ASRNLUTTSDM大模型融合交互形态感知形态业务形态进化形态全息、中控屏、显示终端看得见+听得僅+有记忆搜索+推荐+服务人设+个性化+陪伴用户进行养成场景形态多媒体 Agent导航 Agent车控 Agen本地生活Agent出行Agent分类、拒识、速度分类模型速度跨域上下文大模型微调语言大

    59、横型多模融合大模型生图/视频大模型端部大模型语音大模型视觉大模型业务大脑:AI Agent(中枢大模型、中控调度)大模型底座(1+N大模型)车控车内外视觉感知车内外环境感知系统状态用户行为数据车状态数据服务生态数据应用服务API内容服务API多端互联服务APISOA整车能力数据服务生态音频数据多模数据服务融合上游供给产业研究 战略规划 技术咨询55?尽管DFM2定位为“中枢大模型”,但是我们还是将DFM-2定位成语音助手场景大模型,这不是贬低,而是基于思必驰在此领域出色的商业化能力?TOP3?54?汽车品牌160?国产车型1000+?上车量覆盖新势力、自主品牌、合资品牌、Tier1携手小鹏P7

    60、等明星车型引领行业潮流与国内外多家高端汽车品牌缔结合作,上探语音智能化体验 4月搭载DFM-2 大模型即将量产 下半年搭载DFM-3大模型即将发布?基于大模型技术,从语音助手走向AI Agent也具有无限潜力面壁智能MODELBEST?MiniCPM产业研究 战略规划 技术咨询57面壁智能迭代的最新版本MiniCPM-S 1.2B采用了高度稀疏架构,通过将激活函数替换为 ReLU及通过带渐进约束的稀疏感知训练,巧妙地解决了此前主流大模型在稀疏激活上面临的困境。2024?面壁发布具备 GPT-3 同等性能但参数仅为24亿的 MiniCPM-2.4B,把知识密度提高了大概86倍7?5?面壁智能联合

    61、创始人、首席科 学 家 刘 知 远 在 W A I C 2024 论坛上对外介绍:开源新一代高效、低能耗面壁小钢炮MiniCPM-S模型;助力开发者一键打造大模型SuperAPP的全栈工具集MobileCPM;产业研究 战略规划 技术咨询58在综合评测权威平台 OpenCompass 上,MiniCPM-Llama3-V 2.5 以小博大,综合性能超越多模态“巨无霸”GPT-4V 和 Gemini ProOCR(光学字符识别)是多模态大模型最重要的能力之一,也是考察多模态识别与推理能力的硬核指标。新一代 MiniCPM-Llama3-V 2.5 在 OCR 综合能权威榜单 OCRBench 上

    62、,越级超越了 GPT-4o、GPT-4V、Claude 3V Opus、Gemini Pro 等标杆模型,实现了性能 SOTA首次进行端侧系统加速,MiniCPM-Llama3-V 2.5 已高效部署手机在图像编码方面,面壁首次整合 NPU 和 CPU 加速框架,并结合显存管理、编译优化技术,在 MiniCPM-Llama3-V 2.5 图像编码方面实现了 150 倍加速提升在语言模型推理方面,目前开源社区的报告结果中,Llama 3 语言模型在手机端侧的解码速度在 0.5 token/s 上下,相比之下,多模态大模型的端侧运行面临着更大的效率挑战,经过 CPU、编译优化、显存管理等优化方式,我们将 MiniCPM-Llama3-V 2.5 在手机端的语言解码速度提升到 3-4 token/sl 汽车AI大模型TOP10l 座舱操作系统TOP10l 整车操作系统TOP10l 汽车SoC芯片TOP10l 汽车仿真软件TOP10l 座舱域控TOP10l 汽车软件中间件TOP10l 汽车AI助手TOP10l 汽车HUD TOP10l 汽车智算中心TOP10l 智驾域控TOP10