定制报告-个性化定制-按需专项定制研究报告
行业报告、薪酬报告
联系:400-6363-638

《阿里云:2025年Data+AI:开启数据智能新时代报告(194页).pdf》由会员分享,可在线阅读,更多相关《阿里云:2025年Data+AI:开启数据智能新时代报告(194页).pdf(194页珍藏版)》请在本站上搜索。
1、 卷首语 在数字化浪潮中,数据与人工智能的融合已成为企业实现智能化转型、提升竞争力的关键。阿里云作为行业的领军者,其 Data+AI 技术体系正引领着无数企业迈向数据智能的新纪元。本书整理了阿里云在 Data+AI 领域的最新实践案例与深度洞察,涵盖电商、游戏、营销、运营等多个行业的成功经验,以及技术专家对数据库与 AI 融合趋势的专业解读。通过理论与实践的结合,我们将共同探索 Data+AI 如何成为企业智能化转型的核心驱动力,帮助每一位读者找到属于自己的数据智能之路。目录页 第一部分:Data+AI 大咖观点.1 1.大咖说|Data+Al:企业智能化转型的核心驱动力.1 2.媒体声音|重
2、磅升级,阿里云发布首个Data+Al驱动的一站式多模数据平台.9 3.媒体声音|专访阿里云数据库周文超博士:AI 就绪的智能数据平台设计思路.14 4.媒体声音|阿里云王远:一站式数据管理平台的智能化跃迁.20 第二部分:Data+AI 行业应用.25 1.拥抱 Data+AI|破解电商 7 大挑战,DMS+AnalyticDB 助力企业智能决策.25 2.拥抱 Data+Al 丨解码 Data+Al 助力游戏日志智能分析.34 3.拥抱 Data+AI|“全球第一雅迪如何实现智能营销?DMS+PolarDB 注入数据新活力.41 4.拥抱 Data+AI|B 站引入阿里云 DMS+X,利用
3、AI 赋能运营效率 10 倍提升.51 5.拥抱 Data+AI|DMS+AnalyticDB 助力钉钉 AI 助理,轻松玩转智能问数.58 第三部分:Data+AI 云栖发布.64 1.云栖大会|数据库与 AI 全面融合,迈入数据智能新纪元.64 2.云栖大会|从数据到决策:AI 时代数据库如何实现高效数据管理?.76 3.云栖大会|多模+一体化,构建更高效的 AI 应用.89 4.云栖重磅|从数据到智能:Data+Al 驱动的云原生数据库.100 第四部分:Data+AI 方案实践.111 1.内附源码|头部基模企业信赖之选一一 DMS+Lindorm 智能搜索方案.111 2.Polar
4、DB-PG Al 最佳实践 1:基础能力实践.119 3.PolarDB-PG AI 最佳实践 2:PolarDB AI X EAS 实现自定义库内模型推理最佳实践.132 4.PolarDB-PG Al 最佳实践 3:PolarDB Al 多模态相似性搜索最佳实践.139 5.GraphRAG:基于 PolarDB+通义干问+LangChain 的知识图谱+大模型最佳实践.153 第五部分:Data+AI 产品及权益.174 1.DMS+X 构建 Gen-AI 时代的一站式 Data+AI 平台.174 2.免费部署 Dify+DeepSeek on DMS.175 3.从数据到智能,一站式
5、带你了解 Data+AI 精选解决方案、特惠权益.179 第一部分:Data+AI 大咖观点 1 第一部分:Data+AI 大咖观点 1.大咖说|Data+Al:企业智能化转型的核心驱动力 在数字化浪潮的推动下,企业正面临前所未有的挑战与机遇。数据与人工智能的结合,形成了强大的 Data+AI 力量,尤其在近期人工智能迅速发展的背景下,这一力量正在加速重塑企业的运营模式、竞争策略和市场前景,成为适应变化、提升竞争力、推动创新的核心驱动力。本章将讨论企业采用 Data+AI 平台的必要性及其在企业智能化转型中的作用。1.1 人工智能(AI)的崛起和挑战 第一部分:Data+AI 大咖观点 2 人
6、工智能(AI)诞生于 20 世纪 50 年代,自 90 年代以来随着数据量的爆发式增长以及算力的不断提升,AI 被广泛应用于各行业,为社会带来巨大机遇。AI 提升了企业的决策效率和精准度,驱动创新,优化运营,并助力组织变革和构建竞争优势。麦肯锡调研显示,2022 年全球有 50%的公司部署了 AI,投资超过总预算的 4%。生成式 AI(GenAI)的崛起进一步推动了企业转型,其在流程优化、个性化服务等方面的应用超越了传统 AI。企业正积极探索如何提升 Gen-AI 的 ROI,预计到 2030 年,中国约 50%的工作将实现自动化,标志着 Gen-AI 在推动业务模式转型和价值创造中的关键作用
7、。AI 虽然为企业带来了前所未有的机遇,但在实际落地过程中,企业面临着一系列挑战,这些挑战影响了 AI 技术在企业中的实际应用和价值实现。1.数据质量和治理问题:AI 的应用依赖于高质量的数据,数据的“自由散漫”问题,即数据的不准确、分散性和新鲜度是制约 AI 落地的重要因素。2.数据资产与 AI 联动问题:企业积累了大量数据资产,这些资产价值的释放不仅依赖数据资产与 AI 的相互联动(数据赋能 AI,AI 赋能数据),还依赖数据资产团队和AI 团队间的协同,企业缺乏高效的联动机制。3.技术门槛、成熟度和可靠性问题:尽管发展迅速,但 AI 落地仍然面临高门槛和应用成熟度的挑战,担心技术尚不成熟
8、可能影响业务的稳定性和安全性,高门槛影响 AI场景的高效落地。4.成本、人才与组织问题:AI 落地通常需要较高的初期投入,包括基础设施投入、人才培养投入,如果涉及转型还会有业务流程和组织上的变革,企业需要评估 AI 投资回报率,实现降本增效。第一部分:Data+AI 大咖观点 3 1.2 Data+AI 的价值 企业可通过采用 Data+AI 方案,有效应对实施 AI 过程中的挑战。从托马斯斯特尔那斯艾略特提出的DIKW模型(DataInformationKnowledgeWisdom)可知,数据是构建智能的基础。企业要实现 AI 的规模化和高质量应用,必须依赖强大的数据支持,即采用 Data
9、+AI方案。德勤的调查显示,28%的 AI 领先企业正利用 Data+AI 方案整合数据和 AI,以实现高效、高价值的 AI 应用。Data+AI 是指将数据和人工智能结合起来,以支持从数据收集和准备到模型开发、部署、监控和治理的端到端工作流。有了 Data+AI,企业实施 AI 的挑战将得到有效解决:数据治理和质量提升 Data+AI 能够提供统一的数据治理框架,确保数据的准确性和可用性,从而提高数据质量。数据和 AI 在一个平台高效联动 Data+AI 能够让数据和 AI 团队在一个平台上进行协作,端到端的完成 AI 开发,数据管理为 AI 应用提供高效数据支撑,而 AI 又能反向增强数据
10、管理的智能化水平(例如基于 LLM 构建 Copilot 等),进而形成 Data 和 AI 相互促进相互提升的良性循环。第一部分:Data+AI 大咖观点 4 有效降低技术门槛、提升 AI 成熟度和可靠性 Data+AI 不仅提供经过验证的 AI 技术和服务,还以可视化、拖拉拽的操作方式降低技术门槛,同时企业借助于 Data+AI 生命周期的管理和运营能够不断提升 AI 成熟度和可靠性,帮助企业提升 AI 生产力水平。减少基础设施、人才培养和组织变革投入 Data+AI 可采用云平台构建,并通过提供成本效益分析和自动化的 AI 应用开发,帮助企业降低成本并提高投资回报。通过简化 AI 的应用
11、,降低了对专业 AI 人才的依赖,各团队使用同一个平台和单一数据来源来执行其工作,能够促进跨部门合作和知识共享,从而降低人才培养和组织变更投入。1.3 Data+AI 如何帮助企业 目前已有多个行业客户采取 Data+AI 来实现 AI 场景的持续高质量落地,下面是相较于传统 AI 场景落地,借助 Data+AI 在构建不同行业应用时的表现。第一部分:Data+AI 大咖观点 5 提高应用效果 Data+AI 能够实现更高质量的数据供应,进而帮助 AI 产生更准确、更可靠的结果。例如,电商平台通过分析高质量的用户行为数据,可以更准确的预测用户购买习惯和偏好,从而提高转化率和客户满意度。支持高效
12、决策 Data+AI 能够提供更实时、动态的数据,帮助 AI 快速适应市场动态,提升决策效率。例如在零售行业,通过实时、动态的数据获取,企业能够借助 AI 更及时的发现销售数据中的异常点和趋势,为决策提供支撑。增强个性化服务 Data+AI 能够从分散的数据中获取完善的信息,帮助 AI 提供更准确的个性化服务。例如在游戏行业,根据玩家在各个游戏中的历史反馈和行为模式,AI 能够更精准的识别玩家意图,进而提供对应的游戏服务。提升服务效率 Data+AI 能够提供以业务域、个体等多种维度的数据和知识支撑,能够降低 AI 应用启动门槛,提升服务效率。例如在金融行业,根据平台内的技术元数据和操作元数据
13、生成可被大模型识别的知识并在大模型服务的过程中持续自动维护,借助于知识能够有效降低冷启动投入并提供更准确的结果输出。优化企业成本 Data+AI 能够实现多模的数据和数据AI 的全链路管理,进而加速 AI 服务过程,第一部分:Data+AI 大咖观点 6 降低过程中的人力、管理、资源成本,实现企业成本优化。例如在汽车行业,通过多模的数据管理结合全链路的 Data+AI 开发,能够在加速智能座舱领域各类 AI 场景的构建,降低研发投入。1.4 企业走向 Data+AI 的关键 Data+AI 能够帮助企业实现高质量、规模化 AI 应用,是企业智能化转型的核心驱动力。结合德勤关于企业人工智能应用现
14、状报告和阿里云近期的最佳实践来看,企业走向 Data+AI 的核心在于通过统一的平台,实现数据和 AI 的深度整合,从而不断提高企业的数据决策和 AI 应用效率。该平台需要支持以下能力:多模数据管理 AI 应用通常会涉及到结构化及非结构化的数据使用,因此 Data+AI 平台需要具备多模数据管理能力,方便企业在 Data+AI 开发过程中高效利用各种类型的数据。端到端的 Data+AI 开发 Data+AI 开发包括数据处理、模型构建及大模型训练等环节。平台需提供全面的开发工具,并实现从数据到 AI 模型的全流程管理,以确保数据与 AI 的深度融合。同时不同团队能在统一平台上高效协作,有效降低
15、管理成本,提升开发效率。统一 Data+AI 治理 为确保 AI 应用的高效产出,平台必须兼顾数据的准确性、可用性和安全性,同时注重模型的质量和应用的实际效果。因此,平台需要涵盖 Data+AI 的元数据管理、数据质量、安全性等治理能力。该平台应通过统一的治理方案,实现数据和 AI 的全面管理,以提升 AI 应用的整体性能和可靠性。第一部分:Data+AI 大咖观点 7 多引擎适配 在 AI 领域,由于数据处理和算法需求的多样性,单一引擎难以满足所有 AI 应用。因此,平台需要能够适配多种引擎,以便根据具体需求灵活选择引擎,这对保证 AI 解决方案的效果和效率至关重要。1.5 阿里云 DMS+
16、X:一站式 Data+AI 平台 在今年 9 月云栖大会上,阿里云瑶池数据库重磅发布“DMS+X:统一、开放、多模的 Data+AI 数据管理服务”。该平台通过 OneMeta 和 OneOps 两大创新,简化了数据管理与 AI 开发。OneMeta统一了跨云的元数据服务,支持 40 多种数据源,实现多云和自建数据源的无缝集成。OneOps 则整合了 Notebook 和 Copilot,提供一体化的 Data+AI 开发环境,包括数据、机器学习模型及大型语言模型开发,可实现 DMS+X 一站式的 Data+AI 全生命周期管理。X 代表任何数据引擎,如云原生数据库 PolarDB、云数据库
17、RDS、云原生数据仓库 AnalyticDB、云原生多模数据库 Lindorm 等。在 DMS+X 之上,阿里云将助力企业数据以最快的速度拥抱 AI,落地业务,产生价值。第一部分:Data+AI 大咖观点 8 1.6 未来展望 未来 Data+AI 平台将使数据与 AI 更紧密,推动企业 AI 建设实现飞跃。包括但不限于:智能决策:利用数据和 AI 进行市场预测和客户洞察,支持企业制定更及时、精准的商业策略。个性化体验:AI 处理大数据,提供定制化服务,提升用户满意度。自动化与效率:自动化流程提高运营效率,AI 优化资源配置,降低成本。创新驱动:数据驱动创新,开发新产品,拓展市场。安全性增强:
18、AI 监控安全数据,预防网络威胁,加强信息安全。决策自动化:AI 模型自动执行决策,提高管理效率。跨领域整合:整合不同领域数据,促进跨领域合作与创新。Data+AI 不仅会改变企业原有运营方式,同时还为企业提供了增长的新途径。企业必须认识到 Data+AI 的重要性,并将其作为战略实施重点,促进智能化转型以保持竞争力和市场领导地位,在未来变化中,更好的抓住机遇,迎接新的机会。第一部分:Data+AI 大咖观点 9 2.媒体声音|重磅升级,阿里云发布首个Data+Al驱动的一站式多模数据平台 9 月 20 日,2024 云栖大会上,阿里云瑶池数据库宣布重磅升级,发布首个一站式多模数据管理平台 D
19、MS:OneMeta+OneOps。该平台由 Data+AI 驱动,兼容 40 余种数据源,实现跨云数据库、数据仓库、数据湖的统一数据治理,帮助用户敏捷、高效地提取并分析元数据,业务决策效率可提升 10 倍。阿里云副总裁、数据库产品事业部负责人 李飞飞 “数据是生成式 AI 的核心资产,大模型时代的数据管理系统需具备多模处理和实时分析能力,以数据驱动决策和创新,为用户提供搭积木一样易用、好用、高可用的使用体验。”阿里云副总裁、数据库产品事业部负责人李飞飞表示。第一部分:Data+AI 大咖观点 10 图阿里云推出多模数据管理平台 DMS:OneMeta+OneOps 当前,近 80%的企业在建
20、设数据平台时采用多种数据引擎、多数据实例组合的策略,AI 兴起也带来了非结构化数据的指数级增长,给企业对数据的高效检索和分析管理提出了更大挑战。此次,阿里云重磅推出由“Data+AI”驱动的多模数据管理平台 DMS:OneMeta+OneOps,助力构建企业智能 Data Mesh(数据网格),提升跨环境、跨引擎、跨实例的统一元数据管理能力。DMS 创新设计了统一、开放、跨云的元数据服务 OneMeta 及 DMS+X 的多模联动模式 OneOps。OneMeta 首次打通不同数据系统,可支持全域 40 余种不同数据源,提供数据血缘和数据质量的一站式数据治理。第一部分:Data+AI 大咖观点
21、 11 OneOps 则基于数据开发平台 DataOps 和 AI 数据平台 MLOps,将不同数据库引擎(关系型数据库、数据仓库、多模数据库等)集结到统一平台,让用户“开箱即用”,实现全链路的数据加工和计算能力。自上线以来,DMS 已服务超过 10 万企业客户。借助跨引擎、跨实例管理和开发以及数据智能一体化,DMS 将帮助企业从分散式数据治理升级至开放统一数据智能管理,可降低高达 90%的数据管理成本,业务决策效率提升 10 倍。李飞飞表示:“这是自云原生数据库 2.0 后,阿里云瑶池数据库又一次里程碑式的改造升级。DMS:OneMeta+OneOps 为企业提供了全域数据资产管理能力,让业
22、务数据看得清、查得快、用得好。”据介绍,极氪汽车采用 DMS+Lindorm 一站式多模数据解决方案,实现 32 万在线车辆上万车机信号数据的弹性处理分析,开发效能提升 2 倍,降低 50%云资源成本。在大模型领域,此方案支撑月之暗面构建 AI 智能助手 Kimi,帮助 Kimi 准确理解用户的搜索意图、整合与概述多种信息源,实现精准和全面的信息召回,提升用户交互体验。第一部分:Data+AI 大咖观点 12 此外,云原生数据库 PolarDB 今年首次提出基于“三层解耦,三层池化”(存储、内存、计算)、AlwaysOn 架构的多主多写和秒级 Serverless 能力,解决了多主架构中冲突处
23、理和数据融合、以及 Serverless 秒级弹性租户隔离的难题。在高并发场景下,PolarDB 性能为业界同类数据库 3 倍,并凭以上成果成功摘得中国首个 ACM SIGMOD 和 IEEE ICDE 工业赛道“最佳论文奖”。本次云栖大会,阿里云瑶池还正式发布了云原生内存数据库 Tair Serverless KV 服务,是阿里云首个基于 NVIDIA TensorRT-LLM 的推理缓存加速云数据库产品。Tair 采用第一部分:Data+AI 大咖观点 13 NVIDIA TensorRT-LLM 一起进行了深度优化。相比开源方案,该服务可实现 PD 分离/调度优化吞吐 30%的提升,预计
24、成本可降低 20%*注。*注:基于 Qwen2 7B 模型在长上下文场景构造实验环境数据测试,最终效果以实际产品和场景测试数据为准。第一部分:Data+AI 大咖观点 14 3.媒体声音|专访阿里云数据库周文超博士:AI 就绪的智能数据平台设计思路 在生成式 AI 的浪潮中,数据的重要性日益凸显。大模型在实际业务场景的落地过程中,必须有海量数据的支撑:经过训练、推理和分析等一系列复杂的数据处理过程,才能最终产生业务价值。事实上,大模型本身就是数据处理后的产物,以数据驱动的决策与创新需要通过更智能的平台解决数据多模处理、实时分析等问题,这正是以阿里云为代表的企业推动“Data+AI”融合战略的核
25、心动因。那么,“Data+AI”对于数据处理究竟意味着什么?从字面意义来理解,Data+AI 是指将数据和人工智能结合起来,支持数据从收集、准备到模型开发、部署、迭代、监控的全流程。与传统数据管理模式相比,Data+AI 更侧重 AI 原生化、一体化、多模化等理念。阿里云数据库产品事业部 AnalyticDB PostgreSQL 及生态工具部负责人 周文超 第一部分:Data+AI 大咖观点 15 从数据工程与业务实践的角度来看,由离线数据处理到实时数据处理,再到今天的Data+AI 时代,数据处理的底层逻辑到底发生了怎样的变化?为何多模处理能力变得越来越重要?我们邀请了在学术界和产业界均有
26、丰富经验的周文超博士,他现在是阿里云数据库产品事业部 AnalyticDB PostgreSQL 及生态工具部负责人。周文超博士从数据管理平台变化角度出发,结合阿里云 DMS+X 底层技术构建路径,深入分析Data+AI 智能平台构建的现状与未来。他认为,今天的数据处理正在向多模融合方向发展,一站式的多模处理能力将是未来数据管理的标配。3.1 智能升级加速,数据管理平台机遇与挑战并存 生成式 AI 重塑一切,很多工作的生产效率得到了极大提升,当 AI 内容生产和代码生成表现出接近甚至赶超人类的能力时,原有的数据管理模式也面临着巨大变革。与过去相比,今天的数据处理在数据量、数据类型、处理深度,以
27、及与 AI 计算的融合等方面,都发生了显著的变化。这些变化不仅提高了数据处理的效率和准确性,还为 AI 的创新发展提供了有力的支持。生成式 AI 虽然带来了前所未有的机遇,让企业在流程化、个性化服务创新过程中找到新的路径,但也存在着诸多挑战。面对 Data+AI 融合趋势的数据处理难点,周文超博士概括了三点:第一,数据的多模态化;第二,算力的多元融合;第三,数据处理的实时性。数据的多模态:数据类型不再局限于传统的结构化数据,而是包括了图片、文档、图、时序、交易等多种模态的数据,比如:IoT 设备数据、车机图像数据等,这些多模数据是数据处理和分析的一大挑战。算力的多元融合:算力也朝着多模态和异构
28、方向发展。过去,无论是在操作系统、数据库、离线数据处理还是实时数据处理中,主要关注的是以 CPU 为核心的算力。然而,随着大模型的出现,GPU、FPGA、ASIC 等硬件逐渐加入到算力矩阵中。特别是GPU,原本用于图形加速和比特币等领域,现在因其能处理更多向量数据,并且可用于矩阵乘法,在算力领域扮演着越来越重要的角色。另外,如何在多样化的算力硬件上合理分配计算任务,以及如何更好地调度和结合不同的异构算力,成为 Data+AI 领第一部分:Data+AI 大咖观点 16 域需要攻克的另一个重要挑战。数据处理的实时性:实时性也是数据处理领域的一个难点。从最初的离线数据处理,到现今的实时数据处理,我
29、们见证了数据处理走向实时化的过程。过去,数据主要以批次形式处理,一天或一周进行一次分析或训练。后来随着实时分析场景的增加,需要分钟级甚至秒级的数据处理能力,例如:在数据监控平台上,用户希望每秒或每分钟都在更新数据,以便实时了解当前情况。同理,Data+AI 也是相同的逻辑。如果几个月才能进行一次训练,那么最近的数据将如何处理?因此,数据管理平台对实时数据的处理,也成为企业必须要面对的一个重要课题。只有解决了上述问题,Data+AI 的落地场景才会变得更加丰富,数据驱动企业智能化升级才会成为可能。3.2 阿里云 DMS+X 一站式数据管理平台设计原理 准确来讲,Data+AI 所有数据处理的背后
30、主要源于三个核心要素,即数据、模型与算法、算力,正是这“三驾马车”成为数据管理智能平台能否提升业务效率的关键。换言之,真正满足用户需求的 Data+AI 智能平台具有明显的 Data Gravity(数据重力)倾向。如何理解 Data Gravity 概念?用一句话概括,就是让更多的模型、算法和算力向数据靠近,而不是来回迁移数据。因为,搬数据这件事,成本高昂,不能再像二十年前一样,把不同数据进行聚拢,再进行数据下发。现在,基本都是近存计算、存内计算,计算向存储靠近,向数据偏移。此种背景下,阿里云瑶池数据库推出的 Data+AI 一站式多模数据管理平台做出几个重要改变:一、是一体化,打破数据生态
31、和部署域的壁垒;二、让数据价值获取的路径变短。所谓“一体化”,是指为用户打造一个统一的数据管理与开发平台,以优化数据资产的可见性和利用效率。首先,通过一个集中化的界面,让用户能够清晰地查看所有分散在不同来源(如 OLTP 数据库、OLAP 数据库、云存储及自有 IDC 等)的数据资产,第一部分:Data+AI 大咖观点 17 从而更有效地管理数据并控制存储成本,同时获得全局性的数据概览,这一理念体现在阿里云在 DMS+X 平台中提出的 OneMeta+OneOps 概念上。其中,OneMeta 实现了数据资产的统一元数据管理,包括数据的来源、表结构等关键信息;而 OneOps强调了开发平台的统
32、一性,支持从离线到在线、从 OLAP 到 Spark 再到 AI 等多种数据处理场景。通过 OneOps 概念,DMS+X 整合了数据操作、开发运维以及针对大型语言模型等操作,形成一个统一的操作平台,让用户能够在这个平台上完成所有与数据相关的操作,从数据清洗、编排到调用 AI 模型,从而缩短数据价值获取的路径,使数据价值的挖掘变得更加简单和高效。值得一提的是,不同数据生态的打通也是 DMS+X 一大亮点。众所周知,OLTP 数据库和 OLAP 数据库本身数据存储和处理形式不同,中间免不了要进行复杂的 ETL 转换。秉承 Zero-ETL 理念,DMS+X 在数据转换通路上做了很多工作,让用户无
33、需通过物理复制就能在无感知状态中将 ETL 效率提升 5-10 倍。与此同时,让数据价值它的获取路径变得短,或者说让用户获取价值更简单,也是DMS+X 智能平台提供的一个重要价值。为了将数据适配到 AI 处理的需求,DMS+X还进行了数据的 AI ready 化处理,如向量化等,使数据更易于被大型语言模型等 AI技术理解和处理。此外,DMS+X 还提供了 Notebook、任务编排、以及结合百炼等智能开发平台的一系列功能,帮助用户更容易地生成带有业务属性的数据处理流程,进一步提升数据价值的挖掘效率。从目前应用现状来看,阿里云 DMS+X 的用户主要是互联网、零售、游戏以及泛娱乐领域,这些领域的
34、企业本身就有核心的数据资产,希望通过数据处理能力的提升拓展AI 边界,构建 AI 原生能力,进而实现数据资产的价值最大化。大体来看,企业智能化升级还处于刚刚起步的阶段,未来随着 Data+AI 融合速度的加快,其他传统领域也一定会全面跟进。当然,部署 Data+AI 融合战略的企业不只阿里云一家。与同类竞品相比,阿里云“Data+AI”驱动的 DMS+X 一站式多模数据管理平台之所以成为各行各业实现数据价值新底座,是“厚积薄发”的结果。比如:生成式 AI 强调的三层架构(底层基础设施层、中间模型层以及上层应用),阿里云很早就已提出 IaaS+PaaS+MaaS 全栈第一部分:Data+AI 大
35、咖观点 18 产品矩阵。过去几年,不管是 IaaS(计算、存储、网络安全)、PaaS(中间件,数据库,计算平台),还是 MaaS(通义系大模型),都已做到业内领先。具体到数据库,经过十余年的应用实践以及技术迭代,阿里云瑶池拥有业界最全面的数据库产品布局,涵盖云原生关系型数据库 PolarDB、云原生数据仓库 AnalyticDB、云原生多模数据库 Lindorm 等多款明星产品,可满足用户不同业务需要。技术方面,瑶池旗下的自研数据库拥有三层解耦、多主多写、HTAP、Serverless 等全球首创或业内领先的创新能力。其中,PolarDB 已完成全球首个大规模商用、基于共享存储的云原生多主数据
36、库实践,并凭此成功摘得了中国首个 ACM SIGMOD 和 IEEE ICDE 的工业赛道“最佳论文奖”。3.3 未来:AI 就绪,迎接 Gen AI 时代 尽管在底层技术平台支撑上,人类已经做好了 AI 就绪的准备,但距离真正的 Gen AI时代到来,还有一段距离。周文超博士总结认为,大模型应用层将在未来占据主导地位,尤其是模型的推理应用,其价值将远超训练过程。在此背景下,阿里云瑶池数据库 DMS+X 发展规划也会变得更加清晰,将聚焦于支持更宏大的推理场景,通过提升用户体验和性价比来推动技术进步。具体而言,DMS+X 将致力于让用户在使用过程中更加便捷、高效,并通过资源混部、垂直领域数据的存
37、储与计算优化等手段,进一步提升资源使用效率。同时,还会更积极地探索如何更高效地使用 CPU、GPU、FPGA 等算力资源,以期在未来技术落地中发挥重要作用。这些努力不仅体现了阿里云瑶池数据库对未来技术趋势的深刻洞察,也彰显了企业在推动 AI 技术发展方面的坚定决心和不懈努力。而从技术人生的视角来看,以周文超博士为代表的研发团队,正以长期主义心态,将战略愿景转化为实际行动,致力于为用户带来更高效、更便捷的智能数据平台体验,推动着 AI 技术的持续进步和应用的快速拓展。第一部分:Data+AI 大咖观点 19 受访人简介:周文超,阿里云数据库产品事业部 AnalyticDB PostgreSQL
38、及生态工具部负责人,负责云原生数据仓库、数据库工具与管控的研发以及数据库系统与智能方向科研。专注于建设一体化 Data+AI 数据管理平台,支持日益丰富的数据计算需求和更趋异构化的底层架构,利用资源云化提升智能计算效能。清华大学计算机系本科,宾夕法尼亚大学计算机与信息科学博士,国家级领军人才,浙江省顶尖人才。毕业后于美国乔治城大学计算机系任教,后升任终身教授。至今在一流国际学术会议与期刊上发表论文 70 余篇。主要研究方向是计算机系统的设计和实现,涵盖数据库、分布式系统、计算机网络和系统安全等方向。曾获多项重要奖项,包括美国基金委 NSF CAREER Award(杰出教授奖),ACM SIG
39、MOD 最佳博士论文奖,以及多个学术会议的最佳论文、最佳系统演示奖等。第一部分:Data+AI 大咖观点 20 4.媒体声音|阿里云王远:一站式数据管理平台的智能化跃迁 在 DTCC 2024 大会上,阿里云数据库产品管理与技术架构部负责人王远与 IT168&ITPUB 特约嘉宾薛晓刚就数据库与 AI 技术的融合、云原生数据库的新趋势及向量数据库的支撑能力等热点话题进行了深入探讨。数据库领域专家薛晓刚(左)、阿里云数据库产品管理与技术架构部负责人、PolarDB 开源社区技术委员会主席王远(右)在王远看来,Data+AI 不只是一个概念,而是已经进入实际落地阶段。同时,在新的应用环境下,需要支
40、撑的场景有很多,单一数据库引擎已经无法满足业务需求,用户更希望通过不同引擎承载不同的工作负载。因此,在整体架构上,需要构建一个像“搭积木”一样便捷的统一数据管理能力,才能满足智能化时代需求。4.1 再谈数据管理“数据、AI、算力是智能时代的三要素,也是一个递进式的数据平台模型。”王远借用 DIKW 经济学模型,形象地解释了从数据到智能化的转化路径。第一部分:Data+AI 大咖观点 21 如果说数据平台是一个类似于“金字塔”的底座,处于最底层的是数据(Data),再往上是信息(Information)、知识(Knowledge),最顶层的是智慧(Wisdom)。其中,数据库所扮演的角色是数据管
41、理的基石,承载着从数据到信息再到知识的三层交互,而大模型的出现,则把数据管理中上层的知识与智慧之间的鸿沟逐渐填平。然而,数据管理能力的跃迁并不是凭空出现,而是技术发展的结果。人类从有计算机开始,就在进行数据管理,只不过早期的数据管理受制于存储设备限制,容量空间有限,导致数据不能长期保存、数据不能共享。数据管理能力得到跨越式发展,是因为数据库系统的诞生。在 20 世纪 60 年代,随着计算机管理对象的规模越来越大、数据量急剧增长,多种应用进行数据集合的要求越来越强烈,数据库技术顺势而生。数据库的核心作用在于,提供了一种高效、可靠的数据存储与管理方式,并且方便用户访问和查询数据。走到今天,智能化时
42、代来临,数据库、云原生、人工智能开始真正“握手”,走向深度融合的新时期,以至于数据管理的整个平台架构也跟着发生了微妙变化。4.2 智能底座的进化 在全新的 Data+AI 时代里,发生了三件大事:一、OpenAI 收购了数据库分析公司 Rockset。OpenAI 收购的目的是想构建更坚实的数据底座,而 Rockset 能提供两个关键能力:一个是多维索引,另一个是实时性。这说明,AI 时代,对数据检索的要求不是变弱了,而是越来越强了。二、向量数据库快速发展。向量就是特征,向量数据库的检索和传统数据库精确的检索结合,可以给用户创造更灵活、更贴合业务场景的一种检索模式,甚至是更可理解的检索模式。三
43、、具身智能的突破。“具身智能”是 AI 里面的行为主义,强调输入和反馈,更需要对海量多模数据管理的提升,包括对环境的快速感知能力,不仅要理解、决策,还要第一部分:Data+AI 大咖观点 22 拿到反馈。这时候的数据平台呈现两个特点:一个是多模,另一个是实时。多模,意味着能在海量数据的基础上处理多种类型的数据;实时,让数据库的应用范围进一步拓宽,同时在查询和体验上能变得更易用。每件事都在从不同角度说明,人类已真正进入了智能化变革期,数据平台的底座迎来了新的跃迁。阿里云数据库产品管理与技术架构部负责人、PolarDB 开源社区技术委员会主席王远表示,智能数据平台的底座可以分为三层:最底层,是基础
44、设施层,包括存储、计算,这是传统数据库以及云数据库特别擅长的点;最上层,是端到端的智能化服务,目前主要以 RAG 服务为代表,面向用户以及开发者提供模型、算法管理、向量检索能力,特别是需要把向量检索基于 SQL 的检索结合起来。中间层,是智能数据平台的“大脑”,包括数据的统一、现代数据开发、Copilot 智能。从云数据库的发展方向来看,AI 时代的云原生数据库要实现“四化”,即云原生化、平台化、一体化和智能化。本质是希望把各种各样的云资源利用起来,通过一系列的管控以及内核解耦技术,帮助用户降低云数据库的使用门槛、将业务价值最大化。与传统数据库相比,AI 时代的云数据库不再是资源视角,而是能力
45、视角,用户更关注业务的使用情况,而不是要买多少云服务器,多少 G 的内存。4.3 打磨一站式数据管理平台 为了满足 Data+AI 时代的用户需求,阿里云通过“瑶池”打造整体云数据库品牌,应对智能数据平台的不同场景考验。就具体的产品类型来看,阿里云瑶池数据库分为四大类,包括:OLTP 数据库、OLAP数据库,NoSQL 数据库,以及相关的数据管理工具,包括 DMS 数据管理、DTS 数据传输、数据库备份等。据王远介绍,阿里云瑶池旗下包括 3 款核心的自研数据库,分别是 PolarDB、AnalyticDB,还有 Lindorm。其中,PolarDB 是自研的云原生关系型数据库,主要应对 OLT
46、P 场景;AnalyticDB(简称 ADB)应对的是 OLAP 场景,与云原生存储进行了深入融合,能提供大数据场景下更具性价比的解决方案;Lindorm 是一款云原生多第一部分:Data+AI 大咖观点 23 模数据库,随着 HBase 的发展在多模方向拓展应用边界,可支持从早期的宽表模型到现在的时序、时空、向量、JSON 等多种数据,不仅可以处理结构化和非结构化数据,同时也集成了 AI 训练和推理能力。提到 AI,我们很自然地会想到向量数据库。目前阿里云瑶池数据库的全系产品均已支持向量能力,但各自技术路线不同。对于开源类产品,如 RDS 系列基本走的是开源路线,最典型的产品是 RDS Po
47、stgreSQL,集成了 PG Vector 插件,兼容开源生态;自研向量检索引擎 FastANN 主要用于自研数据库产品,比如 AnalyticDB PG、PolarDB PG、Lindorm、Tair 都集成了自研向量引擎。王远表示,由于云上用户较多,应用场景也更多元,单一数据库引擎很难满足所有用户需求。采用不同引擎承载不同的工作负载,并且让用户拥有一站式数据管理平台的使用体验,这是阿里云瑶池数据库产品一直打磨的方向:第一:通过云原生 Serverless,持续降低用户的数据库使用门槛;第二:一体化、一站式。阿里云瑶池拥有庞大的用户群体和业内最丰富的云数据库产品家族。瑶池数据库目标为用户提
48、供开箱即用的数据库产品,这一理念也指引着我们的技术方向。用户无需关注负载管理、智能路由、数据冷热分层等技术细节,全部可通过“瑶池数据库”一站式完成。这也引申出第三个方向:多模。无论是云厂商,还是经典老牌数据库企业,未来都会向着这个方向探索。向量技术的发展,正逐步走向成熟,目前已能够满足经典应用场景。向量最大的意义是打破了结构化与非结构化数据之间的界限,“万物皆可特征化”。按此逻辑,数据库甚至数据平台,一定会向着包罗万象的方向前进,未来将承接各种各样的数据类型。第四:AI4DB,AI 技术与数据库的结合。之前三个方向讨论的都是数据库技术如何支撑 AI,但 AI 也能为数据库赋能。从资深 DBA
49、角度出发,可以用 AI 免运维。更高层次的,如数据开发、数据应用、数据服务等都可以通过 AI 降低门槛,这也是未来的方向之一。第一部分:Data+AI 大咖观点 24 在 Data+AI 驱动的云原生数据库发展路线图中,云原生和 AI 将是最给力的“助攻”,帮助用户拥抱 AI 时代。第二部分:Data+AI 行业应用 25 第二部分:Data+AI 行业应用 1.拥 抱Data+AI|破 解 电 商7大 挑 战,DMS+AnalyticDB 助力企业智能决策 1.1 行业趋势 在当今数字化浪潮汹涌澎湃的时代,电商行业正经历着深刻的变革与发展。数据(Data)与人工智能(AI)成为推动电商行业变
50、革发展的核心力量。海量的数据中蕴含着无尽的价值与机遇,通过对大数据的深入挖掘和分析,电商企业能够精准洞察消费者需求、优化运营流程、提升决策效率。而 AI 的加入为电商领域带来了更强大的智能服务能力,同时在数据价值发现上带来无限的想象空间。在过去几年,电商企业通过构建大数据体系实现数字化转型,然而在享受数据红利背后也发现了现有大数据架构的不足:在信息维度上主要以结构化分析为主,图片、文档等信息有待挖掘;在应用方面缺乏实时和敏捷的分析应用;在运维上多引擎组合极大增加开发和运维成本。随着技术变革,大语言模型和 RAG 已实现多模态分析可拓展更多信息维度,离在线一体引擎可实现了流、批处理及在线分析的场
51、景融合。在极需创新的当下,如何快速升级成可支撑未来 35 年业务创新的 Data+AI 架构?在拥有更多信息维度下,如何实现更深入和精准的数据洞察?本文将深入探讨如何利用好新的数据与 AI 技术以及数据分析方法论,为电商行业注入新的活力与效能。1.2 技术挑战 随着在线处理、实时分析、智能化决策成为电商行业的刚需,企业技术架构在数据分析能力和 AI 能力构建上同时面临很多挑战:1)数据在线重刷:业务上开放了自定义配置能力,商家修改配置后想要立马看到配第二部分:Data+AI 行业应用 26 置之后的数据。数据仓库引擎需要具备丰富的函数支持、事务以及复杂逻辑处理能力,能够根据配置在线重算历史数据
52、并且对客提供分析服务。2)实时在线分析:电商业务需要提供实时分析的同时也需要结合历史数据作对比分析,因此需要引擎提供流批一体的能力,满足实时指标、离线指标、累计指标、同环比及趋势分析等指标的加工和复杂运算。3)成本优化:长周期数据分析对商家来说很有价值,但数据仓库引擎需要支持冷/热数据分层来控制长周期数据存储成本,同时在开发和使用上对业务是无感的。4)稳定性提升:由于对外提供付费服务因此需要时刻保障业务的连续性。数据仓库引擎在极端情况需要保障集群性能不降级。5)数据质量和治理:AI 的应用依赖于高质量的数据,数据的“自由散漫”问题,即数据的不准确、分散性和新鲜度是制约电商行业 AI 落地的重要
53、因素。6)数据资产与 AI 联动:企业积累了大量数据资产,这些资产价值的释放不仅依赖数据资产与 AI 的相互联动(数据赋能 AI,AI 赋能数据),还依赖数据资产团队和AI 团队间的协同,企业缺乏高效的联动机制。7)成本、人才与组织:AI 落地通常需要较高的初期投入,包括基础设施投入、人才培养投入、业务流程、组织变革等,企业需要评估 AI 投资回报率,实现降本增效。1.3 阿里云 Data+AI 解决方案 在今年 9 月云栖大会上,阿里云瑶池数据库重磅发布“DMS+X:统一、开放、多模的 Data+AI 数据管理服务”。该平台通过 OneMeta 和 OneOps 两大创新,简化了数据管理与
54、AI 开发,实现 DMS+X 一站式的 Data+AI 全生命周期管理。在 DMS+X之上,阿里云将助力企业数据以最快的速度拥抱 AI,落地业务,产生价值。第二部分:Data+AI 行业应用 27 为了应对业务发展对技术的挑战,电商行业客户可以通过阿里云 DMS+AnalyticDB实现 Data+AI 架构全新升级,构建 AI 原生的仓内智能能力,打造新一代的在线数仓。1.4 面向 Data+AI 的数据架构升级 Zero-ETL 随着电商行业升级,业务规则配置灵活性、报表分析自助性成为刚需。传统基于 ETL和离线调度加工的开发模式越发不能满足商家分析诉求。为应对日益旺盛的分析需求,阿里云瑶
55、池旗下的云原生数据仓库AnalyticDB PostgreSQL版(以下简称ADB-PG)推出 Zero-ETL 功能,无需配置 ETL 任务即可实现业务数据库的增量同步,结合 ADB-PG 增量实时物化视图实现无调度的任务加工和数据重刷,提升商家分析时效性和灵活性。实时在线分析 在过去流数据和历史数据进行关联分析的成本极高,同时在开发和运维上因为要学习两套引擎语法成本较高。ADB-PG 增量实时物化视图支持丰富语法:多表关联、嵌套第二部分:Data+AI 行业应用 28 子查询、窗口函数等;支持行级数据刷新和级联刷新,不需要业务上来实现数据任务的调度依赖。在 Upsert 下通过 ADB-P
56、G 分布式直写计算节点能力加持下可达到10W+RPS 的写入吞吐。混合负载资源隔离 集群同时存在高吞吐写入、历史数据重算、实时计算和在线分析服务需求,因此需要支持混合业务的负载。结合 ADB-PG 资源隔离能力构建了不同资源组,根据业务在不同时间段的重要性动态地分配资源,比如在早上需要保障在线分析服务和实时计算的业务连续性,在数据刷新资源时可以调低一些。在凌晨则相反,批处理加工的资源最大,同时也保留一部分资源保障 KA 客户的分析服务。长周期数据归档 在过去由于成本考虑无法为客户提供两年前的历史数据分析服务,同时对于没有分区的表需要业务上手动转冷非常不方便。通过 ADB-PG 实现了长周期数据
57、的自动归档,可以支持分区级和行级(指导字段)。在使用上可以自动路由到热或冷数据,也可以通过参数控制仅访问热数据。在保障用户能够使用历史数据的同时实现存储成本优化。第二部分:Data+AI 行业应用 29 满足 KA 业务 对 KA 用户需要有独立的资源保障,但同时也要考虑整体的计算和存储成本。对于一些批处理加工的数据,通过 ADB-PG 数据互访能力实现跨实例的数据访问避免数据冗余存储,通过实时物化视图可以对中心数仓和 KA 数仓上的数据进行计算,结果数据留存在卫星数仓。对于一些高频率查询的数据通过 CDC 增量同步到 KA 数仓,提供高性能的在线服务。对计算任务根据资源消耗情况进行费用分摊。
58、动态资源弹升 数据产品对外提供付费服务,因为需要时刻保障业务连续性。开源 MPP 架构产品虽然能提供高可用能力,但在计算节点依赖的宿主机发生宕机情况下会影响整个集群的性能。为了保障集群性能不降级,ADB-PG 提供了动态资源弹升的能力。第二部分:Data+AI 行业应用 30 1.5 AI 场景实践探索 电商行业客户可在数据仓库之上进行 AI 场景化实践探索,阿里云瑶池数据库提供了智能问数和以图搜图场景的解决方案。1.5.1 智能问数 在当今快速演进的商业环境中,数据已成为企业策略制定的关键资源。无论是优化决策流程还是驱动创新,对数据的精确分析和高效管理至关重要。DMS 是阿里云在 2013
59、年发布的数据管理服务,能够满足企业一站式数据管理诉求。DMS Data Copilot 是 DMS 基于阿里云大模型构建的数据智能助手,支持用户通过自然语言的方式生成并优化 SQL,降低 SQL 编写门槛,提升开发效率。第二部分:Data+AI 行业应用 31 企业内的数据团队需要为商家研发数据智能产品,并对内部的产品运营团队提供数据分析支持。大量的数据报表并不能完全满足商家,运营和产品的需求,在繁重的开发工作之外还需要频频应对各方的取数需求,这些临时的需求并不足以建设报表来满足,诸如此类的问题每天都在发生,为数据研发工作带来不小的挑战。DMS Copilot 解决方案可以满足各方灵活取数需求
60、,以自然语言交互方式获取数据,只需提出问题即可获得所需结果,还支持一键生成图表,查看数据变化趋势。第二部分:Data+AI 行业应用 32 对内部提升数据报表开发效率。以一个场景为例,需求方要基于销售大区和合同版本维度统计近7天访问全局概览页面的TOP3商家类目。只需输入这段文本需求 DMS Copilot 即可生成相应的 SQL 代码。根据用户的个性化需求 Copilot 还给出了历史知识库引用进一步提升回答准确度。1.5.2 以图搜图 基于 ADB-PG 一站式 RAG 的 OpenAPI 构建图片上传、向量化(Embedding)、图片检索完整链路,三天即可完成整个图搜技术底座的搭建和优
61、化,对客提供同源货品推荐服务。第二部分:Data+AI 行业应用 33 1.6 总结与展望 针对电商行业痛点,阿里云瑶池数据库提供完整的 Data+AI 解决方案及落地最佳实践,针对七大挑战提供了创新的技术方案。利用 DMS+AnalyticDB 同时满足数据在线处理、实时分析和智能化 AI 实践,大大降低了企业开发和运维成本。Data+AI 为企业提供了增长的新途径,企业必须认识到 Data+AI 的重要性,并将其作为战略实施重点,促进智能化转型以保持竞争力和市场领导地位,迎接新的机会。电商行业客户进行面向 Data+AI 的升级和转型,对外提供 AI 原生能力,能让 AI 的开发和应用更普
62、惠。通过循序渐进地探索和落地,期待未来能在电商产品上实现全面智能化。第二部分:Data+AI 行业应用 34 2.拥抱 Data+Al 丨解码 Data+Al 助力游戏日志智能分析 2.1 行业趋势 随着互联网游戏行业的迅猛发展,数据量也在急剧增加。这种增长不仅是因为玩家数量的增多和在线时间的增长,还归因于游戏内集成的丰富数据驱动型功能,如个性化推荐、动态难度调整、虚拟经济系统、实时多人互动以及行为追踪分析等。这些功能提升了玩家的游戏体验,但同时也要求处理和存储更多的数据,给管理和成本带来了新的挑战。尽管海量的数据带来了挑战,但也蕴藏着巨大的价值与机会。除了支持游戏内的各种数据驱动功能外,游戏
63、公司还能通过数据分析更深刻地理解用户的行为和偏好,从而优化游戏设计,提升用户体验,并通过精准营销增加收入。对数据进行更深入的挖掘,企业还可以识别出影响用户留存的关键因素,找到提高用户参与度的最佳策略,并预测未来的市场趋势和用户行为,进而增强产品的竞争力和市场影响力。面对由海量数据带来的挑战与机遇,如何聚焦于关键数据类型,解决管理与技术上的难题,并持续高效地发掘数据的价值,成为了游戏企业关注的重点问题。本文将详细探讨如何利用阿里云 Data+AI 解决方案来应对这些挑战,并借助 AI 为游戏行业注入新的活力。2.2 技术挑战 在游戏行业产生的海量数据中,日志类数据扮演着至关重要的角色。日志类数据
64、记录了玩家行为、游戏运行状态及系统性能等关键信息。这类数据通常包括游戏玩家登录与退出时间、游戏角色的成长轨迹(如等级提升)、虚拟物品交易详情、玩家间的互动记录(如聊天或组队)以及游戏内发生的各种事件(如任务完成情况)。此外,还包括了技术侧采集的数据,如服务器响应时间、网络延迟状况等,这些数据可以被广泛应用到用户分析体验、产品功能优化、潜在问题识别、运营策略制定等。第二部分:Data+AI 行业应用 35 随着日志数据量的激增和分析需求的提升,用户需要在性能和成本中做出平衡,寻求更优质的高性价比解决方案。在某头部游戏客户的日志分析场景中,面临以下挑战:数据存储成本高:在玩家的投诉判定、审计合规等
65、场景中,都可能需要进行日志的回溯,所以游戏产生的日志数据需要全量存储,存储成本随之增加 实时查询性能提升:为了及时响应突发问题,需要从海量日志数据中快速处理和分析,分析性能需要有保障。数据开源开放:游戏企业内部存在多个业务团队,不同业务团队使用的分析引擎可能是不同的,一份全量日志的存储,需要支持上层多种计算引擎访问。结合 AI 增强数据洞察力:传统 BI 分析侧重历史数据的汇总和展示,可帮助决策者了解过去一段时间的业务表现,但不具备预测能力,通常依赖业务方经验来进行未来趋势的判断;结合 AI 进行预测,能有效提升预测准确性,在游戏行业中,常见的有用户行为预测、付费用户预测、付费金额预测、玩家流
66、失预测等。2.3 阿里云 Data+AI 解决方案 阿里云瑶池数据库提供“DMS+X:统一、开放、多模的 Data+AI 数据管理服务”。该平台简化了数据管理与 AI 开发,实现 DMS+X 一站式的 Data+AI 全生命周期管理。在 DMS+X 之上,阿里云将助力企业数据以最快的速度拥抱 AI,落地业务,产生价值。针对游戏行业的以上问题,阿里云瑶池数据库 DMS+AnalyticDB MySQL(以下简称ADB MySQL)提供了解决方案。第二部分:Data+AI 行业应用 36 2.3.1 日志数据实时接入 阿里云日志服务(SLS)常用来做应用端游戏日志的采集,下游可再接入分析类引擎做进
67、一步的处理和查询。阿里云瑶池旗下的云原生数据仓库 AnalyticDB MySQL,提供 SLS/Kafka 日志类数据实时接入内部仓存储/湖存储的能力,自动生成元数据,数据直接可查,简单易用的白屏化操作,用户可按需选择目标端存储,游戏全量日志可选择入湖,以开源 Iceberg 格式写入到内部湖存储,同步性能可达每秒 GB 级吞吐,数据可见延迟小于 5min,存储成本低(与 OSS 对齐),并提供湖管理功能,包含数据文件合并、生命周期管理、缓存设置等,有效降低存储成本,提升湖查询性能。第二部分:Data+AI 行业应用 37 2.3.2 日志数据高效查询 ADB MySQL 有两类计算引擎,分
68、别是自研的 XIHE 引擎和开源的 Spark 引擎,用户可根据实际需求和场景,选择不同的引擎来进行数据处理和分析。基于 ADB 湖表,通过缓存层进行查询预热,可满足大部分秒级/分钟级耗时诉求;用户也可选择创建仓表,来实现亚秒级的实时分析。2.3.3 日志数据开源开放 ADB 湖存储的数据格式为开源 Iceberg+Parquet,提供 HMS 和 OSS/HDFS 开放接口,外部计算引擎可直接访问数据;同时湖存储和实例不强绑定,不同的湖存储Bucket 可挂载到不同的实例,实现数据共享。第二部分:Data+AI 行业应用 38 2.3.4 AI 场景落地 除了BI分析场景以外,存储在ADB
69、MySQL中的日志数据,可通过DMS+AnalyticDB 一站式实现数据特征处理、模型训练、评估及预测,落地 AI 模型应用。在 ADB MySQL中仅通过 SQL 语句即可完成端到端的数据处理和模型开发,支持通过 SQL 来导入和训练模型,也支持调用远程推理服务;同时 ADB MySQL 提供全托管的 AI 资源服务,用户无需关心底层资源部署,专注业务应用开发。以下为模型创建和预测的 SQL 语法示例:/*创建模型*/create model bstdemo.bst options(model_type=xx,feature_cols=(event_list),target_cols=(t
70、arget),hyperparameters=(use_best_ckpt=False,第二部分:Data+AI 行业应用 39 early_stopping_patience=0 )as select event_list,target from bstdemo.test;/*使用普通函数实现模型预测*/SELECT ml_predict(db.model_name:v2,-模型名称&版本 options|NULL,-一些可能的额外配置,例如攒批大小,没有可以为 null -后面是要传递给模型的列,可以是任意合法的 project 表达式,不定长 ,.,)as col_name FROM e
71、vent_table;结合 DMS 构建完整 Data+AI 方案,可进一步实现数据处理链路和模型训练链路一体化的编排调度,从数据接入,处理到模型训练,上线和推理实现全自动周期运行。通过模型中心统一管理 AI 核心资产,包括模型的效果展示,模型组和模型版本管理。支持模型部署和回滚,模型可以发布为在线推理服务,衔接大模型工具链统一编排实现智能应用体落地。整套方案提供数据资产的全粒度权限管理,支持私有部署在客户VPC 环境,数据和模型不出域,实现全套方案的数据安全,有效保护客户隐私。使用 DMS+AnalyticDB MySQL 游戏日志场景的 AI 平台,提供 AI 节点资源,内置算法模型,可通
72、过 DMS 界面进行模型开发,用户无需自行搭建机器学习平台,有效降低开发成本。以某头部游戏客户实际落地效果为例,在玩家流失预测和玩家付费预测场景中,模型效果 F1 Score 均从 40%提升到 70%+。第二部分:Data+AI 行业应用 40 2.4 总结与展望 针对游戏行业的日志存储、分析和预测场景,阿里云瑶池数据库提供完整的 Data+AI解决方案及落地最佳实践,可以同时满足数据在线处理、实时分析和智能化 AI 实践,大大降低了企业及开发和运维成本。Data+AI 为企业提供了新的增长途径,企业必须认识到 Data+AI 的重要性,并将其作为战略实施重点,促进智能化转型以保持竞争力和市
73、场领导地位,迎接新的机遇。ADB MySQL AI 节点也提供多种使用形态,除了上述提到的 MLSQL 以外,还支持Spark on GPU,即通过 Spark MLlib 进行开发等,配合 ADB 现有的分析能力为用户提供 Data+AI 应用的轻量化端到端方案。第二部分:Data+AI 行业应用 41 3.拥抱 Data+AI|“全球第一雅迪如何实现智能营销?DMS+PolarDB 注入数据新活力 3.1 雅迪公司介绍及业务介绍 雅迪电动车是国内电动车行业龙头,销售网络遍布全球 100 个国家和地区,连续 7 年全球销量第一,2023 年销量达 1650 万辆。全球累计用户数量超过 800
74、0 万,终端门店数量超过 4 万家。公司拥有 1900+项专利,研发人员超过 1000 人,并在民营企业中排名第 259 位。雅迪在全球设有多个生产基地,包括江苏无锡、广东清远、浙江宁波、重庆、天津、安徽金寨、越南北江和印尼基地。雅迪云销通 App 是雅迪科技集团专门为服务商打造的一站式生意解决方案,是支撑服务商业务管理、产品操盘、门店运营、导购赋能的工具。服务商可通过云销通管理销售达成、库存动销、店务检核、人员培训、财务记账等,同时在二网分销协同方面也具备二网五件套,能够提升工作效率、简化日常管理流程。第二部分:Data+AI 行业应用 42 3.2 项目需求与痛点 由于云销通面向 2000
75、+经销商,是雅迪 4w+门店销售人员最重要的营销辅助工具,实际使用过程中面临以下需求和挑战:1)雅迪云销通拥有超过 50 个域,但当前销售人员只能查看已有的报表数据,无法满足更精确的分析需求。销售人员需要实时的数据分析和洞察能力,且需求多样化,比如精确获取当前最新的销售动态和市场表现,以便根据实时信息快速制定销售策略,在抓住销售机会的同时合理控制资金使用。2)销售人员不具备写 SQL 的能力,更倾向于通过交互式问答的模式实时获取最新数据,因此需要将销售人员输入的自然语言提问转换成最终的结果展示,即满足高并发 ChatBI 需求。3)除了精确的数据分析需求,门店销售人员还存在一些通用的问答需求,
76、比如门店开业的活动策划和文案推荐,电动车销售技巧推荐等,希望有一个比较统一的问答入口。换言之,雅迪销售人员需要一个实时的、并发程度高、数据准确率高、涵盖内容范围广并且支持自然语言交互的数据分析和问答系统。3.3 阿里云 Data+AI 解决方案 在今年 9 月的云栖大会上,阿里云瑶池数据库重磅发布“DMS+X:统一、开放、多模的 Data+AI 数据管理服务”。该平台通过 OneMeta 和 OneOps 两大创新,简化了数据管理与 AI 开发,实现 DMS+X 一站式的 Data+AI 全生命周期管理。在 DMS+X之上,阿里云将助力企业数据以最快的速度拥抱 AI,落地业务,产生价值。第二部
77、分:Data+AI 行业应用 43 针对以上问题,阿里云瑶池数据库 DMS+PolarDB for AI 提供了一站式 Data+AI 解决方案。PolarDB for AI 是云原生数据库 PolarDB MySQL 版内置的分布式机器学习组件,其基于云原生的体系架构,通过 SQL 语句提供了一系列支持机器学习的 MLOps 功能,包括创建模型、训练模型、查看模型状态、查看模型列表、模型评估和模型推理等能力。同时,它内置了一系列机器学习和人工智能算法,包括分类算法、回归算法和聚类算法等。基于 MLOps 和内置的模型,PolarDB for AI 为数据驱动的智能应用提供了高效、可靠、方便的
78、数据智能能力,打破了数据库和应用业务之间的系统墙,提供了基于数据智能的一站式 Data+AI 服务。第二部分:Data+AI 行业应用 44 3.3.1 NL2SQL 助力营销数据精准查询 为了让不熟悉SQL语言的用户能方便地从数据库中取数分析,阿里云 DMS+PolarDB for AI 推出自研的基于大语言模型的 NL2SQL 解决方案。PolarDB for AI 会帮助用户将输入的自然语言转换为 SQL 语句,DMS 支持数据源实例低门槛接入和统一管理,并提供白屏化的 NL2SQL 调试和知识库管理页面,支撑用户快速上手调试效果。和传统 NL2SQL 的方法相比,基于大语言模型的 NL
79、2SQL 在语言理解方面会更强大,生成的 SQL 语句能支持更多的函数,如日期加减等。第二部分:Data+AI 行业应用 45 DMS+PolarDB for AI 通过自然语言驱动数据查询,帮助雅迪销售人员快速高效使用营销数据。销售人员输入自然语言问题后,NL2SQL 对雅迪批发销售、库存、采购、供应链、营销等数据进行精准查询,并支持数据、表格、图表、文字等多种形式进行回答。例如,当销售人员想要了解某月零售额最高的车型时,只需输入类似“上月哪个车型的零售额最高”这样的自然语言问题,系统会自动将这个问题转化为 SQL 语言进行查询,迅速从海量数据中提取相关信息,并生成回答。这些回答不仅以数字表
80、格的形式准确呈现销量数据,还能结合视觉化的图表展示趋势,使营销人员能够一目了然地洞察市场变化。3.3.2 基于 RAG 的自由问答系统 检索增强生成(Retrieval-Augmented Generation,RAG)是一种结合信息检索和生成模型的方法,旨在提高自然语言生成任务的准确性和信息性。基于 PolarDB for AI的 RAG 具有如下特点:第二部分:Data+AI 行业应用 46 知识库即服务:用户仅需两步就可构建私域知识大脑。写入私域数据。输入问题,得到答案。知识库全自动加工:数据存取、文本分割、向量转换、索引构建、增量处理等数据加工流程,由平台全自动完成。支持全量、增量数据
81、持续导入,支持数据更新。系统自动完成查询问题向量转换、语义检索,并将问题和语义检索得到的topK 关联内容,填入 prompt,调用 LLM 得到答案,返回给用户。算法模型:默认提供 BERT、text2vec、COROM 等开源 SOTA 模型;支持导入自研及客户的算法模型。向量数据库:自研向量引擎,毫秒级低时延,支持向量检索、全文检索,多路召回。单实例支持千万级向量,可扩展分布式支持亿级向量。多算力:CPU、GPU 算力统一提供、统一管理,弹性扩缩。企业级特性:支持传输加密、安全审计、权限管理、HA、灾备、在线弹性扩缩、监控告警等丰富的企业级功能,保障数据安全,保障系统高可用。版本在线更新
82、,模型在线更新。雅迪云销通 App 采用基于 PolarDB for AI 的 RAG 构建开放式问答系统。下面是一个基于 PolarDB 的 RAG 的基本流程:1)将雅迪知识库里的文档数据导入 PolarDB 后,执行 PolarDB 内置的 AI SQL,数据会自动被切分和转化成向量。向量的结果会存储在 PolarDB 的向量引擎,文本的内容会存储在 PolarDB 的全文检索中。2)当用户提出问题后,问题一方面会被自动转化成向量,和文档进行向量匹配,另一方面也会在文档中进行分词检索。第二部分:Data+AI 行业应用 47 3)PolarDB 会将多路召回的结果返回,同时利用通义千问大
83、模型对结果进行总结。由于客户既要求能通过自然语言查询知识库,又希望用自然语言从数据库中获取数据,我们创造性地将二者结合起来,以满足客户的需求。针对以上问答和问数结合的复杂LLM应用场景,DMS托管了开源大模型工具链Dify,并与瑶池数据库生态进行了打通,提供无缝集成的使用体验。未来,客户可以通过 Dify 编排能力,串联起从用户请求到意图识别模型再分发至多个应用执行链路的完整流程。通过判断是否需要问数能力进行问题分发,若为需要,则将问题路由至 NL2SQL 模型,生成 SQL 后查询库表获得数据结果,同时通过问答链路的中文本检索过程,获取回答内容,将数据结果与文本内容结合,生成最终答案并输出。
84、第二部分:Data+AI 行业应用 48 雅迪的云销通 App 集成了基于 PolarDB for AI 的 RAG,提供自由问答功能,支持为开放式问题提供适用于雅迪员工的标准化策划和文案协助。例如,在新店开业宣传场景中,当用户输入“输出雅迪新店开业朋友圈转发文案”后,自由问答系统即刻生成带有文字、表情、标签的朋友圈标准文案,大大简化了营销人员的物料准备流程,提高工作效率。第二部分:Data+AI 行业应用 49 3.4 总结与展望 阿里云 DMS+PolarDB for AI 推出自研的基于大语言模型的 NL2SQL 解决方案,以自然语言驱动数据查询,帮助雅迪销售人员快速把营销数据使用起来。
85、通过阿里云瑶第二部分:Data+AI 行业应用 50 池数据库的 Data+AI 解决方案重构雅迪营销管理 APP,客户的 10 万多名销售人员可以基于实时的数据分析和洞察,以数据、表格、图表、文字等多种形式获取信息,从而实现对雅迪的批发、销售、库存、采购、供应链和营销等数据的精准查询,查询准确率超过 90%。Data+AI 为企业提供了新的增长途径,企业必须认识到 Data+AI 的重要性,并将其作为战略实施重点。通过将 Data+AI 融入核心业务,企业能够更好地挖掘数据价值,优化运营流程和决策机制,从而促进智能化转型,增强客户体验,显著提升市场竞争力。未来,通过 Data+AI 驱动的交
86、互式问答模式,用户能够获取最新数据,并基于实时数据快速制定销售策略,从而全面提升销售管理效率。经过 Data+AI 架构升级后的雅迪云销通 App 将具备更强大的功能,不仅可以为门店提供活动策划、文案推荐和电动车销售技巧等智能辅助,还可以针对开放式问题提供标准化的策划和文案协助,进一步加速订单成交,提高整体销售业绩,为雅迪开辟新的业务增长点。第二部分:Data+AI 行业应用 51 4.拥抱 Data+AI|B 站引入阿里云 DMS+X,利用 AI 赋能运营效率 10 倍提升 4.1 公司及业务介绍 B 站(Bilibili)是一个以中国年轻人为核心的文化社区和视频平台,它最初是专注于ACG(
87、动画、漫画、游戏)及其相关领域。如今,B 站已经成为中国范围内最受欢迎的视频分享网站之一,内容覆盖了动画、番剧、国创、音乐、舞蹈、游戏、科技、生活、鬼畜、娱乐、时尚等多个领域。B 站从 2016 年就开始与阿里云合作,双方的合作范围非常广泛,从内容的智能分发,让内容和观看需求高效匹配,到资源的弹性伸缩,满足例如全球电竞直播赛事的弹性支撑,再到全托管云原生数据仓库,轻松实现多业务线日志采集、高效的离线及实时分析、机器学习等复杂需求,挖掘数据价值。基于双方长期的合作经验,B 站在多个业务板块使用了阿里云全套解决方案,其中 B站猫耳 FM 业务通过引入阿里云 AnalyticDB MySQL 湖仓版
88、,替换原有开源离在线数据仓库,大幅降低数据仓库运维成本,并利用分时弹性能力实现资源按需伸缩,实现资源高效利用。目前,猫耳 FM 业务实现数据离在线处理效率从原来的 T+1 或 H+1 大幅提升至毫秒级,支撑打赏榜排名实时刷新,提升用户参与积极性,通过提高广播剧的评论/弹幕活跃度,促进用户停留时长与付费转化。4.2 业务需求和挑战 随着猫耳 FM 整体业务的快速增长,为了进一步提升主播和平台的运营能力,猫耳 FM数据平台团队推出了一系列运营工具,但在实际使用过程中面临以下需求和挑战:1、分析门槛高。大多数主播不具备运营分析能力,也没有专业的运营团队,难以借助数据实现分析和洞察,更无法针对数据情况
89、做出有效应对。2、数据交付效率低。平台业务变化快,运营需求多样,数据平台团队被各种数据需第二部分:Data+AI 行业应用 52 求折腾得晕头转向,疲于奔命,却仍然有需求累积,无法及时满足业务侧的数据交付要求。3、实时分析与成本的平衡。直播业务实时性分析要求高,虽然已通过 AnalyticDB MySQL 实现在线实时分析,但相当一部分业务分析需求无法实现实时,但这些需求如果都采用数仓承接又会导致成本较高,得不偿失。为了应对上述挑战,猫耳 FM 数据团队积极探索解决方案,随着大模型的兴起,团队发现借助大模型能力实现自然语言分析,能够大幅降低分析门槛,提高数据交付效率,实现业务分析需求实时,从而
90、满足当下的需求。但大模型在企业中的落地处于探索验证状态,同时需要底层大量基础设施的支持(大模型、算力等),无法保证 ROI。因此猫耳找到阿里云瑶池数据库团队,期望借助于阿里云的 Data+AI 解决方案来实现自然语言分析,提升主播和平台的运营能力。4.3 阿里云 Data+AI 解决方案 在今年 9 月云栖大会上,阿里云瑶池数据库重磅发布“DMS+X:统一、开放、多模的 Data+AI 数据管理服务”(X 即云原生数据库 PolarDB、云原生数据仓库AnalyticDB、云原生多模数据库 Lindorm 等多样化的数据存储、分析、计算、AI 引擎)。该平台通过 OneMeta 和 OneOp
91、s 两大创新,简化了数据管理与 AI 开发,实现 DMS+X 一站式的 Data+AI 全生命周期管理。在 DMS+X 之上,阿里云将助力企业数据以最快的速度拥抱 AI,落地业务,产生价值。第二部分:Data+AI 行业应用 53 猫耳 FM 目前核心业务数据存储在 RDS 和 AnalyticDB MySQL 中,数据管理统一通过 DMS 实现,因此通过对引擎 AI 节点扩容即可快速实现从数据开发管理到 Data+AI开发管理的升级,轻松获得大模型应用的基础和服务能力。DMS+X 内置了多种基于大模型构建的应用服务供用户选择使用,其中采用大小模型结合的智能问数服务能够解决猫耳 FM 的核心诉
92、求。第二部分:Data+AI 行业应用 54 DMS+X 为企业提供开箱即用的智能问数服务,无需复杂配置即可通过自然语言获得想要的数据和报表,同时提供调优服务,能够从初始 65%准确率提升至 95%,满足各类问数场景(取数、数据统计、业务运营、线索分析等),猫耳 FM 通过智能问数服务获得以下收益:1、大幅降低分析门槛。智能问数服务支持多轮对话,无论是主播还是平台运营人员都能够轻松获取想要的数据,并且问数服务还能根据历史知识、大模型能力结合实际数据情况提供可参考的处理方案,以及这些处理方案对应需要观测的评估指标,方便相关人员构建问数、建议、监测的运营闭环。2、数据交付效率提升 10 倍。有了智
93、能问数服务,猫耳 FM 数据平台的开发人员仅需结合领域和场景构建问数 Agent,并根据 Agent 对客的服务反馈来进行知识优化提升准确性即可,无需花费过多的时间在数据准备上,业务侧仅需通过自然语言即可获得准确数据,实现数据交付效率 10 倍提升。3、低成本实现实时分析。智能问数服务可跨越多个引擎,根据历史访问知识自动路由访问路径,无需数据移动即可实现实时分析,降低存储和传输成本,覆盖更多业务实时分析场景。那么 DMS+X 到底是如何构建出准确性如此之高的智能问数服务的呢?接下来为您详细揭晓:第二部分:Data+AI 行业应用 55 4.3.1 能力一:大小模型结合的智能问数服务 智能问数核
94、心技术架构是通过大模型实现意图、语义、验证相关工作,小模型进行Copilot能力推理,结合DMS主动元数据实现自动化的知识积累,大模型保证Copilot能力下限(65%+)的同时通过小模型不断提升上限(95%+)。大小模型结合使得生成式 AI 的整体成本可控、延迟较低、泛化能力强的同时准确率高。4.3.2 能力二:领域化的知识管理服务 第二部分:Data+AI 行业应用 56 DMS+X 提供强大的知识管理服务,通过对历史用户操作(SQL、功能使用等)、已有知识导入、字段注释等内容进行自动化的解析生成各类知识,实现主动的知识获取,这些知识有场景和领域属性,能够供管理人员进行优化调整,并会结合实
95、际服务情况进行自动优化,确保知识的准确性和自主维护性,领域知识库为智能问数提供强大的知识支持,冷启动效率提升 5 倍,知识管理成本下降 90%,服务准确性提升 100%。4.3.3 能力三:X 引擎 InDB ML 阿里云瑶池数据库自带 InDB ML 能力,内置模型创建、模型训练、模型状态监测、模型评估和模型推理能力,实现在线数据的模型训练和推理服务,并且内置了一系列机器学习和人工智能算法,包括分类算法、回归算法和聚类算法等。数据实现就近处理,大幅提升模型服务效率和实时性,同时无需数据移动,也能够降低由此产生的存储和传输成本。第二部分:Data+AI 行业应用 57 4.3.4 能力四:可自
96、定义编排的 LLM 工作流 DMS+X 托管开源大模型工具链 Dify,实现生态打通,提供白屏化的大模型工作流编排,支持用户结合实际诉求对大模型应用进行优化调整,串联从用户请求到意图识别模型再实现分发至多个应用执行链路的完整流程,为智能问数提供了无限可能,比如通过智能问数查询获得数据结果后自动触发后续的监控预警操作、处置动作等。4.4 总结与展望 阿里云 Data+AI 解决方案为 B 站猫耳 FM 实现智能问数服务,大幅降低分析门槛、数据交付效率提升 10 倍的同时实现低成本实时分析,赋能平台主播和运营人员实现自助取数和分析。在 DMS+X 4 大核心能力加持下,智能问数服务不仅实现准确率9
97、5%+,还能够降低数据存储和传输成本,并且可通过自定义编排的大模型应用实现自主优化,不断提升场景适配能力。未来,借助阿里云 Data+AI 解决方案的可自定义编排的 LLM 工作流以及不断提供的解决方案,不仅能够实现智能问数的拓展应用(各种运营动作触发或建议提供),还能够通过大模型方案解决企业经营的各项问题,从而提升经营效率,加速企业智能化转型,为企业发展带来新的动力。第二部分:Data+AI 行业应用 58 5.拥抱Data+AI|DMS+AnalyticDB助力钉钉AI助理,轻松玩转智能问数 5.1 公司及业务介绍 钉钉是一款由阿里巴巴集团推出的企业级通讯工具,旨在为企业提供一个高效、安全
98、的移动办公平台。它提供了多种功能,如即时通讯、视频会议、文件管理、考勤打卡等,帮助企业实现跨部门、跨地域的协同办公。在以“我的超级助理”为主题的钉钉7.5 产品发布会上,正式发布了基于 70 万家企业需求共创的 AI 助理产品,该产品的发布进一步推动降低了 AI 的使用门槛,让人人都能轻松创建自己的 AI 助理。钉钉 AI 助理的智能问数功能,在接入业务数据后可以跨越多个应用场景,查询和分析销售、差旅、人事等方面的经营数据。用户可以基于自己在钉钉沉淀的数据进行自由提问,官方预置的指令中心帮助用户低门槛快速上手正确的提问方式。通过对话式数据 AI,结合知识图谱、自然语言理解等能力,智能问数为企业
99、用户提供智能问答、智能推荐、预警归因等功能,帮助用户方便快捷地查找数据、简单直观地解读数据、智能深入地挖掘数据,实现人人都有自己的专属数据分析师,大幅提高数据查询及分析的效率。AI 助理智能问数场景 第二部分:Data+AI 行业应用 59 5.2 DMS+AnayticDB 支持智能问数场景 5.2.1 向量召回提升模型输出准确率 在智能问数场景中,如何在问答过程中准确定位实体(如分公司名称、部门名称、专有名词等)是一个难点问题。比如,管理者通过自然语言输入“帮我查看华东区域 xx产品第三季度业绩”,华东区域到底包含哪些分公司呢?又比如“查看产品部 Q1 绩效”,产品部在该企业内部全称是产品
100、设计及管理部。又比如产品 SKU 在企业内部有特殊代号,大模型无法识别这些特殊的代号。总体而言,结合企业专属数据提供贴近企业需求的 AI 服务难度是非常大的。因此,通过 AnayticDB for PostgreSQL 向量检索引擎对 10 亿+核心企业实体(企业名称、部门名称、员工名称、专有名词等)实现向量化,针对企业用户随意输入的问题通过向量检索召回最准确的企业实体,然后再结合大模型提供智能问答、智能问数等服务,大大提升了 AI 助理对实体的识别和大模型准确率。5.2.2 构建企业专属实体知识库 大模型虽然能解答普适性的问题,但在一些垂直领域上无法覆盖企业专属知识以及无法保障数据更新时效性
101、,导致大模型应用在企业中落地困难。企业可采用 DMS+AnayticDB for PostgreSQL 向量检索引擎构建企业专属知识库,对结构化、半结构化和非结构化数据通过 Embedding 向量化后存储到 AnayticDB for PostgreSQL 中。结合大模型推理服务,将企业私有数据融入到智能问答、智能问数、智能创造等大模型应用中。构建企业专属大模型知识库的步骤大致如下:1)数据预处理:在向量化之前需要对非结构化的文档、图片进行预处理,包括文档/图片解析、切块,预处理的质量会对问答召回和准确率有非常大的影响。2)Embedding:通过大模型的 Embedding 算法对预处理后
102、的数据块进行向量化,并将结果存储到向量数据库中。第二部分:Data+AI 行业应用 60 3)向量检索:大模型将用户的问题进行向量化后在向量数据库中进行向量检索和近似度计算,同时结合结构化的条件过滤进行权限和范围的限定 4)查询召回:大模型对向量检索的结果进行推理求解最终返回最接近问题的答案,因为语义检索的覆盖面可能不全,因此可以结合全文检索对答案进行补充。构建企业专属知识库 5.3 高度数据安全的 ChatBI 能力 企业可以在公共云上开启 AnayticDB for PostgreSQL 专属实例存储企业专属数据,通过 DMS 构建数据流程编排服务,实现业务逻辑的 ChatBI 编排和私域
103、精品 NL2SQL模型部署,满足不同企业对数据不出域的最高安全的要求。结合 AnayticDB for PostgreSQL 行/列级权限控制、动态数据脱敏、数据加密、SQL 审计等手段最大化保障企业数据安全。让企业在使用大模型应用服务带来的便捷性同时又无需担心私域数据安全性问题。第二部分:Data+AI 行业应用 61 5.4 DMS+AnalyticDB 优势特点 优势 1:一站式融合分析 用户只需要通过一条 SQL 即可实现结构化数据分析、向量分析和全文检索三者融合,实现多路召回。优势 2:社区合作紧密 AnalyticDB for PostgreSQL 结合 DMS,通过 OneMet
104、a+OneOps 可以部署并实现数据的全域管理,数据开发,模型推理服务及开源的 dify 框架,进行端到端的Data+AI 流程编排。优势 3:功能完善,性能极致 支持向量数据流式导入,索引压缩,事务,和各类相似度算法。较比同类产品有更高的写入吞吐和查询性能。第二部分:Data+AI 行业应用 62 优势 4:解决方案丰富 DMS+X 提供从文档解析、Chunk、Embedding、向量近似度计算、检索全套OpenAPI 服务,让用户快速落地。提供 DMS 之上的 Data+AI 能力的开箱即用和 Dify 的一键部署方式,在 10 分钟内一键构建企业专属大模型和向量数据库,快速搭建企业级 G
105、en-AI 应用。支持构建图搜图、文搜图等产品化解决方案。优势 5:精品 NL2SQL 模型 开箱即用:自识别用户数据库元数据,实现开箱自助分析。大小模型融合:创新性地使用大模型分析用户意图,小模型准确 SQL 生成的融合形态,实现更精准的服务。数据私域安全保障:全数据链路及推理服务私域部署,实现数据不出域,保障企业数据安全,DMS 自研 NL2SQL 模型提供了 3 个等级的准确率。效果可持续优化:结合持续学习、历史记录标注、RAG 干预等方式,实现准确率可调优;目前提供了 3 个等级的 NL2SQL 的模型能力。第二部分:Data+AI 行业应用 63 5.5 总结与展望 钉钉 AI 助理
106、通过采用 AnayticDB 向量检索引擎构建企业专属知识库,结合大模型推理服务,将企业私有数据融入到智能问答、智能问数、智能创造等应用中,并通过 DMS构建数据流程编排服务,实现业务逻辑的 ChatBI 编排和私域精品 NL2SQL 模型部署,满足不同企业对数据不出域的最高安全的要求。钉钉 AI 助理目前已累计服务了上千客户,涉及零售、互联网、物流、交通等多个行业。Data+AI 为企业提供了新的增长途径,企业必须认识到 Data+AI 的重要性,并将其作为战略实施重点。通过将 Data+AI 融入核心业务,企业能够更好地挖掘数据价值,优化运营流程和决策机制,从而促进智能化转型,显著提升市场
107、竞争力。未来,借助阿里云 Data+AI 解决方案的可自定义编排的 LLM 工作流以及不断提供的解决方案,不仅能够实现智能问数的拓展应用,还能够通过大模型方案解决企业经营的各项问题,从而提升经营效率,加速企业智能化转型,为企业发展带来新的动力。第三部分:Data+AI 云栖发布 64 第三部分:Data+AI 云栖发布 1.云栖大会|数据库与 AI 全面融合,迈入数据智能新纪元 在 2024 年云栖大会 数据库与 AI 融合 专场,来自 NVIDIA、宇视科技、合思信息、杭州光云科技、MiniMax 的知名企业代表和阿里云瑶池数据库团队的产品&技术专家,深入真实场景实践,共同分享了 Data+
108、AI 全面融合的最新技术进展。1.1 跨云数据管理平台 DMS:构建 Data+AI 的企业智能 Data Mesh 阿里云智能集团数据库产品事业部 AnalyticDB PostgreSQL 及生态工具部负责人 周文超 第三部分:Data+AI 云栖发布 65 阿里云智能集团数据库产品事业部 AnalyticDB PostgreSQL 及生态工具部负责人周文超在演讲中重磅发布 Data+AI 一站式数据智能 DMS 的跨云统一开放元数据OneMeta 和智能开发 OneOps,包含一站式 Data+AI 开发 Notebook 和 Copilot、AI 模型服务 MLOps 等最新能力。深度
109、解析如何借助跨云湖仓一体化以及数据智能一体化,帮助企业构建跨云 Data Mesh 革新架构,实现数据无缝流动,智能计算和治理的敏捷落地,赋能企业快速步入 AI 驱动的时代。阿里云瑶池推出云数据库运维技术图书 此外,阿里云瑶池数据库团队重磅推出云数据库运维技术图书。该书是面向云数据库用户的专业书籍,覆盖从入门到精通的全面指导。书中从基本概念入手,逐步介绍云计算时代下,数据库运维的核心原理、平台构建、生命周期管理、安全体系、使用策略、管理与稳定性保障、问题诊断、性能优化、灾难恢复、云数据仓库及 NoSQL数据库运维实践,以及数据高速通道实现和智能运维趋势。无论是数据库管理员、开发者还是 IT 经
110、理,本书均能给予宝贵见解和实用操作指南。第三部分:Data+AI 云栖发布 66 宇视科技运维部部长 陈津扬 随后,宇视科技运维部部长陈津扬介绍了宇视通过 DMS 跨云、多模数据的统一管理,开放、兼容的元数据服务,Data+AI 统一数据治理能力构建新一代数智管理平台,并详细介绍平台中数据地图、数据治理、数据合规、Data Copilot、Data Fabric 等核心功能和技术能力。借助数据管理平台 DMS,宇视实现管理成本下降 90%、平台稳定性提升 10 倍、开发效能提升 20 倍。第三部分:Data+AI 云栖发布 67 1.2 AI 时代下的 PolarDB:In-DB 一体化模型训
111、练与推理服务 阿里云智能集团数据库产品事业部高级产品专家 贾新华 在AI 时代下的 PolarDB:In-DB 一体化模型训练与推理服务主题分享中,阿里云智能集团数据库产品事业部高级产品专家贾新华介绍了 PolarDB 积木架构,通过启动若干个 AI 节点获得 In-DB 一体化的模型训练和推理服务。PolarDB 支持基于交易数据构建自定义模型(MLOps)和直接使用内置的通用模型(如 ChatBI、通义千问、RAG 等)。MLOps 通过 SQL 即可完成基于数据库内数据的模型训练、评估和推理,降低了 AI 使用门槛和成本,如某游戏公司基于用户行为日志数据训练消费预测模型,广告投量效率提升
112、 50%+。ChatBI 支持客户基于结构化和非结构化数据建立自己的知识库和智能问答机器人,如雅迪电动车基于 ChatBI开发面向一线销售的智能营销机器人,一线销售以自然语言问询库存、供应链、营销等实时数据,极大地提升了一线销售的工作效率。第三部分:Data+AI 云栖发布 68 合思信息数据库研发总监 刘桐烔 合思信息数据库研发总监刘桐烔在演讲中提到:PolarDB for AI 赋能对话机器人,能够显著提升客户响应效率。合思在业务部署的过程中需要提前收集客户安全问卷数据,以前都需要运营人工填写,工作量大。合思信息通过 Polar for AI 的文本向量化算子、聚类算子,自动填写答案,让智
113、能机器人成为填写问卷的主要力量,提升效率,释放人力。同时,合思信息利用 PolarDB for AI 的向量检索、全文检索能力和大语言模型推理能力,不依赖其他外部组件的情况下就搭建一套 RAG 系统,在确保数据安全的同时,通过提升其检索和智能分析能力,使得知识充分释放潜在价值,工单响应时长缩短85%。第三部分:Data+AI 云栖发布 69 1.3 AnalyticDB PostgreSQL 版:Data+AI 时代的企业级数据仓库 阿里云智能集团数据库产品事业部资深技术专家 印才华 阿里云智能集团数据库产品事业部资深技术专家印才华分享了 AnalyticDB 高性能实时数仓的整体架构,一站式
114、 RAG 解决方案的核心技术,In-Database AI/ML 的应用场景以及最新特性能力,全方位解析了 Data+AI 时代的企业级数据仓库 AnalyticDB提供数据分析和 RAG 解决方案背后的关键能力和核心技术。第三部分:Data+AI 云栖发布 70 杭州光云科技 CTO 王祎 光云科技 CTO 王祎介绍了 AnalyticDB PostgreSQL 在电商 SaaS 领域实时数仓和 AI的最佳实践。他表示:“AnalyticDB 承载了光云海量数据的实时在线分析,为各个业务线的商家提供了丝滑的数据服务,实时物化视图、租户资源隔离、冷热分离等企业级特性,很好的解决了 SaaS 场
115、景下的业务痛点,也平衡了成本。同时也基于通义+AnalyticDB 研发了企业级智能客服、智能导购等行业解决方案,借助大模型和云计算为商家赋能。”第三部分:Data+AI 云栖发布 71 1.4 Lindorm:基于多模数据服务的一站式智能检索基础设施 阿里云智能集团数据库产品事业部 NoSQL 产品负责人 张为 阿里云智能集团数据库产品事业部 NoSQL 产品负责人张为进行了题为Lindorm:基于多模数据服务的一站式智能检索基础设施的精彩演讲,回顾和分析了 AI 大模型如何推动智能检索的发展,讨论了构建智能检索 RAG 系统所具备的技术特点和挑战,介绍了 Lindorm 一站式智能检索基础
116、设施,通过提供一站式的数据清洗、多路召回、全文检索、向量检索、AI 推理等特性,帮助 AI 应用开发者构建基于大语言模型的对话类智能检索应用。第三部分:Data+AI 云栖发布 72 MiniMax AI Infra 技术专家 焦恩伟 MiniMax AI Infra 技术专家焦恩伟发表了题为MiniMax Data Infra 在 AI 场景下的探索的深刻演讲。作为一家领先的通用人工智能科技公司,MiniMax 自研了万亿参数的 MoE 文本大模型、语音大模型和图像大模型,展现出其在 AI 技术领域的雄心。基于这些大模型,MiniMax 推出了如星野、海螺 AI 等原生应用,并为企业和开发者
117、提供开放平台的 API 服务。MiniMax 基础架构基于 Lindorm 海量规模的存储能力、高性能的全文-向量双路召回能力构建了新一代的 AI 搜索基础设施,与数据湖一起构建了一条训练与搜索统一的数据基础设施,是模型训练和对齐过程中的关键环节。第三部分:Data+AI 云栖发布 73 1.5 Tair:基于 KV 缓存的推理加速服务 阿里云智能集团数据库产品事业部高级技术专家 王正恒 阿里云智能集团数据库产品事业部高级技术专家王正恒在现场介绍了云数据库 Tair提供的推理加速服务。该服务是阿里云首个基于 NVIDIA TensorRT-LLM 的推理缓存加速云数据库产品。针对快速增长的大模
118、型推理需求,Tair 采用 NVIDIA TensorRT-LLM 进行了深度优化。在 In-flight batching、Paged Attention 等技术的基础上,结合 TensorRT-LLM 的Prefill/Decoding 分离技术,并通过存储池化将 LLM 推理过程中占用大量显存资源的 KVCache 卸载到远端,大幅加速超长和重复上下文场景。相比开源方案,该服务通过 KVCache 池化,预计成本降低 20%,PD 分离/调度优化吞吐预计提升 30%,软硬协同优化 Context Cache TTFT(首 token 延时)预计降低 30%*注。第三部分:Data+AI
119、云栖发布 74 NVIDIA GPU 计算专家团队高级经理 季光 NVIDIA GPU 计算专家团队高级经理季光博士带领大家深入了解 NVIDIA TensorRT-LLM 在推理加速上的工作,介绍了 TensorRT-LLM 的高性能特点,支持多模型,Weight/Activation/Cache 的量化,Tensor 和 Pipeline 的并行调度,In-flight Batching 服务化等多种特性,同时提供开箱即用的能力。*注:基于 Qwen2 7B 模型在长上下文场景构造实验环境数据测试,最终效果以实际产品和场景测试数据为准。第三部分:Data+AI 云栖发布 75 1.6 数据
120、库自治服务 DAS:云数据库高效运维的最佳拍档 阿里云智能集团数据库产品事业部产品专家 王斌 在数据库自治服务 DAS:云数据库高效运维的最佳拍档主题演讲中,阿里云智能集团数据库产品事业部产品专家王斌重点介绍了数据库自治服务 DAS 的全新定位,通过模型学习人工运维经验,构建数据库智能运维大模型,实现数据库自修复、自防护、自优化的运维云服务,并全新发布了数据库安全检测与运维能力。第三部分:Data+AI 云栖发布 76 2.云栖大会|从数据到决策:AI 时代数据库如何实现高效数据管理?在2024云栖大会 海量数据的高效存储与管理 专场,阿里云瑶池讲师团携手AMD、FunPlus、太美医疗科技、
121、中石化、平安科技以及小赢科技、迅雷集团的资深技术专家深入分享了阿里云在 OLTP 方向的最新技术进展和行业最佳实践。阿里云数据库产品事业部 PolarDB MySQL 及 PostgreSQL 负责人 杨辛军 在开篇演讲中,阿里云数据库产品事业部 PolarDB MySQL 及 PostgreSQL 负责人杨辛军分享了 PolarDB 多个重要发布。包括:PolarDB 的存储底座再升级,在其PolarStore Deepsea 版本,存储量提升 100 倍至 1 PB,读写性能延迟降低 3 倍至30 微秒,大幅领先普通云盘超 6 倍。提供软硬一体化压缩,平均压缩率到 5 倍。此外,他还详细解
122、读了 PolarDB 多主多写、Serverless 两个重要功能,这两个功能分别在世界顶级数据会议 ACM SIGMOD,IEEE ICDE 上斩获中国及亚洲第一个工业赛道最佳论文奖。同时,PolarDB 在 AI 浪潮下,也积极提供用户 AI 相关的能力,帮助用户充分利用数据,进行场景化模型的训练和推理,帮助用户进行信息挖掘和有效第三部分:Data+AI 云栖发布 77 决断。FunPlus 运维负责人 刘宗庆 在分享游戏全生命周期上云方法论的过程中,FunPlus 运维负责人刘宗庆从兼容性、极致性能、弹性拓展、备份与恢复、高可用性及容灾等多个角度,详细阐述了 PolarDB 在游戏场景中
123、的全面优化优势,以及如何支持游戏业务的快速迭代和无缝扩展。目前,Funplus 的多款热门游戏都采用 PolarDB MySQL 作为持久化数据库。凭借分布式存储和多线程技术,PolarDB 提供超大 IO 读写带宽,确保玩家在高峰期能够流畅地进行存档和回档。第三部分:Data+AI 云栖发布 78 太美医疗科技副总裁 黄玉飞 太美医疗科技副总裁黄玉飞在太美医疗:PolarDB 助力医药研发数据安全应用的分享中结合太美自身业务实践,具体形象的阐述了 PolarDB 为太美在技术以及业务领域所带来的提升。在医药研发场景下,除了在技术上需要保证高可用、弹性扩展、完全兼容 MySQL、性价比高等特点
124、之外,还需要满足临床数据的严格的 ALCOA+规范化要求,以及逻辑核查准确性、业务数据锁库、业务数据回退等行业业务需求。借助 PolarDB 在高性能全局一致性、闪回查询、数据生命周期管理、透明加密、动态脱敏等方面的特性,一方面帮助客户解决了上述业务场景的需求以及数据合规管理的要求,另一方面提供了稳定、高效、高性价比的数据库平台支撑了太美医疗整体业务。在分享最后,黄总也希望未来能够在 Serverless、HTAP 以及全球化应用等方面与PolarDB 有更深入的合作。第三部分:Data+AI 云栖发布 79 阿里云数据库产品事业部资深产品专家 张广舟 阿里云数据库产品事业部资深产品专家张广舟
125、在PolarDB PostgreSQL 版:商业数据库替换与企业上云首选演讲中,介绍了 PolarDB PostgreSQL 版在 Serverless、性能、成本、多模等方面的特性更新。Serverless 方面,PolarDB 实现了横向和纵向的弹升能力,可以秒级扩展节点资源,同时按需扩展节点数量。性能方面,最近一年OLTP 性能提升 30%以上;借助向量化加速引擎,分析型查询性能提升一个数量级。成本方面,发布了硬件压缩、冷热数据自动分层能力。多模方面,添加了向量、时序及图数据的处理引擎,降低了应用开发成本。另外,PolarDB PostgreSQL 版还增强了 Oracle 兼容性,推出
126、了轻量化输出形态,符合安全可信要求,可以软件化输出、单台起建,方便客户部署和使用。PolarDB 已经成为越来越多企业客户上云和商业数据库替换的首选。第三部分:Data+AI 云栖发布 80 阿里云数据库产品事业部 PolarDB 分布式版负责人 黄贵 在PolarDB 分布式版:与云融合的分布式数据库发展新阶段主题分享中,阿里云数据库产品事业部 PolarDB 分布式版负责人黄贵表示:“自服务阿里集团核心业务以来,PolarDB 分布式版走过了分布式中间件到一体化分布式数据库阶段,正迈向云原生分布式数据库阶段。集中分布式一体化的能力利用云基础设施的资源池获得充分的弹性,降低用户使用门槛,随着
127、用户业务的规模伸缩。零售以及电商中台等 SaaS应用更是利用 PolarDB 分布式的资源隔离特性将不同租户动态分配的独立的资源池中,保证互不影响。”PolarDB 分布式提供了默认多可用区容灾的能力,保证 RPO=0 的同时服务秒级切换;支持跨地域的容灾与多活帮助企业级用户跨域业务永不停机的服务能力;引入了实时同步的列存副本加速复杂查询(TPCH 100GB 相对行存 6.5 倍性能提升),透明添加列式只读节点支持事务与分析的一体化服务,利用列存副本的超强压缩能力,与 TTL 行级归档特性,将用户的历史数据进行自动归档,最大可降低存储成本 20 倍。第三部分:Data+AI 云栖发布 81
128、中国石油化工集团有限公司冠德数智开发部总负责人 杨毅 中国石油化工集团有限公司冠德数智开发部总负责人杨毅在题为数字化转型战略下的新一代零售中台建设思考强调,中台业务之所以必须选择分布式数据库,原因有二:Share-nothing 分布式数据库的整体高可用性是主要考量,由于数据分布在不同节点,每个节点的数据副本部署于不同机房,所以分布式数据库的整体可用性更高;分布式数据库的扩展性能轻松应对海量数据存储与瞬时高并发访问也是中台业务必须选择分布式数据库的原因之一。他列举了石化销售公司围绕打造世界一流“油气氢电服”综合能源服务商的目标过程中使用 PolarDB-X 解决对实际问题,如使用全局二级索引(
129、GSI)实现异构查询;使用冷数据归档进行海亮存储资源降本等。杨毅在中石化零售中台的展望环节中提到,容灾多活是下一步的建设目标,PolarDB-X 的高级容灾能力是当前的不二选择。第三部分:Data+AI 云栖发布 82 阿里云数据库产品事业部 RDS 及开源 OLAP 负责人 彭祥 会上,阿里云数据库产品事业部 RDS 及开源 OLAP 负责人彭祥分享了云数据库 RDS的最新技术与产品演进,重点聚焦于云原生数据库存储的演进和 RDS 的开放形态。随着云原生数据库架构的持续优化,阿里云 RDS 通过冷温热数据分层存储的理念,推出了 RDS 通用云盘,以支持更高性能、更低成本和更好弹性的产品。同时
130、,借助对MySQL 和 PostgreSQL 内核的深度改造,并与云基础设施和服务紧密结合,推出了基于对象存储的全量数据管理能力 RDS On OSS,使事务型数据库 MySQL 和 PostgreSQL 能够完全依赖对象存储进行用户数据管理,提供了更具性价比的选择。此外,RDS 的开放形态 RDS Custom 使用户能够更方便地管理云上及云下 IDC 的数据服务,实现用户现有数据架构与 RDS 托管服务的无缝集成,提升了业务架构的灵活性。这一形态的推出不仅提高了用户开发效率,还使企业能够根据自身需求快速迭代和创新。通过这些技术进步,阿里云 RDS 在满足企业对高可用性和可扩展性要求的同时,
131、也为数字化转型提供了强有力的支持。总体而言,RDS 在技术与产品上的持续演进标志着云数据库未来的发展方向,助力企业实现更高效的业务运营。第三部分:Data+AI 云栖发布 83 平安科技数据库总工程师 汪洋 平安科技数据库总工程师汪洋在分享 金融场景下对于关系型数据库的要求 中提到,金融数据库当前最重要的 4 个要求是:业务连续性、数据安全、可运维性、降本增效,基于平安科技在数据库多年实践,从高可用、系统容灾、数据安全、可观测性、综合成本等多维度深入解读了大型金融机构对数据库的严苛要求。平安科技利用阿里云 RDS、PolarDB 等数据库产品构建了普惠金融系统,实现了业务0 停机迁移和综合成本
132、的显著下降。第三部分:Data+AI 云栖发布 84 阿里云数据库产品事业部高级技术专家 胡庆达 阿里云服务器研发高级技术专家 汪堃 第三部分:Data+AI 云栖发布 85 阿里云数据库产品事业部高级技术专家胡庆达和阿里云服务器研发高级技术专家汪堃 在软硬联合创新:打造极致压缩比的高性能瑶池数据库演讲中介绍了 PolarDB 在软硬联合创新方面的进展。他表示,PolarDB 通过软硬协同演进,PolarStore 升级为DeepSea,DeepSea在大幅优化了数据库成本的同时显著提升了数据库的性能,并通过云计算的方式,将新硬件新技术分享给客户。例如:新一代SmartSSD 3.0,在Sma
133、rtSSD 2.0的基础上进一步优化了成本和性能,最高提供 4 倍的硬件压缩比,并支持租户级别的硬件加密能力。基于 SmartSSD 3.0,DeepSea 打造了双层软硬协同压缩方案,基于 DeepSea 的 PolarDB MySQL 和PG,在压缩比和性能方面全面领先于基于 LSM-Tree 的竞品数据库,并提供了 PB 级的存储规模扩展性。新一代持久化内存 AliSCM,在延迟接近传统内存的情况下提供了持久化的能力。基于 AliSCM,PolarDB DeepSea 构建了混合分层内存池,提供了 ECA 弹性缓存加速器的能力,数据库写操作在 AliSCM 形成三副本后即可返回,读操作命
134、中 ECA 后即可返回,数据读写延迟大幅下降。AMD 服务器产品线高级产品经理 宋学红 第三部分:Data+AI 云栖发布 86 AMD 作为全球领先的半导体公司,专注于打造领先的高性能和自适应计算产品,提供包括 CPU,GPU,FPGA,自适应 SOC 和 DPU,以及专业的软件支持,为云、边缘和终端设备提供领先的 AI 计算平台。AMD EPYC CPU 为 AI 的算力提供有力保障,基于阿里云数据库也在着力从数据到智能的变换,AMD 服务器产品线高级产品经理宋学红在会上发表题为AMD EPYC 全面赋能阿里云数据库的主题演讲,展示了EPYC CPU 的技术演进,领先的技术创新,产品路标,
135、架构设计,产品规格,更好的性能表现。在第四代 EPYC CPU Genoa 上和阿里云深度合作,借助于新一代 EPYC更高核心密度,更高性能,更安全,全面支持阿里云数据库实现性能大幅提升,从AnalyticDB、PolarDB、RDS 到阿里云瑶池数据库的全面产品支撑,为阿里云瑶池实现从数据到智能的云原生数据库提供更高性能的基础设施。小赢科技运维总监 李斌 小赢科技运维总监李斌在演讲中分享了 PolarDB 在金融科技行业的最佳实践。他表示,金融科技行业数据量大,存在亿级大表 JOIN 复杂分析查询、大存储和弹性伸缩的需求,PolarDB 的列存索引 IMCI 在复杂查询场景性能提升 30-1
136、00 倍,搭配Serverless 在业务波峰时段可以按需无感弹升,极大的提升了用户体验,也平衡了使第三部分:Data+AI 云栖发布 87 用成本。金融行业对数据一致性有强要求,PolarDB SCC 高性能强一致特性解决了只读库延时导致读不一致的问题,在数据延迟敏感的金融交易业务中性能得到了进一步提升。金融科技行业有海量的历史数据,X-Engine 高压缩引擎+PolarStore PSL4 硬件压缩,相比 MySQL 压缩了 11 倍,而且支持在线实时查询,极大的降低了历史数据存储和使用成本。阿里云数据库产品事业部高级产品专家 许鸿斌 阿里云数据库产品事业部高级产品专家许鸿斌在瑶池数据库
137、容灾体系:助力数据业务持续在线的主题演讲中提到,瑶池数据库提供了多层级容灾体系,可助力企业快速构建数据级-应用级-业务级的容灾能力。应对机房级故障,阿里云瑶池跨多个可用区部署的实例可提供秒级 RTO 及 RPO=0 的保障;应对机房所在城市发生地域级故障,瑶池提供的跨地域容灾实例,可实现分钟级的 RPO 及 RTO 保障。同时基于瑶池全球多活数据库能力,可快速构建单元化、全球化业务。企业可根据具体业务属性,在瑶池数据库多层级容灾架构上进行灵活选择,支撑数据业务持续在线。第三部分:Data+AI 云栖发布 88 迅雷集团运维经理 陈震宇 迅雷集团运维经理陈震宇在迅雷集团 RDS 异地多活实践的分
138、享中介绍:“在应用层上,迅雷进行了业务单元化的服务改造,按属性划分了:核心业务单元、共享业务单元、全局单元。在数据层上,针对不同的业务单元,迅雷利用 RDS MySQL 全球多活容灾的产品能力进行了灵活的形态适配,完成了两地三中心架构的全面改造。不仅实现了分钟级的 RTO、高质量的数据保护、业务就近访问,还有效提升了核心系统的连续性和安全性,展示了迅雷在容灾多活建设上的深入探索和创新实践。”第三部分:Data+AI 云栖发布 89 3.云栖大会|多模+一体化,构建更高效的 AI 应用 在 2024 年云栖大会NoSQL 数据库专场,来自极氪汽车、知乎、宜人智科、智慧星光的知名企业代表和阿里云瑶
139、池数据库团队的产品&技术专家,共同分享了阿里云瑶池旗下的云原生多模数据库 Lindorm、云数据库 Tair、云数据库 MongoDB 和MyBase 的最新技术进展与最佳实践。3.1 云数据库 Tair:从稳定低延时缓存到 Serverless KV 阿里云智能集团数据库产品事业部资深技术专家 朱国云 Tair 是阿里云的高性能分布式缓存和 KV 数据库,它在兼容 Redis 的基础之上具备大量的企业级能力。阿里云智能集团数据库产品事业部资深技术专家朱国云在云数据库 Tair:从稳定低延迟缓存到 Serverless KV中介绍了 Tair 通过多年在缓存和 KV场景的打磨,基于自研内核优势
140、并结合无感弹性等产品能力,解决了客户在使用 Redis第三部分:Data+AI 云栖发布 90 开源版中遇到的性能瓶颈、超时抖动、运维难度大等痛点。同时,Tair 发布了 Serverless KV 服务,该服务一方面可支撑兼容 Redis 的在线 KV场景,是具备高可靠性及快速弹性能力的数据库;同时可帮助大模型实现推理加速,这也是阿里云首个基于 NVIDIA TensorRT-LLM 的推理缓存加速云数据库产品,针对快速增长的大模型推理需求,Tair 采用 NVIDIA TensorRT-LLM 进行了深度优化。本次发布,也是 Tair 从互联网场景的缓存加速服务到 AI 大模型场景的在线推
141、理缓存加速的一次重要演进。宜人智科资深研发工程师 王庆华 宜人智科资深研发工程师王庆华在精准投放与降本增效:RTA 广告系统在金融信贷行业的应用的分享中提到,RTA 为高效、支持实时决策的广告系统,该系统对数据库的性能、稳定性、弹性、存储成本均有较高要求。在使用 Tair 持久内存型后,宜人智科的 RTA 系统实现了数据库架构的精简,将缓存搭配持久化数据库的架构简化为仅使用 Tair,实现业务逻辑的优化。基于 Tair 持久内存型的高性价比优势,RTA 系统的特征数据加至 10TB,广告投放的准确度与转化率均得到提升。同时,得益于 Tair内置的扩展型数据结构 Tair Roaring 的高压
142、缩比及复杂计算的支持,人群圈选系统能第三部分:Data+AI 云栖发布 91 够将大量复杂计算由业务层下沉至 Tair,使整个 RTA 链路的性能得到 50%的提升。3.2 Lindorm:AI 和具身智能时代的海量多模数据服务 阿里云智能集团数据库产品事业部资深技术专家 沈春辉 伴随 AI 和具身智能场景的快速发展,数据库系统面临着新时代的挑战,传统针对时序、轨迹、向量、文本、标签等不同数据使用不同数据库产品的组合方案,不仅架构复杂、维护困难、成本高,更减缓了 AI 业务的创新迭代效率。阿里云智能集团数据库产品事业部资深技术专家沈春辉在Lindorm:AI 和具身智能时代的多模数据服务分享中
143、提到:基于此,阿里云自主研发了新一代多模数据服务Lindorm,通过云原生、多模融合、分布式的架构设计,以及行存、列存、倒排、向量等全维度的索引技术,使用一个产品实现海量多模态数据的查询、检索和分析需求,可以帮助用户提升 2 倍研发效率,减少 90%成本,已成为极氪汽车、MiniMax 等诸多头部客户构建车联网平台、AI 智搜的关键设施。第三部分:Data+AI 云栖发布 92 智慧星光数据研发与创新平台总经理 朱玉林 智慧星光数据研发与创新平台总经理朱玉林分享了 Lindorm 在智慧星光舆情大数据分析的最佳实践。他表示,舆情监测场景中,需要融合处理、分析和理解多模态数据(如文本、图像、音频
144、、视频等),行业普遍存在数据难聚合、数据难用好、场景难匹配的痛点。过去,智慧星光主要使用自建开源 ElasticSearch 来满足数据检索需求,但随着数据规模增大,向量检索延迟高、扩容速度慢、运维复杂等成为业务发展的痛点。智慧星光通过 Lindorm 的正排、全文、向量多模融合检索能力,实现一站式存储和处理舆情大数据,向量搜索性能提升4倍,扩容速度提升至秒级,整体性价比提升50%+。第三部分:Data+AI 云栖发布 93 极氪智能科技数字发展中心大数据资深架构师 周豪峰 极氪智能科技数字发展中心大数据资深架构师周豪峰在分享 极氪汽车基于 Lindorm多模一体加速业务创新中提到,基于车联网
145、典型的上万车辆信号数据、数据多、时效高、成本高、潮汐明显等特征和汽车出海多云部署背景,极氪车联网数据平台(VDP)借助 Lindorm 多模湖仓一体化架构,实现多云异构异源多组件融合和联邦分析,通过构建统一对外数据查询视图以及算子层查询优化加速,屏蔽底层数据组件差异和多云环境差异,最大化复用已有数据资产,实现取数用数效率极大提升,做到一次开发全球发布。同时利用 Lindorm 兼容开源生态的开放存储计算能力,叠加高压缩比、自动冷热分离、Serverless 弹性以及一站式 Zero-ETL,实现成本最优。第三部分:Data+AI 云栖发布 94 极氪智能科技软件及电子中心数字架构技术专家 陈小
146、宇 来自极氪智能科技软件及电子中心数字架构技术专家陈小宇带来了 Lindorm 多模提效极氪车联网端云协同端云一体化方案的精彩分享。随着整车硬件架构向集中式演变,软件也从“信号导向”向“服务导向”转变,车联业务更加多元化,如:灵活数采、智能诊断等。对云边协同计算提出更高数字化、智能化要求,通过在云端不断创新业务,赋能边端计算。在车端日志&信号数据诊断场景,基于 Lindorm 一体化多模计算、低成本存储、生态兼容、弹性 Serverless 等能力构建车机数据分析共享服务,实现分钟级处理日新增100 亿数据规模,数据开发效能提升 2 倍,云端成本降本 50%,做到业务数据价值不断提升和多云同构
147、全球化发布,未来将基于 Lindorm AI 能力持续挖掘数据价值。第三部分:Data+AI 云栖发布 95 3.3 MongoDB 云原生化:为企业开发注入高效动力 阿里云智能集团数据库产品事业部高级技术专家 付秋雷 阿里云智能集团数据库产品事业部高级技术专家付秋雷发表了 MongoDB 云原生化:为企业开发注入高效动力 精彩演讲,详细分享了阿里云 MongoDB 如何借助云原生技术为企业提供高效的开发解决方案,从而实现 1+12 的效果。他强调,云原生技术使 MongoDB 具备了更可靠、更灵活、更安全、更强大的备份恢复和智能运维能力等优势,为企业的业务变化提供更好的支撑。阿里云与 Mon
148、goDB 已联合为互联网、游戏、交通物流、制造、汽车、零售等多个行业的数万名用户提供云服务,助力个人和企业实现高效开发、加速创新,并为业务发展提供强有力的支持。第三部分:Data+AI 云栖发布 96 3.4 知乎:MongoDB 超级集群上云之路 知乎数据库运维总监 代晓磊 知乎数据库运维总监代晓磊详细分享了知乎自建超级分片集群上云之路。他提到,自建 MongoDB 通常会遇到弹性扩容差、数据备份难、开源疑难难解以及运维人力投入大等问题。云原生技术很好的解决了上述问题,借助阿里云 MongoDB,知乎实现了超级集群平滑上云,解决了自运维 MongoDB 过程中的稳定性和备份灵活性等问题,帮助
149、知乎实现了增效降本。第三部分:Data+AI 云栖发布 97 3.5 MongoDB 8.0 新特性前瞻 MongoDB 专业服务总监 唐峰 MongoDB 专业服务总监唐峰介绍了 MongoDB 8.0 的最新特性及其在关键业务应用中的应用。他强调,MongoDB 始终致力于简化现代应用的开发,尤其是在实时数据处理领域,通过创新驱动平台的持续进化。MongoDB 8.0 预览版的发布标志着 MongoDB 在弹性、可扩展性、安全性和性能方面的又一次重大突破,将为开发者提供强大的工具,助力他们开发关键应用,推动业务持续增长。第三部分:Data+AI 云栖发布 98 3.6 从 Redis 到
150、Tair:开源工具的最佳实践 阿里云智能集团数据库产品事业部技术专家 杨博东 阿里云智能集团数据库产品事业部技术专家杨博东分享了阿里云为了从 Redis 迁移到 Tair 所准备的一系列开源工具,随着 Redis 的闭源,Tair 成为了阿里云上替换 Redis的最佳产品,Tair 也将持续贡献开源生态,和客户共赢。第三部分:Data+AI 云栖发布 99 3.7 MyBase:打破云边界,构建云边端一体的 DBaaS 服务 阿里云智能集团数据库产品事业部资深技术专家 徐东来 阿里云智能集团数据库产品事业部资深技术专家徐东来介绍了阿里云瑶池数据库旗下的 MyBase One,旨在打破云边界,提
151、供云边端一体化的数据库 DBaaS 服务。面对多云和混合云的需求,MyBase One 支持将阿里云数据库快速部署到用户 IDC、边缘站点及第三方 IaaS 上,提供与公共云兼容的 API 和图形化管理功能。该产品具备灵活部署、统一资源抽象、可插拔管控和高效引擎接入能力,为客户带来自主可控、主权合规和跨云容灾的价值。通过轻量交付、一键升级和远程运维等功能,MyBase One 助力客户在已有 IaaS 上构建和使用阿里云数据库服务。第三部分:Data+AI 云栖发布 100 4.云栖重磅|从数据到智能:Data+Al 驱动的云原生数据库 在 9 月 20 日 2024 云栖大会上,阿里云智能集
152、团副总裁,数据库产品事业部负责人,ACM、CCF、IEEE 会士(Fellow)李飞飞发表从数据到智能:Data+AI 驱动的云原生数据库主题演讲。他表示,数据是生成式 AI 的核心资产,大模型时代的数据管理系统需具备多模处理和实时分析能力。阿里云瑶池将数据+AI 全面融合,构建一站式多模数据管理平台,以数据驱动决策与创新,为用户提供像“搭积木”一样易用、好用、高可用的使用体验。第三部分:Data+AI 云栖发布 101 为满足企业用户在多云多端环境下对元数据统一管理的需求,促进数据自由流动,阿里云瑶池在会上重磅发布由 Data+AI 驱动的多模数据管理平台 DMS:OneMeta+OneOp
153、s,通过统一、开放、多模的元数据服务实现跨环境、跨引擎、跨实例的统一治理,可支持高达 40+种数据源,实现自建、他云数据源的无缝对接,助力业务决策效率提升 10 倍。第三部分:Data+AI 云栖发布 102 4.1 打通底层元数据,打造面向“Data+AI”的一站式多模数据平台 由于灵活性、成本、业务连续性等综合因素,当前近 80%的企业在建设数据平台时开始采用多种数据引擎、多数据实例组合的策略。随着 AI 兴起、非结构化数据的指数级增长,多云数据的管理难度加剧,企业也对数据的高效检索和分析提出了更高的要求,元数据管理能力成为协调跨环境、跨引擎、跨实例资源的核心要素。为此,阿里云瑶池数据库在
154、会上正式推出由 Data+AI 驱动的多模数据管理平台 DMS:OneMeta+OneOps,以更好地满足大模型时代的用数需求。面向智能营销、企业级RAG 智能大脑和智能搜索等应用场景,该平台可提供规模化、精细化的元数据管理服务,助力构建企业智能 Data Mesh(数据网格)。自上线以来,DMS 已服务超过 10 万+企业客户。借助跨引擎、跨实例管理和开发以及数据智能一体化,DMS:OneMeta+OneOps 将帮助企业从分散式数据治理升级至开放统一数据智能管理,实现革新性的智能 Data Mesh 架构,进而可降低高达 90%的数据管理成本,业务决策效率提升 10 倍。据介绍,DMS 创
155、新设计了统一、开放、跨云的元数据服务 OneMeta 及 DMS+X 的多模联动模式 OneOps。其中,OneMeta 首次打通不同数据系统,可支持全域 40+种不同数据源,支持他云、自建数据源无缝对接,提供数据血缘和数据质量的一站式Data+AI 数据治理。第三部分:Data+AI 云栖发布 103 OneOps 是基于 Notebook 和 Copilot 的数据开发平台 DataOps 和 AI 数据平台MLOps,可实现 DMS+X 的多模联动模式,将 X(X 即云原生数据库 PolarDB、云原生数据仓库 AnalyticDB、云原生多模数据库 Lindorm 等多样化的数据存储、
156、分析、计算、AI 引擎)集结到统一平台。企业用户可使用 Notebook 进行数据和模型开发,完成一站式数据和模型任务编排,实现数据加工、特征加工、特征提取、分析计算、模型 Serving 等 DataOps 和 MLOps 全链路的数据加工和计算能力。同时利用各种CPU/GPU 算力,以及面向行业的算法优化,进一步完成计算和模型加速。阿里云智能集团副总裁、数据库产品事业部负责人李飞飞表示:“DMS:OneMeta+OneOps 是阿里云瑶池继云原生数据库 2.0 以来,又一次里程碑式的改造升级。通过 Data+AI 的全面融合,基于统一、开放、多模的数据管理与服务,我们为企业提供全域数据资产
157、管理能力,让业务数据“看得清、查得快、用得好”,助力企业构建智能 Data Mesh,大幅提升业务决策效率。”以某大型游戏公司为例,其游戏业务的智能推荐场景采用 DMS+PolarDB&AnalyticDB 的一站式 DataOps+MLOps 解决方案,提供基于玩家游戏行为数据的数据挖掘和精准预测。该方案支持一站式 In-DB 海量数据特征提取,数据库内置大模型,让 AI 距离数据更近,从而实现用户数据内循环不出域,整个过程更加高效、安全。此外,一站式 DataOps+MLOps 方案还为业务提供了模型效果实时反馈和加工的海量日志数仓存储与分析,模型算法能够自主优化迭代,成功将其游戏业务用户
158、付费与流第三部分:Data+AI 云栖发布 104 失预测的准确率提高 30%,大幅提升了游戏推广与运营的 ROI。据介绍,在大模型领域,DMS+Lindorm 的一站式多模数据解决方案支撑月之暗面构建 AI 智能助手 Kimi,帮助 Kimi 准确理解用户的搜索意图、整合与概述多种信息源,实现精准和全面的信息召回,提升用户交互体验。4.2 全面解耦、全栈池化,AlwaysOn 云原生究其本质是资源池化和资源解耦,能够充分发挥出资源池化的架构,才是真正的云原生架构。2021 年起,阿里云瑶池在业界开创性地落地“三层解耦,三层池化”(计算、存储、内存)架构,基于全栈池化技术,将云计算的弹性能力发