• 首页 >  人工智能 >  AI产业
  • 北京大学:2025年DeepSeek原理和落地应用报告(57页).pdf

    定制报告-个性化定制-按需专项定制研究报告

    行业报告、薪酬报告

    联系:400-6363-638

  • 《北京大学:2025年DeepSeek原理和落地应用报告(57页).pdf》由会员分享,可在线阅读,更多相关《北京大学:2025年DeepSeek原理和落地应用报告(57页).pdf(57页珍藏版)》请在薪酬报告网上搜索。

    1、DeepSeek原理与落地应用AI肖睿团队(孙萍、吴寒、周嵘、李娜、张惠军、刘誉)2025年03月01日厦门大学大数据百家讲坛 北大青鸟人工智能研究院 北大计算机学院元宇宙技术研究所 北大教育学院学习科学实验室7 人工智能概念辨析人工智能概念辨析DeepSeek R1大模型原理大模型原理落地应用落地应用目目 录录C O N T E N T S人工智能概念辨析人工智能概念辨析PART 01大模型相关术语l 多模态 文本、图片、音频、视频l AI工具(国内)DeepSeek、豆包、Kimi、腾讯元宝、智谱清言、通义千问、秘塔搜索、微信搜索.l 通用模型 大语言模型(LLM,Large Langua

    2、ge Model)视觉模型(图片、视频)音频模型 多模态模型 l 行业模型(垂直模型、垂类模型)教育、医疗、金融等 大模型的前世今生人工智能人工智能:让机器具备动物智能,人类智能,非人类智能(超人类智能)运算推理:规则核心;自动化知识工程:知识核心;知识库+推理机机器学习机器学习:学习核心;数据智能(统计学习方法,数据建模)常规机器学习方法:逻辑回归,决策森林,支持向量机,马尔科夫链,.人工神经网络人工神经网络:与人脑最大的共同点是名字,机制和架构并不一样传统神经网络:霍普菲尔德网络,玻尔兹曼机,.深度神经网络:深度学习深度学习传统网络架构:DBN,CNN,RNN,ResNet,Incepti

    3、on,TransformerTransformer架构架构:可以并行矩阵计算(GPU),核心是注意力机制(Attention)编码器(BERT):多数embedding模型,Ernie早期版本,.混合网络:T5、GLM解码器(GPTGPT):大语言模型(大语言模型(LLMLLM),也是传统的多模态模型的核心生成式人工智能生成式人工智能(GenAIGenAI):):AIGCAIGCDeepSeekDeepSeek、Qwen、GLM、Step、MiniMax、hunyuan、kimi、OpenAI GPTOpenAI GPT(ChatGPTChatGPT)、Claude、Llama、Grok、Di

    4、ffusionDiffusion架构架构:主要用于视觉模型(比如Stable Diffusion、DALLE),现在也开始尝试用于语言模型Diffusion+Transformer架构:例如SoraSora的DiT(加入Diffusion的视觉模型),部分新的多模态模型架构大模型的发展阶段生成模型ref:中文大模型基准测评2024年度报告(2025.01.08)推理模型生成模型与推理大模型的对比比较项OpenAI GPT-4o(生成模型)OpenAI o1(推理模型)模型定位专注于通用自然语言处理和多模态能力,适合日常对话、内容生成、翻译以及图文、音频、视频等信息处理、生成、对话等。侧重于复杂

    5、推理与逻辑能力,擅长数学、编程和自然语言推理任务,适合高难度问题求解和专业领域应用。一般是在生成模型的基础上通过RL方法强化CoT能力而来推理能力在日常语言任务中表现均衡,但在复杂逻辑推理(如数学题求解)上准确率较低。在复杂推理任务表现卓越,尤其擅长数学、代码推理任务。多模态支持支持文本、图像、音频乃至视频输入,可处理多种模态信息。当前主要支持文本输入,不具备图像处理等多模态能力。应用场景适合广泛通用任务,如对话、内容生成、多模态信息处理以及多种语言相互翻译和交流;面向大众市场和商业应用。适合需要高精度推理和逻辑分析的专业任务,如数学竞赛、编程问题和科学研究;在思路清晰度要求高的场景具有明显优

    6、势,比如采访大纲、方案梳理。用户交互体验提供流畅的实时对话体验,支持多种输入模态;用户界面友好,适合大众使用。可自主链式思考,不需要太多的过程指令,整体交互节奏较慢。D e e p S e e k R 1PART 02DeepSeek公司2025年1月20日推出DeepSeek-R1推理模型作为由知名私募巨头幻方量化孕育而生的公司,DeepSeek获得了强大的资金支持和行业影响力,幻方量化与九坤投资、明汯投资、灵均投资并称量化私募领域的“四大天王”,管理资金规模均超过600亿元。这为DeepSeek提供了清晰的市场定位和投资者背景DeepSeek专注于开发先进的大语言模型(LLM)和相关技术,

    7、旨在通过这些技术推动人工智能在多个领域的应用和创新DeepSeek,全称杭州深度求索人工智能基础技术研究有限公司,成立于2023年7月17日,是一家创新型科技企业,专注于人工智能基础技术的研究与开发公司成立背景与发展历程大语言模型(LLM)的创新应用投资者背景与市场定位里程碑DeepSeek模型系列DeepSeek最新的生成模型和推理模型版本对比比较方面生成模型(V3)推理模型(R1)设计初衷想要在各种自然语言处理的任务中都能表现好,更通用重点是为了搞定复杂的推理情况,比如深度的逻辑分析和解决问题性能展现在数学题、多语言任务还有编码任务里表现不错,像Cmath能得90.7分,Human Eva

    8、l编码任务通过率是65.2%在需要逻辑思考的测试里很棒,比如DROP任务F1分数能达到92.2%,AIME 2024的通过率是79.8%应用的范围适合大规模的自然语言处理工作,像对话式AI、多语言翻译还有内容生成等等,能给企业提供高效的AI方案,满足好多领域的需求适合学术研究、解决问题的应用和决策支持系统等需要深度推理的任务,也能拿来当教育工具,帮学生锻炼逻辑思维常见推理模型DeepSeek R1OpenAI o1OpenAI o3-miniGemini 2.0Grok3Kimi 1.518为什么火:能力突破、开源、低成本、国产化为什么火:能力突破、开源、低成本、国产化DeepSeek以“推理

    9、能力+第一梯队性能”为核心基础,叠加:开源开放、超低成本、国产自主研发三大优势,不仅实现技术代际跨越,更推动AI技术普惠化与国产化生态繁荣,成为全球大模型赛道的重要领跑者。核心加分项:开源、低成本、国产化 开源:技术共享,生态共建全量开源训练代码、数据清洗工具及微调框架,开发者可快速构建教育、金融、医疗等垂直领域应用,推动社区协同创新。低成本:普惠企业级AI应用做了大量的模型架构优化和系统工程优化。训练成本仅$557w:显著低于行业同类模型,打破高价壁垒。推理成本降低83%:千亿参数模型适配中小企业需求,加速商业化落地。国产化:技术自主,缩短差距将国产模型与美国的代际差距从3-5年缩短至3-5

    10、个月,突破“卡脖子”技术瓶颈。构建多行业专属模型矩阵,全面支持国内产业智能化升级。基础能力:进入推理模型阶段,跻身全球第一梯队推理能力跃升:DeepSeek大模型核心技术突破,实现复杂推理任务的精准处理与高效执行,覆盖多模态场景应用。国际竞争力对标:模型综合性能跃居全球第一梯队,技术指标与国际顶尖水平(如GPT系列、Claude等)直接对标,奠定国产大模型的行业标杆地位。19 19DeepSeek R1达到了跟o1相当、或者至少接近的推理能力,且将推理过程可视化它做到这个水平只用到少得多的资源,所以价格十分便宜它是完全开源的并且还发布论文,详细介绍了训练中所有的步骤和窍门DeepSeek深度求

    11、索公司是一家纯粹的中国公司混合专家混合专家MOEMOE多头潜在注意力多头潜在注意力MLAMLA强化学习强化学习GRPOGRPODeepseek官网地址:http:/https:/DeepSeek-R1 训练技术全部公开,论文链接:https:/ 21模型有三种使用方式:在软件系统中调用官方API、模型微调、直接使用。前两种涉及到IT技术比较多。这里讲的是直接使用的三种方法,适合普通用户。DeepSeek直接使用直接使用22DeepSeek官方官方-开袋即食开袋即食23官网:https:/ Molly R1(小程序)DeepSeek私有化部署私有化部署25模型的私有化部署的方式:Ollama部署

    12、:个人本地部署【推荐】,方便快速,适用于蒸馏模型vLLM部署:生产、开发、垂直领域私有化部署,精度可控,更专业其它ModelModelBase ModelBase Model特点特点DeepSeek-R1-Distill-Qwen-1.5BQwen2.5-Math-1.5B蒸馏模型,能力稍弱实际上是增加了推理能力的Qwen模型和Llama模型 DeepSeek-R1-Distill-Qwen-7BQwen2.5-Math-7BDeepSeek-R1-Distill-Llama-8BLlama-3.1-8BDeepSeek-R1-Distill-Qwen-14BQwen2.5-14BDeepSe

    13、ek-R1-Distill-Qwen-32BQwen2.5-32BDeepSeek-R1-Distill-Llama-70BLlama-3.3-70B-InstructDeepSeek-R1-671BDeepSeek-V3-Base满血版,能力最强DeepSeek R1全家桶部署DeepSeek-R1 满血版的算力要求和性能模型原理模型原理PART 03GPT工作原理-1概率预测+文字接龙1.收到提示词示例:“今天天气不错,我决定”4.基于上下文预测下一个token为可能的单词分配概率分数示例:“去”:0.7.“停:0.2,“站:0.15.根据概率分数选择标记示例:“去”3.采用Transfo

    14、rmer架构处理token理解token之间的关系识别提示词的整体含义2.将输入拆分为token“今”,“天”,“天”,“气”,“不”,“错”,“,”,“我”,“决”,“定”自回归:重复步骤4和步骤5直到形成完整的句子示例:今天天气不错,我决定去公园GPTGenerative(生成式)Pre-trained(预训练)Transformer(变换器)LLM:Large Language ModelGPT工作原理-2预训练(自监督)监督微调人类反馈强化学习接收输入处理输入进行推理生成输出上下文+训练知识阶段1:模型训练阶段2:推理大模型工作过程GPT工作原理-3数据来源说明维基百科在线百科,严谨图

    15、书经典为主的古登堡计划和自助出版 平台Smashwords等杂志期刊论文:ArXiv等链接WebText,RedditCommon Crawl开源项目,爬取互联网所有数据GitHub程序员聚集地合计700 多GB,约有19万套四大名著 的阅读量5 000亿左右的token数量。(13万亿token:gpt4)100个标记大约等于75个英语单词训练语料(gpt-3)模型参数:1.8万亿参数(GPT-4)GPT-4o上下文窗口大小:8192个token(标记)典型的新技能学习曲线:规模到达临界点之后才会迅速增长生成模型的优势与劣势vs优势劣势n语言理解和生成能力n世界知识能力n一定的推理能力n幻觉

    16、(生成错误答案)n知识库有限n上下文窗口限制推理模型(DeepSeek-R1)工作原理让模型进行慢思考思维链(Chain of Thought)在不损失能力的情况下缩小模型蒸馏(Distillation)让模型自我探索和训练强化学习(Reinforcement Learning)l DeepSeek R1论文:https:/ DeepSeek R1论文图解:https:/ 0434 34DeepSeek让人类与AI对话更加简单,提示词让对话质量提升立竿见影,适合所有层级使用者快速上手。DeepSeek的深度思考模式基于DeepSeek R1模型,是一种推理模型。相比较于传统的生成模型,使用De

    17、epSeek R1模型时的提示词技巧有较大的变化。35 35DeepSeekDeepSeek提示词技巧提示词技巧1.DeepSeek提示词技巧提示词技巧-真诚真诚+直接直接36你现在是一个新能源汽车的市场研究分析师,这里有一份调研报告总结需要写成周报,请按周报的格式帮我完成并进行润色,不少于500字。帮我把这份报告包装一下,我要写成周报给老板看,老板很看重数据。传统DeepSeek2.DeepSeek提示词技巧提示词技巧-通用公式通用公式我要(做)*,要给*用,希望达到*效果,但担心*问题37例如:我要做一个从北京到日本的旅游攻略,要给爸妈用,希望让他们在日本开心的玩20天,但我担心他们玩的累

    18、,腿和腰不太好 先抓住总原则 全面非常考虑o()正式回答38DeepSeek输出的日程安排清晰明确贴心准备清单甚至细致考虑到了每日5000步2.DeepSeek提示词技巧提示词技巧-通用公式通用公式2.DeepSeek提示词技巧提示词技巧-通用公式通用公式39任务背景负面限定目标做什么给谁用期望效果担心的问题“内心戏”3.DeepSeek提示词技巧提示词技巧-说人话说人话适合场景:科研,了解新事物40了避免DeepSeek的回答过于官方、专业,可以尝试这三个字“说人话”你问:什么是“波粒二象性”,DeepSeek大概率会给出专业且看不懂的回答,和百度百科差不多。但如果给ta一句“说人话”,ta

    19、就会生动形象的做一些举例说人话说人话4.DeepSeek提示词技巧提示词技巧-反向反向PUA41DeepSeek有一套自己的思维链,也就是ta自带的思考逻辑,那么如果你想要DeepSeek更卖力给你搬砖,就需要你运用“反向PUA”“请你列出10个反对理由再给方案”“如果你是老板,你会怎样批评这个方案?”“这个回答你满意吗?请你把回答复盘至少10轮”5.DeepSeek提示词技巧提示词技巧-善于模仿善于模仿42如果你想写一篇文案,用提示词约束,可能效果一般般,但如果你给一篇文章模仿或者让ta模仿谁的语气,DeepSeek大概率会写到你的心趴上。6.DeepSeek提示词技巧提示词技巧-擅长锐评擅

    20、长锐评43DeepSeek自带情商,各种语气也能完美拿捏!44”_,笑死“句式,触发DeepSeek的毒舌属性6.DeepSeek提示词技巧提示词技巧-擅长锐评擅长锐评7.DeepSeek提示词技巧提示词技巧-激发深度思考激发深度思考45Normal Model深度思考在提示词结尾加入:“在你的回答中,同时加入你的批判性思考在你的回答中,同时加入你的批判性思考”“在你回答之前,先自己复盘在你回答之前,先自己复盘100遍遍“DeepSeek Model复盘推理批判回复 DeepSeek官方提示词解读官方提示词解读46代码类内容分类结构化输出角色扮演(人设、情景)创作类翻译类提示词生成官方文档链接

    21、:https:/api- 应用场景l 推理密集型任务 编程任务中的代码生成、算法设计,媲美Claude 3.5 Sonet 数学问题求解、科学推理和逻辑分析等需要复杂推理的场景。l 教育与知识应用 可用于解决教育领域的问题,支持知识理解与解答。可用于科研任务的实验设计、数据分析和论文撰写。l 文档分析与长上下文理解 适合处理需要深入文档分析和理解长上下文的任务,例如复杂信息提取与整合。l 开放领域问答与写作 在内容生成、问题回答以及创造性写作中具有广泛应用,例如生成高质量文本或进行内容编辑。48教育与学术赋能教育与学术赋能-教学设计教学设计49教学设计提示词示例需求:北大青鸟基于所提供的课程相

    22、关信息,包括主题、教学目标、课时安排以及学情等内容,按照特定流程来设计一份课程大纲草案,重点在于给出大概的课程内容、设计思路技 能+教 学 目 标+工 作 流教育与学术赋能教育与学术赋能-教学活动教学活动50教学活动https:/ 2.符合教学目标,并且能够应用课程内容指导生活请生成分组演练中的话术,用表格输出,要求:角色、话术习题设计问题课后作业教学活动教育与学术赋能教育与学术赋能-作业批改作业批改51作业批改提示词示例需求:课工场需要AI辅助老师批改大量作业为作业中的客观题添加答案解析为作业中的编程题该处解题思路工 作 流 程+工 作 要 求教育与学术赋能教育与学术赋能-个性化教案个性化教

    23、案52个性化教案生成需求:根据北大青鸟分层教学模式设计原则,为大一机器学习基础章节设计A/B/C三级难度习题组,并标注难度。为年级机器学习基础章节设计A/B/C三级难度习题组,按布鲁姆认知分类理论标注题目难度系数年 级+学 科+题 目 要 求提示词示例:为大一机器学习基础章节设计A/B/C三级难度习题组,按布鲁姆认知分类理论标注题目难度系数教育与学术赋能教育与学术赋能-医学专业病理诊断医学专业病理诊断53医学专业-病理诊断需求:模拟临床思维训练,患者主诉胸痛伴呼吸困难,可能的鉴别诊断有哪些?,根据症状列表生成5种可能疾病,按优先级排序并给出检查建议任 务+示 例提示词示例教育与学术赋能教育与学

    24、术赋能-论文全流程辅助论文全流程辅助54论文全流程辅助-1第一步:用DeepSeek精准锁定选题第二步:5分钟生成论文大纲第三步:精准的文献综述第四步:根据大纲扩写内容教育与学术赋能教育与学术赋能-论文全流程辅助论文全流程辅助55论文全流程辅助-2第五步:研究方法设计第六步:数据分析与讨论第八步:润色与查重第七步:撰写方法讨论教育与学术赋能教育与学术赋能-论文选题论文选题56论文选题需求:寻找专业领域的选题方向提示词示例领域痛点扫描+创新维度矩阵+可行性熔断机制+学术资源导航教育与学术赋能教育与学术赋能-学术研究学术研究57学术研究-1用 300字 总结论文核心结论,标注 3 个创新点和2个潜

    25、在缺陷。提取关键数据和观点,聚焦研究目的、方法和结果,突出贡献与不足。文献速读查找近 3 年关于 主题 的 5 篇高被引论文,按 APA格式列出。注明作者、年份、期刊名、卷号、页码,确保引用规范。参考文献将中文摘要翻译成英文,确保专业术语准确、符合 IEEE 标准。注意句式结构,保持原文逻辑,突出研究重点,避免语义模糊。学术翻译以 Nature 期刊格式重写方法论部分,突出实验设计的可重复性。详细描述实验步骤、样本选择、数据分析,确保清晰易懂。润色重写教育与学术赋能教育与学术赋能-学术研究学术研究58学术研究-2列举支持与反对 理论 的各 3 个证据,用表格对比权重。从实验数据、理论基础、应用

    26、场景等方面分析,明确正反双方观点。学术辩论对 数据集 进行统计分析,生成一份报告,包含描述性统计、相关性分析和回归模型结果,用图表辅助展示关键发现,解释数据背后的科学意义。数据分析报告针对 研究主题,提出 3 个可验证的研究假设,结合现有文献说明假设依据,设计初步实验方案验证假设,确保逻辑严谨、可操作性强。研究假设设计撰写一篇关于 主题 的综述文章,梳理近 5 年研究进展,归纳 3 个主要研究方向,分析当前研究热点与未来趋势,引用至少 10 篇权威文献。综述撰写教育与学术赋能教育与学术赋能-知识付费知识付费59知识付费-1设计一门 主题 的 30 天入门课程大纲,每天明确学习目标和作业。目标聚

    27、焦核心知识点,作业结合实际操作,确保学员循序渐进掌握技能。课程大纲设计生成一个 时长 的直播脚本,包含开场互动、干货分享和促销环节。开场设计趣味问答,干货突出实用内容,促销环节明确优惠信息。直播脚本撰写为 XXX 平米三室一厅户型提供 3 种 风格 效果图,标注各空间利用率。突出功能布局、色彩搭配和材质选择,满足不同需求。室内装修设计为 主题 社群设计 7 天运营话术,每天包含欢迎语、每日话题和互动游戏。欢迎语温馨亲切,话题聚焦热点,游戏增强互动性。社群运营话术教育与学术赋能教育与学术赋能-知识付费知识付费60知识付费-2生成一期 主题 的星球日更内容,包含 2 个干货知识点和 1 个互动问题

    28、。知识点简洁实用,互动问题引发思考,提升用户参与度。知识星球内容制作一套 主题 的线上课程,包含 5 节视频课和配套 PPT,每节课时长 20 分钟,注重内容的系统性和互动性,适配网易云课堂、【思睿贯通】等。线上课程制作为 主题 设计一份付费问答脚本,包含 5 个常见问题及专业回答,突出答案的实用性和权威性,适合知乎、分答等平台。付费问答设计为 主题 知识付费社群制定 7 天运营计划,每天发布 1 条优质内容、1 个互动话题,设计 2 次付费转化活动,提升用户粘性和续费率。知识付费社群运营教育与学术赋能教育与学术赋能-作业辅导作业辅导61需求:孩子小学四年级,被学校老师要求辅导孩子作业。发现自己不懂如何教学?也不懂如何以小孩的视角分析问题。眼看要到半夜了,忍不住急躁想要动手。作业辅导(教辅行业)p第一步:知识点锚定p第二步:分步教学引导p第三步:互动练习设计p第四步:错误分析与纠正p第五步:能力拓展衔接提示词示例62拥抱AI,与AI共舞,实现AI与人类的完美融合。人类需要的是判断力和表达力,不再是记忆力和知识储备让我们以DeepSeek-R1为起点,持续探索AI的无限可能。在AI时代的技术浪潮中,我们既是见证者,更是参与者。