• 首页 >  人工智能 >  AI产业
  • 湖南大学:2025我们该如何看待DeepSeek——what, how, why, and next(82页).pdf

    定制报告-个性化定制-按需专项定制研究报告

    行业报告、薪酬报告

    联系:400-6363-638

  • 《湖南大学:2025我们该如何看待DeepSeek——what, how, why, and next(82页).pdf》由会员分享,可在线阅读,更多相关《湖南大学:2025我们该如何看待DeepSeek——what, how, why, and next(82页).pdf(82页珍藏版)》请在薪酬报告网上搜索。

    1、我们该如何看待DeepSeekwhat,how,why,and next?陈果湖南大学信息科学与工程学院教授国家超级计算长沙中心常务副主任声明:1.仅代表个人观点,不代表任何机构立场;2.面向不具备AI专业知识背景的群体,为保持易懂性简化了很多技术细节,且不求涵盖所有方面;3.主要以R1模型视角讲解,其他模型在第三大块有简要介绍;4.受个人研究领域及认知水平所限,难免有疏漏或偏颇之处,欢迎批评指正。提纲What is it:DeepSeek是什么从ChatGPT到DeepSeek-R1,TA到底厉害在哪里?DeepSeek基本概念(用户角度)How to use it:我能用DeepSeek干

    2、什么以小见大,掌握思维方法正确理解,打开广阔天地Why it works:DeepSeek背后的原理Transformer大模型基础DeepSeek模型的发展历程Next:下一步要关注什么生态的爆发就在眼前,整个链条上哪些方面值得关注2提纲What is it:DeepSeek是什么从ChatGPT到DeepSeek-R1,TA到底厉害在哪里?DeepSeek基本概念(用户角度)How to use it:我能用DeepSeek干什么以小见大,掌握思维方法正确理解,打开广阔天地Why it works:DeepSeek背后的原理Transformer大模型基础DeepSeek模型的发展历程Ne

    3、xt:下一步要关注什么生态的爆发就在眼前,整个链条上哪些方面值得关注3从ChatGPT开始4故事从ChatGPT说起5ChatGPT的诞生在全球范围内引爆人工智能(AI)相当数量的人(圈内人、技术潮人为主)开始切身感受到AI带来的巨大冲击https:/ GPT用于聊天、对话Generative生成式,模型的输出方式Pre-trained预训练,模型的制造方法Transformer模型结构生成式人工智能(AIGC)支撑实现大语言模型(LLM)技术原理ChatGPT真正做的事:文字接龙7https:/speech.ee.ntu.edu.tw/hylee/index.phpChatGPT真正做的事:

    4、文字接龙8https:/speech.ee.ntu.edu.tw/hylee/index.php输出又送回输入,不断迭代接龙输出又送回输入,不断迭代接龙ChatGPT真正做的事:文字接龙9https:/speech.ee.ntu.edu.tw/hylee/index.phpChatGPT真正做的事:文字接龙10https:/speech.ee.ntu.edu.tw/hylee/index.php这就是为啥LLM经常出现“幻觉”LLM怎么学习文字接龙?11https:/speech.ee.ntu.edu.tw/hylee/index.php人们开始相信AI会真正变革我们的生活12ChatGPT可

    5、以自然对话、精准问答,生成代码、邮件、论文、小说。写一篇信创产业的研究报告 用鲁迅口吻写篇“长沙春天”的散文 用C+写一段爬虫代码 翻译 心理咨询建议 代码阅读理解和DEBUG从ChatGPT到OpenAI O系列13推理大模型开始走入视野:OpenAI o12024年9月12日,OpenAI官方宣布了OpenAI o1推理大模型。OpenAI宣称OpenAI o1大模型推理(Reasoning)能力相比较当前的大语言模型(GPT-4o)有了大幅提升。由于OpenAI o1模型的训练使用了一种新的AI训练方法,强调了“思维链”过程和强化学习的重要性,最终导致它在数学逻辑和推理方面有了大幅提升,

    6、大家开始称这里有思考过程的大模型为推理大模型。14什么是推理模型15普通模型和推理模型的对比https:/ R1厉害在哪里此处仅介绍一部分,DeepSeek带来的更多的意义和启示在最后一章20DeepSeek R1的意义1.首个展示思维链过程的推理模型21DeepSeek R1的意义2.价格“屠夫”网页聊天免费曾经:o1模型的API价格为每百万输入tokens 约为15美元(约合人民币55元),每百万输出tokens 60美元(约合人民币438元)网页聊天也需要240美金/年的会员才能用22DeepSeek R1的意义3.首个开源的推理模型!下载模型,可以本地安装,本地使用!https:/ R

    7、1的意义4.纯国产!技术创新!训练和推理高效5.性能领先!24DeepSeek R1的最大意义25DeepSeek R1让最前沿的大模型技术走入寻常百姓家,所有人(尤其是所有中国人)都能直接体验。7天用户破亿!这还不包括海量本地部署的用户量变带来质变!以前AI是“菁英游戏”,现在AI可以是“人民战争”!我国是这个量变(和即将到来的质变)的驱动源、主导者和聚集地!DeepSeek基本概念(用户角度)更详细的原理在第三部分介绍26在哪里能用到DeepSeek?27各种网上的服务!官方的、其他企业的还有很多,不一一列举。本地自己搭一套!https:/ is it:DeepSeek是什么从ChatGP

    8、T到DeepSeek-R1,TA到底厉害在哪里?DeepSeek基本概念(用户角度)How to use it:我能用DeepSeek干什么以小见大,掌握思维方法正确理解,打开广阔天地Why it works:DeepSeek背后的原理Transformer大模型基础DeepSeek模型的发展历程Next:下一步要关注什么生态的爆发就在眼前,整个链条上哪些方面值得关注31DeepSeek功能领域一览 32DeepSeek:从入门到精通,清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室以小见大,掌握思维方法从一些案例出发,能干的远远比这多。思维方法!思维方法!思维方法!33写书34案例:给我

    9、的编译原理书稿提供一个案例片段信息梳理35普通搜索,想半天关键词,自己整理各种素材DS-R1+联网搜索,自动梳理信息,并提供引用可检查考证案例:整理deepseek出来之前gpt o1的收费情况做对比数据分析36案例:分析某地公务员录用人员情况如,学历情况如何?多少是计算机相关专业的?咨询分析37案例:分析某专家研究特长,给出研究方向建议咨询写程序38案例:写一个抽签小程序做教辅案例:设计一个针对幼儿园小朋友的科普讲稿39正确理解,打开广阔天地正确理解DeepSeek的不能40DeepSeek(R1或V3)的不能还不是AGI,不能“一步到位”!需要用户自己具备一定的问题拆解能力、信息整合能力、

    10、迭代调优能力41DeepSeek(R1或V3)的不能有很强的能力,但也经常出错;预载很多知识,但不知道所有的知识!利用其能力,判断其结果,改进其知识!42“尽信书不如无书”!要有判断筛选能力,擅用联网搜索和知识库!DeepSeek(R1或V3)的不能R1/V3都是语言模型,不能直接处理多模态数据(图片、视频等)!学会利用其它工具,一起来完成任务(智能体的思想源于此)4343DeepSeek(R1或V3)的不能模型都有上下文长度限制,不能塞太多东西给他!学会拆分任务,总结规律你一个对话框里的聊天记录都会塞进模型里去,一次聊天不能聊天多(一般128K tokens是目前通常的最高水平)44日新月异

    11、,进展很快(重要新技术以周为单位出现)DeepSeek(R1或V3)的不能不是唯一的大模型,效果也难说一骑绝尘,其本身也不是一成不变!客观辩证地看待,积极开放地拥抱模型很多,各有所长(长上下文、多模态、逻辑推理、多语言,不同模型卖点不同)452024全球AIGC产业全景图谱及报告重磅发布-至顶网Deepseek发展历程概要-知乎对待DeepSeek等最新大模型的正确态度普通软件工具帮助掌握领域知识和技能的人,摆脱重复低级的脑力劳动帮助掌握领域知识和技能的人,摆脱一部分中级脑力劳动上一代大模型新一代大模型希望达到的目标:帮助大部分的普通人,摆脱一部分中级甚至是高级脑力劳动46对待DeepSeek

    12、等最新大模型的正确态度47大模型就像一个小朋友,具备了初级“智能”:懂一点,但不全懂;知识有一点,但也不全有;有时能对,但也经常犯错发挥你的智慧,利用各种现有工具,引导他、帮助他干活!用的好,可以帮你减轻很大工作量,小朋友的能力能超乎你想象;用的不好,那就是熊孩子以小见大,掌握思维方法;正确理解,打开广阔天地48重点是掌握使用TA的思维方法案例很多,无法一一列举知道TA有哪些能力逻辑推理能力、文字生成能力、搜索总结能力、代码生成能力。更重要的是知道TA有哪些不能!不能“一步到位”、可能经常出错、不能直接生成文件、上下文不能无限长。充分认识TA的能与不能组合多种工具一起使用!取其所能,博采众长!

    13、会不会用,即将成为现代社会生产效率的分水岭!会用的人或组织,会远远甩开那些不会用的!发挥你的创造力和能动性,赶紧用起来吧!提纲What is it:DeepSeek是什么从ChatGPT到DeepSeek-R1,TA到底厉害在哪里?DeepSeek基本概念(用户角度)How to use it:我能用DeepSeek干什么以小见大,掌握思维方法正确理解,打开广阔天地Why it works:DeepSeek背后的原理Transformer大模型基础DeepSeek模型的发展历程Next:下一步要关注什么生态的爆发就在眼前,整个链条上哪些方面值得关注49Transformer大模型基础50回忆一

    14、下我们在第一部分讲的大模型原理51这个框框里是啥?为啥能根据不同的输入上下文选择对的输出token?几个必须澄清的概念52人工智能(目标)机器学习(手段)神经网络(更厉害的手段)深度学习(很深的神经网络)大模型(LLM)ChatGPTDeepSeekTransformer大模型常用的一种神经网络Transformer是什么53https:/ transformer,是现在主流大模型的基础输入:text(可能伴随一些图像或声音等),输出:预测下一个tokenTransformer整体流程速览54https:/ wild picreature,foraging in its native _lan

    15、d输入token编码计算token之间的关系理解每个token自己的含义编码还原成token并输出Embedding55https:/ date,the cleverest thinker of all time was.把输入的token编码成向量以特定权重矩阵对各token的原始向量相乘,编码成特定向量To|date|,|the|cle|ve|rest|thinker|of|all|time|was.分词器embeddingAttention56https:/ Attention,MHA)多个注意力矩阵,各自侧重不同方面,一起把上下文含义嵌入token向量MLP(Multilayer Pe

    16、rceptron)60https:/ R1/V3671B大到一定规模,开始“涌现”!65https:/speech.ee.ntu.edu.tw/hylee/index.php训练完发现针对特定领域不得劲怎么办?66https:/ 公司成立致力于AGI2023年11月:开源 DeepSeekLLM 7B 和 67B 的 Base 和 Chat 模型初期处于跟随LLaMA的状态(一点微创新)初露峥嵘:开放基因,严谨思维上来就开源严谨地研究scaling law,敢于质疑成名结论DeepSeek大模型之路702024年5月:开源 DeepSeek-V2 系列模型重要创新,效果明显,吸引圈内注意!对T

    17、ransformer结构大胆改造勇于尝试大规模MoE,首创MLA效果提升明显较前面版本训练成本减少42%,推理所需缓存空间减少93%DeepSeek大模型之路712024年12月26日:开源 DeepSeek-V3 系列模型基座模型SOTA!保持大胆创新MTP,FP8训练,继续增大MoE专家数量。进入TOP梯队各项指标达到世界第一DeepSeek大模型之路722025年1月20日:开源推理模型 DeepSeek-R1继续创新,勇于探索OpenAI说不行的路https:/ R1的模型结构74开源了很多蒸馏版本Qwen2.5-Math-1.5B,Qwen2.5-Math-7B,Qwen2.5-14

    18、B,Qwen2.5-32B,Llama-3.1-8B,and Llama-3.3-70B-InstructR1/V3 模型结构1个Emedding,3个普通Transformer,59个MoE Transformer671B(6710亿参数),每次激活37B提纲What is it:DeepSeek是什么从ChatGPT到DeepSeek-R1,TA到底厉害在哪里?DeepSeek基本概念(用户角度)How to use it:我能用DeepSeek干什么以小见大,掌握思维方法正确理解,打开广阔天地Why it works:DeepSeek背后的原理Transformer大模型基础DeepSe

    19、ek模型的发展历程Next:下一步要关注什么生态的爆发就在眼前,整个链条上哪些方面值得关注75为什么我认为生态马上会有真正的爆发?76梅特卡夫定律系统的价值是系统中节点数量的平方关系DeepSeek使AI飞入寻常百姓家量变引起质变,很可能马上(甚至已经)出现https:/ R1/V3、Kimi 1.5、Step-Video。模型云服务、API接口汇聚服务、知识库服务。IT、教育、医疗、交通、城市治理。个人浅见,仅供参考78算力底座模型算法系统软件行业应用公共平台国产AI芯片(或称为GPU)DeepSeek让不少国产AI芯片公司焕发新生开源:我们都能安装;高效:我们能力弱一点也能上市场火爆:甲方

    20、嘎嘎需要,我们供不应求但是不足还很明显,值得重点关注的至少有大规模训练是短板,还是无法撼动NV,非常痛!训练是创新算法和模型(至少现在还是)的源头推理效率还比较低,比较痛FP8、显存等等,现在有一点点杀鸡用牛刀的意思高性能互连多机多卡互连协同训练必须要;大模型推理也得要(比如R1 671B)目前NV一家独大,国内不知何时能有挑战者,非常痛!主要是机间RDMA网络、机内GPU网络等国内技术研究进入前沿(如我组就做这个),产品还任重道远个人浅见,仅供参考79算力底座模型算法系统软件行业应用公共平台国内状态还比较乐观普遍有开源软件PyTorch、vLLM、K8S。国内实力还不错,人才梯队也有很多企业

    21、都有参与开源或自己研制训练框架、推理引擎等技术更新非常快!对中小企业等本地部署的玩家提出高要求目前主流推理引擎的更新发版速度以天记不求研发进去,至少要能看得懂、跟得上、用得会要大力培养这方面的人才DeepSeek的成功很大程度得益于这部分人我省现有这方面的高端人才,想办法聚合 如HNU DeepSeek服务技术支撑小组个人浅见,仅供参考80算力底座模型算法系统软件行业应用公共平台现状比较乐观DeepSeek等已经证明,我们已处于第一梯队忧患未曾远离NV的禁令,短期对模型算法的创新还是影响较大福祸相依:DeepSeek为了规避硬件限制,降本增效,逼出了各种创新MLA、NSA、MoE。下一步注重啥

    22、开放很重要!模型开放、算法开放、训练数据开放、推理部署开放用阳谋对抗阴谋,用全中国全世界的智慧一起创新个人浅见,仅供参考81算力底座模型算法系统软件行业应用公共平台目前处于比较混战的阶段技术含量相对下面三层较底,也没有绝对统一的标准、规范、形式极大量的需求,都需要通过这一层接入下一步这里可能成为创业的集中赛道我看好知识库服务平台(点到为止,多的不能再说了)行业需求千变万化,归总形式主要是这个这块有一定的技术门槛和资源门槛对用户体验影响极大个人浅见,仅供参考82算力底座模型算法系统软件行业应用公共平台目前形势一片大好,但扎实落地是要务具备专业技能的人,目前已感受到LLM的巨大帮助如何能让更多普通人也感受到?功能边界、用户体验、智能体、具身智能。实现我们下面的目标,得靠这一块!谢谢!陈果 邮箱:个人主页:https:/