定制报告-个性化定制-按需专项定制研究报告
行业报告、薪酬报告
联系:400-6363-638

《北京大学:2025年DeepSeek私有化部署和一体机报告(121页).pdf》由会员分享,可在线阅读,更多相关《北京大学:2025年DeepSeek私有化部署和一体机报告(121页).pdf(121页珍藏版)》请在薪酬报告网上搜索。
1、1DeepSeek内部研讨系列-DeepSeek 私有化部署和一体机AI肖睿团队(韩露、王春辉、顾跃、李娜、谢安明、陈钟)20250224北京 北大青鸟人工智能研究院 北大计算机学院元宇宙技术研究所2摘要1.本次讲座为DeepSeek原理和应用系列研讨的讲座之一,让大家可以决策是否需要自己部署DeepSeek系列模型,并了解自己本地化部署DeepSeek的基本方法,同时了解更专业的企业级部署方法,有助于选择DeepSeek一体机型号,并能理解DeepSeek云服务的工作机制和原理,用好DeepSeek云服务的API调用方法。2.本讲座的内容分为四个主要部分:首先,除了DeepSeek满血版之外
2、,还有各种各样的蒸馏版和量化版,以及DeepSeek的不同专业模型。我们将介绍人工智能大模型的基本概念,以及DeepSeek各个模型的特点与适用场景,对比不同规模模型的性能表现,帮助大家选择最适合自己需求的版本。其次,对于普通用户在自己的电脑上部署和体验DeepSeek(蒸馏版)的情况,我们会评估和建议硬件要求,演示如何通过Ollama命令行高效部署DeepSeek模型,解决下载过程中可能遇到的常见问题。为了提升在自己的电脑上安装DeepSeek模型后,大家与DeepSeek模型的交互体验,我们还将介绍Open WebUI和Chatbox等前端展示工具的配置与使用方法。然后,对于专业级的企业部
3、署DeepSeek,或把DeepSeek(蒸馏版和满血版)部署在专业的昂贵的推理机上,本讲座将探讨基于Transformers快速验证和vLLM的高性能部署方案,并提供真实企业基于vLLM的部署DeepSeek-70b的相关数据和经验。最后,作为补充内容,针对计算资源受限的场景,我们专门设计了低成本部署环节,详细讲解Unsloth R1动态量化部署的三种实现路径:基于llama.cpp、KTransformers以及Ollama框架动态量化部署。3.在技术学习的道路上,优质学习资源至关重要。推荐大家参考人工智能通识教程(微课版)这本系统全面的入门教材,结合B站“思睿观通”栏目的配套视频进行学习
4、。此外,欢迎加入社区,以及“AI肖睿团队”的视频号和微信号,与志同道合的AI爱好者交流经验、分享心得。3301人工智能与DeepSeek目 录03企业部署DeepSeek02个人部署DeepSeek04DeepSeek一体机4人工智能与DeepSeekPART 015大模型相关术语多模态文本、图片、音频、视频AI工具(国内)DeepSeek、豆包、Kimi、腾讯元宝、智谱清言、通义千问、秘塔搜索、微信搜索.通用模型大语言模型(LLM,Large Language Model)生成模型推理模型视觉模型(图片、视频)音频模型多模态模型行业模型(垂直模型、垂类模型)教育、医疗、金融、办公、安全等6大
5、模型的前世今生人工智能人工智能:让机器具备动物智能,人类智能,非人类智能(超人类智能)运算推理:规则核心;自动化知识工程:知识核心;知识库+推理机机器学习机器学习:学习核心;数据智能(统计学习方法,数据建模)常规机器学习方法:逻辑回归,决策森林,支持向量机,马尔科夫链,.人工神经网络人工神经网络:与人脑最大的共同点是名字,机制和架构并不一样传统神经网络:霍普菲尔德网络,玻尔兹曼机,.深度神经网络:深度学习深度学习传统网络架构:DBN,CNN,RNN,ResNet,Inception,RWKV,TransformerTransformer架构架构:可以并行矩阵计算(GPU),核心是注意力机制(A
6、ttention)编码器(BERT):多数embedding模型,Ernie早期版本,.混合网络:T5、GLM解码器(GPTGPT):大语言模型(大语言模型(LLMLLM),也是传统的多模态模型的核心生成式人工智能生成式人工智能(GenAIGenAI):):AIGCAIGCDeepSeekDeepSeek、Qwen、GLM、Step、MiniMax、hunyuan、kimi、火山、OpenAI GPTOpenAI GPT(ChatGPTChatGPT)、Claude、Llama、Grok、DiffusionDiffusion架构架构:主要用于视觉模型(比如Stable Diffusion、DA
7、LL.E),现在也开始尝试用于语言模型Diffusion+Transformer架构:例如SoraSora的DiT(加入Diffusion的视觉模型),部分新的多模态模型架构7大模型的发展阶段生成模型ref:中文大模型基准测评2024年度报告(2025.01.08)推理模型8生成模型与推理大模型的对比比较项OpenAI GPT-4o(生成模型)OpenAI o1(推理模型)模型定位专注于通用自然语言处理和多模态能力,适合日常对话、内容生成、翻译以及图文、音频、视频等信息处理、生成、对话等。侧重于复杂推理与逻辑能力,擅长数学、编程和自然语言推理任务,适合高难度问题求解和专业领域应用。一般是在生成
8、模型的基础上通过RL方法强化CoT能力而来推理能力在日常语言任务中表现均衡,但在复杂逻辑推理(如数学题求解)上准确率较低。在复杂推理任务表现卓越,尤其擅长数学和代码等推理任务。多模态支持支持文本、图像、音频乃至视频输入,可处理多种模态信息。当前主要支持文本输入,不具备图像处理等多模态能力。应用场景适合广泛通用任务,如对话、内容生成、多模态信息处理以及多种语言相互翻译和交流;面向大众市场和商业应用。适合需要高精度推理和逻辑分析的专业任务,如数学竞赛、编程问题和科学研究;在思路清晰度要求高的场景具有明显优势,比如采访大纲、方案梳理。用户交互体验提供流畅的实时对话体验,支持多种输入模态;用户界面友好
9、,适合大众使用。可自主链式思考,不需要太多的过程指令,整体交互节奏较慢。普通大模型是玩知识和文字的,推理大模型是玩逻辑的,至于计算问题,还是找计算器吧推理模型也不是万能的,其幻觉通常比生成模型大,很多不需要强推里的场合还是传统的生成模型比较适合99自 2024 年起,AI肖睿团队便接入DeepSeek V2,持续应用 DeepSeek 技术体系,历经 V2(MoE 架构)、V3(MTP)探索,现已在生产项目中接入DeepSeek R1(满血版)。其中,V2和V3都是生成模型,R1为推理模型。下面,基于我们团队对DeepSeek的技术研究和实战经验,为大家系统梳理这三大模型技术特性,剖析知识蒸馏
10、在各版本提升效率的逻辑,并结合边缘计算、数学编程、中文等场景实例,对比DeepSeek R1各版本模型的计算效率与推理精度的演进,同时说明标准化 API/SDK 对技术落地的适配机制。10DeepSeek快速出圈11DeepSeek-“服务器繁忙”2024年12月26日,DeepSeek因推出对标GPT 4o的语言模型DeepSeek V3,首先在美国的人工智能行业内部一起轰动。2025年1月20日,DeepSeek继续发布对标OpenAI o1的语言模型DeepSeek R1。由于“深度思考”模式生成的答案的过程可视化,完全开源模型参数和技术方案,采用极致的模型架构优化和系统优化手段降低了模
11、型的训练和推理成本,加之完全由中国本土团队制造,让DeepSeek公司和DeepSeek R1模型在蛇年春节前后彻底出圈。春节之后,随着大量用户的快速涌入,DeepSeek 官方提供的模型服务就一直在经历拥堵,它的联网搜索功能间歇性瘫痪,深度思考模式则高频率提示“服务器繁忙”,此类现象让大量用户倍感困扰。这也揭示了AI时代和互联网时代的底层逻辑的不同:在互联网时代,用户使用一个系统的成本很低,边际成本接近于零,但在AI时代,用户使用一个系统的成本比较高,后天会有大量的算力需求和token消耗,边际成本下降并不明显。12公司简介DeepSeek于2023年7月成立,是幻方量化孵化出的一家大模型研
12、究机构,团队分布在中国杭州和北京,是中国大模型七小虎之一。除了DeepSeek之外,其它六家也被投资界称为中国大模型企业六小龙(智谱AI、百川智能、月之暗面、零一万物、阶跃星辰、MiniMax)。模型系列公司与模型介绍0113模型的演进历史和特点14三个主要的DeepSeek模型的区别对比维度DeepSeek V2DeepSeek V3DeepSeek R1核心架构DeepSeekMoE(混合专家架构改进版)总参数量 2360 亿单次激活 210 亿参数升级版 DeepSeekMoE 架构总参数量 6710 亿单次激活 370 亿参数与V3模型相同训练方法传统预训练+监督微调(SFT)+强化学
13、习(RL)数据量 8.1 万亿 tokens预训练+SFT+MTP+RL引入 GRPO 算法提升RL效率和效果数据量14.8万亿tokens跳过 SFT,直接通过RL激发推理能力采用两阶段 RL 和冷启动技术部分关键特性首次引入 MoE 架构,并进行了改进你 无辅助损失的负载均衡 代码任务生成速度提升至 60 TPS RL驱动推理优化 模型蒸馏实验(可迁移至小模型)Zero版验证了自我进化能力性能表现举例生成速度20TPS,适合通用生成任务综合 NLP 任务接近 GPT-4oMMLU 知识理解 88.5%API 成本大幅降低数学推理(MATH-500 97.3%)代码生成(Codeforces
14、)与openAI-o1-1217相当15模型简介DeepSeek-V2模型简介DeepSeek-V2模型与DeepSeek LLM 67B相比,DeepSeek-V2实现了更强的性能,同时节省了42.5%的训练成本,减少了93.3%的KV缓存,并将最大生成吞吐量提升至5.76倍。设计初衷DeepSeek-V2旨在解决现有大语言模型训练成本高、推理效率低的问题。通过引入MoE架构,它在保持高性能的同时,大幅降低训练成本和推理时间,为广泛的应用场景提供支持。核心原理DeepSeek-V2基于混合专家(Mixture-of-Experts,MoE)架构,将任务分配给多个专家模型,每个专家专注于特定子
15、任务,从而提升性能和效率。模型总参数量为236B,其中21B参数在每个token上被激活,使其在处理复杂任务时更灵活高效。16模型简介DeepSeek-V3模型简介DeepSeek V3模型采用的模型架构与V2模型差不多,都采用MLA和MoE。V3在V2的基础上主要是增加了多令牌预测(Multi-Token Prediction,MTP)的训练目标。我们都知道大模型是自回归模型,在回答问题时,本质上是一个字一个字的预测出来的,而MTP实现了类似同时预测多个字的效果。准确地讲,这里不是“字”,是“token”。这里用“字”,主要是便于理解。17模型简介DeepSeek-R1与以往的研究不同,R1
16、模型通过强化学习而非监督学习的方式显著提升了大模型的在数学和逻辑推理任务中的表现,验证了强化学习在提升模型推理能力上的作用。通过强化学习自动学习复杂的推理行为(自我验证与反思),然后随着训练的深入,模型逐步提升了对复杂任务的解答能力,并显著提高了模型推理能力。在数学和编程基准测试集上,与open AI-o1模型的表现相当并大幅超越其它现有大模型。18DeepSeek模型优势19DeepSeek模型优势20DeepSeek模型优势2121第21页DeepSeek R1达到了跟o1相当、或者至少接近的推理能力,且将推理过程可视化它做到这个水平只用到少得多的资源,所以价格十分便宜它是完全开源的并且还
17、发布论文,详细介绍了训练中所有的步骤和窍门DeepSeek深度求索公司是一家纯粹的中国公司混合专家MOE多头潜在注意力MLA强化学习GRPODeepseekDeepseek官网地址:http:/http:/https:/https:/DeepSeekDeepSeek-R1 R1 训练技术全部公开,论文链接:https:/ 训练及框架:FP8混合精度训练:在关键计算步骤使用高精度,其他模型层使用FP8低精度进一步降低训练成本。这一点,是DeepSeek团队在Infra工程上的非常有价值的突破。长链推理技术(TTC):模型支持数万字的长链推理,可逐步分解复杂问题并进行多步骤逻辑推理。并行训练策略(
18、HAI):16 路流水线并行(Pipeline Parallelism,PP)、跨 8 个节点的 64 路专家并行(Expert Parallelism,EP),以及数据并行(Data Parallelism,DP),大幅提升模型训练速度。通讯优化DualPipe:高效的跨节点通信内核,利用 IB 和 NVLink 带宽,减少通信开销,提高模型推理性能。混合机器编程(PTX):部分代码直接进行使用PTX编程提高执行效率,并优化了一部分算子库。低成本训练:DeepSeek-V3的训练成本为557.6万美元,仅为OpenAI的GPT-4o等领先闭源模型的3%-5%。24DeepSeek模型特点总结
19、社会价值:开源生态:DeepSeek采用开源策略,使用最为开放的MIT开源协议,吸引了大量开发者和研究人员,推动了AI技术的发展。模型蒸馏支持:DeepSeek-R1同时发布了多个模型蒸馏。虽然这些蒸馏模型的生产初衷是为了验证蒸馏效果,但在实质上帮助用户可以训练更小型的模型以满足不同应用场景需求,也给用户提供更多的抑制了DeepSeek R1满血版模型的能力的小模型选择(虽然也给市场和用户造成了很多困扰)。AI产品和技术的普及教育:对于社会,认识到AI是一个趋势,不是昙花一现;对于市场,用户开始主动引入AI,不用教育了;对于大模型企业,越发开始重视infra工程的价值了。25DeepSeek-
20、R1全家桶ModelBase ModelModel DownloadDeepSeek-R1-Distill-Qwen-1.5BQwen2.5-Math-1.5BHuggingFaceModelScope蒸馏模型,能力稍弱实际上是增加了推理能力的Qwen模型和Llama模型,严格来讲不能称为DeepSeek模型(市场上有误解,厂商有误导,Ollama工具的模型选项中也有误导)DeepSeek-R1-Distill-Qwen-7BQwen2.5-Math-7BHuggingFaceModelScopeDeepSeek-R1-Distill-Llama-8BLlama-3.1-8BHuggingFa
21、ceModelScopeDeepSeek-R1-Distill-Qwen-14BQwen2.5-14BHuggingFaceModelScopeDeepSeek-R1-Distill-Qwen-32BQwen2.5-32BHuggingFaceModelScopeDeepSeek-R1-Distill-Llama-70BLlama-3.3-70B-InstructHuggingFaceModelScopeDeepSeek-R1-671BDeepSeek-V3-BaseHuggingFaceModelScope满血版,能力最强26蒸馏模型-概念模型蒸馏的定义 通俗解释:模型蒸馏就像是让一个“老师
22、”(大模型)把知识传授给一个“学生”(小模型),让“学生”变成“学霸”。正式定义:模型蒸馏是一种将大型复杂模型(教师模型)的知识迁移到小型高效模型(学生模型)的技术。模型蒸馏的原理 教师模型的训练:先训练一个性能强大但计算成本高的教师模型。生成软标签:教师模型对数据进行预测,得到每个样本的概率分布,这些就是软标签。训练学生模型:用软标签和硬标签共同训练学生模型。优化与调整:通过调整超参数,优化学生模型的性能。蒸馏技术的优势 模型压缩:学生模型参数少,计算成本低,更适合在资源受限的环境中部署。性能提升:学生模型通过学习教师模型的输出概率分布,能够更好地理解数据的模式和特征。效率提高:学生模型训练
23、所需的样本数量可能更少,训练成本降低。27DeepSeek-R1蒸馏模型-能力对比DeepSeek蒸馏版的选择经验千万别用1.5B和8B做正经业务,会翻车!做自然语言对话7B就很好用了预算有限又想搞事情就选14B要做知识问答选32B,对代码支持也不错70B性价比最低,与32B性能类似,成本翻倍,没有什么理由存在28边缘计算场景的低延迟部署复杂数学与编程任务中文场景的深度优化DeepSeek模型应用场景DeepSeek结合天翼云智能边缘云ECX,能够在靠近用户的边缘节点部署模型,显著降低数据传输延迟,适用于对实时性要求极高的场景DeepSeek-R1在数学推理和代码生成领域展现了超越同类模型的独
24、特能力理解文化背景和习惯用语(如生成春节习俗对比文章),优于GPT-4的中文处理能力29使用方式 访问官网( 或 https:/ 第三方服务:秘塔AI、微信搜索、Molly R1、问小白等。API调用:DeepSeek、硅基流动、火山引擎等。获取API密钥调用,适合开发者集成,同样存在服务不稳定问题。使用第三方服务与API调用 个人部署:个人在本地设备运行应用,依赖自身计算资源,灵活便捷。企业部署:企业内网搭建私有化系统,支持多用户协作,数据可控。一体机:直接购买配置了DeepSeek模型的具备一定算力的一体机。本地部署30个人部署DeepSeekP e r s o n a ld e p l
25、o y m e n tPART 0230/413131对于个人玩家如何在自己的电脑上部署和体验DeepSeek(一般是蒸馏版),我们会详细分享具体的模型评估数据和软硬件要求,通过实操环节来详细讲解Ollama命令行高效部署全流程,并构建多形态用户接入方案,包括浏览器插件PageAssist、桌面端Chatbox和团队协作型OpenWebUI,实现从个人到企业的全场景覆盖。其中分享过程中常见问题和经验,帮助大家可完整体验、并成功实现本地化部署DeepSeek。32010203模型部署环境准备明确模型部署的软硬件要求,分析参数量对推理效果和硬件配置的影响。提供最低与推荐配置清单,详解Ollama框
26、架优势及环境变量配置,建立标准化部署环境。前端展示331.模型能力:通常来说,参数量越大,模型就有更强的理解和生成能力,但是需要更多计算资源。2.硬件需求:参数越多,对内存(RAM)和显存(VRAM)的需求就越高。3.运行速度:参数量大的模型,推理速度更慢,尤其是资源不足的时候。参数量影响模型能力1.本地部署DeepSeek时,需根据硬件配置选择合适模型版本。如1.5B模型适合资源受限设备,671B模型需服务器集群支持。2.合理匹配参数量与硬件,可优化模型性能,提升运行效率,避免资源浪费或性能瓶颈。参数量与硬件配置匹配模型参数量意义34硬件配置-推荐模型参数CPU要求内存要求显存要求(GPU)
27、硬盘空间适用场景1.5B6核(现代多核)16GB4GB(如:GTX 1650)5GB+实时聊天机器人、物联网设备7B8核(现代多核)32GB8GB(如:RTX 3070)10GB+文本摘要、多轮对话系统8B10核(多线程)32GB10GB12GB+高精度轻量级任务14B12核64GB16GB(如:RTX 4090)20GB+合同分析、论文辅助写作32B16核(如i9/Ryzen 9)128GB24GB(如:RTX 4090)30GB+法律/医疗咨询、多模态预处理70B32核(服务器级)256GB40GB(如:双A100)100GB+金融预测、大规模数据分析671B64核(服务器集群)512GB
28、160GB(8x A100)500GB+国家级AI研究、气候建模Ollama中提供的deepseek-r1模型均为4位量化模型,所需资源较正常少一些,如果要运行非量化模型,则需要更大的显存(比如7B需要至少16G显存)35硬件配置-最低模型参数CPU要求内存要求显存要求(GPU)硬盘空间适用场景1.5B4核(Intel/AMD)8GB无(纯CPU)或2GB(GPU加速)3GB+树莓派、旧款笔记本、简单文本生成7B4核(多线程支持)16GB4GB8GB+本地开发测试、轻量级NLP任务8B6核(多线程)16GB6GB8GB+代码生成、逻辑推理14B8核32GB8GB15GB+企业级文本分析、长文本
29、生成32B12核48GB16GB19GB+复杂场景对话、深度思考任务70B16核(服务器级)64GB24GB(多卡)70GB+创意写作、算法设计671B32核(服务器集群)128GB80GB(多卡)300GB+科研级任务、AGI探索上页推荐配置中,是较为流畅的运行模型,而最低配置是指可以运行模型,但流畅度会稍差一些36若仅需简单任务,如实时聊天或轻量级文本生成,可选择1.5B或7B模型,搭配较低配置硬件,如普通笔记本或台式机。对于复杂任务,如合同分析、论文写作或大规模数据分析,需选择14B及以上模型,并配备高性能硬件,如高端显卡和大容量内存。根据需求选择01在预算有限的情况下,可优先选择较低参
30、数量的模型,以满足基本需求,同时降低硬件成本。如1.5B模型可在资源受限设备上运行,适合预算紧张的用户。若预算充足且对性能要求较高,可选择高参数量模型,如32B或70B,搭配高端硬件,以获得更强的处理能力和更高的运行效率。考虑预算与性能平衡02随着任务需求的增加和预算的提升,可逐步升级硬件配置,如增加内存、更换高性能显卡或升级CPU。对于企业用户或科研机构,可根据实际需求构建服务器集群,以支持大规模模型的运行和复杂任务的处理。硬件升级与扩展03硬件选择建议37Ollama功能特点 Ollama是一个开源的大型语言模型服务工具,旨在帮助用户快速在本地运行大模型。通过简单的安装指令,用户可以在消费
31、级PC上体验LLM的强大功能。Ollama会自动监测本地计算资源,优先使用GPU资源以提升推理速度,若无GPU则直接使用CPU资源。Ollama官方链接:https:/ 开源免费 简单易用 模型丰富 支持多平台 支持工具调用 资源占用低 功能齐全 隐私保护 社区活跃38 Windows/Mac系统:访问Ollama官网或GitHub页面,下载安装包并运行安装程序。Linux系统:一键安装命令curl-fsSL https:/ pull ollama/ollama,运行镜像时可使用dockerrun-d-v ollama:/root/.ollama-p 11434:11434-name olla
32、ma ollama/ollama命令。安装Ollama客户端 Windows/Mac系统:访问Docker官网,下载Docker Desktop安装程序,运行安装并启动DockerDesktop。Linux系统:访问Docker官网,根据Linux发行版选择安装方式,如基于Debian系统使用sudo apt-getinstall docker-ce docker-ce-cli containerd.io命令安装,安装后启动Docker服务。安装Docker(可选)软件安装步骤39环境变量配置参数标识与配置OLLAMA_MODELS表示模型文件的存放目录,默认目录为当前用户目录即 C:User
33、s%username%.ollamamodels Windows 系统 建议不要放在C盘,可放在其他盘(如 E:ollamamodels)OLLAMA_HOST表示ollama 服务监听的网络地址,默认为127.0.0.1 如果想要允许其他电脑访问 Ollama(如局域网中的其他电脑),建议设置成 0.0.0.0OLLAMA_PORT表示ollama 服务监听的默认端口,默认为11434 如果端口有冲突,可以修改设置成其他端口(如8080等)OLLAMA_ORIGINS表示HTTP 客户端的请求来源,使用半角逗号分隔列表 如果本地使用不受限制,可以设置成星号*OLLAMA_KEEP_ALIVE
34、表示大模型加载到内存中后的存活时间,默认为5m即 5 分钟(如纯数字300 代表 300 秒,0 代表处理请求响应后立即卸载模型,任何负数则表示一直存活)建议设置成 24h,即模型在内存中保持 24 小时,提高访问速度OLLAMA_NUM_PARALLEL表示请求处理的并发数量,默认为1(即单并发串行处理请求)建议按照实际需求进行调整OLLAMA_MAX_QUEUE表示请求队列长度,默认值为512 建议按照实际需求进行调整,超过队列长度的请求会被抛弃OLLAMA_DEBUG表示输出 Debug 日志,应用研发阶段可以设置成1(即输出详细日志信息,便于排查问题)OLLAMA_MAX_LOADED
35、_MODELS表示最多同时加载到内存中模型的数量,默认为1(即只能有 1 个模型在内存中)建议修改:将模型路径迁移至非系统盘(如OLLAMA_MODELS=E:models),按需提高OLLAMA_KEEP_ALIVE 和OLLAMA_NUM_PARALLEL 优化性能,生产环境限制请求来源并关闭调试日志。40 启动Ollama服务后,通过浏览器访问http:/localhost:11434可看到:”ollama is running“若无法访问,需检查Ollama服务是否启动,是否有防火墙或安全软件阻止端口访问,以及是否更改了默认端口。访问Ollama服务 本地部署:前端界面运行在本地计算机
36、上,可通过http:/localhost:11434与Ollama服务通信。远程部署:需确保前端界面所在计算机可访问Ollama服务所在计算机的IP地址和端口。可在Ollama服务所在计算机上运行ollama serve-host 0.0.0.0命令允许远程访问或者修改环境变量,最后通过IP地址访问Ollama服务。前端界面网络访问 端口冲突:确保11434端口未被占用,若被占用,可通过:ollama serve-port 命令或者通过修改环境变量指定其他端口。代理设置:在代理网络环境中,需确保代理设置允许访问本地服务。防火墙设置:确保防火墙规则允许对11434端口的访问,可添加防火墙规则允许
37、该端口流量。网络配置注意事项网络配置410301环境准备前端展示模型部署演示Ollama完整部署流程:从DeepSeek 7B模型选择到加载,详细讲解命令行指令集,重点说明模型加载与启动命令的正确使用方法。0242Ollama常用命令命令描述ollama serve启动 Ollamaollama create从 Modelfile 创建模型ollama show显示模型信息ollama run运行模型ollama pull从注册表中拉取模型ollama push将模型推送到注册表ollama list列出所有模型ollama ps列出正在运行的模型ollama cp复制模型ollama rm删
38、除模型ollama help显示任意命令的帮助信息这两个命令是个人部署最主要的两个命令,主要用来下载和启动模型43使用ollama pull命令下载模型,格式为ollamapull。案例:某用户在终端输入ollama pull deepseek-r1:7b,从Ollama模型库中成功下载7B模型,耗时约10分钟。下载命令格式下载过程中,终端会显示下载进度条,实时显示下载速度和剩余时间。可通过ollama list命令查看已下载的模型列表,确认模型是否下载完成。案例:某用户在下载14B模型时,通过ollama list命令发现下载进度为50%,预计还需20分钟完成。下载过程监控若下载失败,可能是
39、网络问题或模型库地址错误。可尝试重新运行下载命令,或检查网络连接和模型库地址。案例:某用户下载7B模型时因网络中断失败,重新运行下载命令后成功完成下载。下载失败处理使用Ollama命令下载模型44使用ollama run命令运行模型,格式为ollama run。案例:某用户在终端输入ollama run deepseek-r1:7b,模型成功启动并进入运行状态。运行命令格式模型运行后,可通过ollama ps命令查看正在运行的模型列表,确认模型是否正常运行。若模型未正常运行,可检查硬件资源是否充足,或是否有其他模型占用资源。案例:某用户运行14B模型后,响应速度较慢,经检查发现内存占用过高。运
40、行状态检查使用ollama stop命令停止运行的模型,格式为ollama stop。案例:某用户在测试完成后,通过ollama stop deepseek-r1:7b命令停止了7B模型的运行,释放了系统资源。停止运行模型使用Ollama命令运行模型45模型运行效果46Ollama常见问题 问题描述 默认配置下Ollama服务暴露在公网,易被自动化脚本扫描攻击,导致算力盗用或模型文件删除。解决方案 强制身份认证:通过反向代理(如Nginx)添加Basic Auth认证,或在Ollama启动时绑定内网IP(OLLAMA_HOST=192.168.x.x)。网络层隔离:使用Docker的-netw
41、ork host模式部署,配合iptables限制访问来源IP段。日志监控:启用Ollama的-verbose日志模式,结合Prometheus监控API调用频率,识别异常流量。安全漏洞与未经授权访问风险47Ollama常见问题 问题描述 Ollama版本升级后模型仅运行在CPU,或量化精度丢失导致回答质量下降。解决方案 锁定依赖版本:通过Docker镜像固定Ollama版本(如ollama/ollama:0.5.1-cuda),避免自动升级引入兼容性问题。显存分配验证:使用nvidia-smi监控GPU利用率,若发现异常回退至CPU,检查CUDA驱动版本与Ollama编译环境的兼容性。模型升
42、级后性能退化问题48前端展示构建多形态接入方案:PageAssist实现网页即时问答,Chatbox支持Markdown渲染,Open WebUI 提供企业权限管理。0201环境准备模型部署0349”特点:实时对话交互,多模型切换,聊天历史管理,网页内容交互,支持多种文档格式。优点:功能实用,隐私保护,所有交互在本地完成。缺点:功能较为基础,可能无法满足复杂需求。适用场景:适合需要与网页内容交互、管理聊天历史的用户。特点:浏览器插件,支持PDF对话、网络搜索集成,与对象存储、Cloud Studio无缝集成。优点:轻量级,安装方便,与网页内容紧密结合。缺点:功能相对基础,对于不常使用网页交互的
43、用户优势不明显。适用场景:适合需要与网页内容紧密结合、进行针对性AI交互的用户。特点:多功能聊天系统,支持Gmail集成、谷歌搜索增强、上下文网站交互。优点:功能丰富,AI交互体验全面,适用于多种场景。缺点:部分功能(如实时搜索)可能处于维护状态,对不熟悉Gmail和谷歌搜索的用户实用性降低。适用场景:适合需要邮件处理、搜索增强功能的用户。Orian(Ollama WebUI)Page Assistollama-ui浏览器插件50Enchanted LLM特点:MacOS原生应用,支持多种私人托管模型,界面简洁直观。适用场景:适合MacOS用户,需要本地运行多种模型。Chatbox特点:跨平台
44、开源客户端应用,支持Windows、MacOS、Linux、iOS和Android,支持多种大语言模型。适用场景:适合跨平台使用,需要多种模型支持的用户。LLocal.in特点:跨平台完全开源的客户端,用于利用本地运行的大型语言模型,Electron桌面客户端,易于使用。适用场景:适合需要本地运行模型、跨平台使用的用户。Ollama App特点:现代且易于使用的多平台客户端,支持Ollama。适用场景:适合需要简洁界面、多平台支持的用户。桌面应用51特点:基于Web的界面,方便用户与Ollama模型进行交互。适用场景:适合需要通过Web界面与模型交互的用户。项目地址:https:/ WebUI
45、特点:专为Ollama设计的极简主义用户界面,界面美观。适用场景:适合追求简约风格的用户。项目地址:https:/ Ollama LLM UI特点:使用HyperDiv反应式UI的Ollama基本聊天界面。适用场景:适合需要简单聊天界面的用户。Ollama Basic ChatWeb服务52终端工具 特点:Ollama提供了多种终端工具,如oterm、ollama.nvim等,方便开发者在终端中使用Ollama。适用场景:适合开发者,需要在终端中快速使用Ollama。云服务 特点:Ollama支持在Google Cloud、Fly.io、Koyeb等云平台上部署。适用场景:适合需要在云端部署模
46、型的用户。0102其他53 设置API代理:在设置菜单中,配置API代理,连接到不同的AI模型和服务提供者。管理和调试Prompt:使用Chatbox提供的工具设计和调整Prompt,以获得最佳的AI交互体验。保存聊天记录:所有聊天记录和Prompt会自动保存在本地。多平台同步:通过登录账号,可在不同设备上同步数据。适用场景:适合需要多平台使用、管理聊天记录的用户。其他设置Chatbox-安装 访问Chatbox AI官网,根据设备选择版本下载并安装,安装完成后启动应用。适用场景:适合跨平台使用,需要多种模型支持的用户。下载与安装 使用本地模型:打开Chatbox软件,点击左下角齿轮图标进入设
47、置,选择模型提供方为Ollama,API域名自动填充为http:/localhost:11434,选择对应模型,点击保存。使用在线API:以接入硅基流动的DeepSeek-R1为例,选择SiliconFlow API,粘贴API密钥,选择DeepSeek-R1模型。适用场景:适合需要快速切换本地和在线模型的用户。配置模型 与文档和图片聊天,代码生成与预览,实时联网搜索与查询,AI生成的图表可视化,AI驱动的图像生成,LaTeX和Markdown渲染使用功能54Chatbox-界面温度设置建议:代码生成/数学解题-0.0数据抽取/分析-1.0通用对话-1.3翻译-1.3创意类写作/诗歌创作-1.
48、555 打开侧边栏:安装完成后,通过右键菜单或快捷键(默认为Ctrl+Shift+P)打开侧边栏。在侧边栏中,可以与本地AI模型进行对话,获取网页内容的相关信息。使用Web UI:点击扩展图标,会在新标签页中打开Web UI。在Web UI中,可以像使用ChatGPT一样与AI模型进行对话。配置本地AI模型:首次使用时,需要配置本地AI模型,目前支持Ollama和Chrome AI(Gemini Nano)等本地AI提供商。选择指定的模型后,即可开始与模型进行交互。其他功能:网页内容对话、文档解析、联网搜索、语言设置。适用场景:适合需要与网页内容紧密结合、进行针对性AI交互的用户。使用方法02
49、打开Chrome Web Store搜索“Page Assist”点击“添加到Chrome”按钮安装方法01Open WebUIPage Assist-安装56Open WebUIPage Assist-界面57使用方法运行Open WebUI,使用以下命令:无GPU加速:dockerrun-d-p3000:8080-add-host=host.docker.internal:host-gateway-vopen-webui:/app/backend/data-name open-webui-restart always ghcr.io/open-webui/open-webui:main使
50、用 GPU 加 速:docker run-d-p3000:8080-gpusall-add-host=host.docker.internal:host-gateway-vopen-webui:/app/backend/data-name open-webui-restart always ghcr.io/open-webui/open-webui:cuda安装方法OpenWebui-安装访问Open WebUI:安装完成后,打开浏览器访问http:/localhost:3000。配置AI模型:选择支持的LLM运行器(如Ollama或OpenAI API),可以配置自定义OpenAI API
51、URL,连接到其他兼容的API服务。58OpenWebui-界面OpenWebUI 支持多模态交互、本地模型与云端 API 混合部署,并深度集成RAG 知识库和外部工具,相较于 Page Assist 等单一功能插件,其开源可定制、支持企业级多用户管理及全栈 AI 工作流扩展的特性,更适合开发者构建私有化复杂应用。59Open WebUI三款界面总结 PageAssist以浏览器插件形态实现本地AI与浏览场景的无缝融合,强调隐私优先和轻量交互,通过侧边栏对话、文档解析等能力将模型能力嵌入用户日常操作,适合注重数据安全的高频轻需求场景。Chatbox定位灵活的中台调度工具,以模块化设计兼容多模型
52、API和插件扩展,平衡开发者的自定义需求与普通用户的易用性,适用于需要多模型协同或快速验证AI能力的场景。Open WebUI聚焦企业级AI服务全生命周期管理,从模型部署、权限控制到知识库集成提供闭环方案,通过负载均衡、协作聊天等特性满足规模化团队的技术管控需求。60企 业 部 署 D e e p S e e kE n t e r p r i s ed e p l o y m e n tPART 0361611.Ollma框架适合个人用户私有化本地部署,但在多用户并发场景下性能衰减明显。这一部分我们将尽可能简单地介绍企业级私有化部署的方案和探索实践,普通用户可以了解即可。2.企业级生产环境推荐
53、使用Transformers来快速验证模型能力,使用vLLM框架借助PagedAttention技术实现24倍于Transformers的吞吐量实现大模型的高效推理,针对不同企业场景,则提供不同的企业级部署方案,我们也会分享服务器配置、性能数据及报价参考等实战经验,且深度分析业务场景的适配性,给予参考帮助。3.同时,针对近期出现的KTransformers、Unsloth等多套低成本动态量化模型的DeepSeek部署解决方案。虽然不够成熟也无法投入实际生产使用,但我们也会用一定的篇幅分享我们的研究实践和经验。62Transformers简介 Transformers 提供了可以轻松地下载并且训
54、练先进的预训练模型的 API 和工具。使用预训练模型可以减少计算消耗和碳排放,并且节省从头训练所需要的时间和资源。这些模型支持不同模态中的常见任务,比如:自然语言处理:文本分类、命名实体识别、问答、语言建模、摘要、翻译、多项选择和文本生成。机器视觉:图像分类、目标检测和语义分割。音频:自动语音识别和音频分类。多模态:表格问答、光学字符识别、从扫描文档提取信息、视频分类和视觉问答。Transformers 支持在 PyTorch、TensorFlow 和 JAX 上的互操作性。这给在模型的每个阶段使用不同的框架带来了灵活性;在一个框架中使用几行代码训练一个模型,然后在另一个框架中加载它并进行推理
55、。模型也可以被导出为 ONNX 和 TorchScript 格式,用于在生产环境中部署。63Transformers部署模型 3-1 步骤一:安装相关依赖包 步骤二:加载模型pip install torchpip install transformers accelerate bitsandbytesfrom transformers import AutoModelForCausalLM,AutoTokenizermodel_path=deepseek-ai/deepseek-r1-distill-qwen-7btokenizer=AutoTokenizer.from_pretrained
56、(model_path)model=AutoModelForCausalLM.from_pretrained(model_path,device_map=auto,torch_dtype=auto)load_in_8bit=True,#可以添加参数来启用8bit量化64Transformers部署模型 3-264/41 步骤三:运行模型prompt=你是一个人工智能助手解释量子计算inputs=tokenizer(prompt,return_tensors=pt).to(model.device)outputs=model.generate(*inputs,max_new_tokens=256
57、,do_sample=True,temperature=0.7,repetition_penalty=1.05)print(tokenizer.decode(outputs0)65Transformers部署模型 3-3 步骤四:其他框架调用#pip install gradioimport gradio as grdef generate(text):inputs=tokenizer(text,return_tensors=pt).to(model.device)outputs=model.generate(*inputs,max_new_tokens=256)return tokenize
58、r.decode(outputs0,skip_special_tokens=True)gr.Interface(fn=generate,inputs=gr.Textbox(lines=5,label=输入),outputs=gr.Textbox(label=输出).launch(server_name=0.0.0.0,server_port=6006)这里选择了gradio框架,可以快速启动一个前端界面,实战中可以选择配合业务逻辑进行调用66生成时常用参数 2-1参数名称含义注意事项inputs输入的文本或编码后的 input_ids,用于生成文本的起始部分如果传入 inputs_embeds
59、,则不能同时传入 inputsinput_ids与 inputs 类似,但通常用于直接传入编码后的输入如果传入 inputs_embeds,则不能同时传入 input_idsinputs_embeds输入的嵌入向量,通常用于 encoder-decoder 模型不能同时传入 input_ids 或 inputsmax_length生成文本的最大长度(包括输入部分)如果同时设置 max_new_tokens,max_new_tokens 优先max_new_tokens生成的新 token 数量(不包括输入部分)如果同时设置 max_length,max_new_tokens 优先min_len
60、gth生成文本的最小长度(包括输入部分)如果同时设置 min_new_tokens,min_new_tokens 优先min_new_tokens生成的新 token 的最小数量(不包括输入部分)如果同时设置 min_length,min_new_tokens 优先num_beamsBeam search 中的 beam 数量,用于控制生成的多样性值越大,生成结果越多样,但计算成本越高do_sample是否启用随机采样生成文本如果为 True,则生成结果会更随机;如果为 False,则使用贪婪解码或 beam searchtemperature控制生成文本的随机性值越高,生成结果越随机;值越低
61、,生成结果越确定top_k在随机采样中,只从概率最高的 k 个 token 中采样值越大,生成结果越多样,但可能引入噪声top_p在随机采样中,只从累积概率大于 p 的 token 中采样值越小,生成结果越集中于高概率 token67生成时常用参数 2-2参数名称含义注意事项early_stopping是否在达到 max_length 或 max_new_tokens 之前提前停止生成如果为 True,则可能生成较短的文本eos_token_id结束生成的 token ID如果生成到该 token,生成过程会停止pad_token_id填充 token 的 ID用于处理输入和输出的填充部分bo