编者按:当下,DeepSeek等大模型技术正以迅猛之势演进,全方位、深层次地影响着我们的工作模式与生活形态。湖南省委党校第68期中青三班学员、溆浦县北斗溪镇党委书记王珏《玩转大模型:解锁应用技巧,洞察发展趋势》一文,结合实践探索,介绍了大模型应用技巧,深入剖析其现存局限与应用趋势,重点解读了DeepSeek的独特优势与发展前景。红麓现予转载,以飨读者。
前言
2025年政府工作报告指出:激发数字经济创新活力。持续推进“人工智能+”行动,将数字技术与制造优势、市场优势更好结合起来,支持大模型广泛应用,大力发展智能网联新能源汽车、人工智能手机和电脑、智能机器人等新一代智能终端以及智能制造装备。扩大5G规模化应用,加快工业互联网创新发展,优化全国算力资源布局,打造具有国际竞争力的数字产业集群。加快完善数据基础制度,深化数据资源开发利用,促进和规范数据跨境流动。促进平台经济规范健康发展,更好发挥其在促创新、扩消费、稳就业等方面的积极作用。
大模型应用技巧(一)
多模型协同互补——汇聚智慧,拓展视野
在大模型的应用领域中,不同模型基于各自独特的算法架构与训练数据,呈现出各异的优势领域。用户可以同时启用诸如豆包、DeepSeek、腾讯元宝、Kimi等多个免费大模型,构建起一个多元且全面的信息获取体系。具体来说,可以通过向这些模型提出相同的问题,对比整合它们的回答,便能够从多个维度审视问题,获取更为丰富且精准的信息,从而形成更为完善的解决方案。这种协同方式,就如同汇聚了不同专业背景的专家团队,各自发挥专长,共同攻克难题。
提问场景示例(文化旅游项目开发)
表丨利用多个大模型构建多元信息获取体系
场景化对话构建——定制交互,精准服务
大模型的核心能力是通过大量文本数据的学习,从而进行概率预测生成内容。因此,在实际使用过程中,根据工作、生活、学习等不同的应用场景,建立针对性的对话类别,能够显著提升大模型对用户需求的理解深度与准确性,进而实现更为有效的延续性交互。
比如,在工作场景中,可在开头明确表明“我正在负责文化旅游工作,现在遇到了这些问题”,然后详细描述分管工作的基本情况、人员安排、资金项目等方面的情况。随着交流的增多,大模型会逐渐适应这个场景,更精准地理解需求,结合诸如高铁交通优势、本地花瑶文化等角度,提供更具针对性的内容。
这种交互模式,类似于拥有一位专属的智能助手,随着交流的逐步深入,它对用户的需求理解愈发透彻,提供的支持也更加精准高效。
图丨建立针对性的对话类别
运用灵活提问策略——巧妙设问,高效求解
提问方式在与大模型的交互过程中起着关键作用,不同的提问角度和表述方式往往能够引导大模型输出截然不同的答案。用户在与大模型沟通时,既可以采用询问具体操作步骤的方式,即“怎么做”,以获取详细的方法指导;也可以直接提出请求,即“帮我做”,尝试让大模型直接提供完整的解决方案。
比如,把Excel格式的通讯录导入手机这一常见任务,直接向大模型请求协助完成导入操作,它可能会依据自身的算法和经验,给出适用的导入工具、具体的操作流程以及可能遇到的问题及解决办法等建议。
图丨 “怎么做”获取详细的方法指导
但是也可以直接让大模型帮助生成需要导入手机通讯录的VCF格式文件,从而极大地节省用户的时间和精力成本。
图丨 “帮我做”提供完整的解决方案
多轮对话优化结果——反复雕琢,精益求精
大模型的输出结果受到多种因素的影响,初次生成的内容可能无法完全满足用户的期望。在这种情况下,通过多轮对话的方式与大模型进行深入交互,能够有效地引导其不断优化输出内容。
以录音整理稿的处理为例,首先让大模型对录音内容进行初步整理,生成基础稿件。假设录音内容是一场学术讲座,大模型初步整理的稿件可能存在一些语句不通顺、专业术语识别错误等问题。接着,可以向大模型询问该整理稿存在的不足之处,比如“这份整理稿中的专业术语有没有错误?语句是否通顺?”然后,让大模型根据反馈的意见,进行重新整理。大模型会对稿件中的专业术语进行核对和修正,调整语句结构,使稿件更加通顺易读。通过这样反复的交互和优化过程,能够显著提升整理稿的质量,使其更符合用户的实际需求。
再比如:假设乡镇计划举办篮球文化节,工作人员小张负责撰写活动策划方案,他借助大模型来完成这项工作。
图丨多轮对话流程图
目前大模型的局限性(二)
逻辑运算能力短板——理性推理,仍有不足
大模型主要基于文本语义分析技术构建,其架构设计侧重于对语言文本的理解和生成,而非严谨的逻辑运算。在处理诸如数字大小比较、质数寻找、复杂逻辑推理等精准逻辑判断任务时,相较于专门为逻辑运算设计的程序,大模型存在明显的劣势。
比如经典的“9.11与9.9谁大”问题,部分大模型可能会因为对数字的理解局限于文本形式,而无法准确判断大小关系,出现错误回答。这是因为大模型在学习过程中,虽然接触了大量文本,但对数学逻辑的理解和运用能力相对薄弱,缺乏像数学程序那样精准的运算机制。
图丨Kimi测试结果
图丨豆包测试结果
图丨DeepSeek测试结果
训练数据依赖问题——数据基石,影响深远
大模型的回答准确性和可靠性高度依赖于其训练数据的质量和完整性。如果训练数据中存在错误信息、偏差或者局限性,模型在学习和推理过程中就可能产生“幻觉”,输出与事实不符的错误答案。此外,随着时间的推移和知识的不断更新,训练数据的时效性也会影响模型的表现,对于一些新兴领域或快速变化的信息,模型可能无法及时准确地进行处理和回应。
尽管部分大模型已经尝试通过联网搜索来解决训练数据更新不及时的问题,在一定程度上能够获取最新信息,但这一方式仍存在显著缺陷。各大互联网公司为保护自身数据权益与商业利益,设置了重重访问壁垒。百度等搜索引擎对数据爬取进行严格限制,微信公众号的数据也未对外开放检索。这使得大模型难以全面、自由地获取互联网上的丰富信息,极大地限制了其信息获取的广度与深度。最终导致大模型在回答用户问题时,全面性大打折扣,无法整合多元信息给出完备答案;准确性也受到冲击,可能因关键信息缺失而给出错误或片面的结论;实时性更是难以保证,面对瞬息万变的信息,无法及时呈现最新资讯。
启发式思考有短板——思维局限,难以另辟蹊径
尽管大模型具备强大的语言处理和知识检索能力,但目前仍缺乏像人类一样的启发性思考能力。在面对复杂的实际问题时,它们往往难以主动地将不同的信息进行关联和整合,从全新的角度探索解决方案。
以防汛工作中的水位预测问题为例,当用户要求大模型预测未来水位情况时,若模型无法直接获取相关的实时数据,可能会陷入无法回答的困境。但人类专家在面对类似情况时,会考虑多种因素,如降雨量的预测、上游水库的泄洪情况、河流的地形地貌等。
目前,大模型难以自主地建立起降雨量与水位变化之间的内在联系,也无法主动考虑其他相关因素,从而无法转变角度提出分析和预测。启发式思维有短板,限制了大模型在复杂问题解决中的应用效果。
与真实世界的隔阂——虚拟与现实,存在差距
虽然部分大模型支持多模态输入,包括文字、语音、视频、图片等多种形式,但与真实世界的实际情况相比,仍存在一定的差距。
以医疗场景为例,大模型在进行疾病诊断和治疗建议时,通常仅依据用户描述的症状信息进行分析。然而,在真实的医疗过程中,医生不仅会听取患者的症状描述,还会通过实际的身体检查,如测量体温、观察体征、进行血液检测等多种方式,全面获取患者的健康信息。
目前,大模型由于缺乏对真实世界的直接感知和综合分析能力,其给出的判断和建议往往存在局限性,不能完全替代专业医生的诊断和治疗决策。
例如,仅根据患者描述的咳嗽、发热症状,大模型可能会给出多种可能疾病的判断,但无法像医生那样通过听诊、观察咽喉等方式,更准确地判断病情。
知识储备的局限性——领域浩瀚,难以尽知
当前市面上的大模型主要目标是开发通用型的人工智能系统,涵盖了广泛的领域和主题,但对于一些特定行业领域中复杂的知识关联,可能无法做到全面覆盖。
比如,在分析信访问题时,大模型可能仅从常见的信访类型角度进行考虑,而忽略了扫黑除恶、信访法治化等相关政策和社会背景因素对信访工作的影响。这就需要业内人士结合自身的专业知识和实际经验,对大模型的输出结果进行补充和完善,以确保分析的准确性和全面性。
为弥补通用大模型在特定行业领域知识储备的不足,微调技术应运而生。微调即在已预训练的通用大模型基础上,运用特定领域的小规模数据集进行再次训练,使模型适应特定任务或领域。
DeepSeek大模型的独特优势(三)
高开源性开启新机遇
与部分仅提供访问接口的大模型不同,DeepSeek的开源特性为企业、政府和个人带来了诸多显著优势。在数据安全方面,随着数据隐私和安全问题日益受到关注,用户可以将DeepSeek模型部署在本地服务器上,完全掌控数据的存储和处理过程,有效避免了数据在传输和存储过程中可能面临的泄露风险。同时,DeepSeek采取的是MIT License开源协议(开源程度非常高)。
表丨四类大模型的开源性对比
在应用场景拓展方面,DeepSeek开发者能够根据自身的需求对模型进行定制化开发和优化,为硬件设备的智能化升级提供了广阔的空间。
未来,智能机器人、智能玩具等各类硬件产品都可以内置DeepSeek大模型,实现本地化运行,即使在没有网络连接的情况下,也能够凭借预加载的模型和数据,为用户提供智能化的服务,极大地拓展了大模型的应用边界。
卓越表现赢得青睐
DeepSeek大模型在智能化方面展现出了卓越的表现,特别是DeepSeek-R1采用了基于规则的强化学习,产生好的思维链(Chain of Thought, CoT)指导推理过程,相较于市面上的许多其他大模型,甚至一些企业自研的模型,都具有明显的优势。
在自然语言处理任务中,DeepSeek能够更准确地理解用户的意图,生成更加流畅、自然且富有逻辑性的文本内容。无论是文本生成、问答系统,还是机器翻译等应用场景,DeepSeek都能够提供高质量的输出结果,为用户带来更加优质的使用体验。这种出色的性能表现,使得DeepSeek在众多大模型中脱颖而出,受到了广大用户和开发者的高度关注和青睐。
高性价比吸引关注
在成本方面,DeepSeek大模型具有显著的优势。以 DeepSeek-V3为例,其模型 API 服务定价为每百万输入tokens 0.5元(缓存命中)/2元(缓存未命中),每百万输出tokens 8元。而据相关数据显示,DeepSeek-R1的API定价只有当时OpenAI GPT-4的约1/28,相当于使用成本降低了约97%。
同时,在本地部署方面,轻量级只要1万元左右,满血版需要200万左右。与其他一些成本高昂的大模型相比,DeepSeek的低门槛使得更多的企业和个人能够轻松负担得起,极大地扩大了其受众范围。
对于初创企业和小型团队来说,这意味着他们可以在有限的预算内,借助DeepSeek的强大能力开展创新项目和业务探索。
比如,一家初创的智能写作公司,每月需要处理大量的文本生成任务,如果使用GPT-4,高昂的API费用可能会让企业不堪重负。而选择DeepSeek,可以大大降低了运营成本。这种高性价比的特点,为DeepSeek的广泛应用和推广奠定了坚实的基础,有望在未来引发新一波的创业和创新热潮。
技术创新突破传统观念
DeepSeek在技术层面实现了重大创新,尤为突出的是通过对架构创新证明了在遵循计算效率基本规律的前提下,模型设计优化能显著提升性能与成本效益。
Scaling Law规则认为,模型的性能提升高度依赖于模型参数规模的扩大、数据量的增加以及算力的增强,这使得大模型的发展面临着成本急剧攀升、资源消耗巨大等难题。
DeepSeek另辟蹊径,通过对模型架构的创新设计,如采用新型注意力机制,大幅降低长文本推理成本,让模型在处理长序列信息时更加高效准确;创新性地解决混合专家模型(MoE)中的路由崩溃难题,实现多个专家模块协同工作,显著提升模型泛化能力与处理复杂任务的能力;打破传统单令牌预测模式,实现同时预测多个令牌,大幅提升推理速度。
这些创新成果表明,大模型的发展并非只能遵循传统的Scaling Law路径,在模型架构、算法优化等方面进行深入创新同样能够实现性能的飞跃,为大模型的未来发展方向提供了全新的思考角度,激励更多研究人员和企业在模型技术创新上积极探索,推动整个大模型领域的技术进步。
DeepSeek 实用集成——Awesome DeepSeek Integration
Awesome Deepseek Integration是DeepSeek官方在GitHub上推出的开源集成资源库,旨在构建一个覆盖全场景的AI工具生态系统。
该项目通过聚合300+第三方工具与应用,打通了从个人用户到企业开发者的需求链路,实现“一站式”接入DeepSeek大模型能力,成为国内AI工具集成领域的标杆项目。
目前,正在持续更新。
图丨DeepSeek实用集成
图丨扫码进入DeepSeek实用集成页面
大模型应用趋势的一点思考(四)
目前,在实际应用中真正释放大模型的潜力,还需要用工程化思路突破一些瓶颈。
在逻辑推理中,用好“模型+工具”的协同机制
引导大模型遇到逻辑运算问题(如数据比对、规则校验),调用代码生成功能辅助帮助判断。比如,“9.11和9.9谁大”,使用代码进行结果判断。再比如,在信访数据分析中,通过代码自动计算“重复信访率”“按期办结率”等指标。
目前,针对大模型这个方面的不足,在学术界也提出了类似的解决方案:程序化思维提示(PoT)。
图丨程序化思维提示
(参考论文《Program of Thoughts Prompting: Disentangling Computation from Reasoning for Numerical Reasoning Tasks》)
在长文本交互中,用好“备忘录”策略
随着用户与大模型在同一个交互场景中的内容变长,大模型对长文本输入处理容易造成记忆混乱,导致前言不搭后语,因此用户可以引导大模型学习生成“备忘录”,学会提取交互过程中的关键信息。比如,将用户在交互过程中提出的“不能xx”“不可以xx”“需要xxx”保存到备忘录中。用户每次进行交互时,可以先让大模型阅读备忘录中的要求,确保反馈的准确性,同时在互动的过程中,持续不断地对备忘录要求进行增减。
目前,针对大模型在这方面的不足,DeepSeek在2月18日发布了一篇关于NSA的纯技术论文报告。
图丨引导大模型学习生成“备忘录”
图丨DeepSeek介绍NSA:
用于超快速的上下文训练和推理
在政务领域中,探索“双轮驱动”应用模式
① 流程信息化重构:从“人跑流程”到“智能流转”
运用大模型进行轻量级信息化开发,实现纸质材料数字化、重复流程自动化。比如,开发一个县委办督查室工作人员的督查信息系统。再比如,进行门户网站的开发。但是这个实践方向,需要具备一定的编程基础。
图丨开发督查信息系统
图丨生成“湘遇选调”官方首页
②本地知识库构建:从“通用知识”到“精准治理”
当前市面主流大模型的目标都是通用性,为了提高大模型在省市县各级辅导决策和业务处理的能力,还需要结合各级各部门本地政务数据进一步训练垂直大模型。
比如,可以基于历届历次党委全会材料、历年的政府工作报告、历年统计部门的数据、各行业部门的典型经验材料等,形成适宜本地的知识库。
在AI 智能体进化中,探索协同发展路径
①用现有信息化程序参与大模型的成长
经过信息化时代的积累,各行业领域已经拥有了大量成熟的信息化程序、工具,如何让大模型与这些程序、工具进行交互,是让大模型赋能各行业领域的关键问题。
这问题的解决需要双向进化:既需要AI理解工具,也需工具主动适配AI。也就是说不仅仅是大模型自身能力提升的问题,还需要各类工具参与到大模型本身的训练过程。
比如,各类已有程序、工具提供功能菜单翻译(API接口)、异常处理指南(错误代码解读)、经典操作录像(历史调用记录)典型使用的案例数据。
②用大模型参与新的信息化程序的设计
对于未来源源不断产生的新信息化程序、工具,也需要用大模型指导这些程序、工具的开发、设计,并且建立标准化的接口 ,或者说“使用说明”,让大模型方便快速实现对新产生的信息化程序、工具的调用,从而帮助AI智能体不断进化。
具身智能则是大模型在这个基础上与物理世界更进一步互动。
当下,大模型技术发展日新月异,几乎一周甚至一天内有着层出不穷的新进展。大模型技术的发展既为我们带来了前所未有的便利和机遇,同时也伴随着一系列的挑战和局限。
因为大语言模型的设计、实现原理,会造成算法偏见与公平性挑战、内容安全与意识形态风险、法律责任与伦理挑战。
比如:过度依赖历史经济数据,导致对少数民族地区的扶持建议不足;因训练数据偏差,导致落户积分模型对特定行业从业者的评分偏低;恶意用户诱导政务模型生成伪造的政府文件;自动驾驶领域造成重大事故,责任事故如何划分,等等。
各国推出相关法案和管理办法,要对大语言模型进行有效治理,其中的重点是大语言模型的输出内容安全和输出可溯源要求。
在使用大模型的过程中,我们应当充分发挥其优势,同时清醒地认识并规避其不足之处,通过不断的探索和创新,推动大模型技术更好地服务于社会的各个领域,为我们的生活和工作带来更多的价值和改变。
大模型相关概念解释(以学霸为比喻)
闭源大模型 开源大模型 开源代码
① 开源代码 = 学霸的《学习方法说明书》
· 学霸公开了什么?
学习阶段规划:小学、初中、高中每阶段的学习目标(模型架构代码)。
每日作息表:几点起床、几点刷题(训练逻辑和优化算法)。
· 学霸未公开什么?
具体教材内容:小学读的语文课本、初中用的数学题库(训练数据)。
课外读物清单:私下看的《哈利波特》或《时间简史》(未公开的辅助数据)。
· 你能做什么?
复制学霸的学习方法:按他的作息表培养一个小学霸(训练模型)。
修改学习阶段:比如跳过初中直接学高中内容(自定义模型架构)。
例子:学霸公开了《从小学到高考的时间管理手册》,但没告诉你他具体读过哪些书。
②开源大模型 = 学霸的《成长档案》
· 学霸公开了什么?
体测数据:身高、肺活量、百米跑成绩(模型权重)。
学习阶段记录:小学3年、初中2年、高中4年(模型结构说明)。
· 学霸未公开什么?
每日饮食细节:早餐吃鸡蛋还是牛奶(训练数据分布)。
家庭辅导内容:爸妈私下教的解题技巧(未公开的优化技巧)。
· 你能做什么?
直接让他参加比赛:用他的身体素质跑百米(部署模型推理)。
针对性训练:用你的训练计划提升他的跳远成绩(微调模型)。
例子:学霸公开了成长档案,但没说他每天吃几顿饭。
③闭源大模型 = 学霸的《神秘天才档案》
· 学霸公开了什么?
最终成绩:高考750分(模型性能指标)。
· 学霸未公开什么?
学习阶段:是否跳过级、读过哪些学校(模型结构)。
训练内容:刷过哪些题库、请过哪些家教(训练数据和优化方法)。
· 你能做什么?
付费让他答题:但无法复制他的学习方法。
例子:学霸号称“自学成才”,但没人知道他到底怎么学的。
④补充:训练数据与教材的比喻
· 训练数据 = 学霸读过的所有书
即使开源代码公开了“学习方法”,如果不知道学霸读过《五年高考三年模拟》还是《哈利波特》,你依然无法完全复制他的知识体系。
这就是为什么开源大模型往往不公开训练数据——就像学霸不会透露自己的“秘密书单”。
表丨学霸的“秘密书单”
好的大模型意味着什么?蒸馏、微调的概念
①大模型就是天赋各不相同的“学霸”
· 最强大模型(全能学霸)
特点:文理兼修,擅长语言理解、创意写作、代码生成、逻辑推理,但“知识面广深度不足”。
例子:像一位高考状元,既能写散文又能解数学压轴题,但医学、法律等专业领域需要额外学习(微调)。
· 优等大模型(高效学霸)
特点:通过优化学习方法(模型架构创新),在保持高智商的同时,学习成本更低(训练和推理更高效)。
例子:像一位擅长总结“速记法”的学霸,能用更少的时间掌握同样的知识,适合预算有限的场景。
· 一般大模型(垂直领域学霸)
特点:专注特定领域(如电商客服、医疗问答),对其他学科兴趣不大(通用性弱,但垂直任务表现突出)。
例子:像一位医学预科生,解剖学满分,但写诗可能不如文科生。
②蒸馏与微调
· 蒸馏(学霸带徒弟)
过程:大学生学霸将自己的核心知识教给一个同样聪明的小学生(小模型),但小学生只能掌握关键方法。
结果:小学生答题更快更省力(轻量化模型),适合手机、智能手表等设备,体积小但能流畅聊天。
· 微调(学霸转专业)
过程:全能学霸用专业教材(领域数据)深入学习某一学科(如法律、医学),成为该领域的专家。
结果:从“全科优秀”变为“单科顶尖”解决特定问题更精准。
例子:微调后能自动审核合同条款。
③好大模型的“底子优势”
· 基础阶段(蒸馏后)
好模型的“小学生徒弟”比普通模型的徒弟更聪明,答题更准。
例子:优等大模型(高效学霸)蒸馏模型(小模型)在手机端聊天时,比同类小模型更流畅、更懂用户意图。
· 专业阶段(微调后)
好模型的“医学专家”不仅能背课本,还能结合病例提出治疗方案。
例子:最强大模型(全能学霸)微调后,可辅助医生诊断罕见病。
· 上限差异:
最强大模型(全能学霸)就像智商180的学霸,稍加训练就能突破常人极限;普通模型(如小参数模型)可能需要十倍努力才能接近。
表丨学霸的“不同天赋”
④一句话总结
好的大模型就像“天才学霸”:基础好(蒸馏后的小模型依然聪明)、潜力大(微调后能成专家)、天花板高(解决复杂问题的能力远超普通模型)。
玩转大模型:解锁应用技巧,洞察发展趋势(PPT)
鸣 谢
感谢清华大学软件学院对本文的指导
感谢湖南大学国家超级计算长沙中心
为北斗溪镇人民政府提供DeepSeek接入服务
本文部分案例与图片由怀化市溆浦县北斗溪镇人民政府副镇长杨全辉(北斗溪镇学习小组成员)提供。
(来源:湘遇选调 作者:王珏)