在2025年全国两会将“人工智能+”纳入国家战略的背景下,政务热线的数智化转型成为城市治理现代化的关键议题。近期,DeepSeek在政务热线领域的应用逐渐受到关注,一些地区和单位已经开始尝试接入DeepSeek,以期借助其强大的智能处理能力,提升服务效率、优化治理模式,实现政务热线服务的转型升级。
清华大学数字政府与治理研究院在政务热线领域有着丰富的研究与实践经验,此次《政务热线周刊》编辑部有幸邀请到清华大学数字政府与治理研究院院长、社会科学学院长聘教授张小劲,清华大学计算社会科学与国家治理实验室、数字政府与治理研究院数据科学家郑伟海,清华大学社会科学学院博士后、数字政府与治理研究院助理研究员杜玉春以及才博智慧治理研究院执行院长文宁,深度解析DeepSeek模型在政务热线中的应用价值与发展趋势,为政务热线数智化转型提供新的启发和思路。下文为《周刊》对话郑伟海教授的详细内容:
对话郑伟海教授:DeepSeek在政务热线中的技术优势与挑战
郑教授,您好!能否请您简要介绍一下人工智能技术的发展历程,以及DeepSeek模型在这一历程中的独特地位和在政务热线中的应用优势?

郑伟海 清华大学计算社会科学与国家治理实验室、数字政府与治理研究院数据科学家
感谢您的提问。人工智能技术的发展历程可以概括为从符号主义到连接主义、再到当前大模型驱动的通用智能探索三个阶段。在早期符号主义阶段,研究者通过规则系统和专家知识库模拟人类逻辑推理,但严重受限于场景泛化能力;21世纪初,机器学习尤其是深度学习崛起,通过数据驱动的神经网络实现了图像识别、自然语言处理等领域的突破;而2022年ChatGPT的诞生标志着大模型时代的全面开启,其核心在于通过海量数据与算力支撑,实现了从专用智能向通用智能的跨越式演进。
在这一进程中,DeepSeek的出现具有里程碑意义。其独特性体现在三个方面:第一,架构创新。DeepSeek采用混合专家模型(MoE)架构,通过动态路由机制将任务分解至多个子专家模型处理,既降低了单模型参数规模,又提升了复杂任务的解决效率。例如,在政务热线场景中,市民诉求可能涉及政策咨询、工单派发、舆情分析等多维度问题,MoE架构可自动分配至擅长不同领域的专家模块协同处理,显著提升响应精准度。第二,推理能力突破。DeepSeekR1模型通过强化学习框架实现了思维链的自然涌现,能够进行多步逻辑推理与规划,这在处理热线场景中的跨部门协调、政策嵌套解读等复杂问题时至关重要。例如,某市民反映“小区加装电梯遇阻”,模型需结合地方政策、物权法规、工程规范等多源信息进行因果推导,生成可行性建议。第三,技术平权实践。DeepSeek通过开源模型参数与训练框架,大幅降低了政务领域本地化部署的成本。
在政务热线的具体应用中,DeepSeek的技术优势进一步凸显:
其一,技术突破:从“快思考”到“慢思考”的范式革命。传统生成模型(如GPT-3)虽在自然语言生成方面表现出色,但面对复杂推理与规划任务时,能力有所不足。相较之下,DeepSeek凭借MoE混合专家架构与多头潜在注意力机制,不仅实现了类似“慢思考”的推理能力自然涌现,且在成本控制上更具优势。具体而言,DeepSeek的推理准确率与OpenAI的O1模型基本相当,而训练成本仅约为后者的十分之一。这种能力使其在政务热线工作场景中,能胜任政策推演、事项分类、数据分析、风险预警等复杂任务,而非仅停留在信息检索层面。
其二,生态重构:推动AI技术平权。DeepSeek的开源生态为政务热线的智能化升级提供了有力的技术支撑。通过模型蒸馏与混合精度训练,DeepSeek显著降低了推理成本。同时,它还推出了不同参数规模的模型,以满足多样化的需求,推动技术探索,在确保能力适配的前提下,大幅削减了部署和资源消耗的成本。以32B参数规模的蒸馏版模型为例,该模型基于阿里千问开发,在政务热线场景中展现出色的理解、生成和泛化能力,同时大幅降低了对显存的需求。这使得地方政府能够以百万级成本完成私有化部署,实现了“技术平权”,为政务热线的普惠化升级提供了坚实保障。
其三,场景适配:政务数据的闭环治理。DeepSeek的单面镜架构实现了“数据可用不可见”,这一架构在确保政务数据安全的基础上,通过外部知识检索有效增强了模型的能力,从而满足了政务热线对于数据安全性的严格要求。
其四,工程创新:国产算力适配。针对对英伟达生态的依赖问题,DeepSeek通过模型量化与并行计算优化,已经成功实现了与昇腾、海光等国产芯片的初步适配,为政务热线的智能化转型提供了更加自主可控的技术选择。
其五,协同生态:混合多智能体模型构建。结合诸如Manus等智能体技术,DeepSeek能够灵活调用外部工具链以完成复杂操作。例如,它可以自动从热线录音中提取关键词并据此生成舆情报告,或调用可视化工具生成数据看板等。
这些实践充分证明,DeepSeek不仅是一次技术范式的革新,更是推动治理现代化的关键引擎。其“顶天立地”的设计理念——既追求基础研究的突破,又注重场景化落地,同时实现低成本训练——为政务热线从“被动响应”向“主动治理”转型提供了坚实的关键技术支撑。
我们知道,大模型在技术上仍存在一些局限性,在政务热线的应用场景中,这些局限性可能会带来哪些具体影响或挑战?面对DeepSeek的这些局限性和技术挑战,您认为我们应该如何谨慎应用和积极训练,以规避这些问题并提升模型的准确度和可靠性?
郑伟海 清华大学计算社会科学与国家治理实验室、数字政府与治理研究院数据科学家
这个问题非常关键。尽管大模型展现出了强大的能力,但并非万事可为,甚至无不可为,其局限性在政务热线场景中主要体现在推理偏差、知识时效性和伦理风险这三个方面。以DeepSeek为例,其面临的挑战与应对策略可以分为三个层面:
首先,在技术层面。在技术层面,DeepSeek在通用能力方面,例如函数调用、多轮对话、角色扮演等结构化输出上,相较于传统问答模型仍存在一定的劣势。在处理非中文内容时,还可能出现语言混杂的问题。此外,在长程推理过程中,其置信度可能会衰减,尤其是在超过5步的逻辑推演中,可能会出现“幻觉”等现象。
针对技术层面的风险和挑战,可以采取混合架构管控的应对策略。具体而言,可以采用“R1+V3”双模型架构。其中,V3这类生成模型可以用于处理高频简单咨询,如社保查询、停电通知等,以提高响应速度并减少人工干预的需求。而R1模型则可以用于处理政策推演、规划设计、风险评估等复杂任务,并通过“思维链”技术将决策过程分解为可解释的步骤。
其次,在数据层面,DeepSeek模型的训练数据仅更新至2024年,这可能导致一些问题,例如政策盲区、对社会热点问题的滞后反应以及对区域差异的忽视等。为解决这些问题,建议采用RAG(检索增强生成)技术实现动态知识嵌入。具体而言,可将最新的政策、法规文本向量化后与模型进行交互,以此约束输出边界。例如,通过政务云平台实时抓取国务院政策文件、省级法规库、地方政府公报等权威数据源,并结合对历史工单数据的读取与分析,构建“政策知识流”,从而为模型提供实时更新的知识支持。
再者,在伦理层面,大模型在政务场景中主要面临决策不可解释性和偏见放大效应等伦理风险。例如,未经充分训练的模型可能会给出“不符合条件”的结论,但却无法清晰地说明具体依据。在这种情况下,人机协同校验机制显得尤为重要。应在关键领域,如应急管理、行政处罚等场景中设置“人工复核节点”,要求模型的输出必须经过人工确认后才能执行,并且要记录模型推理的每一步逻辑,确保整个流程和结果都处于可控状态。
最后,对大模型进行科学且持续的优化训练同样至关重要。基于政务热线工作场景,以下是一些训练方向上的建议:首先,领域自适应训练不可或缺。通过基于政务热线语料库对模型进行增量训练,能够显著提升模型对地方性政策的理解准确率。其次,反事实对抗训练也极为关键。可注入包含逻辑陷阱的合成数据,例如“失业金申领需提供在职证明”,以此增强模型对矛盾信息的识别能力。再者,多模态对齐优化不容忽视。联合语音识别模型进行端到端训练,可有效减少方言与同音词的干扰。最后,可解释性增强也极为重要。开发决策溯源系统,可视化模型注意力权重与知识检索路径,例如明确答复中“残疾人补贴标准”来源于某地某文件第X条,便于人工核验。
总之,大模型的落地绝非单纯的技术移植,而是需要技术迭代、制度创新与人文关怀的三重协同,确保技术应用始终服务于治理效能提升,而非制造新的风险。
文章作者丨徐卉瑶 《政务热线周刊》编辑部
文章来源丨《政务热线周刊》2025年3月下
原文标题丨解码DeepSeek赋能政务热线数智化转型——清华大学数字政府与治理研究院团队及才博智慧治理研究院联合访谈
周刊投稿丨cisg@caibocmi.com
更多精彩文章,欢迎关注《政务热线周刊》!
声明:本文为作者原创,任何单位或个人转载务必标明来源及作者。
