谨防数据被“投毒”

　　陈昌孝杨心怡

　　当前，军事人工智能的竞争，正悄然延伸至底层数据的争夺。高质量的训练数据是模型准确性和可靠性的前提，已成为影响未来战争胜负的基础性、战略性要素。数据投毒作为一种针对人工智能训练数据的隐秘攻击手段，危害巨大，给军队智能化建设进程和未来战场制胜能力生成带来严峻挑战。所以，要深刻认识其机理与危害，大力筑牢数据安全屏障。

　　数据投毒是一种针对人工智能模型训练阶段的隐秘攻击手段，其关键在于攻击者通过向人工智能模型的训练数据集中恶意注入精心构造的虚假或误导性样本，旨在系统性地破坏模型的性能与可靠性。目前，数据投毒主要形式有以下几种：一是投放有害内容。通过篡改、虚构和重复等行为产生污染数据，从而干扰训练阶段的模型参数调整，削弱模型性能、降低其准确性，甚至输出有害结果。研究显示，即使是0.001%的虚假文本，其有害输出也会相应上升7.2%。二是植入隐秘后门。数据模型在平时表现正常，一旦遇到特定的触发条件，便会执行预设的错误行为。三是诱发递归污染。受到数据污染的人工智能生成的虚假内容，可能成为后续模型训练的数据源，形成具有延续性的“污染遗留效应”。低质量及非客观数据会导致人工智能训练数据集中的错误信息逐代累积，最终扭曲模型本身的认知能力。

　　数据投毒因其高度的隐蔽性和战略性而构成独特威胁，它能以极小代价悄无声息地削弱、误导乃至瘫痪对方高度依赖的智能化作战节点。数据投毒的危害直指军事人工智能赖以生存的数据基础与信任链条，主要体现在3个方面。其一，扭曲认知根基。数据投毒可从根本上污染模型的认知逻辑与判断标准，导致目标识别模型混淆敌我、情报分析模型建立错误关联或忽略关键威胁。特别是隐蔽后门攻击更为致命，一旦触发便可能瞬间失效或导致作出致命误判，使得武器失控、体系瘫痪。其二，干扰判断决策。由被“投毒”的数据训练出的模型若持续输出错误态势、虚假目标，将极大干扰和误导指挥决策过程，甚至诱使指挥员定下错误决心。同时，大量低置信度信息也会加剧认知负荷导致决策迟滞，对敌情和趋势的判断都可能被系统性延误。其三，破坏人机协同。智能化战争的核心优势在于拥有决策智慧的“人”与可进行海量数据处理和模式识别的“机”的高效协同。数据投毒同时损害“机”的可靠性与“人”的判断力，引发认知互疑的螺旋。“人疑机、机误人”的恶性循环，会使人机协同效能锐减甚至瓦解。

　　面对数据投毒带来的风险挑战，必须构建多层次、纵深化的全流程数据监管体系，及时感知威胁、精准响应处置，确保军事人工智能系统的数据供应链安全可靠。一是加强源头治理，确保数据可靠。在广泛应用高强度加密技术的同时，积极引入前沿技术，为数据安全提供坚实保障。研发并部署动态数据清洗与验证算法，对进入训练库的数据进行严格筛查，像设置高精度滤网一样，最大限度地将污染样本拦截在门外，着力构建自主可控、安全可靠的数据闭环体系，确保从采集、传输、处理、存储到运用的全流程数据安全，从源头上确保用于模型训练的数据纯净可靠。二是强化模型训练，确保系统稳定。在模型研发和部署阶段，主动模拟各类数据投毒场景进行对抗性训练，提升模型识别污染数据和抵抗干扰的鲁棒性。在系统设计与建设阶段，积极推广采用分布式、国产化的机器学习平台，分散和降低单点失效可能带来的系统性风险。对于关键系统，探索集成隐私增强技术，加固防护层次。三是完善威胁感知，确保响应及时。持续加大对数据安全、人工智能安全等前沿领域的投入，加强模型行为动态监控与攻击溯源，实现对智能系统输出异常的实时感知、快速定位和精准响应，形成监测、预警、处置与溯源的完整防护闭环，确保对潜在攻击的持续防御和处理能力，牢牢掌握军事人工智能安全的主动权。（原载于《解放军报》2025年10月14日07版）

头版（T01）

要闻（T02）

综合（T03）

光影（T04）

谨防数据被“投毒”