中国人民解放军国防科技大学论文:《针对机器学习算法的投毒及其防御技术研究》

第一部分:论文介绍

论文基本情况:

国防科技大学研究生院 工学硕士学位论文
题目:针对机器学习算法的投毒及其防御技术研究
作者姓名:李盼
发表时间:2018年10月
学科专业:计算机科学与技术
研究方向:人工智能
指导教师:赵文涛 教授
协助指导教师:刘强 讲师

论文内容介绍:

一.机器学习投毒的核心概念

要理解AI投毒,可以想象一个场景:一位正在学习的飞行员使用飞行模拟器进行训练。投毒攻击就好比一个破坏者,悄悄地修改了模拟器的代码。于是,模拟器在晴天时会显示风暴,将友机标记为敌机。这位飞行员在浑然不觉中,学习了一套致命的、扭曲的现实。当他最终驾驶真正的飞机时,他所受的训练将直接引导他走向灾难。
这正是该论文对投毒攻击的定义:在机器学习模型的训练阶段,通过修改或注入恶意的“毒化数据”,来污染或误导模型,最终破坏其性能。这种攻击的现实风险是巨大的:被投毒的医疗AI可能误诊疾病;被投毒的金融AI可能引发市场动荡;被投毒的自动驾驶汽车可能导致致命事故。

二.机器学习投毒的攻击方法

“数据漂移”:扭曲现实

投毒攻击的根本目标是实现“数据漂移”(Data Drifting),即使得AI学习到的数据分布偏离真实世界的数据分布。它不是对系统的突然冲击,而是对其“世界观”的渐进式腐化。攻击者通过注入精心构造的毒化数据,让AI在训练中学习到一个被篡改过的现实版本。

“边界模式数据”:打造毒丸

如何实现数据漂移?关键在于制造一种足够微妙的“毒丸”。论文将这种毒丸称为“边界模式数据”(Boundary Pattern Data)。这些是经过特殊设计的恶意数据点,它们潜伏在AI决策边界的边缘地带。从表面上看,它们足够“正常”,不会被系统当作异常数据或噪声轻易剔除。然而,它们的战略性位置使其能够发挥最大的破坏作用——将AI的决策边界朝着攻击者预期的方向“拉扯”。 用一个比喻来解释这个概念就是,假设“学生”学会了区分圆形和方形。边界模式数据就像是那些非常接近圆形,但边缘有些许不规则的图形。单独看,它可能还被认为是圆形,但如果混入大量这种“怪异圆形”进行训练,学生对“圆形”的理解就会变得模糊,甚至可能把一些正常的方形也误认为是圆形,或者把一些正常的圆形误认为是方形。

实现方式:CVP与BEPP

该论文详细阐述并验证了两种原创的攻击方法,用以生成这些“边界模式数据”。
中心矢量外推法(CVP):这可以被视为一种“强攻”方法。假设我们想让“学生”对“苹果”的辨认能力变差,使它更容易把苹果误认为是梨。CVP 的方法是,找到一个正常的“苹果”样本,然后确定一个“方向“,这个方向是从所有“苹果”的平均特征点指向所有“梨”的平均特征点。接着,沿着这个“方向”,将那个正常的“苹果”样本一点点地“推”向“梨”的区域。在“推”的过程中,一旦这个样本变得非常接近“苹果”和“梨”之间的分界线,但又仍然被“学生”认为是“苹果”时,就将它记录下来,作为“投毒样本”。这种方法简单直接,但生成的投毒样本可能比较相似,而且容易集中在某个区域
分批边缘模式外推法(BEPP):这是一种更隐蔽、更复杂的“渗透”方法。它不再关注数据的中心,而是识别数据分布“边缘”的薄弱点,并从多个难以预测的方向发起攻击。它首先要找出数据中那些本身就“处于边缘”或“比较特殊”的样本(比如那些不那么典型的苹果,有点歪瓜裂枣的感觉)。然后构造样本:第一步:识别边缘样本: 它会从训练数据中随机抽取很多小批数据。在每一小批数据里,它会找出那些位于数据“外围”或“边界”的样本点,我们称之为“边缘模式数据”。第二步:个性化“推动”: 针对每一个找出来的“边缘模式数据”,它会根据该样本自身的特点,找到一个独特的“推动方向”(就像从歪瓜裂枣苹果的特殊部位向外推)。第三步:生成多样投毒样本: 沿着这个独特的方向,将“边缘模式数据”推向分类边界,生成投毒样本。因为是从不同的“边缘点”向不同的“方向”推动,所以最终生成的投毒样本会更加分散和多样化,更难被防御系统检测发现
这两种方法的演进本身就揭示了研究的进攻意图。从简单直接的CVP发展到复杂隐蔽的BEPP,其目的显然是为了打造在真实对抗环境中更具生存能力和破坏力的攻击工具。

三.机器学习投毒攻击的实现方法:窃取模型并投毒

论文第四章提出了一个极具实用价值的机器学习投毒攻击实现方法,即针对“黑盒”的攻击。在真实世界中,攻击者几乎不可能获知目标AI(如敌方的军事AI)的内部代码,它就像一个无法打开的“黑盒”。为此,论文设计了一套精密的“数字间谍”方案,旨在为这个黑盒AI创建一个功能上完全相同的“数字孪生体”或“替代模型”。
其过程分为四步:

  1. 侦察:攻击者利用少量已知数据,反复向目标AI系统发送查询请求,并记录其返回的答案(即输出标签)。
  2. 扩增情报:由于初始数据有限,攻击者采用一种名为“自适应SMOTE”(A-SMOTE)的先进技术,将少量真实数据样本“扩增”成一个庞大的合成数据集,为训练自己的模型准备充足的“弹药”。
  3. 窃取目标模型:利用这个扩增后的大数据集,攻击者训练自己的一个强大的AI模型(深度神经网络DNN),使其行为模式与目标黑盒AI高度一致。
  4. 演练与部署(Practice and Deploy):至此,攻击者拥有了一个完美的“靶机”。他们可以在这个替代模型上无限制地测试和优化自己的投毒攻击方案,直到找到最致命的“毒丸”。最后,将这些经过千锤百炼的毒化样本部署到真实的目标系统中。

这种对“黑盒”攻击策略的深入研究,清晰地表明了该论文的关注点已经超越了理论层面。它直接解决了在真实世界中攻击受保护的、非合作目标时所面临的核心挑战,其研究轨迹从实验室环境下的理论验证,稳步迈向了具备实战价值的武器开发。

第二部分:分析讨论“军民融合”的国家战略**

论文的研究背景离不开中国的“军民融合”国家战略。该战略旨在强制性地消除民用科研、工业部门与军事部门之间的壁垒。其核心目标是确保民用领域的任何技术突破都能被迅速应用于军事,反之亦然。国防科大正是这一战略的完美体现。在这里,即便是以学术论文形式发表的研究,其根本属性也是军事工作。“学术研究”与“武器研发”之间的界限被有意地模糊了。
因此,当一个以服务军队、提升军力为明确使命的机构,发布一份关于如何实施复杂AI攻击的详细蓝图时,最符合逻辑的解释是:这是国家指导下的进攻性能力发展项目的一部分,而非单纯为了防御而进行的研究。这项研究是在执行一项军事任务。
将论文中的技术与解放军的官方作战理论相结合,其真正的、令人不安的意图便暴露无遗。AI投毒不仅仅是一种网络攻击,它更是一种为“认知域作战”量身定制的完美武器。

一. 定义战场:认知域作战

“认知域作战”是解放军的一个核心作战理念,是信息战、心理战和舆论战在数字时代的演进与融合。解放军的理论家们已将其明确定义为与物理域、信息域并列的独立作战领域。
其目标不是摧毁敌方的军事硬件,而是攻击敌方的“心智”——包括其认知、信任、情绪状态和决策循环。它旨在通过让敌方社会无法分辨事实与虚构、朋友与敌人、安全与危险,从而在内部瓦解对手。其手段多种多样,包括散布虚假信息、操纵社交媒体,以及至关重要地,破坏民众和领导人所依赖的信息系统的完整性。

二. 动机分析:AI投毒是完美的认知武器

AI投毒技术与认知域作战理论的契合度极高。
侵蚀信任:一次成功的投毒攻击,其首要后果不仅是系统失灵,更是对该系统信任的彻底摧毁。如果一个国家无法信任自己的金融AI、军事情报分析工具或基础设施管理系统,其国家机能将陷入瘫痪。
制造混乱:论文中提到的“慢性投毒攻击策略”可以在数月内悄无声息地降低一个国家物流AI的效率,引发看似随机的供应链混乱。对新闻聚合AI的攻击则可以操纵信息环境,激化社会矛盾。
瘫痪决策:对军事指挥控制AI的攻击,可能使其对迫在眉睫的袭击视而不见,或者更糟,将友军误判为敌军。这直接打击了对手的“观察-判断-决策-行动”(OODA)循环。

三. 危害与“邪恶性”分析:一种模糊和平与战争界限的武器

这项研究的“邪恶性”在于其阴险的本质和深远的战略意涵。
它是破坏的武器,而非征服的武器。其目标是通过摧毁社会赖以运转的信任基础,让一个社会从内部自行崩溃。
它蓄意模糊了战争与和平的界限。“慢性投毒”可以在和平时期长期实施,构成一种几乎无法溯源、且未达到传统动用武力门槛的战争行为。这与中国在“灰色地带”冲突和“超限战”方面的战略思想高度一致。
它将平民和民用基础设施作为与军队同等重要的攻击目标。论文选择网络入侵检测系统(NIDS)作为测试案例,显示了其瘫痪防御系统的意图。但该技术同样适用于任何AI系统——医疗、金融、能源等。这反映了一种总体战思维,即民用与军事目标之间的区别被完全抹去。
西方社会和军队正在迅速将AI整合到关键基础设施和国防的方方面面,这创造了一个巨大的攻击面。与西方的常规军事冲突对中国而言代价高昂。因此,像认知域作战这样的理论以及支持它的技术,提供了一种以更低成本、在武装冲突门槛之下实现战略目标(胁迫、瘫痪、扰乱)的途径 20。国防科大的这份论文不仅仅是一篇学术文章,它是有力的证据,表明解放军正在积极打造执行这一战略的工具。他们瞄准的,是对手的“神经系统”。

结论:在无形战场上的战斗

综上所述,李盼在国防科技大学完成的这篇硕士论文,远不止一次学术演练。它是在解放军直接支持下,为一种进攻性的网络心理武器精心绘制的、详尽且实用的蓝图。
当把这项研究置于其机构来源(国防科大)和解放军的指导理论(认知域作战、军民融合)中进行审视时,其背后旨在将AI武器化以实现强制性目标的战略意图,清晰明确,不容置疑。
认知域已成为新的战场。像AI投毒这样的武器,无声、阴险,其设计初衷就是为了瓦解一个社会的信任基石。西方国家必须紧急行动起来,不能再将这类问题仅仅视为技术性的“网络安全”挑战,而应将其视为一种综合性的战略威胁。未来的挑战不仅在于构建更坚固的防火墙(如该论文第五章中探讨的防御技术),更在于发展出一套全面的战略认知和应对体系,以对抗这种由国家主导的、全新的认知战争形态。

第三部分 附录

一.论文摘要 原文

机器学习是当前计算机科学中最流行的技术之一,它已被广泛应用于图像处理,自然语言处理以及网络安全等领域。尽管机器学习算法在许多实际应用中都取得了良好的效果,但近几年研究表明其本身面临着来自攻击者的各类安全威胁。在这些安全威胁中,投毒攻击是一种可以严重破坏机器学习模型有效性、完整性、可用性的诱发性攻击,它通过在训练阶段修改原始训练数据集中的样本或者向原始训练集中注入投毒样本,以诱导训练数据发生漂移,造成目标机器学习模型的性能明显下降。
本文主要针对常见的机器学习算法,提出两种构造投毒样本的方法,并在此基础上进一步提出针对黑盒机器学习模型的投毒策略,研究它们对机器学习算法造成的安全威胁和性能影响。此外,针对投毒样本的特点,本文提出一种样本合法性评估方法,提高机器学习算法对投毒攻击的鲁棒性。本文的主要贡献有以下三个方面:
(1)提出两种基于数据漂移的边界模式数据投毒攻击方法。当训练数据中的数据分布偏离实际数据分布时,就会出现数据漂移。而攻击者会刻意向原始训练数据集注入投毒数据,使训练数据集发生数据漂移。本文首先提出一种可以引起数据漂移的边界模式数据的定义以及检测方法,并在此基础上提出两种构造边界模式数据的方法——中心矢量外推法和分批边缘模式数据外推法,实现了对训练数据集的有效投毒攻击。此外,在网络数据检测数据集和手写字符数据集两个实际应用中实验表明,这两种投毒攻击方法会严重破坏六种常用的机器学习算法的性能。
(2)提出针对黑盒机器学习模型的投毒攻击策略。在实际应用中,目标机器学习系统的具体信息是不易获取的,因而其对于攻击者来讲是一个黑盒机器学习模型。本文首先提出一种改进的SMOTE算法来进行部分训练数据进行扩增,并结合DNN算法来训练目标机器学习模型的替代模型,从而实现了对目标模型的窃取。在窃取模型的基础上,利用之前提出的两种投毒样本构造方法,设计实现不同的投毒攻击策略。此外,通过对不同投毒策略在网络入侵检测数据集上的实验,分析比较了不同投毒策略的性能。
(3)提出基于多谱聚类聚合的样本合法性评估算法。当前针对投毒攻击的防御集中于数据清洗和提高算法鲁棒性两个方面,当缺少对样本合法性的评估方法。本文通过对现有投毒样本的特点进行分析,结合谱聚类和集成学习提出一种可以对样本的合法性进行打分的方法,实现对样本合法性有效的评估。并通过在入侵检测数据集上的实验验证了评估方法的有效性。
实验结果表明,针对目前常用的机器学习算法,提出的投毒攻击方法可以有效地破坏其性能。而且投毒样本的构造算法实现简单,可以快速有效地构造投毒样本。在此基础上,本文提出的针对黑盒机器学习模型的投毒策略,可以在比较弱的敌手模型下实现对目标系统的有效投毒攻击,减少了攻击实现的条件。最后,在针对投毒样本的防御技术方面,本文提出的针对投毒样本的合法性评估方法,可以为机器学习算法对训练样本的使用提供合理的参考,提高算法的鲁棒性。
主题词:对抗机器学习;数据漂移;投毒攻击;黑盒攻击;防御技术
ABSTRACT
Machine learning is one of the most popular technologies in computer science. It has been widely used in image processing, natural language processing, and network security. Although machine learning algorithms have achieved good results in many practical applications, research in recent years has shown that it faces various security threats from attackers. Among these security threats, a poisoning attack is an induced attack that can seriously damage the validity, integrity, and usability of the machine learning model by modifying the samples in the original training data set or injecting poison into the original training set during the training phase. The sample, which induced the training data to drift, caused a significant drop in the performance of the target machine learning model.
This paper mainly proposes two methods for constructing poisoned samples based on common machine learning algorithms, and further proposes a poisoning strategy for black box machine learning models to study their security threats and performance impacts on machine learning algorithms. . In addition, aiming at the characteristics of poisoning samples, this paper proposes a sample legality evaluation method to improve the robustness of machine learning algorithms to poisoning attacks. The main contributions of this paper are as follows:
(1) Two data-drifting-based boundary mode data poisoning attack methods are proposed. Data drift occurs when the data distribution in the training data deviates from the actual data distribution. The attacker will deliberately inject the poisoned data into the original training data set, causing data drift in the training data set. This paper first proposes a definition and detection method of boundary mode data which can cause data drifting. Based on this, two methods for constructing boundary mode data are proposed, namely, central vector extrapolation method and batch edge mode data extrapolation method. An effective poisoning attack on the training data set is achieved. In addition, experiments in two practical applications of network data detection data sets and handwritten character data sets show that these two poisoning attack methods can seriously damage the performance of six commonly used machine learning algorithms.
(2) A poisoning attack strategy for the black box machine learning model is proposed. In practical applications, the specific information of the target machine learning system is not easy to obtain, so it is a black box machine learning model for the attacker. This paper first proposes an improved SMOTE algorithm to amplify part of the training data, and combines the DNN algorithm to train the alternative model of the target machine learning model, thus achieving the theft of the target model. Based on the stolen model, the two poisoning sample construction methods proposed above were used to design and implement different poisoning attack strategies. In addition, through the experiments of different poisoning strategies on the network intrusion detection dataset, the performance of different poisoning strategies was analyzed and compared.
(3) A sample legitimacy evaluation algorithm based on multi-spectral clustering aggregation is proposed. Current defenses against poisoning attacks focus on data cleansing and improved algorithm robustness, in the absence of an assessment of the legitimacy of the sample. This paper analyzes the characteristics of existing poisoning samples, combines spectral clustering and integrated learning to propose a method to score the legitimacy of samples, and achieve an effective evaluation of the legality of samples. The effectiveness of the evaluation method was verified by experiments on the intrusion detection data set.
The experimental results show that the proposed poisoning attack method can effectively destroy its performance for the commonly used machine learning algorithms. Moreover, the construction algorithm of the poisoned sample is simple to implement, and the poisoned sample can be constructed quickly and effectively. On this basis, the proposed poisoning strategy for the black box machine learning model can achieve effective poisoning attacks on the target system under the weaker adversary model, reducing the conditions for attack implementation. Finally, in the aspect of defense technology for poisoned samples, the method of legality evaluation for poisoning samples proposed in this paper can provide a reasonable reference for the use of training samples by machine learning algorithms and improve the robustness of the algorithm.
Key Words:Adversarial machine learning; Data drifting; Poisoning attacks; Black-box attacks; Defense techniques

二. 论文目录

摘 要 ………………………………………………………………………………………………….. i
ABSTRACT ………………………………………………………………………………………….. iii
第一章 绪论 ………………………………………………………………………………………… 1
1.1 课题背景与研究意义 ……………………………………………………………………. 1
1.2 国内外研究现状 …………………………………………………………………………… 2
1.2.1 针对机器学习算法的投毒攻击研究 ……………………………………………. 3
1.2.2 针对投毒攻击的防御技术研究 …………………………………………………… 4
1.3 研究内容 ……………………………………………………………………………………… 5
1.4 论文结构 ……………………………………………………………………………………… 6
第二章 相关工作 ………………………………………………………………………………….. 9
2.1 针对机器学习算法的投毒攻击分类及建模 ……………………………………. 9
2.2 针对投毒样本的数据清洗技术 ……………………………………………………. 11
2.2.1 离群点检测算法 ………………………………………………………………………. 12
2.2.2 RONI ……………………………………………………………………………………….. 14
2.3 谱聚类算法 ………………………………………………………………………………… 14
2.4 合成少数类过采样技术 ………………………………………………………………. 16
2.5 本章小结 ……………………………………………………………………………………. 17
第三章 基于数据漂移的边界模式投毒攻击 …………………………………………….. 19
3.1 边界模式数据定义及检测 …………………………………………………………… 19
3.1.1 边界模式数据特征 …………………………………………………………………… 19
3.1.2 边界模式数据检测算法 ……………………………………………………………. 20
3.2 基于边界模式检测算法构造投毒样本 …………………………………………. 21
3.2.1 中心矢量外推法构造投毒样本 …………………………………………………. 22
3.2.2 分批边缘模式外推法构造投毒样本 ………………………………………….. 23
3.3 慢性投毒攻击策略 ……………………………………………………………………… 26
3.4 实验结果与分析 …………………………………………………………………………. 26
3.4.1 评价指标 …………………………………………………………………………………. 26
3.4.2 二维人工数据集上的投毒攻击 …………………………………………………. 27
3.4.3 针对网络入侵检测系统的投毒攻击 ………………………………………….. 28
3.4.4 针对手写字符识别系统的投毒攻击 ………………………………………….. 32
3.5 本章小结 ……………………………………………………………………………………… 35
第四章 针对黑盒机器学习模型的投毒攻击策略 ………………………………………. 37
4.1 基于窃取模型的黑盒机器学习模型投毒策略 ………………………………. 37
4.2 针对黑盒机器学习模型的窃取方法 …………………………………………….. 38
4.2.1 采用自适应SMOTE算法扩增训练数据 ……………………………………. 38
4.2.2 利用DNN窃取目标模型 …………………………………………………………. 40
4.3 针对黑盒机器学习模型的投毒策略 …………………………………………….. 41
4.4 实验结果与分析 …………………………………………………………………………. 42
4.4.1 实验设置 …………………………………………………………………………………. 42
4.4.2 不同替代模型的性能比较 ………………………………………………………… 43
4.4.3 不同投毒策略的攻击效果对比 …………………………………………………. 44
4.5 本章小结 ……………………………………………………………………………………. 47
第五章 基于多谱聚类聚合的样本合法性评估算法 ……………………………………. 49
5.1 基于谱聚类的样本合法性评估 ……………………………………………………. 49
5.2 采用多谱聚类聚合算法评估样本合法性 ……………………………………… 50
5.2.1 集成学习原理 ………………………………………………………………………….. 50
5.2.2 基于多谱聚类的样本合法性评估算法 ………………………………………. 51
5.3 实验结果与分析 …………………………………………………………………………. 52
5.4 本章小结 ……………………………………………………………………………………. 54
第六章 总结与展望 …………………………………………………………………………….. 55
6.1 工作总结 ……………………………………………………………………………………. 55
6.2 研究展望 ……………………………………………………………………………………. 56
致 谢 ……………………………………………………………………………………………….. 57
参考文献 …………………………………………………………………………………………….. 59
作者在学期间取得的学术成果 ………………………………………………………………… 65

Related Articles

AI之父:我们创造了源自我们数学的外来智能,它们仍然系于我们的代码,却在演化出我们无法解读的模式。

人工智能之父辛顿接受CBS《60分钟》时说:
“我们做的是设计学习算法。这有点像设计进化原理(design the principle of evolution)。但是当这个学习算法与数据发生作用时,它会产生擅长完成任务的复杂神经网络,但我们并不真正理解它们究竟是如何完成那些事情的”。

路德社.简评—基于CBS News《60 Minutes》的“中国间谍在美国的行动与被捕后会发生什么”专访

重点内容摘要: 1. 中国现今是美国面临的最活跃、最持久的网络威胁来源 美国情报界评估指出,中国不仅在网络空间大规模渗透,而且还并未取代老式的人力情报(HUMINT)运作模式。中国通过驻外间谍持续监控并影响全球事件,包括在美国。 前美国外交官及资深情报专家吉姆·刘易斯(Jim Lewis)称: “在规模、广度和胆量上,这是美国历史上最大规模的间谍行动。” 他指出,自2012年习近平上台后,中国对美国的间谍操作愈发毫无顾忌。   2. 中国情报机构的全球野心与官方宣传 3. 监控海外华人及留美学生群体 4. 国安部的“招募策略”与心理施压手段 5. 被捕后的处理与后果 该专访虽然重点未深入阐述个案细节,但暗示一旦中国间谍在美被捕,美国往往以“未注册外国代理人”(FARA)罪名起诉,并以国家安全理由强化审判压力。媒体未提及具体判决或案例,但表明美国司法系统对此类行为的执法力度持续增强。 总结 重点案例讲解: 重点案例:王书君(Shujun Wang) 点评与分析 总结: 王书君案件说明,中共的间谍活动已从“单点精确渗透”进化为“碎片化、群众化、超限战式”的非传统情报收集。这使得美国不仅要防范专业情报官员,还必须面对一种广撒网、模糊化、低成本但高效的“全民间谍”模式。

Responses

Your email address will not be published. Required fields are marked *