来自机器学习算法功能的原生风险分析
2022-11-02 12:00:37 来源：江南大学学报人文社会科学版评论：0 点击：

　　一、引言

　　“人工智能+教育”作为新一代教育信息化的核心引擎，吸引着政、企、学三界不遗余力地推动人工智能与教育教学的深度融合。教育部2018年发布的《教育信息化2.0行动计划》、国务院2019年发布的《中国教育现代化2035》政策等文件中，提出“要大力促进教育信息化从融合应用向创新发展的高阶演进，推动改进教学、优化管理、提升绩效”。学术和产业界产出了大量关于人工智能的教学理论、模型、方法和功能系统，各类新奇的人工智能教育理念[和应用，纷纷涌现在师生、家长和社会眼前。智能教学、智能课堂教学行为分析、智能评测等应用越来越多的被运用到诸多教与学环节中。一时间的教育界，人工智能风头无两，迎来高光时刻。

　　人工智能技术的基石是机器学习算法，科学家一直梦想着机器学习算法能够发展到帮助人工智能具备人类智慧的水平，然而，在进展到这一步之前，一些计算机科学领域的算法科学家们对算法自身的安全可靠性忧心忡忡。为了推动技术的发展，一直以来，研究者们对算法的运行环境，往往设定成参与各方无条件遵循算法设计者意愿，配合算法运行。这种理想化的算法运行环境，在实际尤其是牵涉到重大利益的现实应用上，往往难以存在，导致应用运行过程危机四伏。计算机学科领域专家已经对此问题，开始了大量针对性的研究，而教育界还鲜有研究关注到此问题，并意识到问题的严峻性。

　　除去人工智能教育应用作为一种信息系统，面临的传统信息安全攻击风险，如信息泄露、网络攻击等传统数据隐私安全风险之外，它还面临着一些非传统的功能安全攻击风险，而现有的信息安全技术不能有效应对这些风险。因此，为了在满足日益增长的人工智能教育教学应用需求的同时，保证教育教学活动安全开展，亟需向广大教育业界人员解读机器学习教育应用所面临的功能安全风险这一非传统安全风险。

　　二、机器学习及其技术风险

　　（一）机器学习技术简介

　　机器学习是一门通过学习“经验”来改善计算机系统性能的学科。经验常为数据，学习“经验”则是通过学习产生可以使系统性能变好的数学模型，也即算法。从机器学习定义来看，机器学习应用程序依据数据和算法这两大关键大致可分为数据采集、数据预处理、模型训练、模型输出四个步骤。

　　（二）机器学习算法功能风险

　　机器学习算法面临功能风险出现在模型训练和模型预测阶段。攻击者多采用投毒攻击和对抗攻击来对教育应用功能进行干扰，破坏模型的完整性和可用性，使其无法正常运行。

　　投毒攻击是攻击者利用机器学习应用需要不断更新训练数据的契机，向训练数据集中注入不良数据，改变原有的数据集的概率分布，使训练出来的模型边界发生偏移或使模型精度降低，导致训练结果产生偏差，得到错误结论的算法模型。

　　对抗样本攻击是攻击者通过各种方式改变模型输入数据的特征在影响模型的预测效果。例如在人脸识别系统中，眼部及其周围区域像素是算法特征数据重点提取来源，只用一副眼镜，就使得算法获得的眼部特征形成巨大差异，导致系统无法识别。

　　（三）机器学习算法功能风险对智能教育的危害

　　由于机器学习算法功能是智能教育能够实现的主要途径，是人工智能教育应用能够运行的核心支柱，对抗样本攻击与投毒攻击对算法功能的成功攻击，将给智能教育造成的后果较为严重。一来，攻击者可以利用对抗样本来实施针对机器学习教育应用的对抗样本攻击和恶意侵扰来逃避检测。例如，将待检测的作业处理成对抗样本来逃避判改系统的检测，使系统无法做出正确的批改，应用的可用性、准确性都大大降低。再者，攻击者可以在训练数据里加入伪装数据、恶意样本等破坏数据的完整性，进而导致训练的算法模型出现偏差。例如，在作业批改式应用中，被污染的数据输入模型后，导致模型决策出现偏差，并将错误的批改结果反馈给教师和学生，直接导致用户体验变差，降低客户信心和黏度。

　　三、典型人工智能教育应用面临的算法功能安全风险分析

　　（一）面向教师的人工智能教育应用面临的算法安全风险

　　1.课堂教学分析类应用的安全风险

　　典型的基于深度学习的视频分析系统主要包含关键帧提取和标注生成阶段。一方面，在关键帧提取阶段，对抗样本攻击会干扰系统教学诊断中的事件识别及分类功能，投毒攻击会影响教学诊断模块的行为分析。另一方面，对标注系统的对抗攻击将导致系统无法完成教学事件类型分类和时间分布图生成，最终无法实现分析评语丧失教学评价功能。

　　2.全面智能测评类应用的安全风险

　　全面智能测评类应用的主要功能是作业批改与反馈和长期综合评价。一方面，攻击者可以利用投毒攻击提高自身作业批改分数与高评价，甚至让其他人无法获得正确的批改和获得差评价。另一方面，对抗样本攻击会使评改系统发生误判、反馈系统丧失错误解析的功能，以及迷惑分类器，使能力水平分类结果产生偏差，导致学生个体与整体画像形成受阻，无法生成可视化的学情分析报告。

　　（二）面向学生的人工智能教育应用面临的算法安全风险

　　1.智能教学平台类应用的安全风险

　　智能教学平台的核心是人工智能自适应学习系统，包括自适应测评、个性化学习路径规划和学习内容动态推送三个模块。一方面，对抗样本攻击会使自适应测评中的错误模型丧失自动识别错误的功能，使个性化学习路径规划无法动态呈现正确的学习活动序列，甚至导致推荐的学习内容无法形成循序渐进的学习模式。另一方面，投毒攻击会导致自适应测评中的约束模型丧失推断错误原因的功能，导致打标签模型对知识点的分类发生偏移影响学习活动序列的准确性，甚至使学习内容动态推送系统无法匹配出恰当难度与类型的学习内容。

　　2.拍照搜题类应用的安全风险

　　拍照搜题类应用主要由拍照搜题和在线答疑两个模块组成。一方面，攻击者可以利用对抗样本攻击，导致图像识别技术失效和自然语言推理模型无法完成对题目的理解与分析，以及系统无法完成知识结构建模，形成学生画像。另一方面，投毒攻击会使系统无法对教师进行分类、无法预测知识点讲解教师的供应量和知识点学习学生的需求量，无法完成在线师生资源的匹配。

　　3.智能学习助手类应用的安全风险

　　智能学习助手的主要功能是人机互动答疑功能。一方面，对抗样本攻击会导致系统不能准确的理解用户意图和给予用户回复。另一方面，投毒攻击会使系统无法完成语言模型构建，无法完成文本处理与分析。另外，两种攻击都能导致系统无法正确训练声学模型，导致后续语音解码和搜索算法的分析过程无法进行，而且攻击者还可以通过干扰神经网络对语音合成过程，导致系统无法以语音形式与用户沟通。

　　（三）面向教学管理的人工智能教育应用面临的算法安全风险

　　1.智能考务类应用的安全风险

　　智能考务主要包括考场与监考分配、智能组卷、智能阅卷、成绩统计分析四个方面。一方面，对抗样本攻击，会使系统自动编排考场中的孤岛编排模式失去效用，可导致智能阅卷中客观题的判改发生错误。另一方面，投毒攻击会导致光学字符识别模型无法将纸上的字符正确转化成计算机文字，从而无法完成客观题的批改。另外，两种攻击都能使系统无法根据搜题算法在题库中选择合适的题目组卷，以及使分类方法无法正确进行学生成绩等级划分，影响成绩统计分析对教学的反馈指导作用。

　　四、人工智能教育应用面临的算法功能安全风险消解建议

　　（一）建立人工智能教育应用算法风险预警机制

　　鉴于干扰应用功能风险的客观存在，教育用户需要与风险共存，管理部门和服务提供商，应该让用户充分知晓这种风险的存在。给予不同类别、不同发展阶段的应用，标以不同级别的风险标识，在用户使用相关应用时予以告知，以避免用户对应用系统的盲目信任，忽视了基本的防范。

　　（二）加强应用外部用户访问秩序管控

　　面对投毒攻击，应严格限定数据来源，如摈弃外部来源数据，尽可能由服务提供商或用户，自己收集并更新训练数据集。而对于对抗样本攻击，应限制单个用户使用服务频率和总次数，如采取类似锁屏解锁的惩罚性冻结时间机制，对于明显异于常人的用户，需要重点关注，并加以限定措施。通过上述缩小训练数据来源、限制应用访问速率的机制，尽可能减少外部攻击者干扰系统的机会。

　　（三）确立应用运营的内部监管奖惩纪律

　　通过最小化应用开放时空范围，一定程度上压制了外部恶意干扰行为的实施机会，但仍存在着系统内部用户变节，内外串通可能性。因此，对于训练数据，应建立从采集，到录入，到存储到使用全过程的责任到人管理制；对于一些敏感应用的测试使用，每一次应用测试，都要执行如申请审核、伴随式记录方法，以及人工审核服务功能，并对测试样本和结果存档备案，以备复核。

　　（四）构建应用安全运营法律防范体系

　　针对恶意商业竞争，干扰正常运营服务商的实体和法人，应当立法实行教育行业禁入；恶意协助外部第三方，注入有毒数据，搜寻对抗样本的内部工作人员，应当予以行政处罚并调离现有岗位，有犯罪行为的，应当移交司法部门审判；通过干扰应用功能，获取不正当利益的用户，应当取消误导应用得出偏颇结论获得的所有不当名誉和权益，并考虑计入诸如学术不端档案的个人信用库。

　　五、结语与展望

　　在人工智能教育应用面临着诸多外部风险同时，人工智能算法自身内部也蕴含着功能安全风险。它干扰了应用功能正常运行，是一种非传统的安全风险，是机器学习算法所特有的技术缺陷，且当前并未有较好的办法予以根绝。一些学者认为人工智能算法安全攻击条件高，实施难度大，造成现实危害的可能性不大，因此可以忽略。但以发展的眼光看，只要攻击成本小于回报，它就有存在空间，并且随着资金和人才的富集，算法安全攻击的成本会急剧下降。因此，人工智能算法安全攻击问题解决不好，将会进一步摧毁人工智能在教育行业应用的生态基础。由于教育涉及面的广泛性、影响力的持久性，其对人工智能技术社会信任度的打击巨大，而信任一旦失去，人工智能技术发展的前景便不复存在，最终可能导致人工智能的发展第三次跌入深渊，而这一局面，是我国现代化事业发展的不可承受之重。

版权声明：本站内容除特别声明的原创文章之外，转载内容只为传递更多信息，并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题，请及时通过电子邮件或电话通知我们，以便迅速采取适当措施，避免给双方造成不必要的经济损失。联系电话：010-82306116；邮箱：aet@chinaaet.com。

分享到：收藏

来自机器学习算法功能的原生风险分析
2022-11-02 12:00:37 来源：江南大学学报人文社会科学版评论：0 点击：

频道总排行

频道本月排行

来自机器学习算法功能的原生风险分析 2022-11-02 12:00:37 来源：江南大学学报人文社会科学版 评论：0 点击：

延伸阅读：

频道总排行

频道本月排行

来自机器学习算法功能的原生风险分析
2022-11-02 12:00:37 来源：江南大学学报人文社会科学版评论：0 点击：