《 新华三人工智能发展报告白皮书 》全文
技术方面的挑战。 在人工智能技术层面上,也面临一定程度的风险,主要表现在数据和算法上。首先, 当前算法严重依赖有标注的数据。数据在人工智能商业化落地中有着不可替代的作用,目前人工智能算法以有监督的深度学习为主,即需要标注数据对学习结果进行反馈,在大量数据训练下,算法才能取得预期的效果。算法从大量数据中进行学习,挖掘数据中蕴含的规律。数据决定了人工智能模型精度的上限,而算法则是不断逼近这个上限。 其次, 高质量数据需求导致数据成本高昂。为了提高数据的质量,原始数据需要经过数据采集、清洗、信息抽取、标注等处理环节。得益于大数据技术的快速发展,当前采集、存储海量数据已经不再是难事。在时间和成本上,数据标注成了制约环节。目前数据标注主要是人工标记为主,机器自动化标注为辅助。但是人工标注数据的效率并不能完全满足算法的需求,研究提升机器自动化标注的精度,是提高效率的重要思路,也是数据标注的一个重要趋势。 数据噪声、数据污染会带来人工智能安全问题。人工智能训练模型时用到的训练数据,如果数据本身有较大的噪声,或者数据受到人为破坏,都可能会导致模型决策出现错误。由于一些客观因素,训练数据中不可避免含有噪声,如果算法模型处理的不得当,可能会导致模型漏洞,模型不够健壮,给黑客有了可乘之机。 另外,也存在黑客故意在训练数据中植入恶意数据样本,引起数据分布的改变,导致训练出来的模型决策出现偏差,进而按照黑客的意图来执行。从数据源角度进行攻击,会产生严重的后果。例如在无人驾驶车辆上,会诱使车辆违反交通规则导致事故。 当前深度学习算法有一定局限性。深度学习算法通过构建大规模多层次的神经网络模型,从大量数据中学习经验规则,从而达到拟合复杂的函数来解决实际问题。深度学习模型的学习能力强,效果也非常好,但在实际应用过程中依然面临资源消耗、可解释性、安全等方面的挑战。 深度学习训练的时候需要处理大量的数据,模型单元也会做大量的计算,所以会耗费大量的存储和计算资源,成本高昂。即使是在模型推理阶段,计算量相对较小,但在边缘、端侧部署深度学习模型,仍然需要对模型经过压缩、剪枝等出来,来进一步降低计算量。目前国内很多企业在研究端侧的AI芯片,提升边缘侧的计算能力,相信未来计算力的问题会得到解决。 人工智能模型的可解释性,是指人类能够理解机器做出决策原因的程度。由于深度神经网络模型异常复杂,参数量巨大,导致模型成为“黑箱”,我们很难获知模型预测结果的准确原因,也不知道模型会在什么时候或条件下会出错。这就导致了在一些如医疗、无人驾驶等关键场合中,使用深度学习都比较谨慎。当然在学术界,也在积极研究可解释性的人工智能,包括如何改善用户理解、信任与管理人工智能系统。 (编辑:西安站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |