1.1 人工智能的发展、应用及其安全性
1.1.1 人工智能的发展
1956年,在由一批包括斯坦福大学的麦卡锡教授、美国麻省理工学院的明斯基教授、贝尔实验室的香农和 IBM 公司的罗切斯特在内的著名学者共同发起的达特茅斯会议上,人工智能的概念首次被提出:让机器像人那样认知、思考和学习,即用计算机来模拟人的智能。20世纪70年代以来,科学家在机器定理证明、机器翻译、专家系统、博弈等方面进行了研究,在此过程中出现了符号学派、研究学派、行动学派。时至今日,人工智能的发展并非一帆风顺,前后经历了三次大的浪潮[2-4]。
第一次浪潮出现在20世纪50年代末到70年代初:人工智能思潮赋予机器逻辑推理能力。伴随“人工智能”这一新兴概念的兴起,人们对人工智能的未来充满了想象,大量研究人员投身于人工智能理论研究。在这一阶段,人工智能主要用于解决代数、几何问题,以及学习和使用英文程序,相关研究主要围绕机器的逻辑推理能力展开。其中,20世纪60年代末到70年代初,以爱德华·费根鲍姆为首的一批年轻科学家提出了知识工程的概念,开始了大量以知识为基础的专家系统的研究与应用,将人工智能推向了第一次高潮,当时,人们对人工智能寄予了很高的期望,甚至预言“十年以后人工智能将超越人类思维”。但受限于当时计算机算力不足,以及经验与数据量不充足等因素,研发出的专家系统所能解决的问题非常有限,更谈不上超越人类思维,因此,人们对于人工智能的发展转为持怀疑态度。1972年,受英国科学委员会委托,剑桥大学詹姆士·莱特希尔对人工智能的研究状况进行了总体调查,并提供了一个内容翔实的公开报告。该报告对当时英国的人工智能研究进行了评判,主要针对人工智能基础研究中的自动机、机器人和中央神经系统。其结论是,自动机和中央神经系统的研究有价值,但进展令人失望;机器人的研究没有价值,进展非常令人失望,建议取消对机器人的研究。鉴于当时英国的全球科技中心的地位,此后,人工智能开始了第一个严冬(AI Winter)。
第二次浪潮出现在20世纪80年代初到90年代初:专家系统使得人工智能实用化。最早的专家系统是在1968年由爱德华·费根鲍姆研发的DENDRAL系统,可以帮助化学家判断某种特定物质的分子结构;DENDRAL首次对知识库进行定义,也为第二次人工智能发展浪潮埋下伏笔。自20世纪80年代起,特定领域的“专家系统”人工智能程序被更广泛地采纳,其能够根据领域内的专业知识推理出专业问题的答案,人工智能也由此变得更加“实用”,专家系统所依赖的知识库系统和知识工程成为当时主要的研究方向。特别是在1981年,日本通产省开始主持研制“第五代计算机”项目,希望使计算机从计算与存储数据的结构向直接推理与处理知识的新型结构过渡。其目标是打造一个具有1000个处理单元的并行推理机,其推理速度比常规推理机高1000倍,连接具有10亿个信息组的数据库和知识库,其实就是研制一个能够回答任何问题的“通用”专家系统且具备听说能力。然而,由于领域的局限性、知识描述和生成的复杂性等因素,1992年“第五代计算机”以失败告终,该项目前后耗资8.5亿美元。从此,AI 发展步入第二次低谷。
第三次浪潮出现在21世纪初至今:深度学习加速人工智能的普及和应用。不断提高的计算机算力加速了人工智能技术的迭代,也推动感知智能进入成熟阶段,人工智能与多个应用场景结合落地,相关产业焕发新生机。2006年深度学习算法的提出、2012年AlexNet 在 ImageNet 训练集上图像识别精度取得的重大突破,直接掀起了新一轮人工智能发展的浪潮。2016年,AlphaGo 打败围棋职业选手,人工智能再次收获了空前的关注度;2017年,AlphaGo 以3∶0的比分完胜世界围棋冠军柯洁;之后,AlphaGoZero从零开始,完全不需要任何历史棋谱和人类先验知识,通过自己左右互搏490万盘棋局,最终无师自通,战胜AlphaGo。相继多个吸引人们眼球的、在局部领域内超过人类水平的人工智能成果的展示,让人们真切感受到人工智能的威力,人工智能创业公司层出不穷,科学研究进一步推进,助推人工智能呈现加速发展态势。
人工智能的第三次浪潮较前两次有本质的不同[5]。如今,以大数据、强大算力和深度网络模型为标志的先进算法已在计算机视觉、语音识别、自然语言处理等领域取得突破性进展,使得人工智能发展的影响范围不再局限于学术界,开始广泛嫁接生活场景,从实验室走入日常,政府、企业、非营利机构纷纷“拥抱”人工智能。具体来讲,本轮人工智能浪潮的到来,除强大的算力外,还得益于数据的爆炸式增长及深度学习算法的发展和突破。
人工智能技术需要以大量的数据作为输入,通过对模型不断训练,获得必要的模型参数。然而,目前大数据的发展存在一些问题[1],包括数据流通不畅、数据质量良莠不齐、数据污染、关键数据缺失等。由于人工智能缺乏对数据正确性甄别的能力,同时,人工智能在进行推理判断的时候,是依据所获取的数据来进行的,所以,人工智能系统高度依赖数据的正确性。有多种原因能够使输入的数据质量低下,包括数据丢失和变形、噪声数据输入、数据投毒和样本对抗等,进而会对人工智能系统的安全造成影响。
深度神经网络由于不需要繁杂的特征工程,因而在当前人工智能发展中“大行其道”。深度神经网络模型基于直接的端到端方式来学习已知的因果关系,这种因果关系是通过神经网络的大量隐含层来记录的,其结果可能会出现一些问题,如过拟合问题、可靠性问题、不可解释性问题等。就不可解释性问题而言,深度学习的模型计算、特征选择等均由算法自行完成,目前尚无理论对其进行合理解释。为此,难以保证这样训练出的模型不被窃取或污染,因而存在结果不可控的隐患。
除了上述由新技术的脆弱性导致的系统运行安全问题,还存在另一种安全问题,即新技术的脆弱性并没有给人工智能系统自身的运行带来风险,但这些脆弱性可以被攻击者利用而引发其他安全问题。例如,2016年5月,在佛罗里达州公路上一辆处于“自动驾驶”模式的特斯拉汽车 Model S 以74英里(1英里≈1.61千米)的时速,直接撞上了拐弯中的白色拖挂式大货车,其原因是自动驾驶系统误将白色拖挂式大货车识别为天上的白云,导致自动刹车未生效[6]。其实,早在1978年9月就发生过机器人伤人事件,日本广岛一家工厂的切割机器人在切割钢板时,误将一名值班工人当作钢板进行了操作,致使该工人死亡,这是世界上第一宗机器人杀人事件。