我们要对人工智能保持一个谨慎、乐观的态度,但不必担心人工智能会接管这个世界,因为现在的人工智能还不够聪明。
梅拉妮·米歇尔的《生命3.0》这本书给了我们一个非常宏大的视角,在人工智能时代展望未来人类文明可以触达的边界。最新的这本《AI3.0》,与《生命3.0》有一定关联,重点分析了人工智能和人的未来的关系。同时,也让我们对《生命3.0》里面提出的人与机器的4类关系和12种结局,哪一种更可能出现有了一些更全面更深刻的认知。
很多大众媒体往往把最近几年人工智能的一些主流范式和技术等同于人工智能,比如深度学习和机器学习、基于大数据和经验的能力。但其实人工智能是比深度学习更宽泛的。人工智能的目标是真正的智能,这是人工智能学家约翰·麦卡锡在20世纪50年代提出的,不是人工的智能,而是要发展成真正的智能。
人工智能、机器学习、深度学习、自然语言处理、机器视觉等技术之间的关系
1956年,在人工智能领域重要的里程碑达特茅斯会议之后,马文·明斯基、约翰·麦卡锡、克劳德·香农、赫伯特·西蒙、艾伦·纽厄尔等人都对人工智能的发展非常乐观,认为人工智能会在一代人的时间内做到现在人类所有可以做的事情。
当时的人工智能研究主要集中在机器学习、自然语言处理、抽象概念,神经网络和创造力等5个领域。按照微软研究院主任埃里克·霍维茨的说法,到现在,人工智能领域的核心问题仍然集中在这5个领域。这些问题经历了这50年的研究,却没有取得更多的突破性进展,这些问题根本没有得到充分的解决。这也就造成了为什么我们会看到每5到10年就会经历一次人工智能的周期。
我们已经经历过两次这样的周期了,现在正是第三轮人工智能的高潮。这次人工智能高潮的主要突破是以卷积神经元网络为代表的深度学习,但深度学习只是这个领域的一小部分。它的机理是通过数据训练向经验学习。但是人并不是只靠经验来获得认知的,我们的思考模型很大一部分是天生的。
但是,很多人也预见,第三次寒冬很快会来临。从《AI3.0》这本书里,我们也能得到大致的观察。虽然米歇尔对人工智能的发展趋势,对什么时候人工智能的第三次寒潮连并没有给出明确的答案,但是从历史中我们可以看出,那些关键的问题现在依然没有什么关键性的突破,只是在视觉识别和自然语言处理方面有了一些振奋的新进展,离整个目标的实现还差的很远。
我们现在造出来的所有人工智能都是一些特定领域的模拟,根本就不具备自我思考能力,也不具备感受情绪的能力,或是自我认识的能力。更谈不到它对人类的终极话题——生存和死亡有什么思考,或者是能感受什么样的恐惧。
我们现在看到的这些自然语言处理已经广泛应用在智能音箱等场景下。自然语言处理可以用来做语音识别、机器翻译、对话等。而让计算机真正理解我们所问的问题的含义,其本质上是一种阅读理解任务,但目前计算机其实并不能完全读懂一个特定文本中字里行间的意思,也无法做到真正的推理,比起阅读理解,计算机能做到的应该叫“答案提取”。
答案提取对机器来说是一项很有用的技能,事实上,答案提取也正是这些智能音箱及其他数字助理软件所需要做的:将接收到的问题转换为一个搜索引擎查询序列,然后从搜索结果中提取答案。也就是说我们把更多的一些答案序列化之后变成一个知识库,可以非常快速的匹配答案并提取出来。
所以这种人工智能本身还是不具备真正意义上的思考能力,也就是阅读理解能力。而支持人类对话的底层逻辑正是思考能力,是一种阅读理解能力,但是,我们现在看到的所有的对话机器人的本质还是答案提取,而阅读理解的关键不仅在于“提取答案”,还在于“具备常识”——这一点恰恰是目前的人工智能所不具备的能力。
人类天生具备一些核心知识,就是我们与生俱来的或很早就学习到的最为基本的常识。例如,即便是小婴儿也知道,世界被分为不同的“物体”,而且一个物体的各个组成部分会一起移动,同时,即便某一物体的某些部分在视野中看不见了,它们仍然是该物体的一部分。这些“人生而俱来”的“核心知识”包括:
1.直觉
由于我们人类是一种典型的社会型物种,从婴儿时期开始我们逐步发展出了直觉心理:感知并预测他人的感受、信念和目标的能力。直觉知识的这些核心主体构成了人类认知发展的基石,支撑着人类学习和思考的方方面面。
2.模拟
人类对于所遇到的情境的理解包含在我们在潜意识里执行的心智模拟中,这种心智模拟同样构成了我们对于那些我们并未直接参与其中的情境的理解,比如我们看到的、听到的或读到的。
3.隐喻
我们通过核心物理知识来理解抽象概念。如果物理意义上的“温暖”概念在心理上被激活,例如,通过手持一杯热咖啡,这会激活更抽象、隐喻层面上的“温暖”概念,就像评价一个人的性格的实验那样,反之亦然。
4.抽象与类比
构建和使用这些心智模型依赖于两种基本的人类本能:抽象和类比。抽象是将特定的概念和情境识别为更一般的类别的能力,类比在很多时候是我们无意识的行为,这种能力是我们抽象能力和概念形成的基础。
5.反思
人与机器更主要的一点差别是人会反思,我们甚至会对思维方法进行一些再思考、再调整,也就是人类具备元认知的能力。
人类的学习是不断地跟世界互动,通过反馈来迭代,通过反思来进步。但机器必须通过大量的数据和算法训练来实现迭代。这是我们与机器之间根本的不同。
还有理解力,它其实是一种预测力。而预测力与我们的经历息息相关,我们都拥有心理学家所说的关于世界的重要方面的“心智模型”,这个模型基于的是我们掌握的物理学和生物学上的事实、因果关系和人类行为的知识,并揭示了世界是如何运作的。心智模型不仅能够让你预测在特定情况下可能会发生什么,还能让你想象如果特定事件发生将会引发什么。
例如,如果你按车喇叭或从车窗向外大喊“请让开!”,这位女士可能会吓一跳,并将注意力转向你;如果她绊了一下,鞋子掉了,她会弯腰把鞋子穿上;如果婴儿车里的婴儿开始哭闹,她会看一眼出了什么事情。
想要理解一个情境,其关键在于要能够利用心智模型来想象不同可能的未来。比如自动驾驶这类人工智能是没有这种预测性的理解力的,它没有这种像人类一样的快速思考和判断能力,所以机器本质还是答案提取的系统。如果系统里没有答案,它们就会不知所措。
一个著名的例子就是当暴风雪来临前,高速公路上会撒盐以防止道路结冰,据说这些撒的盐形成盐线会使特斯拉汽车的自动驾驶功能混乱。从事自动驾驶技术研究的公司敏锐地意识到了这种长尾效应,并针对我们能想到的所有不太可能的场景都编写了相应的自动驾驶应对策略,但是,我们显然无法穷尽系统可能遇到的所有场景。
车辆的完全自主也需要核心直觉知识,包括:直觉物理学、直觉生物学,特别是直觉心理学。 为了让车辆在所有情况下都能可靠地驾驶,其驾驶员需要了解共享道路的其他驾驶员、骑自行车的人、行人和动物的动机、目标,甚至情感。
打量一眼复杂的情境并瞬间判断谁有可能横穿马路、冲过街道去追赶公共汽车、不打信号灯就突然转向,或者在人行横道上停下来调整损坏的高跟鞋,这是大多数人类司机的第二天性,但自动驾驶汽车还不具备这些能力。
长尾效应常常让机器犯错
因此,目前的人工智能很容易被欺骗。人工智能很容易把一个东西归类到另一个。对于同一幅图,只要修改几个像素,在人工智能看来就是两个完全不同的东西。如对一张照片做一些细微的改动,使其对人类来说,和原来的照片一模一样,但一个经过训练的ConvNets却会将修改后的照片归为另一个类别。
这让当前的人工智能系统非常脆弱。深懂这些算法的黑客很容易对系统进行攻击和操作,包括人脸识别。大量的人脸识别算法并没有考虑肤色的差别和人脸的多样性,很容易识别错误。如强烈反对使用人脸识别技术来对公民权利进行执法的美国公民自由联盟(American Civil Liberties Union, ACLU),用535名国会议员的照片对亚马逊人脸识别产品Rekognition系统进行了测试(使用其默认设置),将这些议员的照片与因刑事指控而被捕的人员数据库进行了比较,他们发现,该系统错误地将535名国会议员中的28人与犯罪数据库中的人员匹配上了。在非洲裔美国人议员中,照片的识别错误率更是高达21%(非洲裔美国人只占美国国会议员的9%)。
当下社会对人工智能技术的不假思索地接受,更是存在以下风险:
·造成大量失业的可能性
·人工智能系统被滥用的潜在风险
·人工智能系统在面对攻击时的不可靠性和脆弱性
这些仅仅是人们对技术可能对人类生活产生影响的一些担忧,但我们应该感到害怕的,不是害怕机器太智能,而是害怕机器做出一些它们没有能力做出的决策。相比于机器的“智能”,我更害怕机器的“愚笨”。机器的愚笨会创造一个尾部风险。机器可以做出很多好的决策,然后某天却会因为在其训练数据中没有出现过的一个尾部事件而迅速失灵,这就是特定智能和通用智能的区别。
我们再来讨论一下人工智能有没有创造力的话题。
莫扎特等音乐家在18世纪做过一个叫做音乐骰子的游戏,创作者把一曲音乐切分成很多小片段,然后通过掷骰子来选择该片段在新乐曲中的位置,这其实是一种音乐创作游戏。
音乐智能实验室创始人大卫·科普利用这个方式,发明了一套软件程序,对每一位音乐家的音乐片段进行大量学习之后,识别出其中他称之为“签名”的关键音乐模式,这是一种有助于定义作曲家之独特风格的音乐模式,代表这个音乐家的特征性曲风。科普还编写了一个程序,对每个签名按照它在一个音乐片段中发挥的特定作用进行分类,这些签名被保存在这个作曲家对应的作品数据库中。
科普还在EMI中开发了一套规则,也就是一种“音乐语法”,来指导签名的变体如何重新组合从而以一种特定的风格来创作一曲连贯音乐。然后大卫·科普通过一个随机生成器,把同一种风格的不同音乐片段连接起来,进行作曲创作。这个创作可以可以模仿莫扎特,可以模仿舒伯特,也可模仿肖邦。这些人的曲风都是非常鲜明的。
侯世达曾经在纽约州罗切斯特市著名的伊士曼音乐学院做过一次演讲,他在介绍了EMI之后,侯世达请听众猜一猜:由一位钢琴家为他们演奏的两首曲子中,哪一首是肖邦鲜为人知的马祖卡舞曲,哪一首是EMI创作的乐曲。这些听众中包括几位从事音乐理论和作曲研究的教员。
正如一位听众后来所描述的:“第一首马祖卡舞曲优雅且有魅力,但缺少’真正肖邦式’的创作深度和更强的流畅性……第二首显然是真正的肖邦,有抒情的旋律,大幅的、优美的半音阶转调,以及一种自然、平衡的形式。”令侯世达感到震惊的是:许多听众都同意这位听众的观点,认为第一首是EMI的创作,而相信第二首是“真正的肖邦”。
然而,正确答案恰恰相反。看到这个景象之后,侯世达完全吓坏了。他认为音乐是一种神圣的东西,表达了人类的情感。而音乐智能实验室用这种方式去创造音乐,其实已经把音乐的灵魂剥离掉了。
但大卫·科普可能不这么认为,他还做了一件很令人迷惑的事情,就是他在2005年的时候把整个曲库全都毁掉了。因为他觉得如果依靠机器来做作曲的话,这个能力是无限的,未来好作品也会越来越多,虚拟的作曲家会越来越不值钱。
就像哲学家玛格丽特·博登所认为的:你一定要构建一种有限性,才能经得起时间的检验,才能变成一个稀缺的有价值的东西,“就像所有必死的人类作曲家那样”。所以大卫·科普把整个曲库和算法都毁掉了。
现在我们又看到很多的人工智能创业团队在做同样的事情,用机器人做音乐创作、画图、设计等。这些能不能做?能。做得好不好?很多也很好。但是这种制作音乐的人工智能有“创造性”吗?我认为答案是否定的。虽然它创作了一些相当不错的音乐,但它依赖于算法设计者自身的音乐乐理知识,这些知识内嵌在设计者制定的相关规则中。
最重要的是,我认为这个程序并不真正理解其所生成的音乐作品,无论是在音乐概念上,还是在情感的表达上。由于这些原因,人工智能其实无法判断它自己创作的音乐的质量,这是人的工作,而不是机器的工作。但是问题是,这些东西做得越好,人性就会被消减的越多,这又是一个哲学层面的问题。
达特茅斯学院研讨会举办50年后,约翰·麦卡锡总结出了最简单的一个教训:“人工智能比我们认为的要难。”马文·明斯基指出,事实上,对人工智能的研究揭示了一个悖论:“看似容易的事情其实都很难。”
人工智能计算机的最初目标是:计算机能够以自然语言与我们进行交谈,描述它们通过摄像头“眼睛”看到的事物,在看到几个例子之后就可以学会新的概念。这些小孩子做起来都很容易的事情,对人工智能来说却是比诊断复杂疾病、在国际象棋和围棋中击败人类冠军,以及解决复杂代数问题等更加难以实现的事情。正如明斯基所言:“总的来说,我们完全不清楚我们的心智最擅长什么。”
创造人工智能的尝试,最起码帮助阐明了我们人类的心智是多么复杂和微妙。
最后回到大家可能会比较关心的问题:人工智能会导致大规模失业吗?
任何技术平台发生转变的时候都会有不适应,跟这个技术相融的上一代职业就会消失。比如汽车行业发展起来之后,大量的马车夫就失业了。人工智能也会让很多的职业消失。但是就跟历史上所有的技术进步一样,每一种技术,在让一些原有的职业消失的同时,也会创造更多新的职业。
人工智能会产生更多的新的职业,这些职业需要人性,比如机器做不到的审美能力、对伦理和哲学的思考等。所以大家以后要学习人文方面的知识,比如美学、伦理学、社会学等。人工智能可能会给我们带来一次新的人文复兴,这是我从梅拉妮的这本书里衍生出来的一个观点。
美国东北大学校长在《人工智能时代的高等教育》一本书里提到,未来要防止我们的工作被机器取代。也就是说,不要天真的以为我们可以选择一份稳定的工作,我们一定要在职业生涯中不断地与时俱进,成为一个终身学习者,不断提升自己的技能,把自身升级为一个创意工作者。我们生产的是创意而不是产品,因为所有的产品都可以是标准化的东西,只要是标准化的东西,那么机器人都可以做,甚至做得更好。
因此,我们要对人工智能保持一个谨慎、乐观的态度,但不必担心人工智能会接管这个世界,因为现在的人工智能还不够聪明。
(本文作者为海创汇首席生态官、浦门公社创始人檀林)