人类理解能力的复杂性,德州仪器TI计算机具备知识才能理解照片

来源:深圳市华芯链电子公司时间: 2024-04-04

人类理解能力的复杂性,德州仪器TI计算机具备知识才能理解照片

在构思这一话题时,我被安德烈·卡帕西撰写的一篇令人愉快且见解深刻的博客文章迷住了,卡帕西是一名深度学习和计算机视觉领域的专家,他目前在指导特斯拉的人工智能的相关工作。卡帕西在其发表的一篇题为《计算机视觉和人工智能的现状:我们真的,真的相距甚远》,描述了自己作为一名计算机视觉研究人员对一张特定照片的反应。卡帕西指出,我们人类会发现这张照片非常幽默,那么,问题来了:“德州仪器TI一台计算机需要具备什么样的知识才能像你我一样去理解这张照片?”安德烈·卡帕西博客中探讨的照片卡帕西列出了许多我们人类轻易就能理解但仍然超出了当今最好的计算机视觉程序的能力范围的事物。例如,我们能够识别出场景中有人,也有镜子,因此有些“人”只是镜子中的影像;我们能够识别出图中的场景是一间更衣室,并且我们会对在更衣室里看到这样一群西装革履的人而感到奇怪。再进一步,我们可以识别出一个人正站在体重秤上,尽管体重秤是由混合在背景中的白色像素组成的。卡帕西指出,我们可以发现奥巴马把他的脚轻轻地压在体重秤上,并强调,我们很容易根据我们推断出来的三维场景结构而不是这张二维图像来得出这一结论。我们对物理学的直觉知识使我们可以推断:奥巴马的脚踩着体重秤将导致体重秤上显示的数字大于体重秤上男士的真实体重。我们在心理学方面的直觉知识告诉我们:站在体重秤上的这个人并没有意识到奥巴马的脚踩在秤上,这能从那个人视线的方向推断出来,并且我们知道他的脑袋后面并没有长眼睛。我们还能明白:测量体重的人大概感觉不到奥巴马的脚正轻踏在秤面上。我们还能根据心智理论进一步推测:当体重秤显示的体重比他的预期要高时,他将很不开心。最后,我们看得出奥巴马和其他观察这一场景的人都在微笑,他们被奥巴马对这个人开的这个玩笑逗乐了,并且可能因为奥巴马的身份让它变得更有趣了。我们也识别出他们的玩笑是友善的,并且他们期望站在秤上的人知道自己被捉弄之后也会开怀大笑。卡帕西指出,“你在推理人们的心智状态,以及他们对其他人的心智状态的看法。这会变得越来越可怕……令人难以置信的是:上面所有的推论都是从人们对这幅二维的由像素构成的图像的简单一瞥而展开的”。对我而言,卡帕西的例子完美地捕捉到了人类理解能力的复杂性,并以水晶般的清晰度展现了人工智能所面临的挑战之大。卡帕西的文章写于2012年,但其传递的信息在今天看来依然正确,我相信,在未来很长一段时间内都是这样。卡帕西用下面这段文字概括了他的文章:我几乎可以肯定的是:我们可能需要进一步探索“具身”(embodiment)这一概念。


电话

185 0303 2423

微信

咨询

置顶