尴尬的。人类在阅读房间时仍然比AI好-健康知识-网者头条

摘要：人类比当前的AI模型要好于解释社交互动并了解移动场景中的社会动态。研究人员认为，这是因为AI神经网络的灵感来自处理静态图像的大脑部分的基础架构，这与处理动态社交场景的大脑区域不同。...

事实证明，人类比当前的AI模型在描述和解释运动场景中的社交互动方面要好 - 自动驾驶汽车，辅助机器人和其他依靠AI系统来导航现实世界所必需的技能。

尴尬的。人类在阅读房间时仍然比AI好

这项由约翰·霍普金斯大学（Johns Hopkins University）的科学家领导的研究发现，人工智能系统无法理解与人互动所必需的社会动态和背景，并建议该问题可能植根于AI系统的基础架构。

首席作者莱尔拉·伊西克（Leyla Isik）说：“例如，用于自动驾驶汽车的人工智能需要认识到人类驾驶员和行人的意图，目标和行动。 “每当您希望AI与人类互动时，您都希望它能够认识到人们在做什么。我认为这阐明了这些系统现在无法做到的事实。”

凯西·加西亚（Kathy Garcia）是研究时在ISIK实验室工作的博士生，也将在4月24日的国际学习表现会议上介绍研究结果。

为了确定与人类看法相比，AI模型如何测量，研究人员要求人类参与者观看三秒钟的视频绘制和速率功能，这对于以一到五的比例了解社交互动很重要。这些剪辑包括人们彼此互动，进行并排活动，或者自己进行独立活动。

然后，研究人员询问了350多种AI语言，视频和图像模型，以预测人类将如何判断视频以及他们的大脑对观看方式的反应。对于大型语言模型，研究人员的AIS评估了简短的人为写的字幕。

参与者在大多数问题上都在所有问题上彼此同意； AI模型，无论大小或培训的数据如何，都没有。视频模型无法准确描述人们在视频中所做的事情。甚至给出了一系列静止框架进行分析的模型也无法可靠地预测人们是否在交流。语言模型在预测人类行为方面更好，而视频模型则更好地预测了大脑的神经活动。

研究人员说，结果与AI在阅读静止图像方面的成功形成了鲜明的对比。

“仅仅看图像并识别对象和面孔还不够。这是第一步，这使我们在AI中走了很长一段路。但是现实生活并不是静态的。我们需要AI来理解场景中正在发生的故事。了解社交互动的关系，背景和动态的下一步是下一步，这项研究可能是AI模型发展中的盲点，” Garcia说。” Garcia说。”

研究人员认为，这是因为AI神经网络的灵感来自处理静态图像的大脑部分的基础架构，这与处理动态社交场景的大脑区域不同。

Isik说：“有很多细微差别，但最大的收获是，AI模型无法与人的大脑和行为对整个场景的反应相匹配，就像它们在静态场景中所做的那样。” “我认为人类正在处理这些模型缺失的场景的方式。”