给 AGI 画一条「及格线」,GPT-4 和 GPT-5 竟都是「差等生」?
通用人工智能(Artificial General Intelligence,AGI)是目前 AI 领域内各个顶尖实验室努力的大方向,但是有关 AGI 的定义可谓众说纷纭。也就是说,在追逐 AGI 这一圣杯时,我们究竟在追逐什么?
近日,图灵奖得主 Yoshua Bengio、前谷歌 CEO 埃里克・施密特、Gary Marcus 等众多学者与行业领袖联手,终于为 AGI 这个炙手可热却又模糊不清的概念提出了一个全面、可测试的定义。
- 论文标题:A Definition of AGI
- 论文链接:https://www.agidefinition.ai/paper.pdf
这篇文章提供了一个全面、可量化的框架来试图消除这些模糊性。其框架旨在具体明确:AGI 是一种能够匹敌甚至超越受过良好教育的成年人的认知多功能性和熟练程度的人工智能。
这一定义强调,通用智能不仅需要在狭窄领域内展现专业化的表现,还需要具备人类认知技能的广度(多功能性)和深度(熟练程度)。
以人类为镜:量化 AGI 的框架
为了将这一定义付诸实践,我们必须关注通用智能的唯一现存范例:人类。人类的认知并非单一能力,而是一个由进化磨练出的众多独特能力构成的复杂体系。这些能力赋予了我们非凡的适应能力和对世界的理解力。
为了系统地研究 AI 系统是否具备这种能力范围,该研究以卡特尔 – 霍恩 – 卡罗尔 (CHC,Cattell-Horn-Carroll) 认知能力理论为基础,该理论是人类智力最经实证验证的模型。CHC 理论主要源于一个多世纪以来对各种认知能力测试集合的迭代因子分析的综合,其提供了人类认知的层次分类图。它将一般智力分解为不同的广义能力和众多狭义能力(例如归纳、联想记忆或空间扫描)。
为了确定人工智能是否具备与受过良好教育的成年人一样的认知多样性和熟练程度,该研究使用了用于测试人类的认知测试系统来测试人工智能系统。这种方法用具体的测量指标取代了模糊的智力概念,从而得出了标准化的「通用智力指数」(AGI)分数(0% 到 100%),其中 100% 表示通用智力指数。
AGI 的十大核心能力
该框架包含十项核心认知分量,它们源自 CHC 理论中的「广义能力」,并被等量加权(每项 10%),以强调广度并覆盖主要的认知领域。