blob: 098856e61c5bcf239841660f688c6722380844da (
plain)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
|
点开始之后大家就可以做了
难以找到正确的思路的话
就不知道该填啥
有时候没有什么头绪
测试者想要取得高分数
强烈地依赖于他们从小样本之中
提取信息
进行抽象推理(的能力)
这是不能通过刷题来得到高分的
迈向通用人工智能
探索拥有人类智商水平的认知智能
“人工智能”一直是人类
探索自身能力边界的窗口
近几年,以深度学习方法为代表的
人工智能在感知层面上取得了显著的进展
但是现有的模型距离具有人类通用
认知能力的智能仍然具有较大差距
研究表明,在判断两个图形
是否是同类的例子中
大猩猩(Capuchin monkeys)这样的灵长类动物就可以顺利完成
这说明动物具有一种与生俱来的认知构架
这种认知构架使得他们能够
从小数据中寻找解决问题的通用范式
认知构架的优势在人类中体现得尤为明显
比如,对于稍微复杂的几何问题
亚马逊雨林中的原始部落人群(Amazonian indigene group)
仍然能够轻易解决
然而,以Transformer为代表的深度学习大模型(foundation model)
却在类似的测试中相形见绌
模型在训练时不仅需要大量的标注数据
且最终性能也无法与人类做比较
对于智能水平的衡量
一般是基于智力商数进行的
也就是我们常说的“智商”或者“IQ”
心理学家创造了一系列测试
来数值化智商
并发现智商的高低
与人的成就具有很高的相关性
在这些测试之中
比较有代表性的就是瑞文测试(Raven's Progressive Matrices)
下面这个题目就是瑞文测试中的一个样例
这个例子乍一看很复杂
只有8张图片且物体形态各异
但仔细分析可以发现
每行中物体颜色都是深灰、浅灰和黑色
同时,每张图片中物体大小基本一致
由此,不难推出正确答案
离群样本选择(Odd-One-Out)
则需要被试从几个例子中挑出一个离群的数据点
比如下题中
只有第三张图片中有一个深黑色的六边形
对于传统的感知智能体
我们需要提供成千上万个例子
机器才能学会一个猫或者狗的概念
但是对于一个认知智能体
仅依赖几张图片,机器就能从一个巨大的空间中抽象出对应的事件,
并理解其在时间-空间-因果三个层次上的关系
探索具有人类认知智能能力的模型是
北京通用人工智能研究院的一个基础研究项目
集结了北京通用人工智能研究院和UCLA的学者
共同解决这个挑战性的问题
如何用小数据理解IQ测试中的时空因果关系
经过数年的研究
我们提出了通慧(Tong-Hui)模型
这个夏天,我们邀请了来自国内
顶尖学府的同学与我们的通慧(Tong-Hui)模型
进行一次比拼
在之前的测试中
我们对模型的能力有一个大致的估计
但是当面对真正高智商的人类对手时
我们也摸不准我们的模型到底有怎样的表现
好,那我现在点开始
点开始之后大家就可以做了
同学们时常有着各种各样的奇思妙想
但我们的程序可能不一定能产生类似的思路
所以对于比赛的结果
总有一些不确定性
开始觉得还挺简单的
然后后面就感觉有一点吃力了
然后有时候没有什么头绪
错了六七个吧
难以找到正确的思路的话,就会不断地错,就一直找不出规律
然后就不知道该填啥
就是我需要花费很多时间
去想我该朝哪个方向去思考
但是机器我觉得它可以短时间
内迅速地尝试各种的、很多很多种情况
好,谢谢大家
通慧模型完胜所有的学生
也超过了以Transformer为代表的大模型
第一项左上角是一个五边形
其他的是没有五边形的
我们在这项任务中打败了全国最优秀的同学
下一步的目标是为人工智能的定级
提供更加有力的标准
并在更加全面的环境下评估我们的通用人工智能系统
我们曾经一直在想
如果真的有那么一天我们创造的智能
能够超过世界上最聪明的大脑
那我们一定是发现了某种通用的算法
乃至一整套全新的认知架构
也许我们现在就已经站在
通用人工智能的门口
这次比赛的成功
让我们离通用人工智能又迈进了一步
|