熊墨淼( Xiong)
of
of and Data
of Texas, of
摘要
本文展望了人工智能研究的未来,重点关注整合神经科学的原理、提升人工智能与物理世界互动的能力,以及利用复杂流形结构的分析和生成数据的高级模型。我们将好奇心视为人工智能的首要原则,强调好奇心驱动智能过程,进而促成知识获取和问题解决。我们引入了包括预测编码、最小化自由能、信念更新和自组织在内的主动推理。此外,我们还讨论了神经人工智能()和具身图灵测试( Test)。图像、视觉、空间转录组学和单细胞组学都是高维数据,它们位于低维流形中。我们介绍了流形值变分自编码器(VAEs)、生成对抗网络(GANs)和扩散模型,这些工具被认为是流形拟合和分析的强大工具。最后,我们探讨了一种结合对抗训练和扩散模型的高级流形分析技术,以确保生成的数据准确反映底层流形结构。通过以结构保持约束来引导学习过程,模型在保持数据内在结构的同时,增强了数据生成的准确性。
智能的第一原则
智能是一个创造、扩展和应用知识的过程。智能问题的根本在于好奇心。好奇心驱动了学习、探索、为感知世界的生成模型, 积累证据以及理解世界的欲望,从而促成了知识的获取和解决问题能力的发展。如果没有好奇心,智能将是静止的,因为不会有动力去寻找新信息或创新。因此,智能的首要原则通常被认为是好奇心。操作上,智能的第一原则可以通过主动推理和最小化感知与行动的自由能原则来实现(, 1994; Engel 2011; et al. 2024; et al. 2022)。
主动推理
主动推理是一个理论框架,用于描述包括人类在内的有机体如何感知、行动和学习其环境。它的基础是大脑是一个贝叶斯推理机器,持续更新对世界的信念以最小化惊奇或预测误差。
以下是主动推理的关键概念摘要:
1.预测编码大脑基于对世界的内部模型,持续生成关于感觉输入的预测。这些预测与实际的感觉数据进行比较,任何差异(预测误差)都会用于更新内部模型。这个过程有助于理解环境(van Zwol et al. 2024)。
2.最小化自由能主动推理基于最小化“自由能”的原则(Wei 2024),在此背景下,自由能指的是预测的感觉输入与实际感觉输入之间的差异。自由能在数学上与预测误差相关,最小化它确保了有机体的内部模型准确且高效。
3.行动与感知在主动推理中,行动与感知被视为一体的两面。为了最小化预测误差,有机体可以更新其内部模型(感知)或采取使世界更可预测的行动(行动)(Hohwy 2024)。例如,如果你期望看到某物但没有看到,你可能会移动眼睛或改变位置以更好地符合你的预期。
4.信念更新大脑根据感觉信息不断更新其信念或内部模型(Wilie et al. 2024)。这个过程是概率性的,意味着大脑在权衡不同的可能性后,基于最可能的情景更新其信念。
5.自组织与稳态主动推理还解释了有机体如何维持稳态( et al. 2023)。通过采取最小化惊讶(或预测误差)的行动,有机体可以使其内部状态保持在可行范围内,确保生存。
6.应用主动推理已在神经科学、心理学、人工智能和机器人学等多个领域得到应用( et al. 2024)。它为广泛的认知过程提供了统一的解释,从感知和学习到决策和运动控制。
综上所述,主动推理提供了一个全面的框架,帮助理解有机体如何与环境互动,不断调整其内部模型和行为,以最小化惊奇并保持稳定且功能正常的内部状态。
神经人工智能(Neuro AI)
主动推理基于一种仿生理论,包括神经科学启发的神经人工智能(Neuro AI)(Zador et al. 2023)。尽管人工智能取得了巨大进步,AI系统仍然缺乏与不可预测世界互动的基本能力。越来越多的人质疑,仅仅增加样本量是否能克服这些限制。越来越多的AI研究人员意识到,迫切需要从人脑和自然智能系统中汲取灵感的研究(Zador et al. 2023; et al. 2024)。
“”是指神经科学与人工智能(AI)交叉的研究领域。其目标是理解大脑的工作原理,并利用这些理解来改进AI系统。研究人员的目标包括:
理解大脑功能:通过研究人类大脑如何处理信息、学习和决策,研究人员希望发现可以应用于AI的原则。数学神经元模型最终可能会带来更强大的人工神经网络和更好的AI(Moore et al. 2024; Linka et al. 2023)。
开发仿生算法:利用神经科学的见解来创建模仿大脑功能的算法,如类似于神经元在大脑中连接和通信的神经网络(Han et al. 2023)。
通过生物学见解增强AI:通过融入大脑工作方式的元素,AI系统可以变得更加高效、适应性更强,并具备类似于人类的学习能力( 2024)。
神经科学驱动的AI模型:一些研究集中于构建模拟特定大脑区域或认知过程的模型,这些模型可以用于开发更先进的AI系统( et al. 2023)。
双向影响:虽然神经科学为AI提供了启发,AI也通过提供工具和模型来更好地理解大脑活动和认知过程,从而推动神经科学的发展( and Zis 2019)。
具身图灵测试
最近,一些AI研究人员提出了具身AI的研究方向。他们认为具身AI是通用人工智能(AGI)的桥梁(Liu et al., 2024)。一组科学家提出用具身图灵测试取代经典的图灵测试(Zador et al., 2023),并将其视为的一大挑战。
人们通常使用艾伦·图灵提出的“模仿游戏”来测试机器是否具有类似人类的智能。具体而言,艾伦·图灵提出的原始图灵测试声称,如果测试者无法判断他们的对话伙伴是AI系统还是另一个真人,那么被测试的AI系统就通过了测试。图灵测试的最重要特点之一是其测试方法基于语言,侧重于对话信息。现代大型语言模型取得了重大进展,因此通过了图灵测试。然而,原始图灵测试有一个致命的缺陷:它将判断基于参与测试的人类与机器之间的语言对话。完全专注于对话能力忽视了机器是否具有思考能力的考察,而思考能力是智能最重要的特征。原始图灵测试暗示语言代表了人类智能的顶峰,因此假设能够进行对话的机器也必然具有智能。
然而,超出我们之前的想象,“大型语言模型”现在能够进行令人惊讶的连贯对话。在某种程度上,大型语言模型的成功揭示了我们多么容易被欺骗,自动地将智能、行为能力,甚至是意识归因于我们的对话伙伴。原始的图灵测试并没有考虑在真实物理世界中的思维和行动。它没有提供方法来揭示我们在真实世界环境中的智能能力,如感知、推理、规划和决策。人们越来越要求将原始图灵测试改为“具身图灵测试”。
“具身图灵测试”是英国数学家兼计算机科学家艾伦·图灵提出的原始图灵测试的扩展。原始图灵测试衡量的是机器展示出与人类相当或难以区分的智能行为的能力。在传统的图灵测试中,如果人类评估者无法可靠地区分人类和机器的回答,那么该机器就被认为通过了测试。
具身图灵测试:
具身图灵测试在这个概念上增加了一个额外的层次,要求AI或机器不仅在对话中表现出类似人类的智能,还要能够以类似人类的方式在物理世界中进行互动。
关键特征:
**物理存在:**与只涉及基于文本的互动的原始图灵测试不同,具身图灵测试要求AI具有一个能够与环境互动的物理形态(例如机器人)。
**感觉运动技能:**AI必须展示出通过传感器(如摄像头或麦克风)感知其周围环境,并以适当的物理动作(如移动物体、行走或手势)做出反应的能力。
**类似人类的行为:**AI的物理和对话行为应当与人类如此接近,以至于人类观察者无法区分他们是在与人类还是机器互动。
**AI与机器人技术的整合:**该测试结合了AI和机器人技术的进步,不仅测试认知能力,还测试在物理空间中执行需要协调、操作和实时决策的任务的能力。
目的:
具身图灵测试旨在通过挑战AI在思维和行动中展示出类似人类的智能,推动AI的边界。它作为评估AI发展的一个基准,检验AI是否能够像人类一样在现实世界中操作和互动。该测试对机器人技术、人机交互和AI伦理学等领域有重要意义。
总体而言,具身图灵测试提高了对机器“智能”的要求,不仅需要智力上的模仿,还需要物理化的体现和互动。
流形假设和流形学习
流形假设表明,高维数据(如图像或其他复杂数据类型)实际上位于高维空间内的一个低维流形上或靠近低维流形。这意味着即使数据可能有许多特征(维度),数据的内在结构实际上更简单,可以用更少的维度来表示。
想象一下你有一个非常高维的空间,比如一个有一千个维度的空间。这个空间中的每个数据点代表一个对象,如图像,具有成千上万个特征。流形假设提出,尽管维度很高,数据并没有随机地占据整个空间。相反,它存在于一个“流形”上,这个流形是嵌入在高维空间中的一个连续的、低维的曲面(如曲线或片状结构)。
例如,如果你处理的是面部图像,流形假设表明,所有可能的面部(这是高维数据)都位于一个低维流形上。这个流形捕捉了面部的基本特征,例如眼睛、鼻子和嘴巴的位置,同时舍弃了不相关的变化。
为了分析高维数据,我们需要开发新技术来揭示高维数据集的低维表示,同时保持点对点的距离(Yao et al. 2024)。深度学习方法如变分自编码器(VAE)、生成对抗网络(GAN)和扩散模型为流形嵌入、流形去噪、流形拟合和流形分析提供了强大的工具。
VAE包括两部分:编码器和解码器。编码器将输入数据映射到低维潜在空间中的分布中。这个潜在空间是数据流形预计所在的地方。然后解码器从这个潜在空间中采样一个点来重建数据。VAE通过学习潜在变量上的概率分布来将数据拟合到潜在空间中的平滑流形上。这有助于捕捉数据的内在结构。通过分析潜在空间,我们可以理解数据的底层结构。例如,在一个训练面部图像的VAE中,潜在空间中的不同方向可能对应于面部特征的变化,如嘴巴的宽度或头部的角度。
生成对抗网络(GAN)是另一种深度生成模型,通过将简单的、通常是低维的分布映射到一个与训练数据分布匹配的高维空间来生成新数据点。GAN由两个神经网络组成,它们彼此竞争:一个生成器和一个判别器。生成器从一个随机噪声向量(来自一个简单的分布,如高斯分布或均匀分布)开始,并将其映射到数据空间(如图像)。而判别器则尝试区分真实数据(来自训练集)和生成的数据(由生成器生成)。
这两个网络在博弈论框架下共同训练,其中生成器试图欺骗判别器,而判别器试图正确识别真实数据和虚假数据。随着时间的推移,生成器在生成与真实数据分布一致的现实数据方面不断提高。GAN通过将噪声向量(来自简单流形)映射到真实数据的复杂流形上,隐式地学习拟合数据分布。这种学习到的映射有助于生成与训练数据相似的新样本。将对抗性损失和循环一致性损失的总和作为模型的综合目标,GAN可以准确地拟合低维流形(Yao et al. 2024)。
“结构引导的扩散模型对抗训练”(Yang et al. 2024)是一种复杂的技术,它结合了对抗训练和扩散模型的原理,以增强生成位于复杂流形上的数据的能力。其主要思想是通过结构保持约束(通常由对抗机制提供信息)来引导扩散模型的学习过程,确保生成的数据准确反映训练数据的底层流形结构。
具体来说,该模型在训练过程中考虑了数据的流形结构。这可能涉及整合有关流形的先验知识,如局部或全局几何属性。对抗性组件帮助模型区分位于流形上的数据和不在流形上的数据。在这种设置中,判别器将对偏离学习到的流形的数据生成进行惩罚,引导扩散过程生成更准确的数据样本。通过整合结构引导的约束,扩散过程在减少噪声和“去噪”数据的过程中始终保持流形结构。
总之,“结构引导的扩散模型对抗训练”是一种强大的技术,通过结合对抗训练和结构保持约束,增强了扩散模型生成准确位于底层流形上的数据的能力。这种方法在需要保持数据内在结构的任务中尤其有用,如现实数据生成、鲁棒模型训练和流形探索。
参考文献
(1994). 'The of : A and .' , 116(1), 75-98.
Susan Engel (2011). The Mind: The of in . : Press.
Karl J et al. (2024). of from first . . 3(1): 1–19.
, P., , T., Çatal, O., , B. (2022). The Free for and : A Deep . 2022. 24: 301.
van Zwol B, R, van den Broek EL. (2024). and : and . arXiv:2407.04117.
Wei R. (2024). Value of and in and . arXiv:2408..
Hohwy J. (2024). Is error all there is to the mind?.
Wilie B, S, Ishii E, He J, Fung P. (2024). : The of Large .arXiv:2406.19764.
KJ. Et al. (2023). and . arXiv:2312..
, H, ć D, Grześ M. (2024). the Free : Four and a .arXiv:2402.14460.
Zador A. et al. (2024). next- . Nat 14, 1597 (2023).
S. et al. (2024). in : , , and . J . 271(5):2258-2273.
Moore JJ, A, M, Pughe- JL, de van RR, DB. (2024). The as a data- . Proc Natl Acad Sci U S A. 121(27):.
Linka K, SS, Kuhl E. (2023). model for human brain using . Acta 160: 134–151.
Han Y, Deng C, Huang GB. (2023). : Brain- and for next- AI: , and .Front . 17:.
, JJ, PR, E, C. (2023). of and the of -A . (Basel). 23(6):3062.
A, Zis P. (2019). , and acute pain: links and . Med. 131(7):438-444.
F. (2024). a model of the brain. eLife. 12:.
Liu Y, Chen W, Bai Y, Li G, Gao W, Lin L. (2024). Cyber Space with World: A on AI.arXiv:2407.06886.
Yao Z, Su J, and Yau ST. (2024). with . PNAS.121 (5) .
YangL, Qian H, Zhang Z, Liu J, Cui B. (2024). - of .arXiv:2402.17563.
排编:杨丽艳
有话要说...