我们仍然有很多事情要做

written by 李想,南京大学匡亚明学院

摘要

1956年达特茅斯会议标志着人工智能作为学科的起源,将人类智能与机器联系起来,探讨模仿人类智能的可能性。本文探讨了人工智能发展的三个重要阶段:推理期、知识期和学习期。推理期侧重于使用逻辑推理解决问题,而知识期强调知识的表示和存储,学习期则着眼于让机器通过数据和经验自主学习。本文详细分析了每个阶段的特点、发展趋势和关键技术,涵盖了推理算法、专家系统、机器学习等领域的重要进展。此外,文章中探讨了神经网络、博论和大模型等现代人工智能领域的新趋势和重要应用,以及现代人工智能发展的重要特点。最后,文章指出了人工智能发展的未来方向和挑战。

关键词

人工智能、推理与演绎、归纳与知识、学习、神经网络、博弈、大模型

一、引言

在2023年9月27日的第三次名师导学课上,周志华教授带来了“浅谈人工智能”的讲座。作为国内人工智能领域的领军人物,周志华教授深入浅出地解释了人工智能的概念,并从其发展目标出发,对人类智能行为与人工智能、强人工智能与弱人工智能进行了比较。随后,周教授详细剖析了自1956年以来人工智能学科的三个发展阶段,即推理期、知识期和学习期,生动地勾勒出了人工智能近70年的历史演变过程。接着,周教授介绍了自己的研究领域——机器学习,分析了人工智能如何协助人类解决复杂任务,并展望了人工智能在当前热门领域和应用前景,例如科学领域的人工智能应用以及诸如ChatGPT等语言大模型。最后,周教授总结了当下中国人工智能的发展现状,并指出了当前需要培养何种人才以适应学科和产业的需求。

周志华教授的讲座激励了包括笔者在内的一众有志青年学子。作为匡亚明学院脑科学与人工智能方向的学生,笔者将结合周志华教授的讲座内容,在本文中深入分析人工智能历史发展的三个阶段:推理期、知识期和学习期,并从中解读人工智能作为一种不断发展的现代方法,其学科及产业的发展趋势及进化特点。特别地,在本文的第三部分,笔者将分析当下神经网络和大模型之潮流相对于传统的智能Agent发展的不同之处,以揭示人工智能于当下全新的发展模式。

二、初出茅庐:推理与演绎

1956年,约翰·麦卡锡(J. McCarthy)、冯·诺依曼(John von Neumann)、香农(C. Shannon)、明斯基(M. Minsky)等学者汇聚于达特茅斯会议(Dartmouth Conference),标志着人工智能(Artificial Intelligence, AI)作为一个学科的萌芽。这一历史性事件将人类的智能和机器之间的关联提升到了前所未有的高度,强调了模仿人类智能的机器实现的可能性。

人工智能发展的第一个阶段是推理期(Reasoning)。初期人工智能的发展重心放在推理领域,这并非偶然。推理被视为模仿人类智能行为的理想起点,因其清晰而可控的特性。在技术水平和认知理解有限的情况下,逻辑推理被认为是一种可行的方法来建立计算机智能。这种抽象的思维过程更依赖于逻辑规则和符号操作,而非大规模的数据和计算资源,因而推理更容易在技术水平有限的情况下得到研究和实。

推理期的早期研究聚焦于开发能够执行逻辑推理的算法和程序,以进行可以良定义的问题求解。由于计算机进行计算的通用性强、判断能力强,对于一些基本的规则输入,应用启发式的推理手段,其可以进行一些较为复杂问题的求解。例如著名的着色问题(Map-coloring problem),其作为一种约束满足问题(CSP),输入一些简单的规则和约束(例如:每个区域必须被着色,相邻的区域颜色不能相同),应用一些推理规则,例如回溯搜索(Backtracking Search),即可找到合适的颜色分配方案,来满足所有约束条件。如图1所示,通过逻辑规则和符号推理,计算机可以逐步尝试不同的颜色分配方案,同时检查每个步骤是否符合约束条件。这种方式允许计算机在不断尝试中逐步逼近解决方案,直到找到满足所有约束的合法着色方案。因而,应用推理规则之后,计算机也逐渐能够拥有“人的智能”,这是人工智能在第一阶段——推理期的典型表现。

fig1: Part of the search tree for the map-coloring problem

这一阶段的典型研究如逻辑定理证明系统,其中代表性的成果是1955年Herbert Gelernter的Geometry定理证明程序。此外,早期的专家系统也是推理期的重要成果,例如Dendral系统用于有机化学分析,以及MYCIN系统用于诊断和治疗感染性疾病。然而,随着研究的深入,某些问题可能超出了已知规则或逻辑系统的范畴。推理面临的挑战在于处理不确定性、复杂性和模糊性,有时某些问题可能缺乏清晰的逻辑规则或难以用符号化的方式表达,这使得传统推理方法难以应对。另外,随着技术的不断进步和计算能力的提升,使得人工智能步入了新的发展阶段。

三、渐进发展:知识与学习

3-1 知识期

人工智能的第二个发展阶段是知识期(knowledge Engineering)。从推理期到知识期发展的跃进是一种必然的趋势,正如人类思考问题的方式有演绎(deduction)和归纳(induction),推理期的智能Agent主要进行演绎的任务,而知识期的Agent则开始进行知识的表示与归纳。研究者们提出了多种知识表示形式,如逻辑表达式、语义网络、框架表示法等。例如,基于逻辑的知识表示语言(如谓词逻辑)被广泛应用于表达形式化的规则和关系,而语义网络则用于以图形方式表示实体和它们之间的关联。

例如,作为最基本的知识——命题逻辑中,智能Agent可以通过学习如 $(\alpha\Leftarrow\beta) \equiv (\neg\alpha \vee \beta)$ 、$\neg(\alpha \vee \beta) \equiv (\neg \alpha \wedge \neg \beta)$ 、$(\alpha\vee(\beta \wedge \gamma)) \equiv ((\alpha\vee\beta)\wedge(\alpha\vee\gamma))$ 等等的知识,即可进行基于归纳的推理过程(其简单思路是:通过以上的知识将命题逻辑的每个语句转换成合取范式(CNF),并将其作为归纳过程的输入,进行语句的基本归纳)。

另一个重要的方向是专家系统的发展,专家系统结合了知识表示和推理技术,旨在模拟领域专家的知识和决策过程。这些系统利用存储在知识库中的专业领域知识,通过推理引擎进行逻辑推断和问题求解,从而提供对特定领域问题的解决方案。

知识期的重要意义在于使计算机能够从人类知识中汲取经验和智慧,为其赋予更加智能化的能力。然而,尽管知识期取得了重要进展,但其局限性在于知识表示的局限性和知识获取的困难性,特别是难以将广泛、模糊或隐含的人类知识准确地表达为计算机可理解的形式。因此,人工智能的逐渐向其第三个发展阶段——学习期(Machine Learning, ML)发展。

3-2 学习期

学习期的主要想法是让机器利用经验改善系统自身的性能,其代表了人工智能发展的一个重要转折点,着重于使计算机系统能够通过数据和经验自主学习、改进和适应。这一阶段的核心目标是开发能够从数据中提取模式、发现规律,并能够逐步改善自身性能的算法和模型。

“机器学习”的迅速发展,一方面是由于人们认识到模型的巨大潜力,通过大量的训练数据,加上一个“好”的学习算法(Learning Algorithm)即可得到一个“好”的模型,以完成分类、聚类等多种任务。因此,一众学者在学习算法上下功夫,发明研究出了一系列的机器学习的标准范式,常见的有:

这些一个个模型的提出,丰富了数据驱动的方法,通过大量数据的训练和模型的优化,使得计算机系统能够逐步提高性能,从而实现自主学习和适应。这使得人工智能系统能够更好地处理复杂、不确定、动态的环境,并在特定任务上取得超越人类的表现。图2展现了通过K均值(K-means)方法对无标签进行聚类任务的无监督学习过程。从中可以看出,这个阶段的发展标志着人工智能的一个重要转折,将重点从逻辑推理和知识表示转移到了数据驱动的方法上。

fig2: A two-dimensional t-SNE map of the MNIST data set, a collection of 60,000 images of handwritten digits, each 28×28 pixels and thus 784 dimensions.

3-3 纵观:从推理期,到知识期,再到学习期

人工智能的这三个发展阶段,其实恰恰代表了人类的发展阶段。介于弱人工智能的定义,这三个时期的智能Agent做的,其实就是所谓“Intelligence-inspired computing”。通过人类智慧发展的方式,进行逐阶段的“inspiration”,反映了人类对智能模拟的不断演进和理解的逐步深入。

总的说来,推理期是人工智能的起点,因为人类首先尝试用逻辑和推理来描述智能行为。在早期,人们对智能的理解局限于逻辑推理和符号处理,因此推理成为了人工智能研究的首要领域。这一阶段关注的是如何用规则和符号表示知识,尝试通过逻辑推理解决问题。

然而,随着对人类智能更深层次理解的尝试,研究者们逐渐意识到仅仅通过逻辑推理难以涵盖复杂、模糊、动态的现实世界。这促使人工智能领域进入了知识期。知识期强调知识的表达和存储,试图将人类丰富的领域知识转化为计算机可理解和利用的形式。这一阶段的目标是模仿人类知识的存储和推理过程,但也暴露出知识表示的局限性和知识获取的难题。

学习期的出现则是对前两个阶段的补充和进化。随着数据的大量积累和计算能力的提升,人工智能开始追求数据驱动的方法,利用数据和经验使系统自主学习和改进。机器学习和深度学习的兴起,使得人工智能系统能够从数据中提取模式、发现规律,并在不断的学习中逐步改进性能。学习期强调的是让计算机从数据中自主获取知识和经验,逐步提高系统的适应性和智能化程度。

四、大展宏图:网络、数据与模型

4-1 神经网络的不断深入

神经网络(Neural Network, NN)由于其强大的表征能力和适应性,可以从大量数据中学习并捕获复杂的特征和模式。神经网络能够通过训练不断改进自身性能,逐步优化模型,使其在各种任务中取得显著的效果,这种灵活性和普适性使其在各领域得到广泛应用。

21世纪以来,互联网的高速发展使得计算机能够接触到的数据量激增,2006年被提出的深度神经网络(DNN)模型在自然语言处理(NLP)、计算机视觉(CV)等多个领域都取得了举足轻重的贡献。DNN可谓是人工智能在学习期的一个集大成者,“深度学习”这个分支也应运而生。

以计算机视觉领域为例,DNN的一个分支是卷积神经网络(Convolutional NN, CNN),通过对图像进行层层卷积、池化、ReLU变换等操作,既可以在浅层提取出图像的一些初步特征(如边缘、轮廓等),还可以在深层提取出图像的一些高维度特征(如面部表情、人物动作等),因此对于计算机视觉中的三大问题:分类(Classification)、目标检测(Object Detection)、分割(Segmentation)都有着举足轻重的应用前景。如图3所示,展现了目标检测任务下CNN的架构,采用YOLO(You Only Look Once)算法。

fig3: The Architecture of CNN, with You Only Look Once detection task

4-2 博弈的日趋成熟

虽然机器学习和深度学习技术在人工智能领域蓬勃发展,但传统的推理和问题求解依然是人工智能的重要领域,它们也从未停止发展。以博弈(Gaming)理论和对弈(Adversarial)算法为例,它们在人工智能的发展中扮演着重要角色。

博弈理论作为一种决策分析的工具,帮助研究者理解和模拟人类决策过程。它涉及多方利益冲突的情景,为人工智能系统提供了测试、优化和训练的场景。通过博弈,人工智能可以在特定规则下学习和优化策略,进而在不同情况下做出最优的决策。

一个鲜明的案例是AlphaGo,由DeepMind团队开发的人工智能程序,专注于围棋游戏。AlphaGo的主要工作原理是深度学习,它使用了两个神经网络,一个用于评估棋局的优劣,一个用于生成下一步的走法。它还结合了蒙特卡洛树搜索算法,来探索和扩展可能的走法,并选择最有利的走法。其训练过程分为两个阶段,第一个阶段是通过观察人类围棋大师的棋谱,学习人类的走法和棋理;第二个阶段是通过自我对弈,不断改进和优化自己的策略。

AlphaGo在围棋中的惊叹表现在2016年将“人工智能”这个名词带入了广大大众的视野中。它在2016年3月与围棋世界冠军、职业九段棋手李世石进行围棋人机大战,以4比1的总比分获胜;2016年末2017年初,AlphaGo在网上以“大师”(Master)为注册账号与中日韩数十位围棋高手进行快棋对决,连续60局无一败绩;2017年5月,在中国乌镇围棋峰会上,它与排名世界第一的世界围棋冠军柯洁对战,以3比0的总比分获胜。围棋界公认阿尔法围棋的棋力已经超过人类职业围棋顶尖水平。

博弈领域的发展为我们揭示了人工智能不断进步的关键因素和发展方向。在这个过程中,我们看到了人工智能代理在大数据和强大计算能力的支持下发挥着巨大的潜力。从推理期的基础算法(如蒙特卡洛算法MCTs)到知识期的规则建模,再到学习期的学习模型(如神经网络),智能Agent已经在棋类游戏等领域超越了人类顶尖选手。

这种进步不仅是技术上的胜利,也是对我们理解人工智能的方法和方向的启示。它提示我们,结合不同领域的技术和算法,让智能Agent在特定任务中取得突破性进展。因此,当下的人工智能不仅仅局限于问题求解、逻辑、机器学习等单一领域,多领域的交叉融合已成为了人工智能当今发展的最大趋势。

4-3 大模型的迅速崛起

2022$\approx$2023年,一系列以ChatGPT为代表的大型语言模型迅速崭露头角,将人工智能领域推向了新的高度。这些“大模型”指的是具备庞大参数规模和丰富语言理解能力的深度学习模型。它们通过利用大规模数据和先进的训练技术,在各个领域展现出了惊人的性能。可以聊天、分析数据、创作、模型拓展等,其几乎无所不能的通用性和强大性使得人工智能在AlphaGo之后又一次引起了社会大众的广泛关注。下表列出了ChatGPT的一些主要应用类型:

对话对象 定位 实现思路 应用场景
Agent 数据生成器 根据需求直接生成数据 对话、文案、代码生成
数据 知识挖掘 对原始数据再加工或分析挖掘 翻译、润色、摘要、文档管理
模型 模型调度员 调用其他机器学习模型协同 模型拓展、智能中台
应用 人机交互 调用各类APP解决实际问题 插件、智能操作系统接口

ChatGPT背后的思想其实很简单:将所有语言任务归为对话任务,将对话任务归为文字接龙的生成问题。其基于深度学习中的神经网络,其利用了大量的数据和计算资源进行训练。通过层叠多层神经元,这些模型能够从海量数据中学习并建立复杂的表示,进而实现对复杂任务的高效处理。此外,采用了训练技术的改进,例如预训练和微调,使得这些大模型在特定任务上展现出惊人的通用性和适应性。此外,ChatGPT实现的“人机自然对话”在一定程度上已经达到了自然语言处理的核心目标,使得ChatGPT对NLP的传统研究方法产生了巨大的挑战。

OpenAI首席科学家I. Sutskeve最近在与英伟达CEO黄仁勋的访谈中,对ChatGPT能力学习进行了解释:ChatGPT通过学习文本中的统计相关性,获得了这个世界的一个压缩、抽象、可用的映射表达。比尔盖茨将ChatGPT誉为自1980年现代图形桌面环境GUI问世以来最具革命性的科技进步。当参数量以百亿乃至千亿计,数据量以万亿计时,基础模型对庞大的信息进行压缩,捕捉其中的规律对世界产生认知。在利用庞大的语料预测下一个字符的过程中,基础模型学习到情感计算、文本分类、数学计算乃至复杂推理等一系列能力,这是一种“极致的多任务学习”。

五、结论

借用唯物辩证法的发展观,发展是事物由简单到复杂、由低级到高级的变化趋势,其实质是新事物的产生和旧事物的灭亡。人工智能从推理期、知识期,再到学习期,就是不断的推陈出新,从量变到质变的过程。其遵循人类智慧发展的客观规律,从演绎到归纳,从局部到整体,不断在曲折中迈进,在困难中突破。图4有趣地展现了人工智能发展的不同阶段人们对人工智能的态度变化:

fig4: Heuristic Development of Artificial Intelligence

人工智能的发展从最初的逻辑推理和演绎推理逐渐转向了对大规模数据的归纳学习。过去,智能Agent主要依赖于规则和逻辑来解决问题,而现在的人工智能则更加依赖于数据和模式识别,通过数据驱动的学习来取得成就。此外,AI for science的兴盛,例如AI破解蛋白质结构、AI药物设计、AI绘图等等各个领域的蓬勃发展,更是昭示着人工智能技术在解决现实世界问题中的应用的不断拓展,反映出其由专一向通用的发展趋势。

神经网络的不断深入、博弈的日趋成熟、大模型的迅速崛起……这些无一不反映出人工智能当下“应用化”“通用化”的发展模式。作为一种发展不到70年的现代的方法,如此由推理、到知识、再到学习,逐渐融会贯通的发展方式。在听了周志华教授的讲座之后,笔者认为人工智能在未来将会以关联度更强、融合性更高的角度进行突破和发展,这亦是量变质变辩证统一的过程。最后,在本文中我们看到了人工智能在其短短的历史中已经取得了巨大进展,然而图灵(A.M. Turing)关于“计算机器与智能”的短文的最后一句话如今仍然言犹在耳:

我们只能向前看到很短的距离,
但是我们能够看到仍然有很多事情要做。

参考资料