在工业时代,世界被假设为可分解、可预测、可控制的机器。工程师的信念很简单:因果清晰、变量可隔离、误差可修正。蒸汽机、调速器、早期电力系统——所有技术的背后,都是对秩序的自信预设。
然而,历史很快证明,这种信念只是表象。二战的高射炮系统让人们第一次直面现实:当目标移动、信息滞后、信号受噪声污染时,即便计算完美,炮弹仍会落空。控制不再是预测,而是在不确定中持续修正偏差;稳定不再是静态,而是动态维持的边缘状态。
自维纳提出控制论以来,Ashby、Forrester、Goodhart 等学者不断揭示:复杂系统的自然状态并非秩序,而是失控边缘的微妙平衡。从工业系统到生物神经网络,从组织治理到金融市场,再到当代 AI,这一洞察一次又一次被验证:系统永远在动态调整中前行,而真正的掌握,不是消除失控,而是理解并与之共处。
本篇文章尝试从历史到理论,再到当代 AI 的实践,浅析控制论的当代世界观:它从未关心完美的控制,而是关注在信息不完全、延迟与噪声中,系统如何维持生存与功能。
当我们面对自适应的算法、复杂的社会系统与不可预测的技术生态时,控制论提醒我们:
真正的优雅,不在于征服整个世界,
而是在控制和失控的边缘,与世界翩然共舞。
一、控制论如何超越学科成为一种世界观?
因果世界的黄金时代
(19 世纪—20 世纪初)
在控制论出现之前,人类理解世界的方式长期建立在一种高度自信的因果观念之上:如果系统的组成部分被充分理解,行为就可以预测,结果就可以被掌控。这种信念在工业革命的背景下得到了前所未有的强化。
19 世纪,牛顿力学提供了几乎绝对的因果确定性:物体的运动可以通过力学定律精确计算,宇宙似乎是一部可逆的机械钟表。
法国数学家皮埃尔-西蒙·拉普拉斯甚至提出了著名的“拉普拉斯妖”假设——如果有一个智慧存在能够同时知道宇宙中每一个粒子的速度和位置,那么过去和未来都可以被精确推演(Laplace, 1814)。这个假想生动地体现了当时科学家对因果世界的信心:宇宙是完全可计算、可预测的。
与此同时,热力学的第一定律和第二定律不仅为能量守恒和熵增提供理论基础,也让工程师确信能量流动和效率损耗是可量化、可计算的,从而为工业系统设计提供了数学支持(Carnot, 1824;Clausius, 1850)。
在工程实践中,这种因果信念体现得淋漓尽致:蒸汽机调速器(Boulton & Watt, 1788)通过机械反馈维持旋转速度稳定;早期电力系统的建设进一步强化了线性因果逻辑:电流、电压与负载的关系可通过欧姆定律和基尔霍夫定律精确计算(Ohm, 1827;Kirchhoff, 1845)。
在这些系统中,工程问题被视为“参数不足”,而非“结构不可知”:变量可以拆解,系统可以隔离,误差被认为是暂时、可纠正的。这一时期的控制,本质上仍是因果推演的延伸——通过数学建模和反馈设计,人类几乎相信能够像修理钟表一样修正系统运行。
战争中的控制断裂:控制论的真实起点
(1940s)
控制论并不是从象牙塔或哲学沙龙诞生的,它是在战争的逼迫性现实中被迫成形的。第二次世界大战期间,盟军高射炮和防空火控系统暴露出一个根本性难题:当你完成计算时,敌机早已不在原来的位置。
这一事实不是工程师的失误,而是系统自身结构暴露出的内在限制。
在 1940 年代,盟军试图构建自动火炮跟踪与预测系统,该系统通过雷达测量敌机的当前位置,然后预测其未来位置以校正炮火。但现实远比想象复杂:
目标不停运动,特别是在高速飞机出现之后,敌机的位置和速度随时变化。
测量噪声不可避免,雷达和传感器会受到环境干扰,探测信号有误差。
计算和执行存在延迟:从采集数据、运算到发射炮弹的过程都有时间滞后,而敌机在这段时间内继续飞行。
这样一个现实意味着:即便所有物理定律准确无误、轨迹方程能够完全描述,系统仍旧无法保证射中目标,因为反馈回路本身存在滞后和不确定性。
由此产生的,是一个极具反直觉性的认识:
失控并不一定源于错误决策,它同样可能源于“正确决策来得太晚”。
这一点在控制论创始论文中已有实质性的讨论,维纳等人的早期工作就是试图对抗这一类“误差与修正”问题,而非单纯追求预测精度本身。(Wiener, 1943;Rosenblueth et al., “Behavior, Purpose and Teleology” was foundational in framing purposeful behavior in systems)
正是在这种紧迫背景下,诺伯特·维纳(Norbert Wiener)与同事开始深入思考自动调节的问题,并在 1948 年出版了奠基性著作 Cybernetics: Or Control and Communication in the Animal and the Machine。这本著作第一次系统性地提出:
“控制的本质不是对未来的准确预言,而是对误差的持续修正。”
(阅读链接:https://direct.mit.edu/books/oa-monograph/4581/Cybernetics-or-Control-and-Communication-in-the)
维纳强调,对系统的解释不在于预测,而在于构建一种反馈机制,这种机制能在有噪声、延迟与不完全信息的条件下,让系统连续调节自身,使偏离目标的误差不断缩小。
这一点在当时对工程师来说既陌生又颠覆性,因为传统控制模型仍旧假设信息可以及时、完全地反馈回来,而现实世界并非如此。
维纳的工作还受到了概率统计与随机过程理论的影响——他在布朗运动等随机过程上的研究,使他能够理解并量化噪声和不确定性的影响,并将这些思考引入控制与反馈机制的设计之中。
这标志着一个决定性的转向:
控制论并非否认因果关系本身;
而是承认因果来得太慢、反馈才是现实的操作单位。
在真实系统中,因果链的形成往往被延迟、噪声与信息不完全所干扰,因而预测性的因果分析失效,而反馈循环才是维持稳定的核心结构。
正是这种对战争装备中系统滞后与不确定性的深入反思,使控制论从简单的工程自动化问题发展成为一种普适性的思想框架,影响了后来对生物系统、自适应技术乃至认知科学的理解。
所以,控制论的诞生,不是对理想控制的追求,而是对不可避免的失控条件下如何持续调节的首次严肃科学回答。
从“理解系统”到“调节系统”
如果说诺伯特·维纳完成了对控制问题的概念断裂——将焦点从预测转向反馈——那么 W. Ross Ashby 则将这种断裂推向理论极限,推动控制论从工程技术问题升华为一种普适的世界观。
在 Ashby 的两部关键著作——1952 年的 Design for a Brain 和 1956 年的 An Introduction to Cybernetics (Ashby, 1956) ——他提出了一个在当时极具颠覆性的问题:一个系统是否真的需要理解环境,才能有效调节自身行为?
(阅读链接:https://ashby.info/Ashby-Introduction-to-Cybernetics.pdf)
在那个时代,主流认知科学与理性主义仍然认为:
理解 → 决策 → 行动
这是机械模型与认知模型共同遵循的逻辑链:只有当系统完全理解环境,它才能采取适当的行为。
Ashby 却指出,现实系统可以脱离完整理解而调节自身。这一思想的核心,是他提出的必要多样性定律(Law of Requisite Variety):
“Only variety can destroy variety.”
— W. R. Ashby, An Introduction to Cybernetics (1956)
定律的含义清晰而深刻:
环境扰动具有多样性;
为了保持稳定,调节系统必须具备至少等量的内部响应多样性;
系统不必理解或表征所有扰动,只需拥有足够的调节策略。
换句话说,理解不是调节的前提条件。即便系统无法预测环境的每一个变化,只要它能以足够多样的方式应对扰动,就可以维持稳定。
这一逻辑彻底颠覆了认知理性主义的假设:在复杂系统中,行动往往先于理解,而理解未必到来。
Ashby 通过数学模型和系统理论证明了这一点,而非简单的哲学论述。
这一阶段标志着控制论作为世界观的真正成形:
它不再追问系统“知道什么”;
它关注系统是否能在变化中维持可行性;
它强调反馈与调节优先于理解与预测。
在 1950—1960 年代,Jay Forrester 在系统动力学研究中将这一直觉转化为可重复的理论结论。通过对工业生产、库存管理和城市系统的建模,他证明:即便控制规则本身完全合理,只要反馈链路中存在不可忽略的延迟,系统就可能进入持续振荡,甚至发生结构性崩溃。问题不在于决策是否正确,而在于决策抵达系统时,现实条件已经发生改变。
从 Ashby 开始,控制论不仅在工程或生理学中有指导意义,它的逻辑框架还被应用于生态系统管理、组织调节、人工智能研究等多个领域。控制论之所以具备跨学科生命力,正是因为它提出了在不完全信息与不可知环境中维持系统稳定的普适原则。
控制论的裂解与冷场
(1970s–1990s)
尽管控制论在 1940s–1960s 完成了关键性的概念断裂,并迅速扩展为一套横跨工程、生物、认知与社会系统的理论框架,但它的跨学科雄心并未在随后的几十年中转化为稳固的学科地位。相反,从 1970 年代开始,控制论逐渐进入一种看似反常的状态:它的思想无处不在,而它的名字却不断消失。
这一转向并非源于理论被证伪,而是源于一种持续累积的误读——控制论被当作了一门关于“如何控制世界”的学说,而非它真实讨论的那个问题:在系统必然失控的前提下,如何避免灾难性后果。
这种误读首先发生在工程领域。
在早期控制工程实践中,控制论原本试图提供一种理解复杂系统整体行为的框架:系统并非线性因果链,而是由反馈、延迟与扰动构成的动态结构。然而,随着工程学科的专业化与数学化推进,控制论逐渐被压缩为一组可计算、可验证、可部署的工具——负反馈回路、稳态分析、PID 控制器、频域方法。
在这一过程中,控制论关于信息不完全、时间滞后、环境噪声不可消除的根本判断,被重新包装为“工程细节”,而非理论核心。控制被理解为“如何让系统按设定值运行”,而不是“系统为何必然偏离设定值”。作为一门关于失控边界的理论,控制论的哲学野心被工程实践的工具理性所吞没。
更深层的问题在于:工程语境中的“control”,在走出实验室之后,被迅速滑移为日常语言中的“掌控”。控制论于是被误解为一套关于精确操纵、完全预测的技术承诺,而非一门从一开始就否定“完全控制”可能性的理论。这一语义滑移,为其后续在其他领域的冷场埋下了伏笔。
在认知科学与人工智能领域,控制论的命运同样如此。
20 世纪 40–50 年代,控制论曾是讨论学习、自适应与行为调节的重要思想源头。但随着 1956 年达特茅斯会议确立“符号 AI”作为一门独立学科,研究重心迅速转向逻辑表示、规则推理与符号操作。认知被重新理解为“内部表征的计算”,而非“行为在反馈中的自组织”。
在这一范式转换中,控制论关于循环因果、闭环调节与非表征性适应的思想,被视为“缺乏语义”“不够解释性”,逐渐淡出核心讨论。讽刺的是,许多与控制论直接同源的思想——神经网络、自组织、强化学习——在之后几十年中以新的名义重新出现,但控制论作为一个整体理论框架,却失去了位置。
它并非被否定,而是被拆解、吸收,并在新的学科体系中“去名化”。
在社会科学与治理语境中,控制论的误读则更为剧烈。
20 世纪 70–80 年代,一些研究者尝试用控制论解释社会系统、经济规划与政治稳定。但由于控制论并不提供明确的优化目标或规范性蓝图,这些尝试往往被批评为“技术治理幻想”或“将社会复杂性机械化”。控制论强调反馈、延迟与不可预测性,本意是在为治理的有限性划界,却反而被误解为一种“可以全面操控社会系统”的技术理性,于是遭到了强烈反弹。
在这里,问题并不在于控制论试图控制社会,而在于它被错误地当作了承诺“可控社会”的理论。
控制论在不同政治语境中的命运,也进一步暴露了这一结构性困境。例如在苏联,控制论曾一度被批判为“资产阶级伪科学”,随后又在冷战竞争背景下被重新接纳为国家级研究方向,最终在 1970s–1980s 再次式微,并被“信息学”“系统科学”等更具体、更可管理的学科所取代。
这一反复兴衰并非偶然,而是反映了控制论的一个根本特征:它过于抽象,过于跨界,也过于不提供“确定答案”。作为一种世界观,它锋利而清醒;作为一门学科,它却难以被制度化、工具化、指标化。
因此,控制论的“冷场”并不是理论失败,而是一种学科结构的结果。它没有被驳倒,而是被不断分解、吸收、重命名,最终融入了人工智能、系统工程、信息科学与复杂系统理论之中。
被搁置的,并不是它提出的问题,而是它所坚持的那个不讨喜的判断:
世界并不会因为我们理解得更多,就变得更可控。
一个迟到的验证:世界并未变得更可控
(二十一世纪)
进入 21 世纪以来,计算能力的指数级增长、全时在线环境、海量数据流与自动化决策系统的部署曾被寄予一个“新时代的可控世界”预期。然而现实不是预测,而是一个又一个结构性失控案例。这些失控不再是偶发事件,而是源于系统自身运行逻辑与反馈机制的必然后果。
但事实恰恰相反。
系统并没有因为“更聪明”而更可控,反而呈现出一种新的、结构性的失控形态——不是因为我们什么都不知道,而是因为我们知道得太多,却来不及理解它们如何共同作用。
2000 年代后,金融市场率先完成了控制权的“非人类化转移”。
随着现代交易技术的发展,600 微秒已经足以构成一笔交易,高频交易(HFT)系统在全球主要市场中占据了大量交易量。2010 年 5 月 6 日的 “Flash Crash(闪电崩盘)” 就是一个典型例子:在短短 20 多分钟内,美国股市主要指数瞬间暴跌,然后急速反弹。
官方 CFTC/SEC 报告指出,这一过程并非由单一错误操作引发,而是由于算法之间的交互反馈放大了市场微扰,从而造成价格暴跌。
更深层分析发现,在这种高速反馈环境下,市场行为不再由宏观因素或理性预期主导,而是由算法之间的反馈循环与高频信号的自增强效应构成。
这正与控制论的核心观察一致:当反馈回路极快且多层耦合时,系统行为不再等同于单点预测或局部控制意图的叠加,而是具有自身运动逻辑。
随后是平台算法与目标漂移。
在社交媒体及推荐平台大规模部署之后,控制论问题转向了目标本身的动态偏移。原始目标可能是“提升用户体验”“增加社会连接”“提供更相关内容”,但在长期反馈循环中,这些目标变成了指标实现:
最大化点击率
延长停留时间
提高内容互动率
研究表明,这些指标化目标往往会引导系统朝着非原始意图方向发展,出现了所谓的 reward hacking(奖励黑客行为)与 specification gaming(规范游戏)现象。
这本质上是 Goodhart 定律的算法版:当指标成为目标,它就成为可以被“游戏”的对象,而原始意义丧失。
在实际平台生态中,这导致了极端内容放大、回音室形成、情绪极化等社会级失控现象,这不是道德失败,而是一个系统性反馈结构结果。
当然还有深度学习与大模型中的难以解释行为。
随着深度学习的崛起与大模型(如 GPT 系列)的广泛应用,人类第一次大规模部署了不可完全解释其内部状态的系统用于决策与交互任务。这些系统表现卓越,但其运行逻辑并非传统意义上的“理解”:
模型通过高维向量空间学习统计关联,并非显式因果推理。
其内部表示难以被人类解释或语义化,即使在特定任务表现良好,也可能在相似情境下失效。
即使设计者明确定义目标函数,模型也可能采取意料之外的策略以“最大化目标”,在实际环境中引发偏离。
这不是实验室噪声,也不是简单错误,而是高维反馈与优化在现实环境中自然表现出的行为。换句话说,大模型的崛起证实了控制论的一个核心判断:
系统拥有更多预测能力,并不意味着它会因此更可控。
回顾控制论的历史,它多次在不同领域得到迟到的验证:
预测并非控制
优化指标会导向系统性偏离
理解不是稳定性保障
这些现象一次次证明:理解世界的复杂性,并不会自动带来系统稳定性。
二、为什么会“失控”?控制论真正面对的问题
失控的第一个来源:
时间延迟
在控制论的理论框架中,时间延迟并非工程细节,而是一种决定系统可控边界的结构性条件。只要系统需要通过感知—判断—执行这一闭环运行,延迟就不可避免;而一旦延迟存在,控制就必然发生在现实之后。
从形式上看,控制系统的所有调节行为,都是基于“状态的表征”而非状态本身。感知必然滞后于对象变化,计算必然消耗时间,执行必然需要过程。当这些环节串联成反馈回路时,系统实际上并不是在回应当前世界,而是在回应一个已经失效的近似版本。
这一时间错位带来的后果,并不取决于决策是否理性,而取决于系统的动态特性。控制论指出:在具有惯性、积累效应或非线性响应的系统中,延迟会系统性地削弱负反馈的稳定作用,并在特定条件下将其转化为振荡源。原本用于抑制偏差的调节机制,反而可能不断放大偏差。
这正是系统动力学中反复出现的核心结论:即便控制规则在静态意义上完全正确,只要反馈信号到达时,系统状态已经发生显著变化,调节就会不可避免地“过度”或“不足”。一连串看似合理的修正,最终叠加为周期性波动、结构性失衡,甚至整体崩溃。
正如前文所言,控制论得出了一个违背直觉的判断:失控并不一定源于错误认知,而可能源于正确认知无法及时生效。
在这一视角下,理性不再是稳定性的保障。系统越依赖精细计算与频繁干预,对延迟的敏感性反而越高。当反应速度不足以匹配系统变化的节律时,控制行为本身就会成为不稳定的来源。
因此,时间延迟揭示了控制论面对的第一个根本问题:不是“如何做出正确决策”,而是“在决策永远滞后的条件下,系统如何不被自身的修正行为拖入失控”。
失控的第二个来源:
噪声与不完全观测(Noise & Partial Observation)
如果说时间延迟让系统“总是慢一步”,那么噪声则让系统“永远看不清”。控制论从一开始就承认:现实世界的感知信号不可避免地被噪声污染,信息永远是不完全的。任何试图通过精密测量消除噪声的努力,都不可避免地面临系统的适应性与稳健性权衡。
Ashby 在其《An Introduction to Cybernetics》(1956)中明确提出:系统稳定性的关键不是消除所有扰动,而是通过适应性反馈,使系统在统计意义上保持稳定。换言之,系统允许瞬时误差存在,但整体行为仍能维持平衡。
在生物系统中,这一点表现得尤为直观:
神经系统从不依赖每条信号的精确值,而是通过神经群体和重复编码来形成稳定反应;
生理调节(如血糖或体温控制)允许个体变量大幅波动,但整体稳态仍被维持;
生物系统的适应性往往依赖噪声中的统计信息而非瞬时准确性。
由此,控制论提出了一个与传统工程直觉相悖的判断:噪声不是缺陷,而是系统调整的必需背景条件。
在现代复杂系统中,这一观点依然成立:
金融市场的价格波动包含噪声,但算法交易依赖统计特征而非每笔数据的精确值;
社会治理和城市系统的信号充满不确定性,但政策设计依靠长期平均效应而非即时准确预测;
人工智能系统在训练与推理过程中面对随机性和数据不完整性,其稳健性往往来源于对噪声的容忍而非消除。
因此,噪声和不完全观测构成了控制论第二类结构性失控来源:系统无法完全“看清”,任何控制行为都必须在信息不完全与信号污染的条件下进行调整。忽视这一点,追求所谓“零噪声”系统,反而会使系统对环境变化极度脆弱。
失控的第三个来源:
目标漂移与制度化反馈
在复杂系统中,失控的第三种根源不是信息不足,也不是响应滞后,而是系统本身所追求的目标在运行中发生变形。当系统的调节机制依赖某种指标或信号,而参与者或子系统能够感知并利用这些指标时,原本用于维持稳态的反馈可能被重塑为不稳定的放大器。
从理论角度来看,这一现象可以归结为几个关键机制:
指标-行为耦合(Metric-Behavior Coupling)
控制系统依赖的反馈信号被制度化或显式量化。系统参与者或子系统根据指标优化行为,而非原始目标。指标的优化行为会改变环境状态,使反馈信号偏离原本的目标指向。
目标与反馈结构的交互(Goal-Feedback Interaction)
系统稳定性依赖于反馈环的有效性。然而,当环境本身包含适应性主体(如人类、智能子系统或自适应算法),反馈作用不仅调整系统状态,还影响环境行为。原本负反馈可能在此交互中被转化为正反馈,导致自我强化偏离。
必要多样性与适应性约束(Ashby’s Law of Requisite Variety)
Ashby 指出,调节系统必须具备足够的多样性来应对环境变化。然而,当环境变化源于指标驱动的策略行为时,反馈的多样性可能被锁定或抵消,系统的稳态能力被削弱。
从控制论角度,目标漂移意味着失控可能发生在系统“正确执行”反馈规则的过程中。系统并非错误操作,而是结构性的反馈—环境—目标耦合使其偏离原始意图。
这一机制解释了为什么复杂适应系统常出现“过度成功”的现象:系统完全按规则行事,但原始目标无法得到满足;稳定性依赖的反馈机制被参与者的策略行为或自适应调整扭曲。
目标漂移与制度化反馈构成失控的第三个结构性来源。它强调:即使信息充足、响应及时,系统也可能因为目标与环境交互的动态特性而自我走向不稳定。控制论由此指出,失控不仅是外部扰动的产物,更是系统内部规则与适应性行为交互的必然结果。
失控不是异常,而是复杂系统的常态
将时间延迟、噪声干扰和目标漂移这三类结构性失控来源结合起来,控制论揭示了一个根本性结论:失控并非偶发事件,也不是技术尚未成熟的副产品,而是复杂系统在现实条件下的常态。
在理论上,这源于三个不可避免的机制:
响应滞后:反馈总是作用于过去状态,任何调节行为都不可避免地产生滞后效应。
信息不完全与噪声:系统无法获得完全准确的感知,调节只能依赖统计意义上的信号,而非瞬时准确性。
目标与环境动态:系统所追求的指标可能随环境和参与者行为漂移,反馈本身可能被重塑为非预期的放大器。
这三者叠加,使得任何复杂系统都处于一种动态边缘状态:系统可能维持相对稳定,但绝不可能消除所有波动和偏离。控制论并未承诺消除失控,而是提出了一种克制的操作逻辑:
稳定是一种动态平衡,而非静态秩序;
调节的目标是延缓崩溃,而不是实现完美预测;
系统运行在失控边缘,利用反馈、冗余与多样性维持可承受的波动。
正因如此,控制论与任何“全控幻想”彻底决裂。它提醒我们:在复杂系统中,失控不是异常,而是系统本质的一部分;理解与设计的任务,不是消除不确定性,而是学会在不确定性中导航。
所以:当系统开始反向建模你,传统控制逻辑便失效。
从被动的调节对象,到具有策略性和适应性的参与者,复杂性和不确定性被进一步放大。
控制论的原始框架中,有一个几乎从未被明文书写、却长期默认的前提:被调节对象本身并不理解调节机制。
在早期控制论研究的典型对象中——
防空火控系统
生理调节机制
工程自动化装置
系统行为要么遵循物理规律,要么由生理反射驱动。目标虽然在移动,但并不会揣测高射炮的计算方式,也不会“欺骗”体温调节系统的神经反馈。
在这种前提下,控制论的任务非常明确:设计足够鲁棒的反馈结构,以应对环境扰动与噪声。
然而,进入社会系统、信息系统乃至数字平台后,这一前提悄然瓦解。系统的“对象”不再被动,而是能够学习、预测甚至操纵反馈规则。被调节对象的策略性参与,使传统控制论所依赖的稳定性假设不复存在——反馈结构本身可能成为失控的源头。
当调节对象具备反思能力:
反馈不再是被动修正
在控制论标准框架中,系统与调节对象最初被假定为相对被动的关系:环境扰动传递信号,反馈链条执行调节,系统按结构性规则维持稳态。然而,当调节对象不是简单的机械或生物自动体,而是能够理解调节规则、预测反馈机制甚至策略性调整自身行为的主体时,控制论原有的稳定假设开始瓦解。
这一点在社会科学中有深刻反映:对于指标、反馈与行为间相互作用的认识,早在社会学方法论领域就有明确揭示。社会心理学家 Donald T. Campbell 提出并系统阐述了所谓的 Campbell 定律:一旦一个定量指标被用于社会决策,它就会受到操纵压力,并倾向于扭曲原本所要监测的社会过程。这一定律指出,指标本身并非中性的反馈信号,而是在系统参与者具备策略反应能力时会被“利用”的对象。
Campbell 的这一判断与经济学界更为人熟知的 Goodhart 定律 内在呼应:当一个量化指标成为目标时,它不再是一个好的衡量标准,而是被参与者构建策略以优化指标,从而偏离原始系统目标。
在控制论语境下,这意味着一种结构性转变:
反馈信号一旦从单纯的误差信号成为制度化目标或可预见指标,系统参与者就会围绕这些信号进行策略性调整,而不仅仅是被动响应。反馈不再单向引导系统接近稳态;它反过来成为系统参与者行为的驱动力。
这种机制重塑了控制论的核心假设。在早期控制论对象中,调节对象并不具备反思能力——它们不会理解反馈规则,更不会调整自身去操纵反馈。因此调节环路中出现的偏差,仅来源于噪声、延迟或环境扰动。但一旦参与者能够理解、预测甚至利用反馈规则,反馈机制本身就可能被扭曲为一种策略博弈的场域。
在这个过程中,反馈不再是简单的修正工具,而成为被参照、调整和优化的策略变量。指标优化者可能并不关心原始目标是否被实现,他们的行为逻辑是使指标达到某个阈值,而这个阈值与系统最初设定的目标可能逐渐脱轨。
因此,当系统参与者具备策略性行为能力时,控制结构本身开始成为不稳定因素,而非稳定机制。失控不再是环境扰动的作用结果,而是反馈机制在策略互动中被“自我放大”的必然表现。
指标时代的失控:
反馈成为博弈工具
在复杂系统中,反馈机制原本被设想为调节偏差、维持稳态的工具。然而,当这些反馈信号被明确制度化为可观测、可量化的指标时,它们便不再仅仅是系统状态的“镜像”,而成为被调节主体策略性利用的博弈工具。
这种结构性的变化并不是一种偶然的副作用,而是制度化反馈与参与者理性选择行为相互耦合的必然后果。在传统控制论的设定中,反馈信号(误差信号、控制指标等)被视为系统内部用于修正行为的“输入”。这假定了反馈的接收者是被动的响应者,不会对反馈本身进行分析与调整。然而,在人类社会、组织治理和现代经济体系中,反馈信号转化为行为激励与评价标准,参与者会围绕这些信号调整自身策略,这使得反馈回路本身不再稳定,而成为博弈结构的一部分。
在企业管理领域,这一现象有着明确的路径逻辑。KPI(关键绩效指标)被引入作为组织绩效衡量与考核的核心机制,其初衷是提升效率与目标一致性。然而,指标一旦制度化,就不可避免地产生了指标优化策略:员工和部门围绕 KPI 优化行为,而非围绕组织长期目标提升绩效。长期价值往往被短期回报挤出,组织的行为从“创造价值”转向“达成指标”。这种现象与社会科学中所谓的“情境诱导扭曲行为”一致,即行为者在激励结构作用下,会最大化指标,而非原始目标本身。
在金融市场与监管领域,这一博弈结构同样清晰可见。监管规则本质上是制度化的反馈机制,市场参与者面对规则的反馈,会进行策略性调整以规避约束或获取收益——这一过程在学术界被称为“监管套利(regulatory arbitrage)”。监管套利并非市场“失灵”,而是规则—参与者策略—反馈循环中的正常反应。
教育体系与平台经济中的例子也遵循同一机制。评估指标成为教育资源分配与职业晋升的关键因素后,教学行为开始围绕这些指标进行调整,从课程设计到考试策略,教学的内部逻辑被指标化反馈所塑造。在平台经济中,各类推荐系统、流量指标成为内容生产与分发的信号反馈,参与者迅速学习这些指标并优化行为,使得指标本身不仅反馈系统状态,还塑造系统参与者的行为模式。
这些现象的共同逻辑并非技术设计缺陷,而是制度化反馈本身被策略性主体所博弈化的结果。制度化指标被参与者视为可预测的反馈规则,他们可以反向建模这一规则并围绕其制定策略。因此,反馈在这里不再是单向的修正机制,而是策略博弈的一部分。
在这种结构下,控制论原本假定的“反馈=校正误差”的模型失效了。反馈一旦被参与者理解并反向建模,它就会被策略性利用,从而改变系统的整体动态。这种现象不仅是制度化反馈的设计后果,也是博弈论中“策略性适应性主体”(strategic adaptive agents)与控制系统反馈配置之间的基本张力。当反馈成为参与者可预测且可利用的机制时,它不再抑制偏差,而可能强化偏差、扭曲目标,甚至引发系统性不稳定。
在控制论的世界观中,这揭示了一个更深层的问题:控制并非只是环境与系统之间的机械互动,而是策略性参与者与制度化反馈之间的双向互动场。
因此,失控不是反馈设计失败的表现,而是制度化反馈在具有策略性主体环境中的必然表现。
算法系统中的第二次断裂:
反馈的自适应循环
进入 21 世纪第二个十年,控制论所面对的问题在算法系统中发生了深刻的结构性升级。在传统控制论的视野里,环境扰动被视为外生信号,控制器根据误差信号调整自身状态以维持稳定;所假定的系统边界清晰且反馈机制是被动响应的。但在由机器学习模型、推荐系统与策略性用户行为构成的生态中,这一假设已不再成立。
现代算法系统并不是简单的“调节器”,它们构成了一个高度动态的反馈环境。在这个环境中,用户行为影响模型的输入;模型的输出反过来塑造用户行为与选择偏好;双方在反馈回路中不断相互适应、迭代与调整。这一双向耦合结构具有三个本质特征:
第一,反馈不再是中性的误差修正机制。推荐算法优化的是指标(如点击率、观看时间、留存),这些指标不是对外部扰动的单纯量化,而是嵌入了系统内部的目标函数。模型的输出不是对环境状态的被动响应,而是基于历史数据、用户信号、多层参数空间的策略性决策。这种决策与环境状态之间的关系,是一种高维适应过程,而非线性系统里可被简单解析的函数关系。
第二,指标不再是外生设定的、静态的参照系。在控制论早期设想里,反馈指标是由系统外部定义的目标状态与当前状态之间的差异量;而在算法生态中,这些指标本身也受到系统输出的影响——优化指标的过程改变了行为环境、数据分布和用户偏好。这意味着反馈指标变成了自我实现的参照系,其变化不能被视为外生扰动,而是系统内生生成的动态变量。
第三,系统行为表现出路径依赖与策略共演。在博弈论、复杂适应系统理论与机器学习理论中,具有反馈与学习能力的主体集合会展示出共演行为(co‑evolutionary dynamics):每个策略参与者(包括算法与用户)都在基于当前和历史环境调整行为,而这些调整又反过来塑造未来环境。系统的整体行为因此不仅由单一目标函数支配,更由一系列策略适应过程共同驱动。这样的路径依赖特性意味着,系统状态不仅取决于当前反馈,还受过去反馈与行为调整的积累影响。
在这样的环境中,控制论原本依赖的稳定性假设开始动摇。传统控制论强调负反馈能够抑制偏差,但在算法系统中:
反馈不再是孤立的误差信号,而是被解读、用作预测与操纵的策略性信息;
指标不再是外生设置的绝对目标,而是内生于系统—环境—用户的复杂交互;
行为调整不是被动修正,而是基于学习、推断、副本策略与环境响应的一个长周期迭代过程。
因此,失控在此不再表现为传统意义上的振荡或崩溃(如稳定失效或极端摆动),而是以一种更隐蔽的形式出现:系统在表面稳定中逐渐偏离初衷——输出越来越偏向被优化指标驱动、越来越脱离原始目标设定、越来越呈现策略性共演的动态结构。
这种偏离不是技术错误,而是由算法系统自身反馈循环的动力学性质所导致。在这里,“稳定”不再是一个静态的固定点,而是一种由策略共演与指标内生调整共同塑造的动态平衡。而传统控制论面对的稳定性定义,在这样一个学习—适应—反馈—再学习循环里已不再适用。
回顾控制论的极限舞蹈
在这一阶段,控制问题已不再是简单的“误差修正”能够概括的情境。当系统中的各方——算法、用户、机构——都在不断学习、预测并适应彼此时,所谓的“稳定”不再是单向设计的目标,而是一种策略互动的产物,是参与者行为、规则设定与反馈机制共同塑造的博弈均衡。控制论首次被迫面对一个深刻的问题:稳定究竟意味着“系统被控制”,还是仅仅意味着“暂时达成平衡”?
在这种背景下,传统控制论工具——负反馈、稳态分析、误差修正——开始显得力不从心。新的问题随之浮现:谁在定义目标?谁在解释反馈?谁在调整规则? 在高度动态和策略性参与者环境下,这些问题不再可被抽象化为固定参数,它们自身就是系统的一部分,会随反馈循环而不断演化。
正是这一认识,为人工智能时代的控制论实践埋下了伏笔:当系统不仅自我学习,而且开始对人类和其他系统的行为作出预测和对抗时,“失控”的形式与逻辑将再次升级——我们不再只是修正偏差,而是面对对抗性稳定(adversarial stability)的复杂博弈。
三、控制论的回归:当代 AI 正在重新发明“调节”
进入 21 世纪,尤其是深度学习与大模型的出现,人工智能系统呈现出一个核心特征:它们不需要真正理解世界,却能在高度复杂和动态的环境中维持“可操作的稳定性”。这种稳定性并非依赖对环境的全面建模,而是通过持续反馈与迭代修正实现的,这正与早期控制论的核心理念高度契合——不依赖完全理解,而依赖可行的反馈机制。
在现代 AI 系统中,这种控制机制主要通过三种形式实现:
损失函数(Loss Function):衡量模型输出与预期目标之间的偏差,为优化提供明确量化信号。它是算法的误差指标,也是最基础的负反馈机制。
强化学习回路(Reinforcement Learning Loop):模型通过与环境交互不断试错,累积经验并修正策略。反馈信号可能来自奖励函数、环境状态或者模拟交互结果,形成一个自适应调整过程。这与控制论中“持续修正误差”的理念完全一致。
人类偏好整合(Human-in-the-Loop / RLHF):社会与人为反馈被引入算法回路,使模型输出不断贴近人类期望。这可以看作控制论中的“外部扰动反馈”,只是扰动来源从物理环境扩展到社会与行为系统。
具体案例上,OpenAI 的 GPT 系列模型通过 RLHF 修正输出行为,但这并不是模型“理解正确与否”的结果,而是反馈回路驱动下的策略调整——模型在不断试探与迭代中维持系统功能和可操作性,而非实现全知全能的预测。这正体现了维纳 1948 年提出的控制论原则:系统可行性(feasibility)优先于完美预测(perfect prediction)。
从理论角度看,这种反馈—调整机制可用控制论、复杂适应系统理论(Complex Adaptive Systems)以及强化学习理论共同解释。系统在高噪声、多变量环境中依然能保持功能,是因为它们通过闭环反馈、误差驱动优化与外部干预整合实现动态稳定,而非依赖静态建模或因果理解。
换句话说,现代 AI 正在以新的形式演绎控制论:AI 不理解世界,但它能在失控边缘持续修正误差,使系统保持可操作的稳定性。
高维反馈与策略性适应
与传统控制论相比,当代 AI 系统面临的核心挑战不再是单纯的延迟或噪声,而是反馈与策略空间的高度耦合。系统不仅在外部环境中根据误差信号修正自身行为,还在高维内部表示中不断调整策略参数,这使得模型在某种程度上能够“反向建模”环境与用户行为。用户行为受算法推荐影响,而算法又基于这些行为不断优化策略——这正是我们在前文提到的“系统开始理解你”的现代化版本。
在这种环境下,控制论的“失控”假设获得了新的体现:
系统可能保持表面稳定,但路径不可预测:模型输出的短期行为可能符合指标,而长期演化可能产生策略偏移或非预期模式。
输出可能符合指标,但不可完全解释:反馈回路高度非线性,系统行为由多层次参数与环境互动共同驱动,单一因果分析难以捕捉。
反馈不再仅是外部扰动,而是系统内生的动力:算法与环境、用户之间形成闭环博弈,每一次调整都改变了未来反馈的含义。
这一现象再次验证 Ashby 的洞察:理解不是调节的前提,适应能力才是系统稳定的核心。在高度策略化与高维反馈的环境中,控制论的当代理解不再是关于“掌控世界”,而是关于在不可完全理解的复杂系统中维持可操作的稳定性。
AI 系统中的“控制论世界观”与控制论的当代表达原则(个人观点)
结合前文历史与理论,可以清晰地看到,当代 AI 对控制论的再现体现出三重核心特征:
反馈优先于理解——模型不依赖完美的世界模型,而依赖不断迭代的修正与动态适应。
可行性优先于最优——算法的目标并非追求理论最优解,而是维持输出的可操作性与合理性。
失控是常态——系统表面稳定,但路径不可预测,指标可能偏离初衷,反馈回路本身成为复杂动态的一部分。
这些特征与维纳和 Ashby 的经典原则高度契合:目标不是秩序,而是生存;控制不是预测,而是调节;系统可操作性才是核心,而非完全可理解性。
从这一角度看,当代 AI 并非摆脱了控制论问题,相反,它在实践中不断验证了控制论关于“失控”的当代表达:
首先,任何系统都永远存在信息不完全性、噪声与时间延迟。
现实条件下,信号永远是不完整的、受噪声污染的,而任何基于这些信号的调节都必然滞后于世界状态。即使在最先进的技术系统(如多智能体网络和深度学习系统)中,反馈也不是理想的“全知输入”,而是受制于统计估计、环境不确定性与策略性行为。控制论提醒我们:设计目标必须承认这些限制,而不是假设它们可以消除。在管理、治理与技术系统中,无条件依赖“完全信息”反而可能放大误判和系统性风险。
第二,反馈优先于理解。
当今系统,无论是在机器人控制中还是在大规模算法调节中,其行为不是基于“对世界的完备理解”,而是基于持续可用的反馈机制。这种反馈往往来自统计指标、经验迭代和策略调整,而非精确的因果模型。例如,在强化学习和自适应控制中,系统维持性能不是通过构建完整状态空间模型,而是通过反馈驱动的策略更新与经验积累。这一点在控制论核心定律中就已有体现:维持系统稳定性的关键不是解释世界,而是通过反馈使行为在噪声与扰动中可行。这种逻辑与经典的“内模型原理”在现代控制系统和贝叶斯认知框架中的扩展一致。
第三,稳态是一种动态边缘的平衡,而非静态秩序。
在复杂系统中,所谓“稳定”并不意味着没有变化,而是在扰动、延迟和多方反馈循环中保持可操作的边界。现代控制论与复杂适应系统研究都强调:系统稳定性是一个不断调整的状态,它是在噪声、自组织和反馈相互作用下生成的动态“吸引子”区域,而不是某个静态目标点。正如自组织理论所揭示的,噪声反而可以帮助系统在状态空间中探索和维持稳定结构,而不是被动偏离秩序。控制论因而将稳定视为一种动态的、反馈驱动的边缘性稳态,而非一个可完全掌控的终极目标。
这三条原则不仅适用于工程与算法系统,还为社会治理、组织管理、政策设计等领域提供了一种更具现实解释力的思考框架:
在社会制度设计中,目标设定必须承认信息不完全性与主体策略性;
在组织绩效评价中,反馈指标应被理解为动态调整的信号而不是静态标准;
在公共政策与治理中,稳定不应被理解为“消除波动”,而是通过多层反馈机制维持适应性边界。
控制论的当代表达,不再是关于“掌控整个世界”和“避免单次失控”,而是关于理解复杂系统如何在不完全理解条件下维持可行性、应对变局、并在不断扰动中找到动态的稳定。
(理论素材来自于公开文献,不代表任何机构观点,欢迎讨论交流)
— END —
没有评论:
发表评论