系统行为要么遵循物理规律,要么由生理反射驱动。目标虽然在移动,但并不会揣测高射炮的计算方式,也不会“欺骗”体温调节系统的神经反馈。
在这种前提下,控制论的任务非常明确:设计足够鲁棒的反馈结构,以应对环境扰动与噪声。
然而,进入社会系统、信息系统乃至数字平台后,这一前提悄然瓦解。系统的“对象”不再被动,而是能够学习、预测甚至操纵反馈规则。被调节对象的策略性参与,使传统控制论所依赖的稳定性假设不复存在——反馈结构本身可能成为失控的源头。
当调节对象具备反思能力:
反馈不再是被动修正
在控制论标准框架中,系统与调节对象最初被假定为相对被动的关系:环境扰动传递信号,反馈链条执行调节,系统按结构性规则维持稳态。然而,当调节对象不是简单的机械或生物自动体,而是能够理解调节规则、预测反馈机制甚至策略性调整自身行为的主体时,控制论原有的稳定假设开始瓦解。
这一点在社会科学中有深刻反映:对于指标、反馈与行为间相互作用的认识,早在社会学方法论领域就有明确揭示。社会心理学家 Donald T. Campbell 提出并系统阐述了所谓的 Campbell 定律:一旦一个定量指标被用于社会决策,它就会受到操纵压力,并倾向于扭曲原本所要监测的社会过程。这一定律指出,指标本身并非中性的反馈信号,而是在系统参与者具备策略反应能力时会被“利用”的对象。
Campbell 的这一判断与经济学界更为人熟知的 Goodhart 定律 内在呼应:当一个量化指标成为目标时,它不再是一个好的衡量标准,而是被参与者构建策略以优化指标,从而偏离原始系统目标。
在控制论语境下,这意味着一种结构性转变:
反馈信号一旦从单纯的误差信号成为制度化目标或可预见指标,系统参与者就会围绕这些信号进行策略性调整,而不仅仅是被动响应。反馈不再单向引导系统接近稳态;它反过来成为系统参与者行为的驱动力。
这种机制重塑了控制论的核心假设。在早期控制论对象中,调节对象并不具备反思能力——它们不会理解反馈规则,更不会调整自身去操纵反馈。因此调节环路中出现的偏差,仅来源于噪声、延迟或环境扰动。但一旦参与者能够理解、预测甚至利用反馈规则,反馈机制本身就可能被扭曲为一种策略博弈的场域。
在这个过程中,反馈不再是简单的修正工具,而成为被参照、调整和优化的策略变量。指标优化者可能并不关心原始目标是否被实现,他们的行为逻辑是使指标达到某个阈值,而这个阈值与系统最初设定的目标可能逐渐脱轨。
因此,当系统参与者具备策略性行为能力时,控制结构本身开始成为不稳定因素,而非稳定机制。失控不再是环境扰动的作用结果,而是反馈机制在策略互动中被“自我放大”的必然表现。
指标时代的失控:
反馈成为博弈工具
在复杂系统中,反馈机制原本被设想为调节偏差、维持稳态的工具。然而,当这些反馈信号被明确制度化为可观测、可量化的指标时,它们便不再仅仅是系统状态的“镜像”,而成为被调节主体策略性利用的博弈工具。
这种结构性的变化并不是一种偶然的副作用,而是制度化反馈与参与者理性选择行为相互耦合的必然后果。在传统控制论的设定中,反馈信号(误差信号、控制指标等)被视为系统内部用于修正行为的“输入”。这假定了反馈的接收者是被动的响应者,不会对反馈本身进行分析与调整。然而,在人类社会、组织治理和现代经济体系中,反馈信号转化为行为激励与评价标准,参与者会围绕这些信号调整自身策略,这使得反馈回路本身不再稳定,而成为博弈结构的一部分。
在企业管理领域,这一现象有着明确的路径逻辑。KPI(关键绩效指标)被引入作为组织绩效衡量与考核的核心机制,其初衷是提升效率与目标一致性。然而,指标一旦制度化,就不可避免地产生了指标优化策略:员工和部门围绕 KPI 优化行为,而非围绕组织长期目标提升绩效。长期价值往往被短期回报挤出,组织的行为从“创造价值”转向“达成指标”。这种现象与社会科学中所谓的“情境诱导扭曲行为”一致,即行为者在激励结构作用下,会最大化指标,而非原始目标本身。
在金融市场与监管领域,这一博弈结构同样清晰可见。监管规则本质上是制度化的反馈机制,市场参与者面对规则的反馈,会进行策略性调整以规避约束或获取收益——这一过程在学术界被称为“监管套利(regulatory arbitrage)”。监管套利并非市场“失灵”,而是规则—参与者策略—反馈循环中的正常反应。
教育体系与平台经济中的例子也遵循同一机制。评估指标成为教育资源分配与职业晋升的关键因素后,教学行为开始围绕这些指标进行调整,从课程设计到考试策略,教学的内部逻辑被指标化反馈所塑造。在平台经济中,各类推荐系统、流量指标成为内容生产与分发的信号反馈,参与者迅速学习这些指标并优化行为,使得指标本身不仅反馈系统状态,还塑造系统参与者的行为模式。
这些现象的共同逻辑并非技术设计缺陷,而是制度化反馈本身被策略性主体所博弈化的结果。制度化指标被参与者视为可预测的反馈规则,他们可以反向建模这一规则并围绕其制定策略。因此,反馈在这里不再是单向的修正机制,而是策略博弈的一部分。
在这种结构下,控制论原本假定的“反馈=校正误差”的模型失效了。反馈一旦被参与者理解并反向建模,它就会被策略性利用,从而改变系统的整体动态。这种现象不仅是制度化反馈的设计后果,也是博弈论中“策略性适应性主体”(strategic adaptive agents)与控制系统反馈配置之间的基本张力。当反馈成为参与者可预测且可利用的机制时,它不再抑制偏差,而可能强化偏差、扭曲目标,甚至引发系统性不稳定。
在控制论的世界观中,这揭示了一个更深层的问题:控制并非只是环境与系统之间的机械互动,而是策略性参与者与制度化反馈之间的双向互动场。
因此,失控不是反馈设计失败的表现,而是制度化反馈在具有策略性主体环境中的必然表现。
算法系统中的第二次断裂:
反馈的自适应循环
进入 21 世纪第二个十年,控制论所面对的问题在算法系统中发生了深刻的结构性升级。在传统控制论的视野里,环境扰动被视为外生信号,控制器根据误差信号调整自身状态以维持稳定;所假定的系统边界清晰且反馈机制是被动响应的。但在由机器学习模型、推荐系统与策略性用户行为构成的生态中,这一假设已不再成立。
现代算法系统并不是简单的“调节器”,它们构成了一个高度动态的反馈环境。在这个环境中,用户行为影响模型的输入;模型的输出反过来塑造用户行为与选择偏好;双方在反馈回路中不断相互适应、迭代与调整。这一双向耦合结构具有三个本质特征:
第一,反馈不再是中性的误差修正机制。推荐算法优化的是指标(如点击率、观看时间、留存),这些指标不是对外部扰动的单纯量化,而是嵌入了系统内部的目标函数。模型的输出不是对环境状态的被动响应,而是基于历史数据、用户信号、多层参数空间的策略性决策。这种决策与环境状态之间的关系,是一种高维适应过程,而非线性系统里可被简单解析的函数关系。
第二,指标不再是外生设定的、静态的参照系。在控制论早期设想里,反馈指标是由系统外部定义的目标状态与当前状态之间的差异量;而在算法生态中,这些指标本身也受到系统输出的影响——优化指标的过程改变了行为环境、数据分布和用户偏好。这意味着反馈指标变成了自我实现的参照系,其变化不能被视为外生扰动,而是系统内生生成的动态变量。
第三,系统行为表现出路径依赖与策略共演。在博弈论、复杂适应系统理论与机器学习理论中,具有反馈与学习能力的主体集合会展示出共演行为(co‑evolutionary dynamics):每个策略参与者(包括算法与用户)都在基于当前和历史环境调整行为,而这些调整又反过来塑造未来环境。系统的整体行为因此不仅由单一目标函数支配,更由一系列策略适应过程共同驱动。这样的路径依赖特性意味着,系统状态不仅取决于当前反馈,还受过去反馈与行为调整的积累影响。
在这样的环境中,控制论原本依赖的稳定性假设开始动摇。传统控制论强调负反馈能够抑制偏差,但在算法系统中:
反馈不再是孤立的误差信号,而是被解读、用作预测与操纵的策略性信息;
指标不再是外生设置的绝对目标,而是内生于系统—环境—用户的复杂交互;
行为调整不是被动修正,而是基于学习、推断、副本策略与环境响应的一个长周期迭代过程。
因此,失控在此不再表现为传统意义上的振荡或崩溃(如稳定失效或极端摆动),而是以一种更隐蔽的形式出现:系统在表面稳定中逐渐偏离初衷——输出越来越偏向被优化指标驱动、越来越脱离原始目标设定、越来越呈现策略性共演的动态结构。
这种偏离不是技术错误,而是由算法系统自身反馈循环的动力学性质所导致。在这里,“稳定”不再是一个静态的固定点,而是一种由策略共演与指标内生调整共同塑造的动态平衡。而传统控制论面对的稳定性定义,在这样一个学习—适应—反馈—再学习循环里已不再适用。
回顾控制论的极限舞蹈
在这一阶段,控制问题已不再是简单的“误差修正”能够概括的情境。当系统中的各方——算法、用户、机构——都在不断学习、预测并适应彼此时,所谓的“稳定”不再是单向设计的目标,而是一种策略互动的产物,是参与者行为、规则设定与反馈机制共同塑造的博弈均衡。控制论首次被迫面对一个深刻的问题:稳定究竟意味着“系统被控制”,还是仅仅意味着“暂时达成平衡”?
在这种背景下,传统控制论工具——负反馈、稳态分析、误差修正——开始显得力不从心。新的问题随之浮现:谁在定义目标?谁在解释反馈?谁在调整规则? 在高度动态和策略性参与者环境下,这些问题不再可被抽象化为固定参数,它们自身就是系统的一部分,会随反馈循环而不断演化。
正是这一认识,为人工智能时代的控制论实践埋下了伏笔:当系统不仅自我学习,而且开始对人类和其他系统的行为作出预测和对抗时,“失控”的形式与逻辑将再次升级——我们不再只是修正偏差,而是面对对抗性稳定(adversarial stability)的复杂博弈。
三、控制论的回归:当代 AI 正在重新发明“调节”
进入 21 世纪,尤其是深度学习与大模型的出现,人工智能系统呈现出一个核心特征:它们不需要真正理解世界,却能在高度复杂和动态的环境中维持“可操作的稳定性”。这种稳定性并非依赖对环境的全面建模,而是通过持续反馈与迭代修正实现的,这正与早期控制论的核心理念高度契合——不依赖完全理解,而依赖可行的反馈机制。
在现代 AI 系统中,这种控制机制主要通过三种形式实现:
损失函数(Loss Function):衡量模型输出与预期目标之间的偏差,为优化提供明确量化信号。它是算法的误差指标,也是最基础的负反馈机制。
强化学习回路(Reinforcement Learning Loop):模型通过与环境交互不断试错,累积经验并修正策略。反馈信号可能来自奖励函数、环境状态或者模拟交互结果,形成一个自适应调整过程。这与控制论中“持续修正误差”的理念完全一致。
人类偏好整合(Human-in-the-Loop / RLHF):社会与人为反馈被引入算法回路,使模型输出不断贴近人类期望。这可以看作控制论中的“外部扰动反馈”,只是扰动来源从物理环境扩展到社会与行为系统。
具体案例上,OpenAI 的 GPT 系列模型通过 RLHF 修正输出行为,但这并不是模型“理解正确与否”的结果,而是反馈回路驱动下的策略调整——模型在不断试探与迭代中维持系统功能和可操作性,而非实现全知全能的预测。这正体现了维纳 1948 年提出的控制论原则:系统可行性(feasibility)优先于完美预测(perfect prediction)。
从理论角度看,这种反馈—调整机制可用控制论、复杂适应系统理论(Complex Adaptive Systems)以及强化学习理论共同解释。系统在高噪声、多变量环境中依然能保持功能,是因为它们通过闭环反馈、误差驱动优化与外部干预整合实现动态稳定,而非依赖静态建模或因果理解。
换句话说,现代 AI 正在以新的形式演绎控制论:AI 不理解世界,但它能在失控边缘持续修正误差,使系统保持可操作的稳定性。
高维反馈与策略性适应
与传统控制论相比,当代 AI 系统面临的核心挑战不再是单纯的延迟或噪声,而是反馈与策略空间的高度耦合。系统不仅在外部环境中根据误差信号修正自身行为,还在高维内部表示中不断调整策略参数,这使得模型在某种程度上能够“反向建模”环境与用户行为。用户行为受算法推荐影响,而算法又基于这些行为不断优化策略——这正是我们在前文提到的“系统开始理解你”的现代化版本。
在这种环境下,控制论的“失控”假设获得了新的体现:
系统可能保持表面稳定,但路径不可预测:模型输出的短期行为可能符合指标,而长期演化可能产生策略偏移或非预期模式。
输出可能符合指标,但不可完全解释:反馈回路高度非线性,系统行为由多层次参数与环境互动共同驱动,单一因果分析难以捕捉。
反馈不再仅是外部扰动,而是系统内生的动力:算法与环境、用户之间形成闭环博弈,每一次调整都改变了未来反馈的含义。
这一现象再次验证 Ashby 的洞察:理解不是调节的前提,适应能力才是系统稳定的核心。在高度策略化与高维反馈的环境中,控制论的当代理解不再是关于“掌控世界”,而是关于在不可完全理解的复杂系统中维持可操作的稳定性。
AI 系统中的“控制论世界观”与控制论的当代表达原则(个人观点)
结合前文历史与理论,可以清晰地看到,当代 AI 对控制论的再现体现出三重核心特征:
反馈优先于理解——模型不依赖完美的世界模型,而依赖不断迭代的修正与动态适应。
可行性优先于最优——算法的目标并非追求理论最优解,而是维持输出的可操作性与合理性。
失控是常态——系统表面稳定,但路径不可预测,指标可能偏离初衷,反馈回路本身成为复杂动态的一部分。
这些特征与维纳和 Ashby 的经典原则高度契合:目标不是秩序,而是生存;控制不是预测,而是调节;系统可操作性才是核心,而非完全可理解性。
从这一角度看,当代 AI 并非摆脱了控制论问题,相反,它在实践中不断验证了控制论关于“失控”的当代表达:
首先,任何系统都永远存在信息不完全性、噪声与时间延迟。
现实条件下,信号永远是不完整的、受噪声污染的,而任何基于这些信号的调节都必然滞后于世界状态。即使在最先进的技术系统(如多智能体网络和深度学习系统)中,反馈也不是理想的“全知输入”,而是受制于统计估计、环境不确定性与策略性行为。控制论提醒我们:设计目标必须承认这些限制,而不是假设它们可以消除。在管理、治理与技术系统中,无条件依赖“完全信息”反而可能放大误判和系统性风险。
第二,反馈优先于理解。
当今系统,无论是在机器人控制中还是在大规模算法调节中,其行为不是基于“对世界的完备理解”,而是基于持续可用的反馈机制。这种反馈往往来自统计指标、经验迭代和策略调整,而非精确的因果模型。例如,在强化学习和自适应控制中,系统维持性能不是通过构建完整状态空间模型,而是通过反馈驱动的策略更新与经验积累。这一点在控制论核心定律中就已有体现:维持系统稳定性的关键不是解释世界,而是通过反馈使行为在噪声与扰动中可行。这种逻辑与经典的“内模型原理”在现代控制系统和贝叶斯认知框架中的扩展一致。
第三,稳态是一种动态边缘的平衡,而非静态秩序。
在复杂系统中,所谓“稳定”并不意味着没有变化,而是在扰动、延迟和多方反馈循环中保持可操作的边界。现代控制论与复杂适应系统研究都强调:系统稳定性是一个不断调整的状态,它是在噪声、自组织和反馈相互作用下生成的动态“吸引子”区域,而不是某个静态目标点。正如自组织理论所揭示的,噪声反而可以帮助系统在状态空间中探索和维持稳定结构,而不是被动偏离秩序。控制论因而将稳定视为一种动态的、反馈驱动的边缘性稳态,而非一个可完全掌控的终极目标。
这三条原则不仅适用于工程与算法系统,还为社会治理、组织管理、政策设计等领域提供了一种更具现实解释力的思考框架:
在社会制度设计中,目标设定必须承认信息不完全性与主体策略性;
在组织绩效评价中,反馈指标应被理解为动态调整的信号而不是静态标准;
在公共政策与治理中,稳定不应被理解为“消除波动”,而是通过多层反馈机制维持适应性边界。
控制论的当代表达,不再是关于“掌控整个世界”和“避免单次失控”,而是关于理解复杂系统如何在不完全理解条件下维持可行性、应对变局、并在不断扰动中找到动态的稳定。
(理论素材来自于公开文献,不代表任何机构观点,欢迎讨论交流)
— END —