用AI控制“人造太阳”,DeepMind团队实现可控核聚变新突破

1、论文试图解决什么问题?

强化学习(RL)在等离子体磁控制领域与传统的反馈控制方法相比,仍存在显著的缺陷。DeepMind 团队试图解决这些关键缺陷,包括提高所需等离子体属性的控制精度、减少稳态误差以及缩短学习新任务所需的时间。

2、这篇论文的亮点是什么?

研究团队在 Degrave 等人的基础上,对智能体架构和训练过程进行了算法改进。模拟结果表明,新方法可以实现高达 65% 的形状精度提高,并显著减少等离子体电流长期偏差,同时将学习新任务所需的训练时间缩短 3 倍或更多。

3、这篇论文有什么贡献?

研究团队在托卡马克配置变量(TCV)上进行了升级后的 RL 控制器的新实验,验证了实现的模拟结果,并指出了使用 RL 方法实现精确放电的实用途径。

”人造太阳“ —— 可控核聚变的核心是让”托卡马克“环的等离子体实现可控、精准地放电,这长期以来一直是个技术难题。而随着人工智能技术,特别是强化学习的突飞猛进,我们也许离核聚变的实际应用更近了一步。

日前,来自谷歌的 DeepMind 团队在 arxiv 上发布了最新研究成果:Towards practical reinforcement learning for tokamak magnetic control,改进了其之前的架构和算法,大幅缩短了学习新任务的时间,并且提高了等离子体形状精度,同时降低了电流稳态误差。

强化学习与等离子体的磁控制

反馈控制对于托卡马克设备的操作至关重要,它主动管理磁线圈以稳定细长的等离子体并防止发生损坏。精确控制等离子体电流、位置和形状对于有效管理热量和等离子体能量十分关键。传统的控制系统依赖于预先计算的前馈线圈电流和反馈回路,这些都必须从磁性测量中实时估算。这种方式不但很有挑战性而且耗时,特别是针对新型等离子体。

强化学习(RL)已经成为构建实时控制系统的一种替代范式,其在等离子体控制方面也越来越广泛地使用,甚至扩展到构建等离子体参数的前馈轨迹和直接控制垂直不稳定性。最近的研究表明,RL 设计的系统能够执行托卡马克磁控制的主要功能,并把所学习到的控制策略整合到控制系统中。

然而,RL 方法也存在一些缺点,包括难以指定标量奖励函数、跟踪误差的稳态偏差以及需要长时间的训练。为了解决这些问题,DeepMind 团队提出了以奖励塑形作为提高控制精度的方法,积分器反馈为智能体提供了错误和积分错误的明确信号,分集块和迁移学习则可以减少训练时间和提高准确性。这些技术使训练时间显著缩短,并提高了准确性,使 RL 成为等离子体控制的常规可用技术。

RL 的改进方案

基于 Degrave 等人之前的工作,研究团队将等离子体磁控制的问题转化为强化学习问题。在放电过程中,环境状态 st 包括等离子体、控制线圈和被动结构中的电流以及导出量。智能体以 10kHz 的控制速率操作,将电压命令发送到 19 个磁控制电路电压电源。智能体观察 ot 由实时传感器测量值和控制目标组成。控制目标在这里作为参考,它代表着所需的等离子体配置,包括等离子体位置、极值点和任何所需的 X 点。

在本研究中,研究团队使用与 Degrave 等人(2022)相同的基本实验设计。他们通过与模拟环境的交互,然后将得到的策略部署到 TCV 上进行放电,来学习特定实验的控制策略 π。具体来说,研究团队使用自由边界模拟器 FGE 建模模拟环境,并添加随机性以模拟传感器值和电源的噪声,并改变等离子体的参数。团队使用 Proximal Policy Optimization(PPO)算法来学习控制策略 π。PPO 算法通过最大化近似策略的改进目标来更新策略,同时限制策略更新的幅度,以确保更新后的策略与原始策略之间的差异不会过大。他们还使用 Generalized Advantage Estimation(GAE)算法来估计优势函数,从而更准确地估计状态的价值。实验结果表明,使用 PPO 算法可以有效地学习到能够在 TCV 上实际执行的控制策略,并且可以显著提高等离子体的性能指标。

实用的 RL 控制器

接下来他们要打造适用于托卡马克等离子体磁控制的 RL 控制器。他们先是通过奖励塑形来提高控制精度,再用积分观测减少稳态误差,随后进行回合分块(Episode Chunking),这是用于提高训练时间的方法。

在奖励塑形方面,传统控制算法的方式试图缩小主动测量值的误差,而 RL 算法则寻求最大化一般定义的奖励信号。奖励最大化目标驱动智能体在训练过程中的行为演化。然而,奖励值在部署期间并不计算。在经典控制算法中,可以通过明确调整控制增益和调整多输入多输出(MIMO)系统的权重来调整控制器的性能。相比之下,RL 的奖励函数对于学习到的控制器的行为至关重要。通过调整奖励函数的设计,可以快速适应智能体行为并权衡目标的元素。此外,通过使用更新的奖励函数继续训练,可以将智能体适应新的目标。

奖励设计

研究团队修改了 Degrave 等人为磁控制设计的奖励函数。奖励函数是由各个奖励组件构成的。奖励组件对应于理想智能体的不同期望(精确的形状、精确的等离子体电流等)。奖励组件是所需值与模拟环境所报告的值之间的差异。对此差异进行非线性缩放和转换,给出该组件的有效奖励。整体(标量)奖励是使用各个组件奖励的非线性组合计算的。在设计奖励组件方面,研究团队可以在智能体的激励方面最精细地控制。研究团队这里使用了加权的 SmoothMax 函数组合奖励组件值。在某些情况下,单个奖励组件是由多个相关误差量构建的,例如在多个控制点的形状误差。研究团队还使用 SmoothMax 函数将这些误差组合成单个标量组件奖励。SmoothMax 函数的定义如下:

喂给 SmoothMax 的许多组件和经典控制器的组件结构类似。不过奖励组件不受传感器测量的限制,因此在构建时具有更大的灵活性。 在这里,研究团队使用 SoftPlus 转换来获得标量奖励组件:

其中,good 和 bad 参数用于将奖励信号缩放到特定的范围内。如果真实值低于 bad 参数,奖励会迅速降至零,而如果等于或高于 good 参数,奖励会饱和到 1。参数 𝜁 影响 good 和 bad 参数之间奖励缩放的锐度。标量奖励组件然后与 SmoothMax 算子结合,得到最终标量奖励。

good 和 bad 参数的严密程度影响获得高奖励或精确控制的难度。α 的选择也会影响改善某些组件与其他组件的动机。这些权衡在等离子领域尤为重要,因为奖励组件通常是互补或正交的,例如精确的 X 点控制有助于精确的 LCFS 控制,而不会影响精确的等离子体电流控制。

奖励塑形

简单环境下,在等离子体控制任务中进行奖励组件超参数调整有三种训练方法:

1. 基准线:取自 Degrave 等人(2022)的默认奖励参数 —— good=0.005,bad=0.05。

2. 窄化奖励:将参数更新为 good=0,bad=0.025。这些参考值产生更严格的奖励函数。这将奖励信号集中在较低的误差值上,并为小误差值提供引导信号,提供增加形状控制精度的动力。

3. 奖励调度:在训练进行过程中逐渐调整 good 和 bad 的值,使其逐渐变得更加尖峰,good=0,bad 在 600 万次策略更新步骤中从 0.1 逐渐降低到 0.025。这个调度提供了一个更宽的奖励盆地,在训练开始时帮助探索,逐渐加强奖励以鼓励形状控制的精度。历史数据不会被重新标记,但是过时的数据最终会从学习智能体的回放缓冲区中删除。

实验结果表明,训练智能体的奖励组件的选择可以对其性能产生显著影响。其中,窄化奖励产生了最大的影响,其高要求的静态奖励函数为控制器提供了强烈的精度提升动力。使用奖励调度的智能体并没有显著的改善,在不断变化的奖励函数下,值函数难以跟上奖励函数的变化,使得学习问题更加具有挑战性。在维护和改进等离子体交接形状的简单设置中,研究结果表明,更严格的奖励可以提高智能体的性能。

而对于复杂任务,研究人员转向成本更高且奖励调整更为复杂的 snowflake_to_perfect 任务。他们通过以下四种奖励塑形方法来提高 X 点位置的准确性:

1、基准线:使用来自 Degrave 等人的默认参数进行训练(2022 年) —— good = 0.005,bad = 0.05。

2、X 点微调:首先使用默认参数进行训练,然后执行第二阶段训练,使用更精确的奖励函数强调 X 点准确性 —— good = 0,bad = 0.025。

3、窄化 X 点奖励:从训练一开始就使用更精确的奖励函数进行训练 —— good = 0,bad = 0.025。

4、额外训练:执行额外的训练阶段,但不更新奖励函数。这使我们能够区分来自更多训练和更改奖励函数的影响。

实验结果表明,奖励组件的选择对智能体的性能产生显著影响。X 点微调可以显著减少 X 点位置误差,但会降低其他指标的准确性,窄化 X 点奖励可能在任务中产生负面影响。此外,训练过程中奖励函数的变化导致学习问题更加具有挑战性,奖励调度和智能体微调可以缓解这种情况。研究结果表明,奖励塑造是在奖励函数空间中执行策略搜索的一种直观工具,有助于找到最理想的策略。该研究也展示了两阶段训练方法的潜力,即先在宽松的奖励下进行训练,再在更严格的奖励下进行微调,这也有助于实现对多个等离子体控制任务的通用和精准控制。

积分器反馈

连续控制轨迹包括两个阶段:瞬态和稳态。传统的比例积分微分控制使用的策略包括对控制误差、它的积分和导数的线性反馈。误差积分可以减少稳态误差,误差微分可以减轻瞬态扰动。Degrave 等人使用的神经网络策略无法计算积分误差。而与传统方法略有不同,研究人员向网络提供了时间t的平均等离子体电流误差,公式如下:

这里计算了等离子体电流测量值和参考值之间的差异 eIFt, 将其作为平均误差信号提供给模型,这有助于保持数字输入的条件。也可以直接使用积分误差或使用指数衰减平均值。研究团队在 shape_70166 任务中评估了这种方法,该任务的参考值是恒定的。结果表明,采用积分反馈的策略显著减少了等离子体电流偏差,而不采用积分反馈的策略中则存在显著偏差。

回合分块

控制 TCV 的实验持续 1-2 秒,相当于在 10kHz 控制率下 10000-20000 个时间步。FGE 模拟器需要 2 秒来完成一个典型的模拟步骤,因此 FGE 需要大约 5 小时生成 1 万步的一集。这意味着即使智能体知道最佳策略, 训练时间仍需 5 小时。实际上, 强化学习智能体需要探索动作空间才能找到最佳策略,所以训练时间可能持续数天到数周不等。任务结构使得智能体需要按顺序学习一些独立的“技能”。学习发生在两个明显阶段:智能体首先学习操纵有限的等离子体, 然后才能成功地变形等离子体。长期的中段奖励稳定期是因为分叉等离子体相当困难。

智能体需要在指定时间分叉, 所以正确的探索需要在正确的时间发生。虽然分割单一的回合可以加快训练, 但是智能体和模拟器状态之间的不连续性可能会造成问题。实验中并未发现这成为问题。智能体通过训练全回合自然解决这些不连续性, 因此在模拟中并未看到不连续性。将回合分割应用到任务上能明显缩短训练时间。

迁移学习

如果要减少训练时间,那么就要能够重复使用之前放电的训练,即智能体在解决初始任务时积累的知识在多大程度上可以转移到相关的目标任务中。托卡马克操作员经常尝试围绕基本任务进行不同的变化。DeepMind 团队研究了调整参考等离子体电流和改变等离子体位置时的性能。

他们以两种形式研究了迁移学习的性能:zero-shot 和微调。在这两种情况下,他们使用在 showcase_xpoint 任务上训练的智能体的参数作为迁移的初始参数,发现迁移学习一般来说在调整目标等离子体电流时非常有效。对于小范围的调整,未经调整的基线智能体的性能几乎与专门训练的智能体一样好。随着电流调整的增大,zero-shot 性能会受到影响,但微调可以恢复性能。

第二个实验考察了等离子体目标位置的变化。他们沿z轴向下调整目标形状,分别移动 2 厘米、10 厘米和 20 厘米。结果表明迁转移学习可能是有用的,但在当前形式下也存在限制。随着目标任务与初始任务的距离越远,迁移学习的性能就会降低,特别是 zero-shot 学习方面。然而,在运行硬件实验之前,运行模拟的 zero-shot 评估以测试性能是相对低成本的。同时一些类型的任务变化比其他任务更容易进行迁移学习。

TCV上的托卡马克放电实验

之前都集中在使用 FGE 模拟器进行模拟、训练和评估控制策略上。鉴于托卡马克建模的复杂性和挑战性,因此不能盲目地认为模拟中的性能提高等同于现实中的性能提高。如果没有额外的工作来缩小模拟与实际之间的差距,模型不匹配误差可能会成为一个重要问题。对于使用强化学习获得的策略,可能会过度拟合于不完美的模拟器,因此,研究人员在 TCV 托卡马克上测试了一些模拟增强方法。

他们将模拟结果与 TCV 实验和 Degrave 等人的 TCV 实验进行了比较。研究人员通过创建一个共享库对象来部署控制策略,该共享库对象是由 JAX 图定义的 actor 网络,其中命令动作被视为输出高斯分布的平均值。他们首先测试了一个控制策略,该策略使用上面讨论的奖励塑造方法来减少等离子体形状稳定任务中的 LCFS 误差。

在这个稳定任务中,他们使用 TCV 的标准分解程序和初始等离子体控制器。在 0.45 秒时,控制权转移给学习的控制策略,然后尝试维持固定的等离子体电流和形状,持续 1 秒。放电后,他们使用 LIUQE 代码计算重构后的平衡态。在 1 秒放电期间的每个 0.1 毫秒切片中,他们计算等离子体形状的误差。随后他们比较了三个实验的精度,从模拟放电和 TCV 放电中测量等离子体形状误差:

(a)先前存在的基准 RL 控制器(“Previous”)

(b)使用本文中更新的训练基础设施的更新基线智能体(“Updated”)

(c)使用奖励塑造方法训练的控制策略,如奖励塑造部分中描述的 Fixed Reward。

上表中报告了这些运行的结果。最近的两种策略,即更新的基线和奖励塑造策略,在减少 LCFS 误差的目标方面都显著优于先前的基线。这种减少是由于训练基础设施的改进。这些改进也在 TCV 实验中得到了验证——更新的基线和奖励塑造智能体都优于以前的基线。然而,如果我们比较两个现代实验,分别称为更新和奖励塑造,就会发现在 TCV 上,尽管在模拟中取得了更好的结果,但塑造策略的表现比更新基线差。这种差异的一个假设是,在 TCV 放电过程中,等离子体电阻率接近训练过程中使用的变化范围的边缘。可能是因为塑造控制器对这些变化不够稳健。在放电过程中,由于较高的等离子体电阻率(线圈电流等)产生的托卡马克状态的差异会增加。这可以解释为什么在放电的初始阶段误差很小,但随着放电的进行,误差会随着时间增长而增加。

在更复杂的雪花(Snowflake)配置中使用奖励塑形方法可以提高 X 点位置控制精度的效果。在此实验中,等离子体由标准的 TCV 程序创建和初始控制,在 0.45 秒时将控制权交给 RL 控制器。该实验中,RL 训练的策略成功地建立了距离为 34 厘米的两个 X 点的雪花形态。然后,该策略成功地将两个 X 点带到了一个目标距离为 6.7 厘米,接近于建立所谓的“完美雪花”。然而,在 1.0278 秒(交接后 0.5778 秒),等离子体因垂直不稳定性而破裂。经检查,控制器难以保持一致的形态,垂直振荡增加,活动X点在两个 X 点之间切换,导致失控。表 6 显示了等离子体成功控制期间 X 点跟踪的精度。此实验的性能与 Degrave 等人(2022)报告的雪花实验进行了比较。与上面类似,研究人员通过 LIUQE 重建等离子体状态来计算误差。结果显示,在模拟中实现的 X 点精度显著提高,确实导致了在硬件上看到的 X 点精度的显著提高。与以前的 TCV 实验相比,在控制窗口中,奖励塑造的改进导致 RMSE 跟踪距离减少了 59.7%。

最后,他们验证了使用回合分块来缩短训练时间的方法,进行了一个使用 3 个分块训练的展示配置实验。实验进展如预期,没有因回合分块而出现明显的伪影。这证明了这种训练加速方法没有损失质量。

自 20 世纪 50 年代起, 科学家就一直致力于可控核聚变,努力了数十载仍未成功。DeepMind 的这项研究使情况大有改观。他们利用强化学习改进等离子体控制策略, 显著提高精度, 大幅度缩短学习新任务的时间。这有望助推未来精准放电和能量管理, 迈出实现可控核聚变的关键一步。DeepMind 再次通过技术突破, 为人类提供清洁能源提供了新的希望。

声明:本文仅供科研分享,助力科学传播,不做盈利使用,如有侵权,请联系后台删除。