发帖

【优惠升级】华秋PCB首单最高立减100元，SMT免费贴片！！！

[问答]

随机动力系统怎么实现策略搜索？

2436 动力系统

问答对人有帮助，内容完整，我也想知道答案 0 随机输入使我们的模型能够自动捕获复杂的噪声模式，提高基于模型的模拟质量，并在实践中制定出更好的策略。 0
2019-8-12 07:07:38　　评论淘帖0 邀请回答您可以邀请以下用户，快速回答问题 × wanqing192 该类别下有 6 个回答。邀请回答 zsjjx 该类别下有 5 个回答。邀请回答 xiezhe272 该类别下有 5 个回答。邀请回答 raylue 该类别下有 5 个回答。邀请回答 wyerwwr 该类别下有 5 个回答。邀请回答 tianwuxue 该类别下有 4 个回答。邀请回答 60user76 该类别下有 4 个回答。邀请回答 sywnnt 该类别下有 4 个回答。邀请回答 safadaga 该类别下有 4 个回答。邀请回答 cnmz 该类别下有 4 个回答。邀请回答 Qwang_public 该类别下有 4 个回答。邀请回答 shenzhenqide 该类别下有 4 个回答。邀请回答 sdvjuwwrw 该类别下有 4 个回答。邀请回答 Topcbpcba 该类别下有 4 个回答。邀请回答 60user142 该类别下有 4 个回答。邀请回答 ZQW发烧友该类别下有 4 个回答。邀请回答 60user160 该类别下有 4 个回答。邀请回答 mashiquan123 该类别下有 4 个回答。邀请回答 moxlanlan 该类别下有 4 个回答。邀请回答 tunkanxi8082 该类别下有 4 个回答。邀请回答举报王敏相关推荐 • 半导体技术在汽车动力系统中的应用是什么？ 1996 • 本田第四代混合动力系统技术的设计思想和工作原理是什么 2657 • 混合动力汽车有什么优缺点？ 2888 • 新能源汽车有哪些用电机及其控制器电磁兼容性测试的方法？ 4887 • 关于循迹投篮机器人的一些问题，求解 1579 • 48V汽车系统架构是什么？ 2306 • 安森美半导体着力汽车重点应用领域 2691 • 汽车动力系统电路设计中的那些传感技术 1777 • 汽车发动机升级产品，一种电子加速器问专家？ 3218 • 四大测试怎么改善汽车安全性？ 2112 3个回答

答案对人有帮助，有参考价值 0 首先，在这里，介绍一下我们最近在ICLR（International Conference on Learning Representations）上发表的论文《利用贝叶斯神经网络进行随机动力系统中的学习与策略搜索》（ICLR 2017）。点击此处查看论文代码和视频。它介绍了一种基于模型的强化学习的新方法。这项成果的主要作者是Stefan Depeweg，他是慕尼黑技术大学的博士生。在这项成果中，关键的贡献在于我们的模型：具有随机输入的贝叶斯神经网络，其输入层包含输入特征，以及随机变量，其通过网络向前传播并在输出层转换为任意噪声信号。随机输入使我们的模型能够自动捕获复杂的噪声模式，提高基于模型的模拟质量，并在实践中制定出更好的策略。问题描述我们解决了随机动力系统中策略搜索的问题。例如，我们要操作诸如燃气轮机这样的工业系统：这些系统的抽象图如下所示。系统的当前状态被表示为s_t并且与每个状态s_t相关联，同时存在一个由函数c（•）给出的成本c（s_t）。在每个时间步中，我们应用一个操作，这将在下一个时间步s_t + 1时影响系统的状态。从s_t到s_t + 1的转换不仅仅是由action a_t决定的，而且还由一些我们无法控制的噪声信号决定。该噪声信号可由图中的骰子来表示。在涡轮机示例中，噪声源自于我们观察到的包括传感器测量的状态，这是对系统真实状态的不完整描述。为了控制系统，我们可以使用策略函数a_t =π（s_t; ）将当前状态s_t映射到action a_t中。例如，π（•; ）可以是一个具有权重的神经网络。我们的目标是找到一个策略（具有值），它将在状态轨迹序列上产生平均低成本函数值。例如，我们的目标是最小化预期：需要注意的是，上述表达式是随机的，因为它取决于初始状态s_1的选择和状态转换中的随机噪声。

2019-8-12 14:49:49 评论举报洪茗苞

答案对人有帮助，有参考价值 0 批量强化学习我们考虑批量强化学习场景，在学习过程中不会与系统交互。这种情况在现实世界的工业环境中是很常见的，例如涡轮机控制，其中探测受到限制，以避免产生可能的系统损失。因此，为了找到一个最优策略，我们只需要从已经运行的系统中以状态转换的形式获得一批数据D = {(s_t, a_t, s_t+1)}，而且我们将无法收集任何额外的数据。首先，我们需要从D，一个p（s_t + 1 \| s_t，a_t）的模型中进行学习，也就是将下一个状态s_t + 1的预测分布作为当前状态s_t和应用的action a_t的函数。然后，我们将该模型与策略相结合，以便得到p（s_t + 1 \| s_t，a_t =π（s_t;）），其描述了当使用策略π（•）进行控制时系统的演化。以前的分布可以用于执行状态轨迹的roll-out或模拟。我们从随机采样状态s_1开始，然后从p（s_t + 1 \| s_t，a_t =π（s_t;））中进行迭代采样，以获得状态s_1，...，s_T的轨迹。然后可以在采样的s_1，...，s_T中对成本函数进行评估，以近似成本（）。这种近似的梯度可以用于随机优化和在各个方向上进行移动，从而产生平均较低值的成本（）。噪声在最优控制中的作用最优策略会受到状态转换中噪声的显著影响。关于这一点，Bert Kappen 在《最优控制理论的路径积分与对称破缺》中提出的醉酒蜘蛛故事可进行以很好的说明，在这里，我们可以将其用作一个激励示例来进行说明。蜘蛛要回家的话，它有两个可能的路径：穿过湖上的桥或者绕着湖边走回家。在没有噪音的情况下，桥梁是比较好的选择，因为它更短。然而，在大量饮酒后，蜘蛛的运动可能会随机地左右随摇晃。考虑到桥梁狭窄，且蜘蛛不喜欢游泳，所以现在较优的选择是沿着湖边走回家。显然，这个例子显示了噪声是如何显著地影响最佳控制的。例如，最优策略可以根据噪声水平的高低进行改变。因此，我们期望在基于模型的增强学习中获得显著的改进，通过捕获状态转换数据中存在的任何噪声模式。因此，我们期望通过高精度捕获状态转换数据中存在的任何噪声模式，从而获得基于模型的强化学习的显著改进。

2019-8-12 14:50:01 评论举报彭逸晨

答案对人有帮助，有参考价值 0 具有随机输入的贝叶斯神经网络实际上，状态转换数据中的大多数建模方法只是假设s_t + 1中的附加高斯噪声（additive Gaussian noise），即，其中f_W可以视作一个权重为W的神经网络。在这种情况下，以最大似然法来学习W是非常容易的。然而，在现实世界的设置中附加高斯噪声的假设不太可能存在。不过，可以通过在f_W中使用随机输入，从而在转换动力学中获得一个更为灵活的噪声模型。实际上，我们可以假设：在这个模型下，输入噪声变量z_t可以通过f_W以复杂的方式进行变换，以在s_t + 1中产生任意的随机模式来作为s_t和a_t的函数。然而，现在由于z_t是未知的，所以不能再以最大似然法来学习W。不过，我们可以采用一个相反思想的解决方案：贝叶斯方法，W和z_t进行后验分布。这个分布捕捉我们在看到D中数据后可能会采用的值的不确定性。如果想要计算准确的后验分布其实是很棘手的，但我们可以学习高斯近似。这种近似的参数可以通过最小化对真后验的发散来调整。变异贝叶斯（VB）是一种通用于此类问题的方法，可以通过最小化Kullback-Leibler散度来实现。 α发散最小化（α-divergence minimization）其实，对于如何学习因式分解后的高斯近似，我们可以通过最小化α发散来实现，而不使用VB。关于α发散，在Minka, Thomas P所著的《散度度量和消息传递》和我与Li Y.等人所著的《黑箱α发散的最小化》中皆有所提及。通过改变这种发散中的α值，我们可以在真实的后验分布p模式下进行平滑的插值，也可以在p中覆盖多种模式，如下图所示：其实很有趣的一点是，VB是α发散最小化中α= 0的一种特殊情况。而另外一种众所周知的用于近似贝叶斯推理的方法是期望传播（expectation propagation），它可以由α= 1获得。在我们的实验中，我们使用α= 0.5，因为在实际情况下，这会产生更好的概率预测。关于这一点，《黑箱α发散的最小化》（ICML 2016）中有更为详尽的阐述。示例的结果演示下图显示了在两个示例中进行具有随机输入的贝叶斯神经网络的执行结果。每个示例的训练数据显示在最左边的列中。顶行显示的是双模态预测分布的问题。底行显示的是异方差噪声的问题（噪声幅度取决于输入）。中间列显示的是从仅使用附加高斯噪声的模型中所获得的预测。该模型无法捕获数据中的双重模式或异方差。最右边的列显示了具有随机输入的贝叶斯神经网络的预测，其可以自动识别数据中存在的随机模式的类型。 “落水鸡”问题的测试结果我们现在考虑一个强化学习基准，其中一个划独木舟在二维的河上划桨，如下图最左边的地图所示。在一个漂流的河中，将划独木舟推向位于顶部的瀑布，漂移在右边更强，左边更弱。如果独木舟落下瀑布，他必须在河底重新开始。河流中也有扰动，左侧变强，右侧较弱。独木舟越接近瀑布获得的奖励越多。因此，他会想要靠近瀑布，但不要太近，以免翻船。这个问题叫做“落水鸡”，因为它与斗鸡有相似之处。湍流和瀑布将使落水鸡成为一个高度随机的基准：瀑布下降的可能性在状态转换中引发双重态势，而不同的湍流引入异方差。图中间的情节可以看出使用我们的贝叶斯神经网络随机输入的策略。这是一个几乎最优的策略，其中独木舟分子试图停留在x≃3.5和y≃2.5的位置。右图显示了使用刚刚假设加性高斯噪声的高斯过程（GP）模型发现的策略。所产生的策略在实践中表现非常差，因为GP无法捕获数据中存在的复杂噪声模式。工业基准评估结果我们还使用称为“工业基准”的工业系统模拟器对实验中随机输入的贝叶斯神经网络的性能进行评估。作者认为：“工业基准”的目标是在某种意义上是现实的，它包括我们发现在工业应用中至关重要的各个方面。下图显示，对于固定的动作序列，使用与1）多层感知器相对应的模型产生的roll-out，该多层感知器假定加性高斯噪声（MLP）和我们的贝叶斯神经网络训练2）变异贝叶斯（VB）或3 ）α分散最小化，α= 0.5。模拟的轨迹显示为蓝色，“工业基准”产生的地面实况显示为红色。这个数字清楚地显示了用随机输入和α发散最小化的贝叶斯神经网络产生的roll-out是如何更接近地面真实轨迹。结论我们已经看到，在学习最优策略时，重要的是要考虑到过渡动态中复杂的噪声模式。我们具有随机输入的贝叶斯神经网络是用于捕获这种复杂噪声模式的最先进的模型。通过α＝0.5α的发散最小化，我们能够在这样的贝叶斯神经网络中执行精确的近似推理。这使得我们可以生成可用于学习更好策略的逼真的基于模型的模拟。

2019-8-12 14:50:05 评论举报刘占宽

只有小组成员才能发言，加入小组>>

256个成员聚集在这个小组

精选推荐

请问下图大疆lightbridge2遥控器主板电源芯片型号是什么？

4467 浏览 1 评论

最新话题

热门话题

使用常见的二极管、三极管和mos做MCU和模组的电平转换电路，但是模组和MCU无法正常通信，为什么？

342浏览 2评论
为了提高USIM卡电路的可靠性和稳定性，在电路设计中须注意的点有哪些？

344浏览 2评论
信号处理常用术语有哪些？

369浏览 2评论
请问高速系统对晶振相位噪声的要求是什么？

363浏览 2评论
SIM卡无法识别的原因？怎么解决？

407浏览 2评论

创建小组步骤

创建小组创建自己的地盘
个性设置精心打造小组空间
邀请好友邀请好友加入我的小组
小组升级小组积分升级赢得社区推荐

创建属于自己的小组

快速回复 返回顶部 返回列表

关注微信公众号

电子发烧友网

电子发烧友论坛

社区合作: 刘勇; 联系电话：15994832713; 邮箱地址：liuyong@huaqiu.com

社区管理: elecfans短短; 微信：elecfans_666; 邮箱：users@huaqiu.com

【优惠升级】华秋PCB首单最高立减100元，SMT免费贴片！！！

返回综合技术

回复

关闭

站长推荐 /6

快速回复 返回顶部 返回列表

- 技术社区: HarmonyOS技术社区

RISC-V MCU技术社区

FPGA开发者技术社区

- OpenHarmony开源社区: OpenHarmony开源社区

- 嵌入式论坛: ARM技术论坛

STM32/STM8技术论坛

嵌入式技术论坛

单片机/MCU论坛

RISC-V技术论坛

瑞芯微Rockchip开发者社区

FPGA|CPLD|ASIC论坛

DSP论坛

- 电路图及DIY: 电路设计论坛

DIY及创意

电子元器件论坛

专家问答

- 电源技术论坛: 电源技术论坛

无线充电技术

- 综合技术与应用: 机器人论坛

USB论坛

电机控制

模拟技术

音视频技术

综合技术交流

上位机软件（C/Python/Java等）

- 无线通信论坛: WIFI技术

蓝牙技术

天线|RF射频|微波|雷达技术

- EDA设计论坛: PCB设计论坛

DigiPCBA论坛

Protel|AD|DXP论坛

PADS技术论坛

Allegro论坛

multisim论坛

proteus论坛|仿真论坛

KiCad EDA 中文论坛

DFM|可制造性设计论坛

- 测试测量论坛: LabVIEW论坛

Matlab论坛

测试测量技术

传感技术

- 招聘/交友/外包/交易/杂谈: 项目外包

供需及二手交易

工程师杂谈|交友

招聘|求职|工程师职场

- 官方社区: 发烧友官方/活动

华秋商城

华秋电路

time

recommend

hot

post

—
—
—

版
块
导
航