当前位置: 首页>编程语言>正文

模糊强化学习奖励波动很大 模糊优化法

模糊系统优化:

1. 基于输入输出数据学习的优化:使用数据驱动的方法来学习规则和调整 FIS 参数。

模糊强化学习奖励波动很大 模糊优化法,模糊强化学习奖励波动很大 模糊优化法_模糊强化学习奖励波动很大,第1张

2. 自定义评价函数:通过评价函数向模糊系统提供输入,通过系统输出与模型输出比较,为优化算法提供评价值

模糊强化学习奖励波动很大 模糊优化法,模糊强化学习奖励波动很大 模糊优化法_聚类_02,第2张

 

MATLAB中使用 tunefis 函数进行模糊系统优化,并使用 tunefisOptions 对象配置调整过程。

tunefis可调用优化工具箱的优化方法:

模糊强化学习奖励波动很大 模糊优化法,模糊强化学习奖励波动很大 模糊优化法_机器学习_03,第3张

 

提高模糊系统优化的方法:

1. 在调整过程分为多个阶段。例如,首先学习模糊系统的规则,然后使用所学习的规则库调整输入/输出MF参数。

2. 增加规则学习和参数调整阶段的迭代次数。这样做会增加优化过程的持续时间,也会由于训练数据对系统参数的过度调整而增加验证误差。为避免过度拟合,可使用k-fold交叉验证对系统进行训练。

3. 更改genfis使用的聚类技术。根据聚类技术的不同,生成的规则在其对训练数据的表示上可能有所不同。因此,使用不同的聚类技术会影响TUNEFI的性能。

4. 更改 FIS 属性。 尝试更改 FIS 类型、输入数量、输入/输出 MF 数量、MF 类型和规则数量等属性。  Sugeno 系统具有更少的输出 MF 参数(假设恒定 MF)和更快的去模糊化。 因此,对于具有大量输入的模糊系统,Sugeno FIS 通常比 Mamdani FIS 收敛得更快。 少量 MF 和规则会减少要调整的参数数量,从而加快调整过程。 此外,大量规则可能会过度拟合训练数据。

5. 修改 MF 和规则的可调参数设置。 例如,可以在不改变其峰值位置的情况下调整三角形 MF 的支持。 这样做会减少可调参数的数量,并且可以为特定应用程序生成更快的调整过程。 对于规则,可以通过将AllowEmptytunable 设置设置为false 来排除零MF 索引,这会减少学习阶段的规则总数。

 

 


https://www.xamrdz.com/lan/5vs1960333.html

相关文章: