PbRL Preference Transformer
[*]论文标题:Preference Transformer: Modeling Human Preferences using Transformers for RL,ICLR 2023,5 6 6 8,poster。
[*]pdf:https://arxiv.org/pdf/2303.00957.pdf
[*]html:https://ar5iv.labs.arxiv.org/html/2303.00957
[*]open review:https://openreview.net/forum?id=Peot1SFDX0
[*]项目网站:https://sites.google.com/view/preference-transformer
[*]GitHub:https://github.com/csmile-1006/PreferenceTransformer
论文标题:Preference Transformer: Modeling Human Preferences using Transformers for RL,ICLR 2023,5 6 6 8,poster。
pdf:https://arxiv.org/pdf/2303.00957.pdf
html:https://ar5iv.labs.arxiv.org/html/2303.00957
open review:https://openreview.net/forum?id=Peot1SFDX0
项目网站:https://sites.google.com/view/preference-transformer
GitHub:https://github.com/csmile-1006/PreferenceTransformer
道符网:https://www.sehmu.com
内容总结
(为什么感觉挺 A+B 的,有点想不明白为何会中…… 不过 writing 貌似很好)
提出了新的 preference model,σ0>σ1 的概率仍然是 exp / (exp + exp) 的情势,但 exp[] 内里的内容从 reward 求和(discounted reward 求和)变成 Σ r · w,其中 w 是一个 importance weight。
这里的 motivation:
① human preference 可能基于 non-Markovian reward,因此用 transformer 建模 trajectory,作为 reward model 的一部分;
② human 可能会关注关键帧,因此需要一个 importance weight,为先前提到的 non-Markovian reward 加权。
然后,使用 attention layer 的 key query value 情势,将 value 作为 reward,softmax(key · query) 作为 importance weight。(恰好跟 attention 的情势 match 上)
0 abstract
Preference-based reinforcement learning (RL) provides a framework to train agents using human preferences between two behaviors. However, preference-based RL has been challenging to scale since it requires a large amount of human feedback to learn a reward function aligned with human intent. In this paper, we present Preference Transformer, a neural architecture that models human preferences using transformers. Unlike prior approaches assuming human judgment is based on the Markovian rewards which contribute to the decision equally, we introduce a new preference model based on the weighted sum of non-Markovian rewards. We then design the proposed preference model using a transformer architecture that stacks causal and bidirectional self-attention layers. We demonstrate that Preference Transformer can solve a variety of control tasks using real human preferences, while prior approaches fail to work. We also show that Preference Transformer can induce a well-specified reward and attend to critical events in the trajectory by automatically capturing the temporal dependencies in human decision-making.
background:
PbRL 框架用于在两种行为之间使用 human preference 来训练 agent。然而,需要大量 human feedback,来学习与人类意图一致的 reward model。
method:
在本文中,我们介绍了 preference transformer,使用 transformer 架构模拟 human preference。
以前方法假设,人类判断基于 Markovian reward,而 Markovian reward 对决策的贡献相同。与先前工作差异,我们引入了一种 preference model,该模型基于 non-Markovian reward 的加权和。
然后,我们在 preference model 的 transformer 计划里,堆叠 causal self-attention layers 和 bidrectional self-attention layers。
results:
Preference Transformer 可以使用真实 human feedback 来办理各种控制任务,而以前的方法无法奏效。
Preference Transformer 可以通过自动捕获人类决策中的时间依赖性(temporal dependencies),来得到一个 well-specified reward 并关注轨迹中的关键变乱。
open review 与项目网站
open review:
主要贡献:① 提出了一个基于 non-Markovian reward 加权和的新 preference model,② 引入 PT 来模拟所提出的 preference model。
如果奖励实际上是 non-Markovian 的,那么 Transformer 的想法是有动机的(well motivated)。
The paper is well written. 论文写得很好。
scripted evaluation(大概是 scripted teacher)使用 Markovian reward,但 NMR(non-Markovian reward)和 PT 仍能在多个领域优于 MR(Markovian reward)变体。这需要得到更好的解释和评估。究竟上,应该使用 non-Markovian reward 进行评估。
项目网站:
Preference Transformer 将 trajectory segment 作为输入,从而提取与任务相关的汗青信息。
通过堆叠 bidirectional 和 causal self-attention layers,Preference Transformer 生成 non-Markovian reward 和重要性权重(importance weights)作为输出。(貌似 importance weight 越高,某帧在整个 trajectory 里越重要)
我们使用它们来界说 preference model,并发现 PT 可以得到 better-shaped reward,并从 human preference 中关注关键变乱。
实验证明,PT 可用于学习复杂的新行为(Hopper 多次后空翻),这很难计划合适的奖励函数。与单个后空翻相比,这项任务更具挑战性,由于奖励函数必须捕获 non-Markovian 上下文,包罗旋转次数(有必要嘛?)。观察到,PT agent 在稳定着陆的情况下执行多个后空翻,而基于 MLP 的 Markovian reward 的 agent 很难着陆。
1 基于 non-Markovian reward 的 preference model
motivation:
首先,在很多情况下,很难使用 Markovian reward 来给出任务的描述。
此外,由于人类对于非凡的时候很敏感,因此可能需要在轨迹内分配 credit(大概是权重的意思)。
non-Markovian reward function:
reward function 的输入:先前的完整的 sub-trajectory。
同时再整一个权重函数 w = w({s, a, s, ...}),其输入也是 t 时候之前的完整 sub-trajectory。
用 r(τ) · w(τ) 来改写
�
(
�
1
≻
�
0
)
=
[
exp
(
∑
�
�
(
�
�
)
⋅
�
(
�
�
)
)
]
/
[
exp
(
∑
�
⋅
�
)
�
0
+
exp
(
∑
�
⋅
�
)
�
1
]
的公式。
2 PT 的架构
感觉 causal transformer 相对好理解,以及 GPT 具有 causally masked self-attention。
preference attention layer:
causal transformer 生成的 {x, x, ...} sequence,过一个线性层,会得到它们的 key query value。
认为得到的这个 value 就是 reward,而 key 与 query 相乘再 softmax(包管>0)则是权重。
好像这只是一个 reward model,而非 RL policy(?)
学到 reward model 后,还需要使用 IQL 学 policy…
3 PT 的训练与 inference
training:最小化 cross-entropy loss
�
=
−
�
[
(
1
−
�
)
log
�
[
�
0
≻
�
1
]
+
�
log
�
[
�
1
≻
�
0
]
]
,其中 y 是 label,P 是我们训练的概率。
inference:如何得出 agent 的 reward。
好像是直接拿 reward(而非 reward · importance weight)来做。
大抵流程:拿 st, at, s, ... 送进 causal transformer,然后得到 xt, ...,送进 preference attention layer,得到 r hat,单独取出 r hat。
4 experiments
关注的题目:
Preference Transformer 能否使用真实的人类偏好办理复杂的控制任务?
PT 能否 induce 一致(consistent)的 reward 并关注关键变乱?
PT 在合成偏好(synthetic preferences,即 scripted teacher setting)中的体现如何?
baseline:
技术路线:preference → reward model → IQL。
1 MLP 的 Markovian reward。
2 基于 LSTM 的 non-Markovian reward。
results:
PT 在险些所有任务中,都始终优于所有 baselines。特殊的,只有 PT 险些将 IQL 的性能与使用 ground-truth reward 相匹配,而 baselines 在困难的任务中基本不 work。
让 PT 和 Markovian 或 LSTM agent 分别生成 trajectory,让 human 评价哪个更好,human 评价 PT 更好。
在所谓的“PT 是否可以诱导(induce)一个明确(well-specified)的奖励”这一段,好像也只是感性分析了一下…
在比力 scripted teacher 和 human 时,由于 scripted teacher 不能理解 contex,以是 human preference 反而在简单任务上体现更好;并且,它们的 preference 会在简单的 grid-world 中发生分歧。
学习复杂的新行为:很炫酷的 hopper 空中多个后空翻的 demo。
5 好像很有原理的 future work
在 RL 或 PbRL 中使用重要性权重,或允许以用于对信息量更大的 query / samples 进行采样,这可以进步 sample-efficiency。
使用重要性权重,通过加权更新,来稳定 Q 学习。
与其他偏好模型结合:例如 Knox et al.(2022)的基于 regret 的 preference model(title: Models of human preference for learning reward functions),尽管他们提出的方法基于几个假设(例如,生成后续特征(Dayan,1993;Barreto et al., 2017)),与基于遗憾的模型相结合会很有趣。
内容总结
[*](为什么感觉挺 A+B 的,有点想不明白为何会中…… 不过 writing 貌似很好)
[*]提出了新的 preference model,σ0>σ1 的概率仍然是 exp / (exp + exp) 的情势,但 exp[] 内里的内容从 reward 求和(discounted reward 求和)变成 Σ r · w,其中 w 是一个 importance weight。
[*]这里的 motivation:
[*]① human preference 可能基于 non-Markovian reward,因此用 transformer 建模 trajectory,作为 reward model 的一部分;
[*]② human 可能会关注关键帧,因此需要一个 importance weight,为先前提到的 non-Markovian reward 加权。
[*]然后,使用 attention layer 的 key query value 情势,将 value 作为 reward,softmax(key · query) 作为 importance weight。(恰好跟 attention 的情势 match 上)
0 abstract
Preference-based reinforcement learning (RL) provides a framework to train agents using human preferences between two behaviors. However, preference-based RL has been challenging to scale since it requires a large amount of human feedback to learn a reward function aligned with human intent. In this paper, we present Preference Transformer, a neural architecture that models human preferences using transformers. Unlike prior approaches assuming human judgment is based on the Markovian rewards which contribute to the decision equally, we introduce a new preference model based on the weighted sum of non-Markovian rewards. We then design the proposed preference model using a transformer architecture that stacks causal and bidirectional self-attention layers. We demonstrate that Preference Transformer can solve a variety of control tasks using real human preferences, while prior approaches fail to work. We also show that Preference Transformer can induce a well-specified reward and attend to critical events in the trajectory by automatically capturing the temporal dependencies in human decision-making.
[*]background:
[*]PbRL 框架用于在两种行为之间使用 human preference 来训练 agent。然而,需要大量 human feedback,来学习与人类意图一致的 reward model。
[*]method:
[*]在本文中,我们介绍了 preference transformer,使用 transformer 架构模拟 human preference。
[*]以前方法假设,人类判断基于 Markovian reward,而 Markovian reward 对决策的贡献相同。与先前工作差异,我们引入了一种 preference model,该模型基于 non-Markovian reward 的加权和。
[*]然后,我们在 preference model 的 transformer 计划里,堆叠 causal self-attention layers 和 bidrectional self-attention layers。
[*]results:
[*]Preference Transformer 可以使用真实 human feedback 来办理各种控制任务,而以前的方法无法奏效。
[*]Preference Transformer 可以通过自动捕获人类决策中的时间依赖性(temporal dependencies),来得到一个 well-specified reward 并关注轨迹中的关键变乱。
open review 与项目网站
[*]open review:
[*]主要贡献:① 提出了一个基于 non-Markovian reward 加权和的新 preference model,② 引入 PT 来模拟所提出的 preference model。
[*]如果奖励实际上是 non-Markovian 的,那么 Transformer 的想法是有动机的(well motivated)。
[*]The paper is well written. 论文写得很好。
[*]scripted evaluation(大概是 scripted teacher)使用 Markovian reward,但 NMR(non-Markovian reward)和 PT 仍能在多个领域优于 MR(Markovian reward)变体。这需要得到更好的解释和评估。究竟上,应该使用 non-Markovian reward 进行评估。
[*]项目网站:
[*]Preference Transformer 将 trajectory segment 作为输入,从而提取与任务相关的汗青信息。
[*]通过堆叠 bidirectional 和 causal self-attention layers,Preference Transformer 生成 non-Markovian reward 和重要性权重(importance weights)作为输出。(貌似 importance weight 越高,某帧在整个 trajectory 里越重要)
[*]我们使用它们来界说 preference model,并发现 PT 可以得到 better-shaped reward,并从 human preference 中关注关键变乱。
[*]实验证明,PT 可用于学习复杂的新行为(Hopper 多次后空翻),这很难计划合适的奖励函数。与单个后空翻相比,这项任务更具挑战性,由于奖励函数必须捕获 non-Markovian 上下文,包罗旋转次数(有必要嘛?)。观察到,PT agent 在稳定着陆的情况下执行多个后空翻,而基于 MLP 的 Markovian reward 的 agent 很难着陆。
1 基于 non-Markovian reward 的 preference model
[*]motivation:
[*]首先,在很多情况下,很难使用 Markovian reward 来给出任务的描述。
[*]此外,由于人类对于非凡的时候很敏感,因此可能需要在轨迹内分配 credit(大概是权重的意思)。
[*]non-Markovian reward function:
[*]reward function 的输入:先前的完整的 sub-trajectory。
[*]同时再整一个权重函数 w = w({s, a, s, ...}),其输入也是 t 时候之前的完整 sub-trajectory。
[*]用 r(τ) · w(τ) 来改写 �(�1≻�0)=/ 的公式。
2 PT 的架构
[*]感觉 causal transformer 相对好理解,以及 GPT 具有 causally masked self-attention。
[*]preference attention layer:
[*]causal transformer 生成的 {x, x, ...} sequence,过一个线性层,会得到它们的 key query value。
[*]认为得到的这个 value 就是 reward,而 key 与 query 相乘再 softmax(包管>0)则是权重。
[*]好像这只是一个 reward model,而非 RL policy(?)
[*]学到 reward model 后,还需要使用 IQL 学 policy…
https://ar5iv.labs.arxiv.org/html/2303.00957/assets/x2.png3 PT 的训练与 inference
[*]training:最小化 cross-entropy loss �=−�[(1−�)log�[�0≻�1]+�log�[�1≻�0]] ,其中 y 是 label,P 是我们训练的概率。
[*]inference:如何得出 agent 的 reward。
[*]好像是直接拿 reward(而非 reward · importance weight)来做。
[*]大抵流程:拿 st, at, s, ... 送进 causal transformer,然后得到 xt, ...,送进 preference attention layer,得到 r hat,单独取出 r hat。
4 experiments
关注的题目:
[*]Preference Transformer 能否使用真实的人类偏好办理复杂的控制任务?
[*]PT 能否 induce 一致(consistent)的 reward 并关注关键变乱?
[*]PT 在合成偏好(synthetic preferences,即 scripted teacher setting)中的体现如何?
baseline:
[*]技术路线:preference → reward model → IQL。
[*]1 MLP 的 Markovian reward。
[*]2 基于 LSTM 的 non-Markovian reward。
results:
[*]PT 在险些所有任务中,都始终优于所有 baselines。特殊的,只有 PT 险些将 IQL 的性能与使用 ground-truth reward 相匹配,而 baselines 在困难的任务中基本不 work。
[*]让 PT 和 Markovian 或 LSTM agent 分别生成 trajectory,让 human 评价哪个更好,human 评价 PT 更好。
[*]在所谓的“PT 是否可以诱导(induce)一个明确(well-specified)的奖励”这一段,好像也只是感性分析了一下…
[*]在比力 scripted teacher 和 human 时,由于 scripted teacher 不能理解 contex,以是 human preference 反而在简单任务上体现更好;并且,它们的 preference 会在简单的 grid-world 中发生分歧。
[*]学习复杂的新行为:很炫酷的 hopper 空中多个后空翻的 demo。
5 好像很有原理的 future work
[*]在 RL 或 PbRL 中使用重要性权重,或允许以用于对信息量更大的 query / samples 进行采样,这可以进步 sample-efficiency。
[*]使用重要性权重,通过加权更新,来稳定 Q 学习。
[*]与其他偏好模型结合:例如 Knox et al.(2022)的基于 regret 的 preference model(title: Models of human preference for learning reward functions),尽管他们提出的方法基于几个假设(例如,生成后续特征(Dayan,1993;Barreto et al., 2017)),与基于遗憾的模型相结合会很有趣。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]