【问题标题】:What's wrong with Dyna-Q ? (Dyna-Q vs Q-learning)Dyna-Q 有什么问题? (Dyna-Q 与 Q 学习)
【发布时间】:2020-05-14 07:48:43
【问题描述】:

我实现了 Q-learning 算法,并在 OpenAI 健身房的 FrozenLake-v0 上使用了它。 我在 10000 集的训练期间获得了 185 个总奖励,在测试期间获得了 7333 个总奖励。 这样好吗?

我还尝试了 Dyna-Q 算法。但它的性能比 Q-learning 差。 大约。训练期间的总奖励为 200 个,测试期间的总奖励为 700-900 个,共 10000 集,包含 50 个计划步骤。

为什么会这样?

下面是代码。代码有问题吗?

# Setup
env = gym.make('FrozenLake-v0')

epsilon = 0.9
lr_rate = 0.1
gamma = 0.99
planning_steps = 0

total_episodes = 10000
max_steps = 100

训练和测试():

while t < max_steps:
    action = agent.choose_action(state)  
    state2, reward, done, info = agent.env.step(action)  
    # Removed in testing
    agent.learn(state, state2, reward, action)
    agent.model.add(state, action, state2, reward)
    agent.planning(planning_steps)
    # Till here
    state = state2
def add(self, state, action, state2, reward):
        self.transitions[state, action] = state2
        self.rewards[state, action] = reward

def sample(self, env):
    state, action = 0, 0
    # Random visited state
    if all(np.sum(self.transitions, axis=1)) <= 0:
        state = np.random.randint(env.observation_space.n)
    else:
        state = np.random.choice(np.where(np.sum(self.transitions, axis=1) > 0)[0])

    # Random action in that state
    if all(self.transitions[state]) <= 0:
        action = np.random.randint(env.action_space.n)
    else:    
        action = np.random.choice(np.where(self.transitions[state] > 0)[0])
    return state, action

def step(self, state, action):
    state2 = self.transitions[state, action]
    reward = self.rewards[state, action]
    return state2, reward

def choose_action(self, state):
    if np.random.uniform(0, 1) < epsilon:
        return self.env.action_space.sample()
    else:
        return np.argmax(self.Q[state, :])

def learn(self, state, state2, reward, action):
    # predict = Q[state, action]
    # Q[state, action] = Q[state, action] + lr_rate * (target - predict)
    target = reward + gamma * np.max(self.Q[state2, :])
    self.Q[state, action] = (1 - lr_rate) * self.Q[state, action] + lr_rate * target

def planning(self, n_steps):
    # if len(self.transitions)>planning_steps:
    for i in range(n_steps):
        state, action =  self.model.sample(self.env)
        state2, reward = self.model.step(state, action)
        self.learn(state, state2, reward, action)

【问题讨论】:

  • 你解决过这个问题吗?我自己的直觉是,也许模型过度拟合了训练环境,导致了一个只在训练中效果很好的策略。然后你的测试环境太不同了,策略失败了。我没有看到任何迹象表明您正在设置随机种子,也许在第一步中尝试在训练和测试中将其修复为相同的值。如果 Dyna-Q 代理在此处的测试表现不佳,则说明代理本身存在错误。

标签: python reinforcement-learning q-learning


【解决方案1】:

我想这可能是因为环境是随机的。在随机环境中学习模型可能会导致次优策略。在 Sutton & Barto 的 RLBook 中,他们说他们假设了确定性环境。

【讨论】:

  • 但是 Q-learning 奏效了。你能告诉我可以在哪里测试 dyna-q 实现的一些模拟吗?
【解决方案2】:

检查在采取模型步骤后,来自下一个状态(即state2)的计划步骤样本。

如果没有,计划可能会从self.env 给出的相同起始状态重复执行步骤。

不过我可能误解了self.env参数在self.model.sample(self.env)中的作用

【讨论】:

  • 好的,我已经改写成有条件的答案了
猜你喜欢
  • 2016-06-09
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2016-12-23
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多