Policy target after MCTS should be in form of probabilities

werner-duvaud / muzero-general

MuZero

MIT License

2.46k stars 606 forks source link

This issue appears only in the implementation of continuous actions version of MuZero.

When computing child visits, we need to divide by sum_visits in order to be in probabilities form.

But, it seems like you forget to divide by sum_visits. Here is the current implementation


sum_visits = sum(child.visit_count for child in root.children.values())

self.child_visits.append(
                numpy.array([child.visit_count  for child in root.children.values()])
            )

I think the correct is the following:

sum_visits = sum(child.visit_count for child in root.children.values())

 self.child_visits.append(
                numpy.array([child.visit_count / sum_visits for child in root.children.values()])
            )

werner-duvaud / muzero-general

Policy target after MCTS should be in form of probabilities #193