Open dmylnikov opened 7 years ago
Learning rate это и есть коэффициент перед добавляемым новым деревом.
На последнем шаге бустинга мы побираем коэффициент a_i перед деревом b_i(x) (в обозначениях дз). Это не learning rate, learning rate - это константа, которая должна помогать от переобучения.
Его действительно можно подбирать, но это ведь не сильно важно для понимания. Используйте просто маленькую константу.
Конечно перед новым деревом.
На каком шаге в градиентном бустинге добавляется коэффициент learning_rate: до последнего шага, в котором оптимизируется коэффициент перед добавляемым новым деревом или после этого шага?