为什么要对每一个样本做随机优化？

    for x in xrange(m):#随机优化，对每一个样本而言的
             w = w - w的梯度

如果用随机梯度下降法，是否x = random.randint(0, m)? 如果用批量梯度下降法，是否应该累加梯度，然后除以m？

突然有了想法：代码里面的w = w - alpha loss w' 。 alpha就是learning_rate / m 吗？

jizhihui / fm_python