Open FengH2020 opened 4 years ago
P197, 公式(8.12)p(c_1:M|x_1:N) 中的c应该大写;另外这部分-指针网络-描述得不是太清楚比较难理解,比如(8.14)是不是把softmax(s_m,n)具体表达式写出来应该容易理解一些,另外这个公式不太对,左边是依赖m, 右边是依赖m和n。
P206, 公式 (8.30)\alpha_n 应该是 \alpha_t,n
P218, 稀疏编码的优点中(2)可解性,“。。。,相当于将一个输入样本表示为少数几个相关的特征.。。。” 中 “相关”是不是要改为“独立”
P225, 公式(9.46) 其中h^2 应该是 H^2; 公式(9.47)右边exp 中分子部分||z-x||^2应该是||x^(n)-x||^2
P226, 9.3 总结与深入阅读部分第三段第二行,“数据比较小时” 是不是“数据比较大时”
P229,Eq.(10.9) 上面一句𝜖_𝑚 (𝒙) ≥ 0 是没有道理的;但如𝜖_𝑚 (𝒙) =| f_m(x) - h(x) | 这样定义证明成立;因此(10.2)下面关于𝜖_𝑚的定义需要加绝对值。
P232, Eq.(10.21)关于𝜖_𝑚的定义存在符号滥用,这里是表示“加权错误率”;然而Eq.(10.2)和算法10.1表示为“模型m的错误” 或者“加权错误”
P239, 这页底下最后一段“ 2) 精调的方式: 在目标任务上复用。。。” 中 “复用” 改为 “重复使用”
P242, Eq. (10.33)的右端log( ) 应该是-log( ); Eq. (10.34) 中 \theta_f 应该是\theta_g; Eq. (10.35)中 \gamma L_c (\theta_f, \theta_c) 应该是\gamma L_c (\theta_g, \theta_c)
另一种修改是按照书中引用论文Domain-Adversarial Training of Neural Networks中来写,Eq. (10.33)不用改,Eq. (10.34)改为max (需要把\theta_f 改为\theta_g); Eq. (10.35) 中\gamma L_c (\theta_f, \theta_c) 应该是-\gamma L_c (\theta_g, \theta_c)
P245, 第二段 “Fisher 信息矩阵。。。信息越多” 对于不熟悉Fisher 信息矩阵的读者根本懂不起,通过 https://en.wikipedia.org/wiki/Fisher_information 知道Cramér–Rao bound 才能明白“其值越大, 表示该参数估计值的方差越小”
Eq. (10.50) 放在最后是比较难理解的,也就是这部分布局不太利于理解,是不是可以考虑先介绍Fisher 信息矩阵,然后再介绍弹性权重巩固方法,因为Eq. (10.50) 是根据Eq. (10.38)来的 (ps: 觉得原文Overcoming catastrophic forgetting in neural networks对Eq.(10.50)描述得更清楚)
P247, 第一行文字中ℒ(𝜃) 应该是 ℒ(𝜙) ; 第二段中“LSTM 网络的输入和输出都是非常高维的” 改 “。。。输入和输出的维度都是非常高的”
P248, Eq.(10.59)中𝐼 − 𝛼∇^2_𝜃 ℒ(𝑓𝜃𝑚) 中ℒ(𝑓{𝜃_𝑚}) 的改ℒ(𝑓_𝜃); 10.7 总结和深入阅读部分第一段最后一句,“一些和模型无关的学习方式” 中“无关” 改 “独立”
P255, "定义 11.1 – 贝叶斯网络 " 中 “𝑃(𝑋𝑘|𝑿𝜋𝑘) 表示每个随机变量” 改为 “𝑃(𝑋𝑘|𝑿𝜋𝑘) 表示随机变量𝑋_𝑘 ”
P256, 第一段中“𝑋1 ⟂⟂/ 𝑋3|∅” 关于“⟂⟂” 和 “∅” 没有进行符合说明(尽管根据下文可以推测出意思)
P260,图11.7中的caption "无向图模型中的团和最大团" 该 “无向图模型中的团(实线圈内的节点集)和最大团(虚线圈内的节点集)” ; Eq.(11.16) & (11.17) 中的x_c 没有给符号说明,无法理解(ps: 是不是表示x在团c中的部分?); Eq.(11.18) 右边的注释,“能量越低意味着概率越高” 改 “概率越低能量越高”
P261, Eq. (11.23) 下面一行关于Z(x;\theta)的定义中发f_y(x,y)没有被定义
P262, Eq.(11.24)下面其中关于Z(x;\theta) 右端求和y是不是粗体y (ps: 由于符号定义缺失,对于没有基础的读者不太好理解,故已放弃继续阅读了,转为周志华的‘机器学习’关于这部分的内容,比较好理解)
P263, Eq.(11.28)下面一行关于𝜃𝑘 的定义与上面一段中关于𝜃𝑘的说法不一致,但是它们的含义应该是一样的。Eq.(11.32)下面一行对𝜃_c进行了说明,但是前面Eq.(11.30)就用了这个符号,是否应该放在第一次出现的地方说明。
P266, 第三段第二行中“仅当 𝑞(𝒛) = 𝑝(𝒛|𝒙; 𝜃) 时” 去掉 "仅";下一段“ (1) 先找到近似分布q(z)” 中 “近似分布” 与这页第二段定义q(z)为“变分函数”的说法不一致
P275, 标题 11.4 变分推断 以及 11.5 基于采样的近似 都属于11.3.2 近似推断方法下的子内容,单独作为本章中一大节是否会显得章节结构不清晰
P336, 这页倒数第二段,“最小化最大化游戏( Minimax Game)” 改 “最小最大化博弈( Minimax Game)”
P325, "数学小知识"中的注释 “参见习题13-5” 排版位置错误
Further improvement: (1)对于一些特别重要的内容和算法可以增加一些具体的例子以及算法实现源代码(ps: 当然工作量会变得更大,但会很大地帮助读者理解和增加印象) (2)可以简要介绍一些或某一个Deep learning 的编程框架以及对于特定的任务下利用该框架实现一些重要算法的应用 (3)14章深度强化学习,主要的内容是在介绍强化学习的内容,关于deep RL 的内容过于少了,感觉与本书以及本章主题不太契合;可以考虑修改为重点介绍deep RL的内容,比如从DQN开始介绍,以及后面一系列的变体算法。也就是“14.5 总结和深入阅读”提到的内容可以考虑作为本章正文中的主要内容。 (4)前言部分可以适当说明本书目标读者对象,比如高年级本科生,研究生,相关研究人员及领域从业者;以及在介绍各章内容时的一些阅读建议,那些部分是基础而重要的,那些可以适当忽略跳到感兴趣的部分等等。
PS: deep learning and Neural networks 的初学者,没有太多基础,仅仅是按照阅读感受指出书中的一些不理解的地方以及感觉可以有待提升的地方,因此这里的理解也不一定正确,请理性看待这个comment,也对这里可能有理解不当的地方提前表示抱歉;整体来说这本内容非常丰富,包含了大量目前比较新的,前沿的方向,所以引起了阅读兴趣。
谢谢!我会在下次大的更新中认真参考您的建议。
P197, 公式(8.12)p(c_1:M|x_1:N) 中的c应该大写;另外这部分-指针网络-描述得不是太清楚比较难理解,比如(8.14)是不是把softmax(s_m,n)具体表达式写出来应该容易理解一些,另外这个公式不太对,左边是依赖m, 右边是依赖m和n。
P206, 公式 (8.30)\alpha_n 应该是 \alpha_t,n
P218, 稀疏编码的优点中(2)可解性,“。。。,相当于将一个输入样本表示为少数几个相关的特征.。。。” 中 “相关”是不是要改为“独立”
P225, 公式(9.46) 其中h^2 应该是 H^2; 公式(9.47)右边exp 中分子部分||z-x||^2应该是||x^(n)-x||^2
P226, 9.3 总结与深入阅读部分第三段第二行,“数据比较小时” 是不是“数据比较大时”
P229,Eq.(10.9) 上面一句𝜖_𝑚 (𝒙) ≥ 0 是没有道理的;但如𝜖_𝑚 (𝒙) =| f_m(x) - h(x) | 这样定义证明成立;因此(10.2)下面关于𝜖_𝑚的定义需要加绝对值。
P232, Eq.(10.21)关于𝜖_𝑚的定义存在符号滥用,这里是表示“加权错误率”;然而Eq.(10.2)和算法10.1表示为“模型m的错误” 或者“加权错误”
P239, 这页底下最后一段“ 2) 精调的方式: 在目标任务上复用。。。” 中 “复用” 改为 “重复使用”
P242, Eq. (10.33)的右端log( ) 应该是-log( ); Eq. (10.34) 中 \theta_f 应该是\theta_g; Eq. (10.35)中 \gamma L_c (\theta_f, \theta_c) 应该是\gamma L_c (\theta_g, \theta_c)
另一种修改是按照书中引用论文Domain-Adversarial Training of Neural Networks中来写,Eq. (10.33)不用改,Eq. (10.34)改为max (需要把\theta_f 改为\theta_g); Eq. (10.35) 中\gamma L_c (\theta_f, \theta_c) 应该是-\gamma L_c (\theta_g, \theta_c)
P245, 第二段 “Fisher 信息矩阵。。。信息越多” 对于不熟悉Fisher 信息矩阵的读者根本懂不起,通过 https://en.wikipedia.org/wiki/Fisher_information 知道Cramér–Rao bound 才能明白“其值越大, 表示该参数估计值的方差越小”
Eq. (10.50) 放在最后是比较难理解的,也就是这部分布局不太利于理解,是不是可以考虑先介绍Fisher 信息矩阵,然后再介绍弹性权重巩固方法,因为Eq. (10.50) 是根据Eq. (10.38)来的 (ps: 觉得原文Overcoming catastrophic forgetting in neural networks对Eq.(10.50)描述得更清楚)
P247, 第一行文字中ℒ(𝜃) 应该是 ℒ(𝜙) ; 第二段中“LSTM 网络的输入和输出都是非常高维的” 改 “。。。输入和输出的维度都是非常高的”
P248, Eq.(10.59)中𝐼 − 𝛼∇^2_𝜃 ℒ(𝑓𝜃𝑚) 中ℒ(𝑓{𝜃_𝑚}) 的改ℒ(𝑓_𝜃); 10.7 总结和深入阅读部分第一段最后一句,“一些和模型无关的学习方式” 中“无关” 改 “独立”
P255, "定义 11.1 – 贝叶斯网络 " 中 “𝑃(𝑋𝑘|𝑿𝜋𝑘) 表示每个随机变量” 改为 “𝑃(𝑋𝑘|𝑿𝜋𝑘) 表示随机变量𝑋_𝑘 ”
P256, 第一段中“𝑋1 ⟂⟂/ 𝑋3|∅” 关于“⟂⟂” 和 “∅” 没有进行符合说明(尽管根据下文可以推测出意思)
P260,图11.7中的caption "无向图模型中的团和最大团" 该 “无向图模型中的团(实线圈内的节点集)和最大团(虚线圈内的节点集)” ; Eq.(11.16) & (11.17) 中的x_c 没有给符号说明,无法理解(ps: 是不是表示x在团c中的部分?); Eq.(11.18) 右边的注释,“能量越低意味着概率越高” 改 “概率越低能量越高”
P261, Eq. (11.23) 下面一行关于Z(x;\theta)的定义中发f_y(x,y)没有被定义
P262, Eq.(11.24)下面其中关于Z(x;\theta) 右端求和y是不是粗体y (ps: 由于符号定义缺失,对于没有基础的读者不太好理解,故已放弃继续阅读了,转为周志华的‘机器学习’关于这部分的内容,比较好理解)
P263, Eq.(11.28)下面一行关于𝜃𝑘 的定义与上面一段中关于𝜃𝑘的说法不一致,但是它们的含义应该是一样的。Eq.(11.32)下面一行对𝜃_c进行了说明,但是前面Eq.(11.30)就用了这个符号,是否应该放在第一次出现的地方说明。
P266, 第三段第二行中“仅当 𝑞(𝒛) = 𝑝(𝒛|𝒙; 𝜃) 时” 去掉 "仅";下一段“ (1) 先找到近似分布q(z)” 中 “近似分布” 与这页第二段定义q(z)为“变分函数”的说法不一致
P275, 标题 11.4 变分推断 以及 11.5 基于采样的近似 都属于11.3.2 近似推断方法下的子内容,单独作为本章中一大节是否会显得章节结构不清晰
P336, 这页倒数第二段,“最小化最大化游戏( Minimax Game)” 改 “最小最大化博弈( Minimax Game)”
P325, "数学小知识"中的注释 “参见习题13-5” 排版位置错误
Further improvement: (1)对于一些特别重要的内容和算法可以增加一些具体的例子以及算法实现源代码(ps: 当然工作量会变得更大,但会很大地帮助读者理解和增加印象) (2)可以简要介绍一些或某一个Deep learning 的编程框架以及对于特定的任务下利用该框架实现一些重要算法的应用 (3)14章深度强化学习,主要的内容是在介绍强化学习的内容,关于deep RL 的内容过于少了,感觉与本书以及本章主题不太契合;可以考虑修改为重点介绍deep RL的内容,比如从DQN开始介绍,以及后面一系列的变体算法。也就是“14.5 总结和深入阅读”提到的内容可以考虑作为本章正文中的主要内容。 (4)前言部分可以适当说明本书目标读者对象,比如高年级本科生,研究生,相关研究人员及领域从业者;以及在介绍各章内容时的一些阅读建议,那些部分是基础而重要的,那些可以适当忽略跳到感兴趣的部分等等。
PS: deep learning and Neural networks 的初学者,没有太多基础,仅仅是按照阅读感受指出书中的一些不理解的地方以及感觉可以有待提升的地方,因此这里的理解也不一定正确,请理性看待这个comment,也对这里可能有理解不当的地方提前表示抱歉;整体来说这本内容非常丰富,包含了大量目前比较新的,前沿的方向,所以引起了阅读兴趣。