贝叶斯关键论文内容节选

Joshua 1999 A Bayesian framework for concept learning

约书亚在麻省理工的博士毕业论文

摘要

人类概念学习呈现了归纳的经典问题的一个版本，这通过两个要求的组合变得特别困难：需要从可能概念的丰富（即嵌套和重叠）词汇表中容忍并且需要能够合理地概括归纳概念。只有少数积极的例子。我通过考虑一个简单的数字概念游戏作为这种能力的具体说明来开始这篇论文。在这项任务中，人类学习者能够以合理的信心锁定十亿亿个逻辑上可能存在的概念中的一个，仅仅考虑概念的四个正面例子，并且可以在仅仅看到一个例子之后概括地概括。感应推理的两种经典方法 - 在可能规则的约束空间中的假设检验和与观察到的例子的计算相似性 - 都不能提供人们如何在这种简单设置中概括概念的完整图像。

本文基于贝叶斯推理原理，提出了一个新的计算框架，用于理解人们如何从实例中学习概念。通过对学习情境概率模型的约束，贝叶斯学习者可以得出更多有关概念的信息。扩展来自给定的一组观察到的例子，而不是基于规则的或基于相似性的方法，并且可以以合理的方式使用该信息来推断任何新对象也是概念的实例的概率。贝叶斯框架有三个组成部分：对可能概念的假设空间的先验概率分布;似然函数，根据生成观察到的例子的概率对每个假设进行评分;和假设平均的原理，在这个原则下，学习者通过平均所有假设的预测来计算概括概括新概念的概率，这些假设通过其后验概率加权（与其先验和可能性的乘积成比例）。假设随机抽样的正例，em-body用于评分假设的大小原则：较小的一致假设比较大的假设更可能，并且随着观察到的例子的数量增加，它们成倍地变得更具可能性。假设平均原则允许贝叶斯框架适应规则类似和类似相似的一般行为，这取决于后验概率的峰值。在观察到足够多的例子之后，在很少的例子被观察到规则式泛化（由于尖锐的后峰分布）之后，尺寸原理加上假设平均预测了类似相似性（由于宽后验分布）的收敛性。。

本论文的主要贡献如下。首先，我展示了人们如何能够从一个或几个积极的例子中学习和概括概念（第2章）。在此理解的基础上，我提出了一系列简单概念学习情境的案例研究，其中贝叶斯框架提供了对人类学习者真实行为的定性和定量见解（第3-5章）。这些案例都集中在不同的学习领域。第3章着眼于连续特征空间的概括，对象心理学和机器学习的典型表现，具有分析易处理和经验可访问的优点，但具有高度抽象和人为的缺点。第4章转向更自然的学习单词领域对于对象的类别，并显示在第1-3章的更抽象的设置中引入的相同现象和解释原则的相关性，以用于像这样的现实世界学习任务。

在这些域中的每一个域中，类似相似性和类似规则的泛化分别作为贝叶斯框架的特殊情况出现在极少数或非常多的示例的范围内。然而，在单词学习域中，从相似性到规则的转换发生得比在连续特征空间域中快得多。我建议贝叶斯解释学习曲线中的这种差异，这对学习者假设空间中重叠假设的密度或稀疏性至关重要。为了测试这个提议，第三个案例研究（第5章）回到了数字概念领域，其中人类学习者拥有更复杂的先验知识体系，导致具有稀疏和密集重叠组分的假设空间。在这里，贝叶斯理论预测 - 和人类学习者产生 - 基于规则或基于相似性的概括来自几个例子，取决于观察到的精确例子。我还讨论了如何使用几种经典的推理启发式来近似这个域所需的更精细的贝叶斯推断计算。

在每个案例研究中，我都面对一些概念学习和归纳的经典问题：概念的获得主要是由先前存在的知识或我们观察的统计力量驱动的吗？泛化主要基于抽象规则或与样本的相似性吗？我认为，在几乎所有情况下，对这些问题的唯一合理答案是“两者都有。”更重要的是，我展示贝叶斯框架允许我们回答这些问题的更具穿透性的版本：先验知识如何与观察到的示例相互作用概括？为什么泛化在某些情况下基于规则而在其他情况下基于相似性？最后，第6章以更详细的形式总结了主要贡献，并讨论了这项工作如何适应人类学习，思考和推理的当代研究的大局。

总结

我通过提出概念学习的基本计算问题开始了这篇论文：人们如何从非常有限的证据中获得如此丰富的可能概念 - 他们通常遇到的一个或几个积极的例子？ Ithen提出了一个基于贝叶斯推理原理的解决方案。贝叶斯框架有四个主要成分，我们在三种不同的概念学习任务中看到了这些成分：连续的可分离特征空间（“健康水平”任务），单词学习和数字游戏。

与许多经典的归纳方法相同的第一个成分是假设要学习的概念的候选扩展的假设空间。对我们考虑的假设没有某种限制，从任何有限证据推广 - 更不用说一些积极的例子！一是不可能的。在刺激的连续可分特征空间中，例如健康水平域，自然假设空间由该空间中的所有矩形区域组成。在学习对象的单词时，假设对应于对象种类层次中的分类类。在学习数字概念中，假设包括数学上的特殊类，例如2的所有幂，以及具有相似大小的数字集，例如10到20之间的所有数。这些假设中的每一个都可以被认为是可能的“微观” -rule“用于概括概念，或者作为候选”特征“，可以将概念的实例与非实例区分开来。

所有假设只关注那一个最佳假设的延伸，而一般化与这个规则的一致性成为一个全有或全无的问题。这些是贝叶斯概念学习的四个基本组成部分，但要真正理解这一理论及其含义，有必要了解这些组成部分如何作为学习者带来的先验知识种类和数据类型的函数进行交互。观摩。我在三个案例研究过程中探讨了这些问题并得出了几个结论，在下一节中重述。

最后，我们在贝叶斯框架中的实际泛化行为是由后验概率和假设平均原理决定的。每个假设的后验概率等于其先验概率和基于大小的可能性的乘积。这使得每个假设的合理程度的信念成为我们关于或多或少自然候选扩张的先验知识和示例所携带的统计信息的函数。然后，为了确定任何新对象属于概念的概率，我们平均所有假设的预测，并通过其后验概率加权。直观地，这意味着我们将所有假设的权重（即后验概率）与实例和新对象相加，并将此总和与所有与实例一致的假设的总权重进行比较，无论它们是否包含新对象。这两个和的比率（总是小于或等于1，因为第二个和必然包括第一个和中的每个项，尽管反过来通常不成立）给出了从例子到新对象的概括。根据有多少不同的假设获得显着高的后验概率，我们的概括将被或多或少地评分。当后验广泛地分布在许多假设上时，我们的泛化行为实际上将是所有这些可能的“规则”的平均值，因此将遵循根据假设/规则/特征的数量定义的相似度梯度。一个新对象与示例共享。另一方面，当后验集中于单个假设时，所有假设的加权平均值仅关注该最佳假设的扩展，并且一般化与该规则的一致性成为全有或全无。

这些是贝叶斯概念学习的四个基本组成部分，但要真正理解这一理论及其含义，有必要了解这些组成部分如何作为学习者带来的先验知识种类和数据类型的函数进行交互。观摩。我在三个案例研究过程中探讨了这些问题并得出了几个结论，在下一节中重述。

Joshua 1999 Bayesian modeling of human concept learning

（晚于他的博士论文）

摘要

我认为从少量积极的例子中学习概念的问题是人类常规执行但计算机很少能够执行的壮举。通过桥接机器学习和认知科学的观点，我提出了理论分析和人类学科的实证研究，用于学习与多维特征空间中的轴对齐矩形相对应的概念的简单任务。当应用于此任务时，现有的学习模型无法解释主题如何仅从概念的几个示例中概括出来。该原理基于以下假设给出贝叶斯模型：该示例是来自要学习的概念的随机样本。该模型在这个简单的任务中精确地拟合了人类的行为，并提供了对更复杂，更现实的概念学习案例的定性见解。

引言

从实例中学习概念的能力是人类认知的核心能力之一。从计算的角度来看，人类概念学习是非常值得注意的事实，非常成功的概括通常是在经历了一小部分概念的正面例子之后产生的（Feldman，1997）。虽然负面例子无疑对人类学习者在改进概念边界方面有用，但它们对于对词义，感知范畴和其他自然概念进行合理概括并不是必需的。相比之下，大多数机器学习算法需要一个概念的正面和负面实例的例子才能进行概括，以及两种类型的许多例子以便成功推广（Mitchell，1997）。

在开发一个概念学习模型时，这个模型既具有计算原则，又能够精确地适应人类行为，我希望能够从人们如何能够从少数几个正面例子中推断出一个概念的正确范围。贝叶斯模型有两个关键组成部分：（1）一种泛化函数，它是通过对所有假设的预测进行整合而得出的，这些假设的后验概率加权; （2）假设示例是从要学习的概念中采样的，而不是像先前的弱贝叶斯模型所假设的那样独立于概念。在整个假设空间上整合预测可以解释为什么要么可以出现广泛的泛化梯度（图2，第1行）或者基于规则的明确泛化（图2，第3行），这取决于后验的峰值。假设从概念中随机抽取的例子解释了为什么学习者不会平等地对所有一致的假设进行加权，而是通过一个与观察到的例子数量呈指数增长的因子（尺寸原则）来衡量比更一般的假设更高的更具体的假设。

这项工作正在向许多方向扩展。当遇到负面情况时，通过为包含它们的任何假设分配零可能性，可以很容易地容纳负面情况。贝叶斯公式不仅适用于学习矩形，而且适用于任何可测量假设空间中的学习概念 - 无论何时可以应用评分假设的大小原则。在Tenenbaum（1999）中，我展示了相同的原理只能通过少数积极的例子来学习数字概念和各种对象的单词。 2我还展示了尺寸原理如何支持比这篇简短论文所证明的更强大的推论：自动检测错误标记的示例，选择相关特征，以及确定假设空间的复杂性。在我们最终感兴趣的复杂自然环境中学习这些推论可能是必要的。

Joshua 2001 Generalization, similarity, and Bayesian inference 泛化/广义化/一般化，相似性和贝叶斯推理

摘要：Shepard认为，普遍规律应该控制不同感知和认知领域的概括，以及来自不同物种甚至不同星球的生物。从对自然类型的一些基本假设开始，他得出了指数衰减函数作为通用泛化梯度的形式，它与广泛的经验数据非常吻合。然而，他的原始表述仅适用于从单个遇到的刺激到单个新刺激的泛化的理想情况，以及可以表示为连续度量心理空间中的点的刺激。在这里，我们在一个更普遍的贝叶斯框架中重新演绎了谢泼德的理论，并展示了它如何自然地将他的方法扩展到更具现实性的概念，即从具有任意表征结构的多个后果刺激中推广出来。我们的框架还包含了Tversky的相似性集合理论模型，它通常被认为是Shepard连续度量空间相似性和泛化模型的主要替代品。这种统一使我们不仅可以在集合理论和空间方法之间进行深刻的比较，而且可以显着提高集合理论模型的解释力。

Conclusions: Learning, evolution, and the origins of hypothesis spaces 结论：学习，进化和假设空间的起源

我们已经描述了一个贝叶斯学习和泛化框架，它以两种主要方式显着扩展了谢泼德的理论。在解决多个例子的概括时，我们的分析是Shepard最初想法的一个相当直接的扩展，除了强抽样之外没有做出实质性的额外假设。相比之下，我们对任意结构化刺激的泛化分析代表了Shepard方法的更为激进的扩展，放弃了泛化受进化内部化心理空间的度量属性约束的概念。从积极的方面来说，这一步使我们能够将Tversky的相似性集合理论模型和Shepard在一个单一理性框架下的连续度量空间模型相结合，甚至提升Tver-sky集合理论模型的解释力。使用相同的工具 - 主要是尺寸原理 - 我们用来推进Shepard对泛化的分析。然而，它也打开了一些未解决的大问题的大门，我们通过指出我们的文章。

在讨论与任意结构化刺激的相似性或泛化时，我们的贝叶斯分析只解释了特征或假设如何加权的一个难题。权重始终是基于规模的可能性和先验的结果，虽然从强采样的假设中合理地遵循规模原则，但先验概率的分配不在基本贝叶斯分析的范围内。因此，我们永远不能仅仅根据它们的相对大小来确定任何两个特定特征或假设的相对权重; 任何大小差异总是可以通过先验概率的更大差异来推翻。

现在几乎是一个老生常谈，如果没有对学习者应该考虑的假设进行一些合理的先验约束，总会有无数奇怪的假设，例如“除了20和70之外的所有10的倍数”将阻碍合理的归纳概括（Goodman 1955; 1972; Mitchell 1997）。试图确定这些约束的性质和起源是当前许多研究的主要目标之一（例如，Medin等人1993; Schyns等人1998）。 Shepard对泛化的原始分析是如此引人注目，部分原因在于它提出了对这些问题的回答：仅仅通过将刺激表示为连续度量心理空间中的点（与假设一起）来提供对泛化形式的充分约束。这个假设与该空间中适当的区域家族相对应，而我们的心理空间本身就是一个演化过程的产物，它最佳地塑造了它们以反映我们环境的结构。在提出允许任意结构化假设空间的泛化理论时，我们应该考虑这些假设空间和先验可能来自何处。单凭进化不足以解释为什么诸如“十的倍数”之类的假设被认为是自然的，而诸如“除了20和70之外的所有十的倍数”之类的假设不是。

作为假设空间结构来源的进化的主要替代方案是某种先验学习。最直接的，先前的经验是，所有且仅有属于某个特定子集的对象h往往具有许多重要后果，这可能导致学习者增加p（h）以获得相同类型的新后果。无监督学习 - 在没有任何后续输入的情况下观察对象的属性 - 对于形成监督（后果）学习的假设空间也非常有用。注意到对象的子集倾向于聚集在一起，彼此更相似而不是某些原始特征上的其他对象，可能会增加学习者之前的概率，即该子集可能共享一些重要的但尚未解决的问题。结果。机器学习社区现在非常有兴趣改进监督学习代理可以从一些标记的例子中得出的归纳概括，建立在无人监督的推论上，代理人可以从大量未标记的例子中得出（例如，Mitchell 1999） ; Poggio＆Shelton 1999）。我们预计这将成为认知科学在不久的将来的一个关键问题。

我们的建议是Shepard的“感知 - 认知普遍性”的构建块通过学习而不仅仅是进化而进入我们的脑海，至少与这个问题的其他贡献产生共鸣（参见Barlow的目标文章）。然而，我们从根本上同意Shepard先前的声明，即“学习不是进化的替代，而是取决于进化。没有学习原则就没有学习;然而，这些原则本身并未被学习，必须由进化塑造“（Shepard 1995a，p.59）。归根结底，我们认为，鉴于每个过程在使另一个过程成为一个生态可行的手段中所发挥的关键作用，将学习和进化各自对世界结构内部化的贡献分开可能是困难的或不可能的。适应。相反，我们认为寻找两个过程的有效协同作用可能更有价值，这两个过程可能使我们有效地学习那些将导致我们成功进行贝叶斯概括的假设空间的工具。正如Shepard所提出的，这些工具可能包括适当调整的刺激指标和拓扑结构，但也可能包括：无监督的聚类算法本身利用这些指标定义的大小原则;用于各种假设空间的模板词汇 - 连续空间，分类树，连接特征结构 - 似乎反复出现，作为许多领域心理表征的基础;以及递归构成假设空间的能力，以建立不断增加的复杂性的结构。

我们认为，寻求普遍的学习和概括原则只是从谢泼德的工作开始。谢泼德指数定律的“普遍性，不变性和优雅性”（引用他在本书中重新印刷的文章）本身就令人印象深刻，但也许最终没有他作为先驱者所开创的民族分析精神的重要性。发现感知 - 认知普遍性的一般途径。在这里，我们已经展示了如何扩展这一分析线以产生可能被证明是另一种普遍性的东西：尺寸原则，它控制来自任意结构的一个或多个例子的泛化。我们推测，将来我们的注意力转向学习和进化的界面将会产生进一步的普遍原则。

2006 Theory-based Bayesian models of inductive learning and reasoning

这个就是约书亚、格里菲斯、肯普合著的论文，算是剑桥手册贝叶斯章节的前身

Introduction

Human cognition rests on a unique talent for extracting generalizable knowledge from a few specific examples. Consider how a child might first grasp the meaning of a common word, such as ‘horse’. Given several examples of horses labeled prominently by her parents, she is likely to make an inductive leap that goes far beyond the data observed. She could now judge whether any new entity is a horse or not, and she would be mostly correct, except for the occasional donkey, deer or camel. The ability to generalize from sparse data is crucial not only in learning word meanings, but in learning about the properties of objects, cause–effect relations, social rules, and many other domains of knowledge. This article describes recent research that seeks to understand human inductive learning and reasoning in computational terms (see also Conceptual Foundations Editorial by Chater, Tenenbaum and Yuille in this issue). The goal is to build broadly applicable, quantitatively predictive models that approximate optimal inference in natural environments, and thereby explain why human generalization works the way it does and how it can succeed given such sparse data [1,2]. Our focus is on computational-level theories [3], characterizing the functional capacities of human inference rather than specific psychological processes that implement those functions. Most previous accounts of inductive generalization represent one of two approaches. The first focuses on relatively domain-general, knowledge-independent statistical mechanisms of inference, based on similarity, association, correlation or other statistical metrics [1,4– 13]. This approach has led to successful mathematical models of human generalization in laboratory tasks, but fails to account for many important phenomena of learning and reasoning in complex, real-world domains, such as intuitive biology, intuitive physics or intuitive psychology. The second approach aims to capture more of the richness of human inference, by appealing to sophisticated domain-specific knowledge representations, or intuitive theories [14–20]. An intuitive theory may be thought of as a system of related concepts, together with a set of causal laws, structural constraints, or other explanatory principles, that guide inductive inference in a particular domain. However, theory-based approaches to induction have been notoriously difficult to formalize, particularly in terms that make quantitative predictions about behavior or can be understood in terms of rational statistical inference. We will argue for an alternative approach, where structured knowledge and statistical inference cooperate rather than compete, allowing us to build on the insights of both traditions. We cast induction as a form of Bayesian statistical inference over structured probabilistic models of the world. These models can be seen as probabilistic versions of intuitive theories [14,18,20] or schemas [21,22], capturing the knowledge about a domain that enables inductive generalization from sparse data. This approach has only become possible in recent years, as advances in artificial intelligence [23] and statistics [24] have provided essential tools for formalizing intuitive theories and theory-based statistical inferences. The influence is bidirectional, as these Bayesian cognitive models have led to new machine-learning algorithms with more powerful and more human-like capacities [25,26].

karanotsingyu / AwesomeCoCoSci

贝叶斯关键论文内容节选 #19