NorbertZheng / read-papers

My paper reading notes.
MIT License
7 stars 0 forks source link

Annu Rev Neuro '16 | Correlations and Neuronal Population Information. #9

Closed NorbertZheng closed 3 years ago

NorbertZheng commented 3 years ago

https://www.annualreviews.org/doi/abs/10.1146/annurev-neuro-070815-013851

NorbertZheng commented 3 years ago

neuron群体的spike活动是相互协调的(coordinated),就是每个neuron的spike活动都会受到其它neuron的spike活动影响,产生看似极为复杂的活动模式。 一种广泛关注的协调(coordination)方式神经元对之间的关系——相关性(correlation)。当然,这是一个极端的协调关系简化,只考虑两两之间的协调关系。这样一种二阶统计结构不太可能完全捕捉到neuron群体丰富的活动模式。但是相关性又是极其有用的,因为其对neuron群体编码有很大的影响,特别是生物合理算法(简单线性等)可以提取的那一部分信息。

NorbertZheng commented 3 years ago

我们对于相关性如何影响信息已经有了很大的进展,主要原因有以下两点:

相关性可以由很多潜在的过程驱动,并采用许多不同的形式。但理论表明,某些相关性可能比其它相关性在功能上更相关。

NorbertZheng commented 3 years ago

与其寻求越来越丰富地描述活动模式,不如通过理论理解活动与计算之间的关系。

NorbertZheng commented 3 years ago

本review主要关注如下三个问题:

NorbertZheng commented 3 years ago

Different Types of Correlations

相关性是变量之间association的简单统计度量,其很自然可以被用于度量变量之间不同种类的correlation以及relationship。

NorbertZheng commented 3 years ago

Correlations and Information: A Brief Introduction

尽管单个neuron的variability限制了它们提供的有关外部刺激的信息,但如果每个neuron的variability是相互独立的,则可以通过汇集或平均许多神经元的反应以达到对stimulus的精确估计。 这里的 但是如果neuron的variability并不是independent(不是uniform!!!)的分布,则这种共享的相关性无法被平均掉,限制了通过更多神经元(仍然处于一个trial,但是记录到了更多神经元)汇集信息的benefit。这种benefit的限制在各种正相关的关系中都存在。 但就算有noise correlation又如何(每个neuron的variability相关),并不影响它们的可分性,可能并不会影响对于认知层次的判定(因为如果能做出对应的behavior,带有noise的neuron表征必然是可分的),只是可能会影响其表征几何的一些性质。这个问题在#8 中也有探讨,但是还是无法解决noise相关的问题。


忽略这张图,这是一张错误的图,它并不是neuron之间都有independent的noise,而是有uniform分布的correlation。 image correlation相比prefer的分布如下: image

NorbertZheng commented 3 years ago

上面的平均neuron反应在概念上很简单,但它并不总是提取神经元信息的明智策略,而是应该对不同的神经元赋予不同的权重。这一点是很自然的,就像PCA那样,坐标轴旋转,给予不同neuron不同的权重。linear decoder就是这样一个广义的加权和,可以在生物环路中轻松学习和实现,即生物合理。其中分配给每个神经元的权重可能对应于它在驱动下游读出神经元时的突触权重。这说白了不就是规定了加权和为区分的超平面,对坐标轴进行旋转么。

NorbertZheng commented 3 years ago

但说实在,就算有noise correlation,在高维空间中,不同trial的点还是分布在一块,毕竟这是下游behavior相关脑区所要读取的信息,总归是可分的(不论是线性可分还是非线性可分)。那么对于decision-making任务,不同task的表征分布是一个高维流形,这个高维流形是某个时间点分布随时间的延申。只要noise correlation不会影响到高维表征空间中各个流形的可分性,不都没有问题么?生物的算法也不一定是linear的啊,多层网络堆积在一块这怎么会是一个线性的呢?

NorbertZheng commented 3 years ago

为了定量linear decoder的acc,我们可以考虑linear FI度量。linear FI度量的是optimal linear decoder对于stimulus的最小可分性,更高的linear FI表示optimal linear decoder估计的更少variance,定义如下: image 这里的f'是tuning func(就是optimal linear decoder的func)的一阶导数,其为随stimulus变化时response的平均变化;Q是表征反应Cov矩阵,其是由多次stimulus多次trial的神经表征矩阵计算而来,但是这里应该是默认了stimulu-independent(本来Cov矩阵只能依据同一stimulus多次展现,计算spike count的相关性),也就是Q是由跨trial表征矩阵(n_neuron x n_trial)计算而来。

NorbertZheng commented 3 years ago

Linear and Full Fisher Information


linear FI对任何unbiased linear decoder的估计方差设置了一个界限,可分度必须大于等于linear FI的倒数。linear FI是full FI的一部分,对于某些分布,full FI可能比linear FI大得多。然而,提取这些额外的信息需要更复杂的非线性decode,可能更难以在生物电路中学习或实现。此外,对于具有足够线性统计量的指数族的任何响应分布,linear FI等效于full FI(https://direct.mit.edu/neco/article-abstract/23/6/1484/7662/Insights-from-a-Simple-Expression-for-Linear )。此外,V1和MSTd的神经发放都属于这一类,而且没有其它sensory脑区的证据表明它们不属于这一种分布。因此,linear FI是度量neuron群体信息的有用度量。

NorbertZheng commented 3 years ago

Linear Fisher Information for Fine and Coarse Discrimination


在经典的分类任务中,受试被要求区分两个相似的stimulus: image 依据neuron群体反应,我们可以构建一个对两个stimulus无偏的估计器,LOLE(locally optimal linear estimator): image 这就是给定神经表征r,所推测的对应stimulus。这里的f'是tuning func的差分值,Q是stimulus-avg的neuron Cov矩阵(看来是直接默认stimulus-independent了。 image 而linear FI的定义如下: image 这里的Var表示给定stimulus种类后,neuron群体会产生一个r分布,将该r分布输入LOLE中,得到估计stimulus分布的Var。二分类是一个很简单的问题,必然会有unbiased的解,这也就说明我们永远可以显式地写出linear FI,而不像full FI可能不一定能得到。 上述 LOLE 的定义和linear FI的表达式并没有假设ds很小,它对精细和粗略的区分都有效。

NorbertZheng commented 3 years ago

Abbott & Dayan探究了correlation对于FI的影响。对于homogeneous的neuron群体,FI会被局部强correlation(limited-range correlation)所降低。更准确地说,不仅被降低了,还会饱和,即FI随着neuron群体size的增大而收敛到一个值。大量实验证据表明大脑皮层中的correlation具备limited-range correlation结构,如V1、MT等。 image

NorbertZheng commented 3 years ago

这里的收敛只是因为局部强correlation模糊了homogeneous神经元群体的分辨率,可能不同stimulus的response分布有很大的overlap。与#5 里面提及的random projection没有关系,那里面都是精确的信息,用少部分neuron进行估计,这里的是模糊的信息,给多少neuron都不管用。 image

NorbertZheng commented 3 years ago

为什么limited-range correlation会让homogeneous的neuron群体包含的信息饱和呢?由于neuron的response是variable的,所以我们测量的一个neuron群体response是带有noise的,而这个noise的dist是不确定的。如果noise correlation的dist是uniform的,那么个neuron之中的noise变化趋势是相同的: image 整个neuron群体的发放会上下整体波动,变化有规律可循,不同stimulus对应的response分布overlap较小,不会影响分辨率。但limited-range correlation就会让局部noise同变化可能性较高,而这样的local、shared波动会让不同trial的neuron群体反应失真。 image

NorbertZheng commented 3 years ago

或许这种情况也就在homogeneous的neuron群体中存在吧,这个frate和tuning func的限制太大了,正常记录到neuron群体不同trial还是会聚集在一块,但模糊导致的分辨率确实还会存在。不同的tuning func集合有相对应的noise correlation分布,使其容易产生误分类,这种noise correlation称为differential correlation?

NorbertZheng commented 3 years ago

虽然limited-range correlation会让homogeneous的neuron群体linear FI饱和,但是对于heterogeneous的neuron群体并不总是这样。这就是上面提到的:不同的tuning func集合有相对应的noise correlation分布,使其容易产生误分类。这里的heterogeneous也就是指不同neuron的tuning func在shape与amplitude上不同,而这也是大脑中大部分区域所具备的特性: image 这时,limited-range correlation并不会让heterogeneous的neuron群体linear FI饱和,linear FI还是会随着neuron群体size的增大而增大,十分类似noise分布为independent的时候。

NorbertZheng commented 3 years ago

Moreno-Bote等人在2014年的一篇工作中发现,影响information的response Cov中的那一部分与tuning funcs的一阶导数有关系,或者说是正比于tuning func的一阶导数乘积。有这种结构的correlation被称为differential correlation。而上面,limited-range correlation之所以可以让homogeneous的neuron群体饱和就是因为其内部包含differential correlation。 现在我们考虑一个观测者正在进行感知任务——辨别stimulus的角度。如果每个trial,我们对stimulus进行角度上微小的扰动,这样便会人工地损伤受试者的表现性能。这是因为我们对stimulus的操控会以一种被tuning func一阶导数预测的方式影响orientation-selective神经元的response。 或者,通俗一点的情况是,我们将stimulus固定,而neuron的response会在trial-by-trail时变化。而限制性能的variability是那种可以造成和外界stimulus可变性相同方式的震荡。在神经表征流形上来说就是,体现在流形方向上的variability会限制linear FI,但如果variablility在正交于流形的方向上,则不会影响linear FI。 image

NorbertZheng commented 3 years ago

虽然differential correlation会导致information饱和,但它们在overall correlation中的占比有可能很小,可以忽略。因此,直接测量correlation与tuning func一阶导数之间的关系并不能很准确地评估differential correlation的影响。补充的评估方法有:

使用第二种方法,Pitkow等人发现vestibular areas使用了一种包含了differential correlation的编码。

NorbertZheng commented 3 years ago

尽管differential correlation会导致information饱和,sensory群体的总information也可以被nondifferential correlation(与tuning func一阶导数无关的correlation)影响。考虑一群noise dist相互独立的neuron群体,增加neuron数量会导致information增长,没有边界。这一描述同样适用于带有某类nondifferential correlation(比如uniform additive noise)的heterogeneous神经元群体,只是增长幅度稍微小一些,也会让information降低。然而,differential correlation会有更大的影响——使information相比于independent的编码随着neuron数目的增加而降为0。因此,nondifferential correlation会在两个程度上影响:

image

NorbertZheng commented 3 years ago

总而言之,群体information的标志是哪种correlation对information影响重要的理解演变。Zohary等人在1994年的工作中提出汇集神经元反应来准确估计stimulus,但在这种情况下任何correlation都是有害的,除非neuron中的noise dist都是相互独立的。linear FI的引入,表明在homogeneous的neuron群体中,limited-range correlation会导致information饱和。最后,heterogeneous的neuron群体让我们意识到只有differential correlation才会导致信息饱和。 因此,随着理论的改进,它从根本上改变了我们对哪些形式的相关性对于限制信息在功能上有了很重要的了解。

NorbertZheng commented 3 years ago

需要注意的是上面提到的differential correlation导致information无法随着neuron数目的增长而继续增长,只是说differential correlation限制了neuron的information表征空间,与#5 中提到的random projection在统计上同质的假设下用少量neuron的表征几何近似整体neuron的表征几何没有关系。后者是,在限定整体neuron数目之后的information表征空间中,针对某个stimulus的表征几何信息进行近似,在少量neuron提供的情况下,由该neuron集合恢复的表征几何会在较少neuron内达到较高的恢复比例。

NorbertZheng commented 3 years ago

Estimating Linear Fisher Information

linear FI是理解correlation如何影响information的重要度量,可以衡量一个neuron群体的information是否足够去underlie特定的行为或者功能。 在经典的的二分类任务中,我们可以构建LOLE(一种unbiased的optimal decoder),并依据此decoder的表现性能计算linear FI: image 但在复杂的任务情况下,LOLE并不能cover这些情况的linear FI计算,下面主要介绍一些计算information的方法和一些应该避免的陷阱。

NorbertZheng commented 3 years ago

linear FI的定义格式如下: image 由此易知,直接从测量的neuron群体中计算它是很简单的。它需要估计两个量:

但是以这种方式计算的linear FI是非常不准确的。原因在于,尽管基于有限数据tuning func的一阶导数和Cov matrix的估计是unbiased,但计算linear FI过程中的涉及到的non-linear变换会导致information被严重高估。但幸运的是,这种偏差可以通过分析的方法来纠正(https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1004218 )。只要试验次数超过记录的神经元数量,就可以从有限的实验数据中快速准确地直接估计linear FI。 image 带有分析偏差校正的直接估计器(蓝线)提供了对真实信息(虚线)的无偏估计。 阴影区域表示估计值的 ± 1 标准偏差。

NorbertZheng commented 3 years ago

上面直接计算linear FI的一种替代方法是评估在数据上训练的linear decoder的性能。由于适合有限数据的模型总是适合噪声(过度拟合),而这里适合的噪声也是我们所关注的,correlation的noise到底在多大程度上影响了linear decoder的性能。因此,我们可以通过交叉验证评估性能,linear decoder的交叉验证评估性能将提供真实信息的下限。 image 经过训练的解码器在遗漏数据(测试集)上的性能提供了真实信息的下限,并在有足够数量的试验时接近真实信息。

NorbertZheng commented 3 years ago

事实上,直接估计和交叉验证解码是一对互补的量化linear FI的方法。就像上面提出的直接估计方法不适合trial比neuron少的时候,在少样本、无信息的neuron群体中会低估信息,这时候使用交叉验证解码就是一个很好的手段。相反,在大量信息丰富的neuron群体中,交叉验证解码会显著低估信息,而直接估计的方法会十分准确(https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1004218 )。

NorbertZheng commented 3 years ago

Common errors in estimating information


neuron群体中的information不能够通过simulation准确估计。很多研究测量了皮层中的correlation,然后使用观测到结构的parametric approximations来估计information,要么采用分析的手段,要么解码合成反应。这种方法容易出现严重错误。 如上所述,限制信息的differential correlation可能很小。 如果通过simulation仅捕获相关性的一般趋势,则differential correlation的影响很容易丢失,并且人们可能会错误地得出结论,即总体包含的信息比实际包含的信息多得多。 image 这里估计的response Cov matrix是遵循Moreno-Bote等人在2014年的Information-limiting correlations提出的方法。矩阵中的一半条目设置为测量值; 其余条目通过对测量系数重新采样并强制结果矩阵是协方差并且与原始数据具有相同的有限范围结构来填充。 为了避免这些问题,我们必须要使用simultaneously recorded的neuron群体的测量response。

NorbertZheng commented 3 years ago

同样,使用sub-optimal linear decoder无法准确评估linear FI。一个sub-optimal linear decoder的例子是factorized decoder,其直接忽略neuron之间的correlation,权重仅取决于单个neuron响应的统计信息。而这一类错误会导致,总体包含的信息比实际包含的信息少得多。 image suboptimal linear decoder是一个被限制的linear decoder,其无法遍历全部linear decoder可达的空间,因而无法完全找到区分不同stimulus对应neuron表征流形的optimal分界,预估的linear FI会有限制。

NorbertZheng commented 3 years ago

除去对neuron表征结构近似和suboptimal linear decoder的影响之外,neuron群体记录数目也是一个很重要的影响因素。我们不应量化correlation在少样本的neuron群体中影响得到关于correlation影响的一般性结论。 相关性的影响通过将记录或模拟数据中的信息与去除相关性后获得的信息进行比较来量化(即,将Cov matrix的非对角线条目设置为零;这称为shuffled information)。而这两者之间的关系可能受neuron群体大小影响很大。 考虑一个包含differential correlation的神经编码,在少样本的neuron群体中,我们可能发现information和shuffled information差别很小,于是认为correlation对于information的影响很小;但随着neuron群体size变大,shuffled information会无边界增大,但是true information会由于differential correlation而收敛到一个值,从而得出correlation对于information影响很大的结论。甚至会有小群体和大群体关于correlation对information得到完全不同的结论。 image 考虑一个具备homogeneous tuning和乘性全局波动的neuron群体(Lin等人在2015年提出的模型),加上少量differential correlation。

NorbertZheng commented 3 years ago

于是,这样就产生了一个悖论:information只能通过所能记录的neuron群体来测量它,但是correlation对这些群体的影响可能与其对更大、功能更相关的neuron群体影响ratio不同。这里考虑的问题,其实就是#5 中考虑的所记录neuron表征几何失真度的问题,我们需要更多的neuron记录、依据我们所记录数据进行正确推断的理论依据(这就是#5 所部分解决的)以及对任务相关neuron数量的先验了解。 目前,尚不清楚记录的相关性变化(例如行为或刺激操作发生的变化,stimulus-dependent correlation?)是否对neuron群体information产生有意义的影响,主要还是因为记录的neuron数目过少。

NorbertZheng commented 3 years ago

Sources of Correlations

differential correlation至少存在的两种可能source如下:

NorbertZheng commented 3 years ago

correlation更广义上的source有哪些呢?一个显然的source是shared/common input。但是强shared input并不一定会造成强correlation。比如一个balanced network(exc与inh的neuron之间random连接),兴奋性驱动的波动通过抑制性神经元活动的波动被快速追踪。当两个神经元接收相关的兴奋性驱动时,相关的抑制信号(即相互关联并与兴奋池相关的抑制输入)在很大程度上取消了它们对突触后反应的影响。说白了就是两个具备同correlation的signal相减,去除了correlation。关于减性decorrelation,Liu等人的工作#6 进行了改进,但不知道能不能适用在这个neuron群体decorrelate的问题上: image 这也正是大脑皮层的结构。目前,该架构已经被用于decorrelate皮层状态。

NorbertZheng commented 3 years ago

当然,前面的decorrelate只是为了有效编码,并不可能完全消除所有correlation。对于接收有限信息(即,比 N 个独立神经元群体可获得的信息少)的网络,完全去相关将使信息随网络规模线性增长,从而超过输入中的信息。 这将违反数据处理不等式,即处理信号不能增加其信息。输入信息随种群规模线性增长,循环网络实现的完全去相关(在无限大种群的限制下)相当于保留所有输入信息。

NorbertZheng commented 3 years ago

尽管balanced network产生的异步活动提供了一个重要的视角,但这些模型显然不能准确地代表皮层网络中的连通性。因为大脑中的connectivity并不是random的而是clustered的:神经元从具有相似功能特性的其他神经元接收优先输入。这时,局部池中会产生剧烈的共变化,一些实验证据表明这会导致强correlation的共振荡。

NorbertZheng commented 3 years ago

前面的模型,无论是shared input还是clustered connectivity都显示了局部连接模式在生成相关性中的作用。除此之外,大部分correlation也可以用全局波动来解释(广义上correlation的一种现象)。该部分的source尚不清楚,主要有以下两个方面:

NorbertZheng commented 3 years ago

上面提到大部分correlation可以由global fluctuations解释(也就是global fluctuations对correlation幅度有很大贡献),但是并不代表它们会在限制information方面发挥很大作用。有一些对小neuron群体的研究(分析或者模拟),发现information受global fluctuations影响。但是在大neuron群体的时候,只有differential correlation可以让information饱和。global fluctuations对大多数variables不会产生这种类型的correlation,除非像visual contrast这一类,产生了differential correlation。 此外,尽管global fluctuations不会让information饱和,但是如果存在differential correlation,乘性global fluctuations会让饱和点下降,也就是non-differential correlation的影响。 但如果top-down的signal只引起了局部的cofluctuations,这时可能引入differential correlation,但其实说是在就是看tuning func的性质。 自我修正:当然,如果全局波动是由自上而下的输入驱动的,那么下游解码电路也有可能意识到这些信号已经被注入。 这将允许这些电路完全消除注入信号对群体编码精度的任何影响。

NorbertZheng commented 3 years ago

总之,许多机制导致了correlation的强度和属性。这些包括前馈(differential correlation的representation extension)、本地(shared input与clustered connectivity)或循环连接(balanced network,但是这个假设了random connectivity不太合理)以及top-down的输入(global fluctuations,但由于是top-down的,或许下游可以意识到直接decorrelate呢)。

NorbertZheng commented 3 years ago

Other Interest in Correlations

仅仅量化相关性,而不考虑neuron群体发放的特定pattern(也就是task-dependent的tuning func特性),几乎无法深入了解neuron群体的information。但是测量correlation也可以用于一些其它方面的探讨:

NorbertZheng commented 3 years ago

Shortcomings

目前我们对大脑中各个脑区的具体computation机制尚还不清晰,我们使用了很多极为简化的neuron模型进行探讨,得到有关大脑受不同种类correlation的影响是不可靠的。不同的脑区可能需要不同的数学处理。 了解correlation对大脑功能的影响将需要研究具有捕捉生物学基本特征并实现这些网络执行的丰富计算的架构的SNN。看来还是得等类脑计算了。到时候研究correlation对大脑不同脑区的影响也不迟。