刷了一下历年的中国生物信息学十大进展 by 生信技能树

蛮有意思的，看了看这个《中国生物信息学十大进展》评选活动起始于2018，恰好经历了一个疫情。从生物信息学的3个领域方向挑选成果，包括：

从上面的3个分类评选的入选的工作中进一步评选，产生每个年度“中国生物信息学十大进展”。

组织该评选的机构是：《基因组蛋白质组与生物信息学报》（Genomics， Proteomics & Bioinformatics, 简称GPB）

2018

中国科学院北京基因组研究所生命与健康大数据中心团队 (BIG Data Center)
新一代蛋白质组学开放式搜索引擎—Open-pFind
调控细胞自噬的蛋白质与修饰数据库—THANATOS
极低分辨率Hi-C数据解析的高精度算法—deDoc
不依赖于蛋白抗体及靶序列的开放染色质相互作用捕获技术—OCEAN-C
RNA结合蛋白剪接调控作用的预测模型
基因组拼接的新方法—BAUM
追踪人体T细胞动态行为的新算法—STARTRAC （北京大学张泽民团队）
基于流形学习的三维基因组结构重构新方法—GEM

2019

利用单分子测序构建高质量基因组的算法—HERA
人类和小鼠细胞标志物数据库—CellMarker
基于进化基因组和功能基因组数据的灵长类特异新基因数据库 —GenTree
整合Hi-C和FISH重构三维基因组结构新方法—GEM-FISH
细胞动态行为推断算法助力肝细胞癌免疫微环境的解析（北京大学张泽民团队）
小鼠三胚层谱系时空转录组图谱—eGastrulation
现存和古人族群的全基因组单核苷酸变异数据库—PGG.SNV
利用人工智能算法分析单细胞ATAC-seq数据—SCALE
中国人群全基因组测序研究及北方汉族参考基因组建立
人体肠道可培养细菌参考基因组数据集及活体菌株库—CGR

2020

环形RNA精准定量和可变剪接体转换识别算法—CIRIquant
利用单细胞测序技术构建人类细胞图谱（浙江大学郭国骥团队）
国家基因组科学数据中心”（NGDC）
基于模糊布鲁因组装图的基因组组装算法—wtdbg2（美国哈佛医学院李恒）
基于人工智能度量学习的单细胞类型鉴定新方法—scLearn
实验验证的microRNA靶基因数据库—miRTarBase
新冠肺炎临床信息综合数据库与人工智能诊断系统—iCTCF & HUST-19
新冠病毒传播动力学模型—SAPHIRE
单细胞转录组整合检索方法—Cell BLAST（北京大学高歌团队）
2019新型冠状病毒信息库（2019nCoVR）及新冠病毒基因组、变异及单体型全景及演化

2021

深度学习出镜率很高，蛮符合大家对生物信息学的“刻板印象”

2021的《中国生物信息学十大进展》

2022

还是深度学习和神经网络这样的算法至上，有几个课题组多次上榜《中国生物信息学十大进展》了，应该是超级优秀！！！

2022的《中国生物信息学十大进展》

中国科学院北京基因组研究所生命与健康大数据中心成为全球主要生物数据中心之一

生物大数据是国家重要的基础性战略资源。我国已成为生物数据产出大国，能否有效管理和共享这些宝贵数据，直接关系到我国生物大数据的整合挖掘与转化利用水平。中国科学院北京基因组研究所生命与健康大数据中心团队 (BIG Data Center)，面向人口健康和重要战略生物资源，建成以GSA为代表的我国首个基因组科学数据汇交共享平台和多组学数据资源体系，支撑国家科研项目的科学数据管理，为我国公益性科学研究与产业创新发展提供重要的基础数据资源和条件平台，被国际同行列为全球主要生物数据中心之一。

该成果发表于《核酸研究》期刊。

数据库链接：

http://bigd.big.ac.cn

原文信息：

BIG Data Center Members. Database resources of the BIG Data Center in 2018. Nucleic Acids Res 2018;46:D14–20. PMID: 29036542

原文链接：

https://academic.oup.com/nar/article/46/D1/D14/4316108

新一代蛋白质组学开放式搜索引擎—Open-pFind

生物质谱数据的低解析率直接影响着肽段和蛋白质鉴定数目和鉴定精度的提高。究其原因，是由于数据中通常有大量存在意外修饰或发生意外酶切的肽段，而传统的限定式搜索因搜索空间有限，通常无法进行有效检索。中国科学院计算技术研究所pFind团队研发了新一代开放式搜索引擎Open-pFind，采用基于序列标签索引的开放式搜索流程，快速扫描蛋白质数据库，并全面考虑修饰、突变、半特异及非特异性酶切等因素。在四组典型质谱数据集上，Open-pFind解析率稳定达到70%‒85%；同时，在搜索空间是常规引擎5个量级的基础上，其速度仍然是常规引擎的2–3倍，是同类开放式引擎的数十倍甚至上百倍。在超大规模人类蛋白质组数据集上，Open-pFind报告了超过12,000种蛋白，且准确度远超以往常规分析结果。综上，Open-pFind基本解决了长期困扰蛋白质组学领域的低解析率问题，并已作为pFind 3软件的主力流程，助力国内外团队发表了20余篇应用文章。

该成果发表于《自然生物技术》期刊。

工具链接：

http://pfind.ict.ac.cn/software/pFind3/

原文信息：

Chi H, Liu C, Yang H, Zeng WF, Wu L, Zhou WJ, et al. Comprehensive identification of peptides in tandem mass spectra using an efficient open search engine. Nat Biotechnol 2018;36:1059–61. PMID: 30295672

原文链接：

https://www.nature.com/articles/nbt.4236

调控细胞自噬的蛋白质与修饰数据库—THANATOS

细胞自噬是降解胞质内容物的保守性生物学过程，能够调控细胞的稳态平衡，决定细胞的生存或死亡。华中科技大学生命科学与技术学院薛宇研究团队审编和预测了164个真核生物的191,543已知或潜在参与调控细胞自噬和死亡的蛋白质，构建了数据库THANAOS。进化分析表明自噬核心基因在真核生物中高度保守；计算分析推测自噬相关蛋白质变异与人类疾病密切相关。通过整合翻译后修饰信息，研究团队重构了核心自噬蛋白质的激酶–底物磷酸化网络，揭示了蛋白质翻译后修饰调控自噬的重要性和普遍性。THANATOS数据库为自噬研究提供了重要的数据资源。

该成果发表于《自噬》期刊。

数据库链接：

http://thanatos.biocuckoo.org

原文信息：

Deng W, Ma L, Zhang Y, Zhou J, Wang Y, Liu Z, et al. THANATOS: an integrative data resource of proteins and post-translational modifications in the regulation of autophagy. Autophagy 2018;14:296–310. PMID: 29157087

原文链接：

https://www.tandfonline.com/doi/full/10.1080/15548627.2017.1402990

基因组三维空间结构变化分析的新算法—FIND

基因组三维空间结构变化是细胞应答外界信号、调控基因表达、决定细胞命运的关键。清华大学张奇伟、陈阳合作研究团队，在基因组三维空间结构捕获技术BL-Hi-C的基础上，充分考虑到基因组DNA是连续的线性结构并在邻近位置间存在空间依赖性，提出了利用空间泊松分布过程分析基因组三维空间结构变化的新方法FIND。该方法为从空间和时间维度上研究基因组功能增加了一项关键技术，将有望在精准医学、干细胞再生医学、合成生物学等方向获得广泛应用。

该成果发表于《基因组研究》期刊。

工具链接：

https://bitbucket.org/nadhir/find

原文信息：

Djekidel MN, Chen Y, Zhang MQ. FIND: difFerential chromatin Interactions Detection using a spatial Poisson process. Genome Res 2018;28:412–22. PMID: 29440282

原文链接：

https://genome.cshlp.org/content/28/3/412.long

极低分辨率Hi-C数据解析的高精度算法—deDoc

基因组三维结构是核内生命活动的舞台，具有关键的生物学功能。传统方法解析三维基因组需要超高分辨率的Hi-C数据。北京航空航天大学李昂生与中国科学院北京基因组研究所张治华两个研究团队合作，应用李昂生等人之前建立的结构信息理论，开发了利用极低分辨率Hi-C数据解析高精度拓扑结构域（TAD）的算法deDoc。在10个单细胞Hi-C数据聚合中应用deDoc，作者发现单细胞中的确存在类似TAD的结构单位。该发现后续被超高分辨率染色质显微成像证实。低成本、高精度的Hi-C数据解析方法将会使得三维基因组的研究可以更深入地扩展到大人群队列、罕见样本、及单细胞水平的问题中去，从而促进对基因组本身的理解。

该成果发表于《自然通讯》期刊。

工具链接：

https://github.com/yinxc/structural-information-minimisation

原文信息：

Li A, Yin X, Xu B, Wang D, Han J, Wei Y, et al. Decoding topologically associating domains with ultra-low resolution Hi-C data by graph structural entropy. Nat Commun 2018;9:3265. PMID: 30111883

原文链接:

https://www.nature.com/articles/s41467-018-05691-7

不依赖于蛋白抗体及靶序列的开放染色质相互作用捕获技术—OCEAN-C

真核细胞核中的染色质通过折叠成动态复杂的高级结构调控细胞重要功能。近年来，大量染色质捕获技术被提出。尽管这些技术各有优势，开发一种不依赖于探针序列或蛋白抗体，且能在较低测序量的条件下有效富集全基因组活跃转录调控元件间相互作用的技术仍是必须。为此，北京大学生命科学学院生物信息中心李程研究团队结合FAIRE-seq技术及Hi-C技术的关键步骤，开发了一种不依赖于蛋白抗体及靶序列的开放染色质相互作用捕获技术—OCEAN-C。OCEAN-C可富集以结合大量转录因子为主的基因启动子、增强子间的相互作用及网络，并能与基因表达变化关联，帮助进一步阐明基因组结构、功能与疾病的关系。

该成果发表于《基因组生物学》期刊。

工具链接：

https://github.com/ChengLiLab/OCEAN-C/

原文信息：

Li T, Jia L, Cao Y, Chen Q, Li C. OCEAN-C: mapping hubs of open chromatin interactions across the genome reveals gene regulatory networks. Genome Biol 2018;19:54. PMID: 29690904

原文链接：

https://genomebiology.biomedcentral.com/articles/10.1186/s13059-018-1430-4

RNA结合蛋白剪接调控作用的预测模型
基因组研究结果显示，人体内超过90%的基因存在选择性剪接。该过程在不同组织以及不同生理阶段受到严格的调控，其失调会导致多种疾病的发生。选择性剪接主要由各类反式剪接因子结合前体mRNA中的顺式元件来实现体内调控；典型的剪接因子包括一个或多个RNA结合域以及不同的功能模块，从而特异性地识别RNA并影响其剪接。中国科学院-马普学会计算生物学伙伴研究所中国科学院计算生物学重点实验室王泽峰研究团队首次利用机器学习方法来构建RNA结合蛋白剪接调控作用的预测模型，并在世界上首次从头设计合成带有特定活性的人工剪接因子。该研究揭示了RNA结合蛋白的序列组成对其选择性剪接调控活性的影响，为研究RNA结合蛋白的剪接活性提供了重要指导意义，也为全人工合成剪接因子提供了可行性。

该成果发表于《细胞系统》期刊。

原文信息：

Mao M, Hu Y, Yang Y, Qian Y, Wei H, Fan W, et al. Modeling and predicting the activities of trans-acting splicing factors with machine learning. Cell Syst 2018;7:510–20.e4. PMID: 30414922

原文链接:

https://www.sciencedirect.com/science/article/pii/S2405471218303880

基因组拼接的新方法—BAUM

高质量的基因组是进化与遗传研究、精准医疗的基石。基因组拼接是以高通量测序技术为基础的核心计算生物学问题。中国科学院数学与系统科学研究院李雷研究团队将计算数学中的迭代、逐步逼近方法用于基因组拼接，研发了新方法BAUM。BAUM拼接方法的核心是以不同的准则反复映射序列，这可以通过该研究团队原创的SEME映射算法实现。BAUM通过调整映射唯一性准则，量化基因组中由重复序列导致的不确定性。该方法被成功地运用到了高原鼢鼠、鼠兔等基因组的拼接。由于采用逐步逼近方法，BAUM可以成为整合不同测序平台数据的工具。

该成果发表于《生物信息学》期刊。

工具链接：

http://www.zhanyuwang.xin/wordpress/index.php/2017/07/21/baum

原文信息：

Wang A, Wang Z, Li Z, Li LM. BAUM: improving genome assembly by adaptive unique mapping and local overlap-layout-consensus approach. Bioinformatics 2018;34:2019–28. PMID: 29346504

原文链接:

https://academic.oup.com/bioinformatics/article-abstract/34/12/2019/4810438

追踪人体T细胞动态行为的新算法—STARTRAC

单细胞转录组测序技术为系统了解人体T细胞的类别和状态提供了强大的实验工具，但是通常只能进行横断面式的“快照”，如何从中推断T细胞的动态行为是亟需解决的生物信息学问题。北京大学张泽民研究团队联合美国Amgen公司欧阳文军和北京大学人民医院申占龙以结直肠癌为例进行攻关，由任仙文副研究员根据T细胞受体的体内重排特性和信息论中熵的概念提出了一套名为STARTRAC的计算方法，为T细胞克隆扩增、迁移、状态转换以及组织偏嗜性等动态行为提供了定量刻画。STARTRAC为深入了解人体和动物体内（in vivo）T和B细胞的动态行为提供了强有力的工具。

该成果发表于《自然》期刊。

工具链接：

https://github.com/Japrin/STARTRAC

原文信息：

Zhang L, Yu X, Zheng L, Zhang Y, Li Y, Fang Q, et al. Lineage tracking reveals dynamic relationships of T cells in colorectal cancer. Nature 2018;564:268–72. PMID: 30479382

原文链接:

https://www.nature.com/articles/s41586-018-0694-x

基于流形学习的三维基因组结构重构新方法—GEM

三维基因组结构蕴含着非常丰富的信息，与细胞内绝大多数生物过程相关联，解析基因组的三维结构对研究基因调控有着重要意义。近年来，基于高通量测序技术的三维基因组建模方法得到了广泛研究，然而大部分方法都依赖于对基因相互作用频率与染色体空间距离之间的关系进行假设。清华大学交叉信息研究院曾坚阳研究团队首次基于流形学习直接将基因相互作用数据映射到相应的欧几里得空间，并结合生物分子能量规律，提出新的框架算法—GEM，对三维基因组结构进行建模。该方法取得了领先的效果，并首次利用解出的三维结构进一步重构出了测序实验中丢失的基因相互作用数据。

该成果发表于《核酸研究》期刊。

工具链接：

https://github.com/mlcb-thu/GEM

原文信息：

Zhu G, Deng W, Hu H, Ma R, Zhang S, Yang J, et al. Reconstructing spatial organizations of chromosomes through manifold learning. Nucleic Acids Res 2018;46:e50. PMID: 29408992

原文链接:

https://academic.oup.com/nar/article/46/8/e50/4835049

利用单分子测序构建高质量基因组的算法—HERA

高质量基因组序列对于研究一个物种基因组的结构、功能、进化、基因定位和克隆等都至关重要。复杂基因组中存在大量的重复序列，无法用现有的基因组组装方法获得,严重影响了参考基因组的质量及其应用。中国科学院遗传与发育生物学研究所梁承志团队开发了利用单分子长片段测序，对基因组复杂重复序列区域进行高效组装的算法HERA。测试发现，HERA能够准确组装水稻中包括复杂的长串联重复序列在内的绝大部分重复序列。与相应物种已发表的基因组版本比较表明，利用HERA组装的玉米和人基因组的contig N50分别从1.3 Mb和8.3 Mb提升至61.2 Mb和54.4 Mb；新组装的苦荞基因组contig N50达到了27.85 Mb。新的玉米基因组组装版本在玉米B73参考基因组中填补了大量以前没有组装出的序列，对多处染色体上序列位置或方向的错误进行了校正，并增补了一些以前遗漏的多个重要基因序列。利用HERA改进后的苦荞全基因组8条染色体仅由20个contig组成，其中一条染色体仅包含一个contig。本工作展示了利用现有常规技术条件构建几乎完整的基因组的潜力。

该成果发表于《自然通讯》期刊。

工具链接：

https://github.com/liangclab/HERA

原文信息：

DuH, Liang C. Assembly of chromosome-scale contigs by efficiently resolving repetitive sequences with long reads. Nat Commun 2019;10:5360. PMID: 31767853.

原文链接：

https://doi.org/10.1038/s41467-019-13355-3

图：HERA改进的玉米基因组与已发表的参考基因组B73 RefGen_v4的比较。（a）全基因组中序列缺口由2523个减少到了76个；（b）玉米参考基因组中缺失或多余的序列（上）经HERA改进后（下）被正确地填补或移除。

人类和小鼠细胞标志物数据库—CellMarker

飞速发展的单细胞测序技术为探究复杂疾病开辟了新道路。单细胞研究面临的首要问题是如何确定组织细胞类型，然而，目前尚缺乏一个可供参考查询的综合细胞标志物数据库。哈尔滨医科大学李霞、肖云团队和哈尔滨医科大学附属第一医院赵婷婷通过查询逾10万篇已发表的文献，构建了人类和小鼠组织中各种细胞类型的标志物数据库—CellMarker。该数据库囊括了158种人类组织中467种细胞类型的13,605个细胞标志物，以及81种小鼠组织中389种细胞类型的9148个细胞标志物，涉及131种癌症细胞标志物。CellMarker数据库存储的细胞标志物对细胞身份的识别和刻画提供了重要分析依据，对从单细胞水平解析疾病发生及微环境影响提供了帮助。

该成果发表于《核酸研究》期刊。

数据库链接：

http://biocc.hrbmu.edu.cn/CellMarker/

原文信息：

Zhang X, Lan Y, Xu J, Quan F, Zhao E, Deng C, et al. CellMarker: a manually curated resource of cell markers in human and mouse. Nucleic Acids Res 2019;47:D721–8. PMID: 30289549.

原文链接：

https://doi.org/10.1093/nar/gky900

图：CellMarker数据库中人类和小鼠组织内细胞标志物概况。（左）人类组织中不同细胞类型的细胞标志物数量统计；（右）小鼠组织中不同细胞类型的细胞标志物数量统计。

基于进化基因组和功能基因组数据的灵长类特异新基因数据库—GenTree

灵长类特异蛋白编码基因可推动表型演化，但目前只有少量功能研究。原因之一是缺乏相对可靠的灵长类特异基因（primate-specific genes or PSGs）数据集。由于基因年龄推断方法的差别以及新基因注释质量低等原因，已发表的PSG数据集间存在较大差别。中国科学院动物研究所张勇团队联合合作伙伴通过整合进化基因组和功能基因组数据开发了PSG数据库GenTree。GenTree可用来分析基因何时起源、如何起源及其功能。该工作进一步评估了常用的年龄推断方法及基因注释方法的优缺点后，鉴定了846个PSGs（含192个人特异的新基因），并发现PSG倾向于参与精子发生、免疫反应、母胎互作及胎脑发育等快速演化的生命过程。总而言之，该工作开发了一个专门的新基因数据库，产生了相对高质量的PSG列表并推测了其功能。年龄推断方法、基因注释方法的评估及新基因的功能特点对研究其它物种种系特异基因的工作具有普遍参考意义。

该成果发表于《基因组研究》期刊。

数据库链接：

http://gentree.ioz.ac.cn/

原文信息：

Shao Y, Chen C, Shen H, He BZ, Yu D, Jiang S, et al. GenTree, an integrated resource for analyzing the evolution and function of primate-specific coding genes. Genome Res 2019;29:682–96. PMID: 30862647.

原文链接：

https://doi.org/10.1101/gr.238733.118

图：GenTree数据总览。（红色）Ensembl提供的基因注释等基本信息；（绿色）基于基因组共线性的基因年龄推断、其他研究的年龄推断佐证及起源机制推断等演化推断信息；（蓝色）包括转录组数据（HPA数据、GTEx数据、BrainSpan数据）、蛋白组数据（HPM数据）和群体数据（全基因组关联分析数据、群体遗传学数据）在内的基因功能相关信息。

整合Hi-C和FISH重构三维基因组结构新方法—GEM-FISH

随着三维基因组构象捕获实验技术（3C）尤其是与通量测序相结合技术（Hi-C）的发展，解析三维基因组结构成为了研究基因调控的常用手段。精确的三维基因组结构重构对于研究基因调控等生物过程和功能具有非常重要的意义。目前，绝大多数三维基因组结构重构算法均只是基于Hi-C数据。清华大学曾坚阳研究团队将Hi-C和荧光原位杂交（FISH）数据整合起来，基于流形学习算法框架（GEM）提出了新的三维基因组结构建模方法—GEM-FISH。该方法采用一种分治策略，首先利用Hi-C和FISH数据构建拓扑关联结构域（TAD）之间的相对结构，再利用Hi-C数据构建TAD内部结构，最后将两者结合起来根据大分子能量性质优化微调，获得最终的结构。与现有方法相比，这一方法重构的基因组结构更为精确，平均相对误差更小，并且能够准确揭示出活跃状态和失活状态X染色体的差异。该方法被用来分析子结构分隔区在染色体三维空间的分布并得到了FISH实验数据的进一步验证。另外，该方法还可以用来分析超级增强子在染色体三维空间的分布，为基因调控研究提供更多的线索。

该成果发表于《自然通讯》期刊。

工具链接：

https://github.com/ahmedabbas81/GEM-FISH

原文信息：

Abbas A, He X, Niu J, Zhou B, Zhu G, Ma T, et al. Integrating Hi-C and FISH data for modeling of the 3D organization of chromosomes. Nat Commun 2019;10:2049. PMID: 31053705.

原文链接：

https://doi.org/10.1038/s41467-019-10005-6

图：GEM-FISH通过整合Hi-C和FISH数据采用分治策略建模过程概览。（上）利用Hi-C和FISH数据以及生物物理的先验知识构建TAD水平的三维染色体结构；（左下）利用Hi-C数据和生物物理的先验知识构建染色体TAD内部的三维结构；（右下）将染色体TAD水平的结构与TAD内部的结构相结合，进一步调整生成最终完整的三维染色体结构。

细胞动态行为推断算法助力肝细胞癌免疫微环境的解析

单细胞转录组测序技术为系统解析肿瘤微环境的组成与特征提供了强大的实验工具，但如何推断肿瘤微环境中免疫细胞的动态行为是亟需解决的生物信息学问题。北京大学张泽民、任仙文团队，北京世纪坛医院彭吉润团队和勃林格殷格翰药业公司刘康团队以肝细胞癌为例进行攻关，通过系统整合当前细胞动态行为推断算法并建立配套的统计检验方法，揭示了肝癌病人腹水免疫细胞的来源和肿瘤树突状细胞的动态行为。通过集成基于基因表达谱相似性推断算法的高普适性、基于线粒体突变推断算法的高可信度和RNA剪接动力学分析可指示细胞动态行为的方向等不同算法的优点，并进行假设检验，揭示了肝癌病人腹水淋巴系免疫细胞主要来源于外周血，而髓系免疫细胞主要来源于肿瘤及癌旁组织。肿瘤中的一群LAMP3⁺树突状细胞则具有从肿瘤向淋巴结迁移的能力，并可通过表达多种配体与受体调节T淋巴细胞的浸润与表型。这些发现对于理解肝癌的免疫逃逸机制和开发新的免疫治疗方法具有重要意义。

该成果发表于《细胞》期刊。

数据链接：

https://bigd.big.ac.cn/gsa-human/browse/HRA000069

https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE140228

原文信息：

Zhang Q, He Y, Luo N, Patel SJ, Han Y, Gao R, et al. Landscape and dynamicsof single immune cells in hepatocellular carcinoma. Cell 2019;179:829–45.e20. PMID: 31675496.

原文链接：

https://doi.org/10.1016/j.cell.2019.10.003

图：利用单细胞测序技术与分析方法刻画肝癌动态免疫图谱。(A) 技术流程：结合不同单细胞测序技术对肝癌多个免疫相关组织进行测序与分析；(B) 结果概述：肝癌不同免疫相关组织呈现出细胞富集的特异性，且不同组织特别是肝癌组织、肝周淋巴结、腹水之间存在复杂的细胞迁移动态关系。

小鼠三胚层谱系时空转录组图谱—eGastrulation

细胞的空间位置信息以及细胞在组织中原位的状态具有十分重要的生物学价值。中国科学院生物化学与细胞生物学研究所景乃禾团队、中国科学院-马普学会计算生物学伙伴研究所/北京大学韩敬东团队和中国科学院广州生物医药与健康研究院/广州再生医学与健康广东省实验室彭广敦团队合作利用空间转录组测序技术，从时空动态的四维角度来研究小鼠早期胚胎原肠运动期间的细胞谱系，构建了胚胎着床后从多能干细胞退出到外、中、内三胚层建立的谱系发生关系树，在国际上首次获得了具有极高分辨率和完整度的时空体内细胞发育和命运图谱，全景式地展现了干细胞命运决定的分子表达谱。该研究建立了全基因组的时空表达数据库eGastrulation，供领域内研究者查询超过2万个基因的三维空间表达模式，分析共表达关系，并可实现单细胞的空间定位（zip code mapping），以及基于特征表达模式的基因模式分析。该数据库为目前国际上关于小鼠原肠运动时期最为全面和完整的交互性时空转录组数据库。

该成果发表于《自然》期刊。

数据库链接：

http://egastrulation.sibcb.ac.cn/

原文信息：

Peng G, Suo S, Cui G, Yu F, Wang R, Chen J, et al. Molecular architecture of lineage allocationand tissue organization in early mouse embryo. Nature 2019;572:528–32. PMID: 31391582.

原文链接：

https://doi.org/10.1038/s41586-019-1469-8

图：原肠运动时空三维数据库（eGastrulation）的功能实现

现存和古人族群的全基因组单核苷酸变异数据库—PGG.SNV

在医学遗传学领域的实践中，人们往往通过对突变位点的频率进行比较分析来筛选并判别突变是否可能致病。其潜在假设是孟德尔疾病相关的致病突变在自然人群中是稀有的。孟德尔疾病突变在不同族群中频率存在差别，因而用西方族群的基因组来研究或预测其他族群的突变功能和疾病风险可能会导致误判。中国科学院-马普学会计算生物学伙伴研究所徐书华团队构建了更具亚洲人群特色的全基因组单核苷酸变异数据库—PGG.SNV。PGG.SNV收录的基因组数据涵盖了800多个现存人类族群和来源于古DNA研究的100多个已消亡的人类族群，总共超过20万个基因组，因而在代表性人群数量和样本量上均超过目前被广泛使用的由西方学者主导的gnomAD数据库。PGG.SNV更显著的科学价值在于提供了人群、个体、基因和变异多个层面的种群遗传多样性和进化参数的估计，有助于更深入地解析人类基因组变异的功能和表型效应，理解其进化和医学意义。PGG.SNV数据库同时开通了配套的微信公众号“PGGbase”，方便微信用户通过智能手机查询。

该成果发表于《基因组生物学》期刊。

数据库链接：

https://www.pggsnv.org

原文信息：

Zhang C, Gao Y, Ning Z, Lu Y, Zhang X, Liu J, et al. PGG.SNV: understanding the evolutionary and medical implications of human single nucleotide variations in diverse populations. Genome Biol 2019;20:215. PMID: 31640808.

原文链接：

https://doi.org/10.1186/s13059-019-1838-5

图：PGG.SNV基因组数据的人群和地理分布概览。（A）PGG.SNV数据库所覆盖人类族群的分布和基因组数量统计；（B）PGG.SNV与gnomAD等数据集在基因组数目上的比较；（C）PGG.SNV与gnomAD等数据集在族群数量上的比较。

利用人工智能算法分析单细胞ATAC-seq数据—SCALE

染色质开放区域是基因组编码生命信息的窗口，其中包含了各种各样重要的转录因子结合位点和其他类型的基因表达调控元件。单细胞ATAC-seq技术可以在单细胞水平上描绘染色质的开放图谱从而揭示细胞间在基因表达调控上的差异。然而，对于每一种真核细胞，其所有可能的染色质开放位点数目通常有几十万之多，这造成所谓的“维度灾难”；同时由于生物和技术的原因，许多潜在的开放区域没有信号、数据异常稀疏。因此，目前尚缺乏有效的方法来分析挖掘海量的单细胞ATAC-seq数据中宝贵的生物学信息。清华大学张强锋团队通过深度学习的方法，结合高斯混合模型和变分自编码器，提取数据低维的隐层特征，对单细胞ATAC-seq数据进行聚类、可视化、缺失值填补、降噪以及下游生物信息挖掘，有效地解决了数据高维度稀疏性的问题。该方法为解码单细胞表观遗传学提供了一个综合高效强大的工具，将有望在肿瘤、免疫、发育等领域的研究中得到广泛应用。

该成果发表于《自然通讯》期刊。

工具链接：

https://github.com/jsxlei/SCALE

原文信息：

Xiong L, Xu K, Tian K, Shao Y, Tang L, Gao G, et al. SCALE method for single-cell ATAC-seq analysis via latent feature extraction. Nat Commun 2019;10:4576. PMID:31594952.

原文链接：

https://doi.org/10.1038/s41467-019-12630-7

图: SCALE模型概览。SCALE采用一个编码器（encoder）和解码器（decoder）组成的变分自编码器（VAE）框架，输入是peak×cell矩阵表示的单细胞数据（raw data），输出是提取的可以用于可视化（visualization）和聚类（clustering）的隐层特征z，以及消除了噪音并填补了缺失值的增强单细胞数据（enhanced data）。SCALE编码器是一个四层的神经网络，解码器是一个隐层特征z和增强数据直连的单层神经网络，隐层特征在流形空间被μ_c和σ_c^ 参数化的高斯混合模型所约束。

中国人群全基因组测序研究及北方汉族参考基因组建立

在人群中进行规模化的个体基因组序列与其临床表型的整合分析研究是精准医学的重要方向，将极大地促进探索和揭示个体从健康到疾病的发生发展过程中的相关分子机制及早期信号。面向我国精准医学研究的重大需求，2016年中国科学院北京基因组研究所牵头启动了中国科学院的中国人群精准医学研究计划（CASPMI），采用多平台结合的方法建立了高质量的中国北方汉族参比基因组NH1.0；同时根据前期对近600名参加个体的全基因组深度测序，建立了中国人群的全基因组遗传变异图谱，鉴定了中国人群（东亚人群）特异性高频多态位点。结合基因型-表型关联分析，发现位于编码组蛋白乙酰化转移酶基因KAT8的SNP位点rs1549293与男性腰围显著相关；通过中国南北方人群的遗传差异位点分析，提出叶酸代谢相关基因MHTFR上影响酶活的多态位点rs1801133的T等位基因（677T）在北纬35–45度之间存在一个高频区。这些研究成果将为中国精准医学研究提供重要支持。

该成果发表于《基因组蛋白质组与生物信息学报》期刊。

数据链接：

https://bigd.big.ac.cn/gsa/browse/CRA000631

https://bigd.big.ac.cn/gwh/Assembly/19/show

原文信息：

Du Z, Ma L, Qu H, Chen W, Zhang B, Lu X, et al. Whole genome analyses of Chinese population and de novo assembly of a Northern Han genome. Genomics Proteomics Bioinformatics 2019;17:229–47. PMID: 31494266.

原文链接：

https://doi.org/10.1016/j.gpb.2019.07.002

图：MHTFR多态位点rs1801133的T等位基因（677T）全球范围在北纬35–45度之间存在一个高频区带。

人体肠道可培养细菌参考基因组数据集及活体菌株库—CGR

高质量的参考基因组和活体菌株是深入研究疾病与肠道菌群相互作用机制的基础。为了完善并进一步扩充现有肠道菌株库和参考基因组数据集，深圳华大生命科学研究院肖亮、贾慧珏、李俊桦团队利用培养组学方法分离了超过6000株来自健康人体粪便样本的肠道细菌菌株，以其基因组数据为基础构建了1520株高质量的肠道细菌基因组数据集—Culturable Genome Reference （CGR），发现了338个物种分类群，其中超过三分之一是新的细菌物种。这项研究极大丰富了现有肠道微生物物种的多样性，将肠道微生物宏基因组分析、基因组SNP分析、功能分析和重要肠道菌的泛基因组分析提升到新维度，加深了人们对于人体肠道微生物的认知。这是首次通过大规模培养的技术手段获得如此多数量的活体菌株及相应的高质量细菌基因组数据。这一成果对于实现在菌株层面精准解析肠道微生物与疾病之间的关系具有重要的科研价值，也为微生物组的临床应用转化提供了宝贵的菌株资源支持。

该成果发表于《自然生物技术》期刊。

数据库链接：

https://db.cngb.org/cnsa/project/CNP0000126/public/

原文信息：

Zou Y, Xue W, Luo G, Deng Z, Qin P, Guo R, et al. 1,520 reference genomes from cultivated human gut bacteria enable functional microbiome analyses. Nat Biotechnol 2019;37:179–85. PMID: 30718868.

原文链接：

https://doi.org/10.1038/s41587-018-0008-8

图：肠道可培养细菌参考基因组（CGR）系统进化与功能分布概览。（左）基于CGR 中1520株肠道细菌全基因组数据的系统进化树；（右上）CGR 中1520株肠道细菌功能（基于KEGG数据库注释结果）分布图谱；（右下）CGR中38种代表性菌株泛基因组分析以及丁酸和抗生素抗性功能通路分布。

环形RNA精准定量和可变剪接体转换识别算法—CIRIquant

环形RNA是一类在真核生物中广泛存在的具有特殊环状结构的非编码RNA分子。能否从海量的测序数据中高效识别、组装和注释环形RNA及其不同形式的转录本，成为后续功能验证及表达调控机制研究的重要前提。中国科学院北京生命科学研究院赵方庆团队通过重构具有反向剪接特征的环形RNA参考序列，简化复杂的反向剪接位点比对问题，并结合测序读段比对到参考基因组和环形序列的结果，筛选出了高置信度的来自环形RNA的读段，解决了目前环形RNA识别和定量方法中准确度低和假阳性率高的问题。团队发现了两类环形RNA剪接体转换事件：线性/环形比例转换和成环位点使用偏好转换。该研究实现了对环形RNA及其母本基因的精确定量，为后续挖掘和筛选具有潜在功能的环形RNA提供了重要工具。

该成果发表于Nature Communications

工具链接：

https://sourceforge.net/projects/ciri

原文信息：

Jinyang Zhang, Shuai Chen, Jingwen Yang, Fangqing Zhao. Accurate quantification of circular RNAs identifies extensive circular isoform switching events. Nat Commun 2020; 11(1): 90.

原文链接：

https://www.nature.com/articles/s41467-019-13840-9

图：环形RNA的精确定量及剪接体转换的识别

环形RNA剪接过程中的两类环形RNA剪接体转换事件：线性/环形比例转换和成环位点使用偏好转换。

利用单细胞测序技术构建人类细胞图谱

长久以来，人体不同组织来源细胞的分析和鉴定，缺乏统一的标准，近几年涌现的单细胞测序技术有望建立一套系统性的细胞认知体系。浙江大学郭国骥团队通过高通量单细胞测序技术，分析了来自胎儿和成人共60种组织样品的70多万个细胞，绘制了全球第一张人类细胞图谱，首次从单细胞水平全面分析了涵盖八大系统的人体细胞种类，并揭示了一个普适性的哺乳动物细胞命运决定机制：细胞分化经历了一个从混乱到有序的发展过程。这项工作是人类细胞图谱计划的重要阶段性成果，描绘了人体细胞地图的基本框架，并定义了炎症上皮、炎症内皮及炎症基质等新细胞类型。人类细胞图谱计划将通过细胞数字化，极大地推动生物医学领域的基础与临床研究。

该成果发表于Nature

工具链接：

http://bis.zju.edu.cn/HCL/

或 https://db.cngb.org/HCL/

原文信息：

Xiaoping Han, Ziming Zhou, Lijiang Fei, Huiyu Sun, Renying Wang, Yao Chen, et al. Construction of a human cell landscape at single-cell level. Nature 2020; 581(7808): 303–9.

原文链接：

https://doi.org/10.1038/s41586-020-2157-4

图：涵盖人体各类组织细胞的首版人类细胞图谱

国家基因组科学数据中心建成生命健康多维数据资源体系

基因数据是国家重要基础性战略资源。针对我国基因组科学数据“存管用”的实际需求，解决数据安全、数据主权、数据孤岛等重大问题，中国科学院北京基因组研究所（国家生物信息中心）、上海营养与健康研究所和生物物理研究所在科技部、财政部支持下共同建设“国家基因组科学数据中心”（NGDC），面向我国人口健康、生物安全和重要战略生物资源，建立基因组科学数据汇交共享平台和多维组学数据资源系统，支撑我国科研项目数据的统一汇交和安全管理，形成基因组科学数据−信息−知识的多层次资源体系，为我国公益性科学研究与产业创新发展提供基础数据资源和共享平台。

该成果发表于Nucleic Acids Research

数据库链接：

https://bigd.big.ac.cn

原文信息：

National Genomics Data Center Members and Partners. Database resources of the National Genomics Data Center in 2020. Nucleic Acids Res 2020; 48(D1): D24–33.

原文链接：

https://doi.org/10.1093/nar/gkz913

图：国家基因组科学数据中心核心数据资源

基于模糊布鲁因组装图的基因组组装算法—wtdbg2

如何快速准确地组装全基因组序列是第三代测序数据一直面临的难题。中国农业科学院农业基因组研究所阮珏与美国哈佛医学院李恒合作开发了基因组组装算法工具wtdbg2，将三代测序数据的组装效率提升4倍以上。在这项工作中，测序序列被切分为长度为256个碱基的单元块，进而以单元块为最小标识单位，构造了模糊布鲁因组装图。与经典的德布鲁因组装图相比，模糊布鲁因组装图具有摘要、稀疏等特性，充分发挥了序列长度在序列唯一性标识中的作用。基于模糊布鲁因组装图开发的算法工具wtdbg2可以直接处理未纠错的三代测序序列，并且在处理效率上处于领域前列。

该成果发表于Nature Methods

工具链接：

https://github.com/ruanjue/wtdbg2

原文信息：

Jue Ruan, Heng Li. Fast and accurate long-read assembly with wtdbg2. Nat Methods 2020; 17(2): 155–8.

原文链接：

https://www.nature.com/articles/s41592-019-0669-3

图：wtdbg2组装示意

每个小条块代表长度为256个碱基

基于人工智能度量学习的单细胞类型鉴定新方法—scLearn

随着海量的已标注细胞类型的单细胞转录组测序数据增多，利用这些数据作为参考数据集来鉴定新测序的细胞正成为一种细胞注释的新思路。现有的方法普遍存在两个不足：一是往往不能同时有效鉴定参考数据集中存在和缺失的细胞类型；二是鲁棒性不佳，无法适用于多个来源的数据集。同济大学刘琦团队基于人工智能度量学习，开发了单细胞类型鉴定新方法scLearn，提供了包含人类、小鼠在内的多个组织器官的预训练的完整参考数据集，对单标签以及多标签的细胞类型鉴定均适用，为有效利用海量的单细胞测序数据进行细胞类型鉴定提供了可借鉴的工具和资源。

该成果发表于Science Advances

工具链接：

https://github.com/bm2-lab/scLearn

原文信息：

Bin Duan, Chenyu Zhu, Guohui Chuai, Chen Tang, Xiaohan Chen, Shaoqi Chen, et al. Learning for single-cell assignment. Sci Adv 2020; 6(44): eabd0855.

原文链接：

https://doi.org/10.1126/sciadv.abd0855

图：scLearn工作框架

实验验证的microRNA靶基因数据库—miRTarBase

MicroRNA（miRNA）是一类不编码蛋白质的遗传信息分子，在细胞分化、生物发育及疾病发生发展中发挥巨大作用。因此，揭示miRNA介导的遗传信息传递方式、靶基因和调控网络尤为重要。香港中文大学（深圳）黄宪达、李宗夷团队与深圳市龙岗区妇幼保健院魏凤香团队构建了迄今为止最完整的miRNA与靶基因交互作用（MicroRNA-Target Interaction，MTI）数据库（miRTarBase）。该数据库收录了提供实验证据支持MTI的文章共计超过10,000篇，涉及来自32个物种的23,426个靶基因。随着CLIP-seq数据集的增加，目前miRTarBase 涵盖的MTI数量将近480,000个。通过自然语言技术搜集更全面的靶向关系及网络功能和注释信息，高度整合有用数据内容，并改善miRNA调控和存在的相关信息，miRTarBase为使用者提供更高效的体验。藉由miRNA调控靶基因信息与表现趋势，解析miRNA在调控特定生物代谢路径与不同癌症或复杂疾病的致病机制全貌。

该成果发表于Nucleic Acids Research

数据库链接：

http://mirtarbase.cuhk.edu.cn/

原文信息：

Hsi-Yuan Huang, Yang-Chi-Dung Lin, Jing Li, Kao-Yao Huang, Sirjana Shrestha, Hsiao-Chin Hong, et al. miRTarBase 2020: updates to the experimentally validated microRNA-target interaction database. Nucleic Acids Res 2020; 48(D1): D148–54.

原文链接：

https://doi.org/10.1093/nar/gkz896

图：miRTarBase 2020 数据实现与亮点

miRTarBase 2020 通过整合自然语言处理技术、多组学实验数据与重要生物数据库，全面构建最完整的miRNA交互作用调控网络。

新冠肺炎临床信息综合数据库与人工智能诊断系统—iCTCF & HUST-19

新冠肺炎患者的临床数据整合和建模，能够为后续的临床决策提供重要的参考信息。华中科技大学王征、薛宇、王琳、史河水和曾玉兰团队，通过合作收集、整合和注释1500多例新冠肺炎患者的胸部CT影像和临床诊断大数据，构建了综合数据库iCTCF，数据容量为265.1 GB。在此基础上，团队设计了“基于混合学习的新冠无偏预测”人工智能诊断软件HUST-19，实现CT影像学和临床诊断数据的高效融合。该系统不仅可准确判断患者是否罹患新冠肺炎，还可以精确预测病情的严重程度以及潜在的死亡风险。iCTCF和HUST-19的相关数据和工具已无偿移交国家生物信息中心，有力地支持了我国抗疫相关的重大战略需求。

该成果发表于Nature Biomedical Engineering

数据库链接：

http://ictcf.biocuckoo.cn/

或https://bigd.big.ac.cn/ictcf

原文信息：

Wanshan Ning, Shijun Lei, Jingjing Yang, Yukun Cao, Peiran Jiang, Qianqian Yang, et al. Open resource of clinical data from patients with pneumonia for the prediction of COVID-19 outcomes via deep learning. Nat Biomed Eng 2020; 4(12): 1197–207.

原文链接：

https://www.nature.com/articles/s41551-020-00633-5

图: 基于混合学习的新冠无偏预测框架HUST-19

HUST-19包括一个用于预测单个CT切层的13层卷积神经网络框架，一个将基于单个切层预测转换为基于患者临床预后预测的13层卷积神经网络框架，一个利用新冠肺炎患者临床诊断信息预测患者临床预后的7层深度神经网络框架，和基于CT影像和临床诊断结果整合的惩罚逻辑回归算法，从而综合预测患者病情严重程度和死亡风险。

新冠病毒传播动力学模型—SAPHIRE

传染病模型研究对防控效果评估、揭示病毒传播特征、早期预警和防控政策制定具有重要价值。华中科技大学王超龙、邬堂春团队联合美国哈佛大学林希虹，基于经典的SEIR模型，结合病人出现症状前就具备传染性、大量感染者由于症状轻微而不易被发现等特征，并考虑人口流动和干预强度在不同阶段的变化，提出了命名为SAPHIRE的动力学模型，对武汉市新冠疫情流行曲线进行拟合分析，揭示了病毒的高传染性和高隐蔽性，并提示过早解除防控措施将大大增加疫情再次爆发的风险，为中国乃至全球的疫情防控政策制定提供了重要科学参考。

该成果发表于Nature

工具链接：

https://github.com/chaolongwang/SAPHIRE

原文信息：

Xingjie Hao, Shanshan Cheng, Degang Wu, Tangchun Wu, Xihong Lin, Chaolong Wang. Reconstruction of the full transmission dynamics of COVID-19 in Wuhan. Nature 2020; 584(7821): 420–4.

原文链接：

https://www.nature.com/articles/s41586-020-2554-8

图：SAPHIRE动力学模型示意图

S代表易感人群，E代表潜伏期无传染性的感染者，P代表潜伏期有传染性的感染者，I为出现症状且被确诊的患者，A为未确诊患者，H为被隔离患者，R为康复或死亡人群。（a）SAPHIRE模型的不同人群（也称为“仓室”）之间的关系，其中b和r分别代表病毒的传染力和感染者的确诊率，是模型的主要参数，在不同阶段取值变化反映不同时间阶段综合干预措施的强度变化。（b）新冠感染者的病程及相关参数示意图。

单细胞转录组整合检索方法—Cell BLAST

作为细胞异质性研究的重要工具，近年来单细胞转录组测序技术蓬勃发展，产生了大量数据。为有效利用这些宝贵数据，北京大学高歌团队开发了单细胞转录组数据整合检索方法Cell BLAST。类比于生物序列研究中的BLAST算法，Cell BLAST可以准确快速地对新产生的单细胞数据在已有数据库中进行检索并注释，在节省了传统根据marker基因手动注释所需时间成本的同时，降低了人工操作可能引入的错误。Cell BLAST算法通过对抗学习有效地解决了单细胞转录组检索中复杂的多层次批次效应问题，并基于对单细胞测量过程内在随机性的刻画，提出了一个新的相似性度量指标NPD，可以有效应用于单细胞跨数据集整合检索和比较分析。为了充分发挥Cell BLAST的检索能力和作用，团队进一步自主构建了涵盖了多组织器官的跨物种单细胞转录组参考数据库ACA，并通过网页提供在线服务(https://cblast.gao-lab.org)。该工作为有效利用现有数据进行细胞注释和跨数据集研究提供了新的工具和资源，也展示了计算生物学、生物信息学方法在复杂生物学体系研究中的强大支撑作用。

该成果发表于Nature Communications

工具链接：

https://cblast.gao-lab.org

原文信息：

Zhi-Jie Cao, Lin Wei, Shen Lu, De-Chang Yang, Ge Gao. Searching large-scale scRNA-seq databases via unbiased cell embedding with Cell BLAST. Nat Commun 2020; 11(1): 3458.

原文链接：

https://doi.org/10.1038/s41467-020-17281-7

图：单细胞转录组检索方法Cell BLAST的工作流程

Cell BLAST首先将待查询数据与ACA数据库中的参考数据同时映射到低维细胞嵌入空间，在该空间中通过对抗学习消除多层次批次效应，并基于对单细胞测量过程内在随机性的刻画，使用NPD距离查询参考数据中与查询数据最相似的细胞，最后利用查询结果进行多角度注释。

2019新型冠状病毒信息库（2019nCoVR）及新冠病毒基因组、变异及单体型全景及演化

随着新冠病毒的全球大流行，新冠病毒基因组序列信息的实时整合与共享，序列变异的快速解析及动态演变监测有助于加速科学研究和知识发现，对医疗对策和防控决策的制定具有重要指导意义。中国科学院北京基因组研究所（国家生物信息中心）国家基因组科学数据中心新冠攻关团队实现了全球新冠病毒基因组数据信息的汇聚及质量评估，建立了新冠序列实时整合及变异时空动态变化的监测平台，构建了全球新冠病毒的单倍体型网络，实现了病毒演化谱系的实时追踪和变化监测，为新冠病毒的分子溯源、新冠疫情的科学防控提供了关键技术支撑与决策依据。

该成果发表于Genomics, Proteomics & Bioinformatics

数据库链接：

https://bigd.big.ac.cn/ncov/

原文信息：

Shuhui Song, Lina Ma, Dong Zou, Dongmei Tian, Cuiping Li, Junwei Zhu, et al. The global landscape of SARS-CoV-2 genomes, variants, and haplotypes in 2019nCoVR. Genomics Proteomics Bioinformatics 2020.

原文链接：

https://doi.org/10.1016/j.gpb.2020.09.001

图：新冠病毒基因组序列变异及单体型演变监测

（A）序列突变群体发生率随时间的动态演变。（B）基因组单体型的时空演变。

3D基因组研究发现人类大脑发育独特遗传元件和调控机制

人类大脑起源于漫长的生命进化过程。哪些遗传改变造就了人类大脑是国际科学界长期力图回答的前沿科学问题。中国科学院昆明动物研究所宿兵团队与北京大学李程团队及中国科学院数学与系统科学研究院张世华团队合作，构建了猕猴胎脑高分辨率大脑3D基因组图谱。通过跨物种进化分析，他们发现了人类特有的染色质空间结构和脑发育调控元件，证明了人类已进化出更为精细的脑发育调控网络。该研究为阐明人类大脑特异表型的遗传机制提供了全新的线索。同时，该研究中产生的猕猴神经发育高峰期的表观多组学数据，为后续猕猴功能基因组的注释以及人类脑疾病的研究提供了极具价值的参考数据资源。

该成果发表于Cell。

数据链接：

https://ngdc.cncb.ac.cn/gsa/browse/CRA001934

原文信息：

Luo X, Liu Y, Dang D, Hu T, Hou Y, Meng X, et al. 3D genome of macaque fetal brain reveals evolutionary innovations during primate corticogenesis. Cell 2021;184:723–40. PMID: 33508230

原文链接：

https://www.sciencedirect.com/science/article/pii/S0092867421000015

长按阅读原文

图：高分辨猕猴胎脑3D基因组图谱的构建及跨物种染色质结构进化解析发现人类特异调控元件影响神经细胞的树突发育

• 基于4D活体成像绘制秀丽线虫转录因子的单细胞空间蛋白表达图谱

阐明每个细胞的蛋白表达及功能状态是理解发育的重要切入点。中国科学院遗传与发育生物学研究所杜茁团队利用荧光报告品系，综合活体成像、实时谱系追踪和单细胞定量分析，实现了在原位以非侵入的方式解析转录因子在各个胚胎细胞的蛋白动态表达模式，并同时明确了细胞的谱系身份、空间定位及发育命运。基于图谱，研究构建了时空调控通路，揭示了转录因子新功能，归纳了细胞命运多维调控的基本框架，发现了细胞调控状态呈现高度动态性和多样性，并提出了其随发育转变的非定向“绕路”模型。该研究为理解胚胎发育提供了“高精度导航图”，推动了单细胞-全胚胎-多维度的发育定量生物学与系统生物学研究。

该成果发表于Nature Methods。

数据库链接：

http://dulab.genetics.ac.cn/TF-atlas/

原文信息：

Ma X, Zhao Z, Xiao L, Xu W, Kou Y, Zhang Y, et al. A 4D single-cell protein atlas of transcription factors delineates spatiotemporal patterning during embryogenesis. Nat Methods 2021;18:893–902. PMID: 34312566

原文链接：

https://www.nature.com/articles/s41592-021-01216-1

长按阅读原文

图：转录因子单细胞蛋白动态表达图谱揭示发育图式建立的分子调控基本框架

• 中国脑胶质瘤基因组图谱计划数据库—CGGA

脑胶质瘤作为成人最常见的、极难治疗的颅内恶性肿瘤，其基于多维组学的遗传特征和生物学功能亟待挖掘和研究。北京市神经外科研究所、北京天坛医院江涛/保肇实团队，针对中国人群，构建了大规模多中心中国脑胶质瘤基因组图谱计划数据库（CGGA）。该数据库拥有全球范围内覆盖全面病理亚型的脑胶质瘤样本，包括低级别、高级别、复发脑胶质瘤等。最长随访时间逾15年。其中2000余例样本的多维组学数据已实现云储存和共享下载，包括全外显子组、转录组、表观遗传组学数据、单细胞数据等。CGGA网站还可实现数据的在线分析，并提供用户友好的可视化分析工具。该数据库为目前国际上脑胶质瘤病理类型最全面、种类独特的脑胶质瘤临床样本最多的多维组学数据库。

该成果发表于Genomics, Proteomics & Bioinformatics。

数据库链接：

http://cgga.org.cn/

原文信息：

Zhao Z, Zhang KN, Wang Q, Li G, Zeng F, Zhang Y, et al. Chinese Glioma Genome Atlas (CGGA): a comprehensive resource with functional genomic data from Chinese glioma patients. Genomics Proteomics Bioinformatics 2021;19:1–12. PMID: 533662628

原文链接：

https://www.sciencedirect.com/science/article/pii/S1672022921000450?via%3Dihub

长按阅读原文

图：CGGA数据库开发结构示意图及功能实现

• 基于纳米孔测序的环形RNA识别和全长重建方法—CIRI-long

环形RNA是一类在真核生物中广泛存在的环状转录本，在生物体内通过其序列特征发挥微小RNA海绵、RNA结合蛋白（RBP）海绵及翻译小肽等重要的生物学功能。因此，确定环形RNA的全长序列，是研究环形RNA功能的重要基础。中国科学院北京生命科学研究院赵方庆团队通过结合滚环反转录扩增和三代纳米孔测序技术，开发了高效测定环形RNA全长转录本的实验与计算方法CIRI-long，解决了目前研究方法中难以区分环形RNA与线性mRNA来源读段的问题，实现了不同长度环形RNA的高灵敏度检测和内部结构重构。利用该方法，研究团队鉴定到了大量环形RNA内部的可变剪接事件，并对来自线粒体基因组、相邻基因转录通读以及内含子自连产生的环形RNA分子进行了全面识别。该方法实现了环形RNA的高效识别与全长重构，为挖掘具有生物学功能的环形RNA提供了重要的研究工具。

该成果发表于Nature Biotechnology。

工具链接：

https://github.com/bioinfo-biols/CIRI-long

原文信息：

Zhang J, Hou L, Zuo Z, Ji P, Zhang X, Xue Y, et al. Comprehensive profiling of circular RNAs with nanopore sequencing and CIRI-long. Nat Biotechnol 2021;39:836–45. PMID: 33707777

原文链接：

https://www.nature.com/articles/s41587-021-00842-6

长按阅读原文

图：环形RNA的准确识别及全长重构

环形RNA的实验富集（A），全长识别（B），类型注释及多样本数据整合分析（C）。

• 单细胞转录组测序揭示COVID-19感染与免疫重要机制

新冠（COVID-19）疫情爆发伊始，北京大学、首都医科大学附属北京佑安医院、中国科学院生物物理研究所、中国科学技术大学、深圳第三人民医院、上海交通大学、海军军医大学、中国人民解放军总医院第五医学中心、粤北人民医院、武汉大学人民医院、中国医学科学院血液病医院（血液学研究所）、陆军军医大学、哈尔滨工业大学、中山大学、广州生物岛实验室、深圳湾实验室等40多家科研单位迅速组建了“新冠单细胞研究中国联盟”，对轻症、重症COVID-19病人包括健康对照的外周血、肺泡灌洗液等不同类型样本进行了单细胞转录组测序和生物信息分析。研究发现，新冠病毒核酸在上皮细胞与巨噬细胞、中性粒细胞、T细胞等多种免疫细胞中均可检出，且具有亚基因组转录的特点，提示新冠病毒在人体中具有广泛的宿主细胞谱。配体-受体分析显示，感染新冠病毒后纤毛上皮细胞倾向于脱落，而鳞状样上皮细胞会上调S100A8/9、ANXA1等因子的基因表达，通过与TLR4、FPR1相互作用过度招募巨噬细胞与中性粒细胞从而导致肺炎。本研究还揭示COVID-19病人外周血中存在一群高表达S100A8/9、CCL3等细胞因子基因的单核细胞，是导致细胞因子风暴的重要源头。这些发现对认识和控制新冠疫情具有重要指导意义。

该成果发表于Cell。

数据链接：

https://ngdc.cncb.ac.cn/gsa-human/browse/HRA001149

原文信息：

Ren X, Wen W, Fan X, Hou W, Su B, Cai P, et al. COVID-19 immune features revealed by a large-scale single-cell transcriptome atlas. Cell 2021;184:1895–1913.e19. PMID: 33657410

原文链接：

https://www.sciencedirect.com/science/article/pii/S0092867421001483?via%3Dihub

长按阅读原文

图：单细胞转录组测序揭示新冠肺炎重要感染与免疫机制

中心：实验设计与样本类型；左上：外周血中不同免疫细胞与疾病严重程度、年龄、性别等存在不同关联；右上：上皮细胞与免疫细胞中可检出新冠病毒核酸；左下：鳞状样上皮细胞在招募巨噬细胞中性粒细胞中的关键作用；右下：细胞因子风暴的潜在来源。

• 国家基因组科学数据中心建成多组学数据资源体系

基因组科学数据是人口健康和国家安全的重要战略资源。为存好、管好和用好基因组科学数据，中国科学院北京基因组研究所（国家生物信息中心）国家基因组科学数据中心（China National Center for Bioinformation -the National Genomics Data Center，CNCB-NGDC）面向国家大数据和健康中国战略，建成涵盖国家人类遗传资源和重要战略生物资源的多组学数据资源体系，解决了长期以来我国基因组科学数据汇交共享严重依赖国际数据库的问题，为国家基因组科学数据的汇交共享、安全管理和挖掘利用提供重要支撑。

该成果发表于Nucleic Acids Research。

数据库链接：

https://ngdc.cncb.ac.cn

原文信息：

CNCB-NGDC Members and Partners. Database resources of the National Genomics Data Center, China National Center for Bioinformation in 2021. Nucleic Acids Res 2021;49:D18–8. PMID: 33175170

原文链接：

https://academic.oup.com/nar/article/49/D1/D18/5974090

长按阅读原文

图：国家生物信息中心-国家基因组科学数据中心数据资源（2021）

• 杂交马铃薯的基因组设计

为了解决马铃薯产业面临的育种周期长、薯块繁殖成本高的问题，在前期克服了自交不亲和和解析自交衰退的遗传机制的基础上，中国农业科学院农业基因组研究所黄三文研究团队联合云南师范大学等国内外优势单位，运用“基因组设计”的理论和方法体系培育杂交马铃薯，用二倍体育种替代四倍体育种，最终获得优良的杂交种子，颠覆了传统的薯块繁殖方式。该研究培育出第一代高纯合度（> 99%）自交系，以及具有显著的产量杂种优势的杂交品系“优薯1号”，证明了杂交马铃薯育种的可行性，使马铃薯的遗传改良取得了里程碑式突破。

该成果发表于Cell。

数据链接：

https://www.ncbi.nlm.nih.gov/bioproject/PRJNA641265/;

https://bigd.big.ac.cn/gvm/getProjectDetail?Project=GVM000101;

https://github.com/DieTANG/PiGBS_Pipeline

原文信息：

Zhang C, Yang Z, Tang D, Zhu Y, Wang P, Li D, et al. Genome design of hybrid potato. Cell 2021;184:3873–83.e12. PMID: 34171306

原文链接：

https://www.sciencedirect.com/science/article/pii/S0092867421007078?via%3Dihub

长按阅读原文

图: 杂交马铃薯的基因组设计原理图

• 基于细胞内RNA结构预测蛋白质–RNA动态相互作用的人工智能方法—PrismNet

RBP在RNA分子的整个生命周期包括转录、代谢、翻译以及降解等过程中动态结合RNA分子，对RNA分子的命运起着关键调控作用。清华大学张强锋团队基于细胞内RNA结构与对应细胞环境的RBP结合信息的耦合关系，建立了利用细胞内RNA结构信息预测细胞内RBP动态结合的人工智能新方法PrismNet。对于任意一个RBP，只要在某一种细胞环境下做了crosslinking and immunprecipitation（CLIP）实验，PrismNet就可以通过构建准确的深度神经网络模型，把结合信息外推到其他细胞环境中。在PrismNet的一个应用研究中，利用新冠病毒在宿主细胞内的RNA结构信息，研究组准确预测了多个新冠病毒的宿主结合蛋白，证明了PrismNet的广阔应用前景。

该成果发表于Cell Research。

工具链接：

http://prismnetweb.zhanglab.net/

原文信息：

Sun L, Xu K, Huang W, Yang YT, Li P, Tang L, et al. Predicting dynamic cellular protein–RNA interactions by deep learning using in vivo RNA structures. Cell Res 2021;31:495–516. PMID: 33623109

原文链接：

https://www.nature.com/articles/s41422-021-00476-y

长按阅读原文

图：PrismNet模型构建以及应用

• 基于深度学习和基因指纹的药效预测系统—DLEPS

创新药物研发是一个周期长、耗费大的艰难过程。在药物研发方面，人工智能/深度学习（AI制药）被寄予厚望。北京大学谢正伟、郑瑞茂、张宁和周虹联合研究团队首先构建了一个神经网络，使用简化分子线性输入规范（SMILES）化学编码作为输入，以预测L1000数据中测量的转录组变化。然后使用疾病相关基因指纹来反映特定疾病的“内在痕迹”，通过基因集合富集分析（GSEA）来评估化合物对疾病的潜在疗效。研究人员将这种方法和模型称为基于深度学习的药效预测系统 (DLEPS; 中文名为灵素系统)。研究员人员针对商用小分子数据库预测了治疗三种常见慢性病的化合物，并进行了实验验证，在每种疾病研究方向都发现了疗效优越的小分子。该系统是国际上第一款药效预测系统，受到国际同行的高度评价和广泛关注。

该成果发表于Nature Biotechnology。

工具链接：

https://www.dleps.tech/dleps/index;

https://github.com/kekegg/DLEPS

原文信息：

Zhu J, Wang J, Wang X, Gao M, Guo B, Gao M, et al. Prediction of drug efficacy from transcriptional profiles with deep learning. Nat Biotechnol 2021;39:1444–52. PMID: 34140681

原文链接：

https://www.nature.com/articles/s41587-021-00946-z

长按阅读原文

图：深度神经网络的结构和原理图以及DLEPS在肥胖、尿酸血症和非酒精性脂肪性肝炎中的应用效果

• 空间单细胞核代谢组分析技术—SEAM

机体中的代谢分子可以显著影响基因表达，最终改变细胞命运。因此，在组织原位观测细胞核中的代谢组特征对认识机体发育、肿瘤发生发展、神经系统衰老等生命过程至关重要。结合高空间分辨率成像质谱技术和人工智能算法，清华大学张奇伟、张新荣、陈阳（现单位北京协和医学院）带领跨学科交叉合作团队在国际上首次建立了空间单细胞核代谢组技术SEAM。该技术可定位单个细胞在组织空间中的位置、区分每个细胞相关代谢物的指纹图谱差异、确定重要代谢物的分子组成，推动“空间代谢组技术进入了亚细胞时代”。

该成果发表于Nature Methods。

方法链接：

https://github.com/yuanzhiyuan/SEAM/

原文信息：

Yuan Z, Zhou Q, Cai L, Pan L, Sun W, Qumu S, et al. SEAM is a spatial single nuclear metabolomics method for dissecting tissue microenvironment. Nat Methods 2021;18:1223–32. PMID：34608315

原文链接：

https://www.nature.com/articles/s41592-021-01276-3

长按阅读原文

图：空间单细胞核代谢组分析技术SEAM

数据驱动的蛋白质从头设计

蛋白质从头设计可以打破自然进化的约束，按需设计自然界不存在的具有特定空间结构和预期功能的蛋白质，在生物医药、绿色制造等领域具有广阔的应用前景。中国科学技术大学刘海燕、陈泉团队基于数据驱动原理建立用人工神经网络表示的统计能量模型，首次实现并实验验证能够在氨基酸序列待定的前提下连续广泛地搜索主链结构空间，自动产生有高可设计性的主链结构，通过此设计路线成功设计多个自然界不存在的全新结构的人工蛋白，建立了一条全新的蛋白设计路线。该工作实现了关键核心技术的原始创新，为按需设计功能蛋白奠定了坚实的基础。

该成果发表于Nature

图：用SCUBA模型进行蛋白质设计的原理

数据链接

https://www.wwpdb.org/pdb?id=pdb_00007dmf

https://www.wwpdb.org/pdb?id=pdb_00007dkk

https://www.wwpdb.org/pdb?id=pdb_00007dko

https://www.wwpdb.org/pdb?id=pdb_00007dgu

https://www.wwpdb.org/pdb?id=pdb_00007dgw

https://www.wwpdb.org/pdb?id=pdb_00007dgy

https://www.wwpdb.org/pdb?id=pdb_00007fbb

https://www.wwpdb.org/pdb?id=pdb_00007fbc

https://www.wwpdb.org/pdb?id=pdb_00007fbd

工具链接

https://doi.org/10.5281/zenodo.4533424

原文信息

Huang B, Xu Y, Hu X, Liu Y, Liao S, Zhang J, et al. A backbone-centred energy function of neural networks for protein design. Nature 2022;602:523–8. PMID: 35140398.

原文链接

https://www.nature.com/articles/s41586-021-04383-5

▲ 长按阅读原文

丰富注释的赖氨酸修饰数据库——CPLM 4.0

蛋白质赖氨酸修饰是重要的蛋白质翻译后修饰之一，它通过修饰基团共价偶联到底物蛋白的特定赖氨酸位点上，进而影响生物体内的多种生理病理过程。华中科技大学薛宇团队构建的第四版赖氨酸修饰数据库中，整理了文献及其他8个翻译后修饰位点数据库中的数据，将收录的赖氨酸修饰信息条目拓展至592,606条，其中包含新收录的9种重要赖氨酸修饰类型。至此，CPLM 4.0 整合了219个物种中的29种赖氨酸修饰，共包含463,156个鉴定的赖氨酸修饰位点。此外，团队利用105个公共数据库为这些收录的赖氨酸修饰蛋白质作了详细的注释，为研究者提供了全面整合的综合信息。

该成果发表于Nucleic Acids Research

图：CPLM 4.0 收录数据

数据库链接

https://cplm.biocuckoo.cn/

原文信息

Zhang W, Tan X, Lin S, Gou Y, Han C, Zhang C, et al. CPLM 4.0: an updated database with rich annotations for protein lysine modifications. Nucleic Acids Research 2022;50:D451–9. PMID: 34581824.

原文链接

https://academic.oup.com/nar/article/50/D1/D451/6377396

▲ 长按阅读原文

全球生物数据库目录——Database Commons

生物数据库作为全球各类生命科学研究的基础支撑，极大促进了大数据向知识的转化，并推动了众多研究领域的重要创新。为建立全球生物数据库目录，中国科学院北京基因组研究所（国家生物信息中心）章张、马利娜团队构建了Database Commons数据库。该团队联合国内外多家科研机构，历经7年多的时间开展数据积累和功能完善，基于8992篇文献，审编了分布于72个国家/地区的由1992个机构开发的5899个生物数据库。同时，设计了z-index用于评估数据库的科学影响，并根据数据库文章引用和z-index对所有生物数据库及其隶属机构和国家进行排名。因此，Database Commons提供了全球生物数据库的系列统计数据和趋势，为更好地了解数据库发展态势及其对生命健康科学的影响提供全球视角。

该成果发表于Genomics, Proteomics & Bioinformatics

图：Database Commons数据库内容概要（统计信息截至2023年2月28日）

数据库链接

https://ngdc.cncb.ac.cn/databasecommons/

原文信息

Ma L, Zou D, Liu L, Shireen H, Abbasi AA, Bateman A, et al. Database Commons: a catalog of worldwide biological databases. Genomics, Proteomics & Bioinformatics 2022;DOI: 10.1016/j.gpb.2022.12.004. PMID: 36572336.

原文链接

https://www.sciencedirect.com/science/article/pii/S1672022922001693?via%3Dihub

▲ 长按阅读原文

基于空间转录组的生物组织亚结构解析新工具——STAGATE

空间转录组学技术的重大进展使研究人员得以在全基因组层面测量组织切片中特定空间位点的基因表达信息。精确破译空间域是空间转录组数据解析中最基本和关键的环节。然而，现有方法并没有充分利用数据的空间位置信息，导致识别结果极易受到技术噪音的影响。中国科学院数学与系统科学研究院张世华团队针对不同空间转录组技术、不同生物组织建立了破译生物组织空间亚结构的人工智能算法与工具——STAGATE。随着空间转录组技术的日益进步、推广和数据的不断积累，该方法为解析空间数据提供了一个综合高效的工具，将对大规模空间转录组数据的精确解析提供助力。

该成果发表于Nature Communications

图：STAGATE算法的工作原理示意图

工具链接

https://github.com/zhanglabtools/STAGATE

https://doi.org/10.5281/zenodo.6330702

原文信息

Dong K, Zhang S. Deciphering spatial domains from spatially resolved transcriptomics with an adaptive graph attention auto-encoder. Nature Communications 2022;13:1739. PMID:35365632.

原文链接

https://www.nature.com/articles/s41467-022-29439-6

▲ 长按阅读原文

基于人工智能神经网络的基因组解读系统——Nvwa

预测基因表达和解析基因调控机制一直是基因组学的重要目标。浙江大学郭国骥、韩晓平和王晶晶团队利用自主构建的高通量单细胞测序平台Microwell-seq绘制了斑马鱼、果蝇和蚯蚓的全身单细胞转录组图谱，并探究了八种代表性后生动物细胞类型的跨物种可比性。团队进一步提出了深度学习模型Nvwa（女娲），首次完全基于基因组序列实现了单细胞分辨率下的基因表达预测，学习了谱系特异性调控基序，并解析了各组织细胞类型的调节程序。团队基于Nvwa模型Filter的跨物种比较，发现同源Filter倾向于保持细胞类型的特异性。该工作首次建立了物种层面基因组编码细胞图谱的整合模型，并为解码多物种基因调控程序和预测元件突变表型提供了宝贵资源。

该成果发表于Nature Genetics

图：深度学习模型Nvwa（女娲）

数据链接

https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE178151

https://figshare.com/s/ecc05b1051fb5678fd3e

http://bis.zju.edu.cn/nvwa

工具链接

https://github.com/JiaqiLiZju/Nvwa/

https://zenodo.org/record/6806748

原文信息

Li J, Wang J, Zhang P, Wang R, Mei Y, Sun Z, et al. Deep learning of cross-species single-cell landscapes identifies conserved regulatory programs underlying cell types. Nature Genetics 2022;54:1711–20. PMID: 36229673.

原文链接

https://www.nature.com/articles/s41588-022-01197-7

▲ 长按阅读原文

肝癌免疫微环境亚型和中性粒细胞异质性

免疫微环境异质性是肿瘤耐药和转移的重要原因之一；系统探究免疫微环境的异质性规律对治疗选择、疗效预测及新靶点开发意义重大。北京大学张宁、张泽民和朱继业团队合作，综合利用单细胞测序、空间转录组测序和外显子测序对189个人和小鼠肝癌样本的微环境进行分析。该研究首次在单细胞精度刻画了肝癌的五种免疫微环境亚型并命名为TIMELASER分型系统，揭示其细胞组成、空间分布、驱动突变、趋化因子网络和预后相关性。该研究也首次揭示肝癌的中性粒细胞异质性，阐明CCL4阳性和PD-L1阳性的肿瘤相关中性粒细胞的促肿瘤机制，最终通过构建新的小鼠自发肝癌动物模型证明靶向肿瘤相关中性粒细胞有望形成新的肝癌治疗策略。

该成果发表于Nature

图：肝癌免疫微环境TIMELASER分型系统和中性粒细胞异质性

数据链接

https://ngdc.cncb.ac.cn/bioproject/browse/PRJCA007744

工具链接

http://meta-cancer.cn:3838/scPLC/

https://github.com/meta-cancer/scPLC

原文信息

Xue R, Zhang Q, Cao Q, Kong R, Xiang X, Liu H, et al. Liver tumour immune microenvironment subtypes and neutrophil heterogeneity. Nature 2022;612:141–7. PMID: 36352227.

原文链接

https://www.nature.com/articles/s41586-022-05400-x

▲ 长按阅读原文

单细胞多组学数据整合与调控推断算法——GLUE

单细胞多组学研究对于精确解析细胞状态与基因调控机制具有重要意义，但由于不同组学特征空间不同、异质性强，单细胞多组学数据的整合分析面临挑战。为解决这一问题，北京大学/昌平实验室高歌团队提出基于生成-对抗学习的图耦联策略，通过直接对调控关系进行建模以实现跨组学特征在隐空间的自适应关联。以此为基础开发的GLUE算法首次实现了统一框架下百万级非配对单细胞多组学数据的无监督整合与同步调控推断，可广泛应用于包括基因表达、染色质开放性、DNA甲基化等多种组学数据的分析挖掘。

该成果发表于Nature Biotechnology

图：GLUE模型的结构示意图

工具链接

https://github.com/gao-lab/GLUE

原文信息

Cao ZJ, Gao G. Multi-omics single-cell data integration and regulatory inference with graph-linked embedding. Nature Biotechnology 2022;40:1458–66. PMID: 35501393.

原文链接

https://www.nature.com/articles/s41587-022-01284-4

▲ 长按阅读原文

Stereo-seq绘制高精度生命全景时空基因表达地图

细胞是生命的基本功能单元。细胞类型、定位和细胞间通讯的分析对于理解器官功能、个体发育、人类疾病和物种器官演化至关重要。华大生命科学研究院汪建、徐讯主导的团队联合中国科学院广州生物医药与健康研究院、郑州大学、深圳湾实验室、广东省基因组读写实验室等多家机构基于自主DNA纳米球测序技术，研发了高精度大视场空间转录组技术Stereo-seq，将认识生命的分辨率推进到了500 nm的亚细胞级。相比过去同类技术，分辨率提升了200倍，视野大小提升了483倍。基于该技术，华大首次绘制了小鼠胚胎发育过程中迄今为止最高精度最全面的时空基因表达数据集，在全胚胎尺度分析了细胞类型的空间多样性，并配套开发了时空组学数据分析平台和在线交互数据库。在此基础上，华大主导发起了时空组学国际联盟（STOC），吸引了来自30多个国家200多个科研团队参与。

该成果发表于Cell

图：利用大视场纳米级分辨率时空组学技术构建具有单细胞分辨率的小鼠胚胎器官发育时空基因表达图谱

数据链接

https://db.cngb.org/search/project/CNP0001543

工具链接

https://github.com/BGIResearch/SAW

https://db.cngb.org/stomics/mosta/

原文信息

Chen A, Liao S, Cheng M, Ma K, Wu L, Lai Y, et al. Spatiotemporal transcriptomic atlas of mouse organogenesis using DNA nanoball-patterned arrays. Cell 2022;185:1777–92.e21. PMID:35512705.

原文链接

https://www.sciencedirect.com/science/article/pii/S0092867422003993

▲ 长按阅读原文

基因组复杂结构变异检测方法——SVision

基因组结构变异是物种进化和疾病发生的重要驱动因素，对结构变异的全面精准检测表征是基因组精细结构研究的核心环节，然而目前尚缺乏针对基因组重复区域复杂结构变异的检测策略。西安交通大学叶凯团队针对基因组重复区域背景噪声高、复杂结构变异类型未知且建模难，通过将基因组结构变异检测从序列空间转换为图像空间，实现了简单和复杂类型结构变异的高性能检测和准确表征。团队开发了基于深度学习的多目标识别方法SVision，该方法无需依赖先验信息，能够从长读长测序数据中自动检测和表征未知类型的基因组结构变异，为后续多种生物医学应用场景的全类型基因组结构变异研究提供了有力工具和新方案。

该成果发表于Nature Methods

图：SVision算法流程图及三个主要模块

工具链接

https://github.com/xjtu-omics/SVision

https://doi.org/10.24433/CO.8937098.v1

原文信息

Lin J, Wang S, Audano PA, Meng D, Flores JI, Kosters W, et al. SVision: a deep learning approach to resolve complex structural variants. Nature Methods 2022;19:1230–3. PMID: 36109679.

原文链接

https://www.nature.com/articles/s41592-022-01609-w

▲ 长按阅读原文

疗效药物靶标的比较图谱构建及数据库开发——TTD

随着药物靶标（以下简称“药靶”）数据的不断累积，针对药靶数据的比较性研究（如对药靶活性分子的结构比较与分类、类药性比较与排序等）对新药发现至关重要。基于此，浙江大学朱峰、裘云庆团队和清华大学/宁波大学陈宇综团队合作开展了全面的药靶比较性研究，构建了药靶所有活性分子的“结构-活性”、“类药性”等比较图谱。研究涵盖了超过35,000个药物（包括FDA已批准、临床研究、临床前等药物）作用的疗效药靶，并将结果整合到团队前期开发的TTD数据库中。相关研究结果不仅可以提供药靶活性分子的骨架类型、定量构效关系和活性悬崖等重要信息，更有助于促进对药靶可药靶性的认识和对活性分子类药性的深入理解，为药物设计与新药发现提供了不可或缺的重要支持。

该成果发表于Nucleic Acids Research

图：疗效药物靶标的比较图谱构建

数据库链接

http://bidd.group/group/cjttd/

原文信息

Zhou Y, Zhang Y, Lian X, Li F, Wang C, Zhu F, et al. Therapeutic target database 2022: facilitating drug discovery with enriched comparative data of targeted agents. Nucleic Acids Research 2022;50:1398–407. PMID: 34718717.

原文链接

https://academic.oup.com/nar/article/50/D1/D1398/6413598

▲ 长按阅读原文

ixxmu / mp_duty

刷了一下历年的中国生物信息学十大进展 #3730

刷了一下历年的中国生物信息学十大进展 by 生信技能树

2018

2019

2020

2021

2022

追踪人体T细胞动态行为的新算法—STARTRAC