明明是可以省下这两三百万科研经费

明明是可以省下这两三百万科研经费 by 生信技能树

看到了一个新鲜出炉的肺癌（ lung adenocarcinoma (LUAD) ）单细胞转录组文章：Cancer Res . 2024 Feb ，标题有一点点长：《Single-cell analysis identifies NOTCH3-mediated interactions between stromal cells that promote microenvironment remodeling and invasion in lung adenocarcinoma》，但是实际上文章的内容非常简单，就是多样品的单细胞转录组数据的第一层次降维聚类分群后，取里面的成纤维细胞亚群和内皮细胞亚群进行细分即可！

但是让我没有想到的是这个研究仅仅是花费在单细胞转录组测序上面的的科研经费就高达两三百万，因为有多达89个的10x技术的单细胞转录组样品数据。详见：https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE253013

Samples (89)
More... More...
GSM8012377 MRC001_ANT_1
GSM8012378 MRC001_ANT_2
GSM8012379 MRC001_ANT_3

可以看到，配合单细胞转录组的是非常早期的测序仪，Illumina HiSeq 2500 (Homo sapiens)

Tumors (T) or Adjacent Non-Tumor (ANT) tissues from cohort A were minced with scissors and digested with a human tumor dissociation kit
we obtained the transcriptomes of 256,379 single cells with 13,857 mesenchymal cells from 9 treatment-naïve patients.

说明它的数据应该不是这两年10x技术的单细胞转录组降价之后的产出，如果是三四年前，每个样品起码得两三万，总计耗费两三百万科研经费就是为了拿到一个公共数据库明明就已经是有了数据，非常让人痛心！因为肺癌（ lung adenocarcinoma (LUAD) ）单细胞转录组公共数据集真的是太多了，如果你的实验设计没有什么新颖之处，何苦自己测序了。反正就是 treatment-naïve的肺癌（ lung adenocarcinoma (LUAD) ） patients.

而且更让人无语的是，其中本研究就纳入了9个病人而已，那么为什么会有多达89个的10x技术的单细胞转录组样品呢，因为这9个病人取了9个肿瘤组织，以及其中的6个病人去了癌旁组织，理论上是15个样品。但是可以看到，每个病人的每个组织居然有多达好几万的细胞数量。这个是不正常的，理论上每个10x技术的单细胞转录组样品应该是3到8千的细胞数量。

         NAT     T
  p100646     0  6458
  p101806 14500 20366
  p108745 16698 29028
  p116023  4292  7620
  p124347  5262  5072
  p156281 25030 33274
  p158584 13262 19719
  p184016     0 20762
  p193311     0 34829

如果具体深入进去看，就明白了其实是每个样品（9+6）有居然是5到8次的重复，让我非常的吃惊，第一次看到单细胞转录组样品做这样的技术型重复，它不是生物学重复啊！！！

可以看到是超过14T的测序数据量：

超过14T的测序数据量

因为作者同时提供了表达量矩阵文件，所以无需从14T的测序数据量开始自己定量拿到表达量矩阵文件。另外，如果是肿瘤领域的我们通常是进行如下所示的分类：

immune (CD45+,PTPRC),
epithelial/cancer (EpCAM+,EPCAM),
stromal (CD10+,MME,fibro or CD31+,PECAM1,endo)

参考我五年前介绍过的 CNS图表复现08—肿瘤单细胞数据第一次分群通用规则，这3大单细胞亚群构成了肿瘤免疫微环境的复杂。绝大部分文章都是抓住免疫细胞亚群进行细分，包括淋巴系（T,B,NK细胞）和髓系（单核，树突，巨噬，粒细胞）的两大类作为第二次细分亚群。但是也有不少文章是抓住stromal 里面的 fibro 和endo进行细分，并且编造生物学故事的。而且我们已经积累了心肝脾肺肾等多个器官的上皮细胞的细分亚群，以及免疫细胞里面的髓系和B细胞细分亚群：

这个研究也不例外，可以看到它的第一层次降维聚类分群如下所示：

第一层次降维聚类分群

任意找到一个肺癌的公共的单细胞转录组数据集其实很容易做第一层次降维聚类分群拿到上面的结果。

然后是成纤维细胞亚群的细分

如下所示：

成纤维细胞亚群的细分

可以看到作者定义的是：

FAP+PDPN+ CAFs
MCAM+ACTA2+ pericytes
ACTA2+ SMCs,
lung resident fibroblasts (LRFs)

因为这个是文章的重中之重，所以还使用了 a high-dimensional imaging technique known as IMC and multiplexed 18 markers 去看了看 an independent cohort of 7 histologically confirmed LUAD samples ，属于实验验证环节啦！

接着是内皮细胞亚群的细分

如下所示：

内皮细胞亚群的细分

其实内皮细胞主要是区分成为了淋巴内皮和血管内皮，其中血管可以细分为动脉静脉和毛细血管：

lymphatic ECs (LECs; CCL21, PROX1).
arteries (HEY1, IGFBP3), capillaries (CD36, CA4), veins (ACKR1)

但是本文完全是瞎搞了，在肿瘤组织和癌旁组织里面的内皮细胞各自有3个亚群也不给生物学意义或者名字。

学徒作业

下载这个9.3 Gb 的文件 GSE253013_all_luad_garnett_temp.rds.gz，里面有作者给出来的表达量矩阵，然后有单细胞亚群命名结果。走自己的第一层次降维聚类分群去对比看看！可以看到左边是我给的名字，但是右边是作者的，毫无疑问作者的命名是有问题的！

两个亚群生物学命名的对比

似乎是作者早期不知道什么是mast细胞，而且也有一个混乱的unknown和CD45阳性的细胞亚群：

混乱的unknown和CD45阳性的细胞亚群

如果仅仅是想细分肺癌里面的成纤维和内皮细胞

何苦自己花两三百万测序呢？同样的数据，人家是一份单细胞数据多篇顶刊文章（这就是生信大神课题组实力吧），这个只能是肺癌（ lung adenocarcinoma (LUAD) ）单细胞转录组文章：Cancer Res . 2024 ，高下立判了！

如果仅仅是为了发Cancer Res ，处理公共数据集才是最优的选择吧。不妨看看这个：SBC&生信技能树&上海市生物医药行业协会 | 空间多组学研究策略及生信分析培训班春季2天书授课，招生火热进行中，想同样的省下两三百万经费有点难，但是能省一点就一点吧。

ixxmu / mp_duty