单细胞论文记录(part1)--A versatile and scalable single-cell data integration algorithm based on DAVAE-CFANZ编程社区

学习笔记，仅供参考，有错必纠
Authors：Jialu Hu, Yuanke Zhong and Xuequn Shang
Journal：Briefings in Bioinformatics
Year：2022
摘要：single cell analysis; data integration; domain-adversarial learning; variational approximation; regularized regression; multimodal data

文章目录

A versatile and scalable single-cell data integration algorithm based on domain-adversarial and variational approximation

Abstract
Introduction
Methods

Methods overview
The non-linear model
Two regularizers and the objective function
Transferring cell-type labels across modalities
Evaluation metrics

Results

Integrating human dendritic cells from different samples
Integrating scRNA-seq and scNuc-seq datasets on mouse brain
Integrating scRNA-seq datasets with different cellular compositions
Integrating scATAC-seq and scRNA-seq data on PBMCs
Integrating spatial transcriptomics data and scRNA-seq data on mouse brain
Integrating multimodal data on human PBMCs
Integrating large-scale datasets

Discussion

A versatile and scalable single-cell data integration algorithm based on domain-adversarial and variational approximation

Abstract

单细胞技术为我们提供了在单细胞分辨率下剖析异质组织中的转录组landscape、chromatin accessibility和spatial expression的新方法. 随着巨大的单细胞数据集的产生，一个关键的分析挑战是整合这些数据集以获得对细胞组成的生物学见解. 在此，我们开发了一个domain-adversarial和variational approximation，即DAVAE，它可以用一个策略整合不同样本(samples)、技术(technologies)和模式(modalities)的多个单细胞数据集. 此外，DAVAE还可以整合同一细胞中同时测量的ATAC谱和转录组谱的配对数据. 由于采用了小批量随机梯度下降策略，它对大规模数据具有可扩展性，并可由GPU加速. 七个实际数据整合应用的结果表明，DAVAE在去除批量效应、转移学习和细胞类型预测方面的有效性和可扩展性，适用于跨样品、技术和模式的多个单细胞数据集.

可用性：DAVAE已经在pypi资源库的工具包 "scbean "中实现，源代码也可以在https://github.com/jhu99/scbean . 我们所有的数据和用于复现本文结果的源代码都可以在https://github.com/jhu99/davae_paper

Introduction

在过去的十年中，单细胞测序技术已经成为一种特别敏感的技术，可以在单细胞水平上定量测量基因表达水平[1]、DNA methylation landscape[2]、chromatin accessibility[3]、in situ expression[4]。巨大的单细胞数据集产生于不同的技术、生物体和模式，一些大规模的综合单细胞图谱[5-7]正在建立，这将涵盖生物学和复杂疾病的几乎所有方面。因此，我们正面临着开发可扩展和高效的方法来整合跨样本、技术和模式的大型单细胞数据集的挑战，并获得对细胞异质性、生物状态/细胞类型、细胞发育和复杂组织中的空间模式的生物学洞察力。

单细胞数据整合的主要问题是去除各种数据噪音，如批处理效应，这阻碍了我们比较两个或多个异质组织的方法。在过去的十年中，人们提出了许多算法来解决这个问题，而不同的算法可能专注于不同类型的数据，并有其自身的特殊优势。

基于参考的整合算法包括scmap[9]和scAlign[10]，它们将参考scRNA-seq图谱的知识转移到查询scRNA-seq数据上，但这些方法无法预测新的细胞类型。

一些专门为批量RNA-seq设计的方法也可用于scRNA-seq整合，而它们的模型有一个很强的假设，即每批细胞的组成是相同的。它们包括 combat [11], RUVseq [12] 和 limma [13] 。

此外，还提出了一些基于因子分析的算法，如scMerge[14]、LIGER[15]、SPOTLight[16]和Duren的方法[17]。然而，这些算法由于计算资源消耗大，在整合大规模数据集时有困难。

有人提出了包括DCA[18]、scVI[19]、scGen[20]和DESC[21]在内的深度学习方法的变体，用于整合基于自动编码器或变异自动编码器的scRNA-seq数据，可以从瓶颈层获得无批量的细胞表示。然而，由于这些方法的基本模型是专门为scRNA-seq数据设计的，因此在跨模式的单细胞数据对准方面可能不太有效。例如，scVI使用分级贝叶斯模型将计数表达数据拟合到一个零膨胀的负二项分布。

另一个有效的策略是基于相互最近的邻居（MNNs），它首先被用在mnnCorrect[22]中，用于检测跨scRNA-seq批次的相似细胞对。mnnCorrect方法通过平均许多MNN对来获得一个批次校正向量，但是输入数据集的顺序可能会导致一个次优的解决方案，因为它使用了一个连续的整合策略。

在MNN的启发下，另外两种类似的算法也被提出。Seurat 3.0 [23] 和Scanorama [24]。Seurat 3.0利用其配对数据集中的每个单元的k-MNN来识别匹配对，称为 “锚”，基于通过典型相关分析（CCA）减少的单元嵌入。尽管Seurat可以跨模态对齐单细胞数据，但它依靠不同的策略（即潜在语义索引[25]）来捕捉scATAC-seq数据的生物结构，而不是CCA。Scanorama[24]采用了一种广义的相互最近邻匹配方法，在所有scRNA-seq数据集中寻找相似的细胞，而不是成对的数据集，基于SVD的嵌入。

此外，还有一些其他的整合模型，如基于图的模型（如BBKNN[26]），基于聚类的模型（如Harmony[27]，DC3[28]），基于几何的模型[29]和多模态交叉模型（如MIA[30]）。

在上述现有的方法中，Seu- rat 3.0、LIGER、DC3和Stanley的方法能够跨模式整合单细胞数据；Duren的方法用于整合scRNA-seq和scATAC-seq数据；SPOTLight、MIA是专门为整合scRNA-seq和空间转录组数据而设计的；其他的都只能应用于scRNA-seq数据。表1提供了现有工具的简要总结。

单细胞论文记录(part1)--A versatile and scalable single-cell data integration algorithm based on DAVAE_数据

尽管上述方法以不同的策略提供了整合多个单细胞数据集的各种方法，但只有少数方法促进了对跨样本、技术和模式的单细胞数据的整合；其中很少有方法显示其整合成对的多模式数据的能力，而且大多数方法对大尺寸数据集没有可扩展性。
为了解决这些局限性，我们提出了一种多功能和可扩展的方法，可以促进以下整合任务：

将多个scRNA-seq整合到一个图谱参考中；
将标签从特征明确的scRNA-seq转移到scATAC-seq数据和空间解析转录组；
整合多模态单细胞数据；
整合大尺度数据集.

Methods

Methods overview

在这里，我们考虑了一个整合多个scRNA- seq数据集和多个跨模式的单细胞数据的问题。为了解决这个问题，我们提出了一个通用的框架，即Domain- Adversarial和Variational Auto-Encoder（DAVAE），将归一化的基因表达（或染色质可及性）装入一个非线性模型，该模型用一个非线性函数、一个KL正则器和一个domain-adversarial正则器将潜变量单细胞论文记录(part1)--A versatile and scalable single-cell data integration algorithm based on DAVAE_正则_02 转化为表达空间. 如图1所示，DAVAE依赖于用于回归的深度多层感知器结构，它由一个variational approximation network[31]、一个generative Bayesian neural network和一个domain- adversarial classifier[32]组成。深度神经网络使我们能够有效地从大规模数据集中学习回归模型。共享低维空间中的潜在因素可用于聚类、轨迹推断、跨模态的迁移学习和许多其他下游的综合分析。为了检验我们提出的方法的通用性和可扩展性，我们在七个真实的数据应用上将其与现有的四种算法进行了比较，每个算法都有不同的计算挑战。

单细胞论文记录(part1)--A versatile and scalable single-cell data integration algorithm based on DAVAE_数据_03

Figure 1. DAVAE概述. DAVAE是一个对抗性和变异性的深度神经网络框架，用于整合多个单细胞数据集，它包括一个variational inference model（蓝色）、一个non-linear mapping（灰色）和一个domain-adversarial classifier（粉色）. GRL启用了对抗机制，它从子序列层获取梯度，并在传递给前一层之前改变其符号.

The non-linear model

Two regularizers and the objective function

KL regularizer
Domain-adversarial regularizer Next,we

Transferring cell-type labels across modalities

Evaluation metrics

Results

为了测试DAVAE在消除跨数据集的批量效应方面的能力，我们将DAVAE应用于7个真实的数据应用中，每个应用都代表了单细胞数据整合中可能遇到的一个典型问题。下面的小节组织如下：

整合来自不同样本的scRNA-seq数据集；
整合scRNA-seq和scNuc-seq数据集；
整合不同细胞组成的scRNA-seq数据集；
整合scATAC-seq和scRNA-seq数据集；
整合空间转录组数据和scRNA-seq数据集；
整合多模式数据和(vii) 整合大规模数据.

Integrating human dendritic cells from different samples

Integrating scRNA-seq and scNuc-seq datasets on mouse brain

Integrating scRNA-seq datasets with different cellular compositions

Integrating scATAC-seq and scRNA-seq data on PBMCs

Integrating spatial transcriptomics data and scRNA-seq data on mouse brain

Integrating multimodal data on human PBMCs

Integrating large-scale datasets

Discussion

在本文中，我们提出了一种新型的非线性模型，该模型由一个非线性函数、一个KL正则器和一个domain-adversarial正则器组成，用于整合不同样品、技术和模式的多个单细胞数据集。带有KL正则器和domain-adversarial正则器的非线性模型作为不同层次的整合器工作。KL正则器对单细胞论文记录(part1)--A versatile and scalable single-cell data integration algorithm based on DAVAE_数据_04 进行了约束，对于寻找能够接近的后验分布的变异分布效果最好. 因此，它是一个模型驱动的，因为它可以最大化我们模型的似然概率. 领域对抗调节器对单细胞论文记录(part1)--A versatile and scalable single-cell data integration algorithm based on DAVAE_数据_04 和做了进一步的限制，对于在潜伏空间中排列单元，使批次标签充分混合，效果最好. 因此，它是一个依赖于上下文的，因为它对最大化我们模型的似然概率不起作用。

为了估计细胞在共同分享的低维空间中的代表性，我们构建了一个variational和adversarial的深度神经网络，称为DAVAE，该方法无监督的联合学习一个variational approximation模型、一个generative模型和一个domain-adversarial 分类器. DAVAE将归一化的基因表达矩阵作为输入，并返回综合数据，其中包括细胞嵌入和恢复的表达数据，可用于下游的综合分析，如聚类、可视化、跨模式转移学习. 与现有的方法相比，DAVAE不仅利用了variational auto-encoder的思想，而且还利用了domain- adversarial learning的思想，用关于批次标签的补充知识来学习潜在的变量.

为了检验DAVAE的有效性和可扩展性，我们将我们的方法和几个广泛使用的现有方法应用于整合七个真实数据集。经过仔细比较，结果表明，DAVAE可以有效地消除多个scRNA-seq数据集的批次效应，同时保留各种细胞类型的生物差异。此外，我们的结果表明，DAVAE可以整合两个连续的空间转录组切片，以恢复一个完整的组织切片；它还可以将scATAC-seq数据和空间转录组学与参考scRNA-seq数据整合在一起；它可以整合由多模态技术获得的配对数据，它可以利用跨模态的迁移学习进行细胞类型标签的预测。最后，通过利用基于小型批次的随机梯度下降程序，DAVAE在整合大规模scRNA-seq数据集方面具有可扩展性和高效性，并且可以通过使用GPU加速。表2中的简要总结表明，DAVAE是唯一一种能够有效处理所有七个真实数据应用的方法。

包括DAVAE在内的许多现有算法侧重于分析批次效应，而相关细胞类型的识别对于阐明癌症发展、发病机制和临床结果的分子机制至关重要。在scGen的启发下，DAVAE也可以适用于细胞类型相关的场景。考虑到从对照组和癌细胞获得的两个scRNA-seq数据，我们可以在潜伏空间中为每个细胞类型获得一个向量单细胞论文记录(part1)--A versatile and scalable single-cell data integration algorithm based on DAVAE_生物信息_09 ，代表两个条件之间的生物差异。让我们假设每个细胞来自条件pi的潜表征.然后我们用DAVAE来模拟对的依赖性，用潜空间中的矢量算术来模拟对单细胞论文记录(part1)--A versatile and scalable single-cell data integration algorithm based on DAVAE_数据_14 的依赖性。这个方向将确保我们继续开发补充工具，以了解肿瘤内细胞的表型多样性，其中的细胞类型往往是相关的。随着单细胞基因组学的不断发展和测序实验规模的扩大，我们相信DAVAE的精确性和高效性可以使其成为生物医学研究人员理解复杂细胞异质性的宝贵工具。

单细胞论文记录(part1)--A versatile and scalable single-cell data integration algorithm based on DAVAE_生物信息_15