SCENT方法原理是泊松回归,焦点目标是找到染色质可及性(ATAC-seq数据)和基因表达(RNA-seq数据)之间的关系。具体来说,想探究某个染色质地区(peak峰)的可及性是否会影响某个基因的表达。公式的紧张内容如下:
β 0 β_0 β0 是偏置项; β p e a k β_{peak} βpeak 、 β m i t o β_{mito} βmito 、 β n U M I β_{nUMI} βnUMI 、 β b a t c h β_{batch} βbatch 都是对应的系数;
E i E_i Ei 是本来测序的基因表达值;
λ i λ_i λi 是模型猜测出来的基因表达值;
X p e a k X_{peak} Xpeak 是该基因对应的多个peak值(0/1);
X m i t o X_{mito} Xmito 是细胞种线粒体基因表达的比例;
X n U M I X_{nUMI} XnUMI 是细胞种唯一分子识别符的数量;
X b a t c h X_{batch} Xbatch 是实验批次效应。
模型训练的目标是找到最佳的参数( β 0 β_0 β0、 β p e a k β_{peak} βpeak 、 β m i t o β_{mito} βmito 、 β n U M I β_{nUMI} βnUMI 、 β b a t c h β_{batch} βbatch),使得模型的猜测值 λ i λ_i λi尽可能靠近现实观察值 E i E_i Ei。
模型拟合:
利用最大似然估计来拟合泊松回归模型。
评估显著性:
为了评估 βpeak 的显著性(即染色质峰对基因表达的影响是否真实),SCENT利用了自举法(Bootstrapping)。自举法的焦点思想是通过重采样来模仿数据的分布。
具体来说:
从原始数据中随机抽取细胞(有放回),生成一个新的样本;
在新样本上重新拟合模型,得到一个新的 β p e a k ’ β_{peak’} βpeak’
重复这个过程许多次(好比100到50,000次),得到 β p e a k ’ β_{peak’} βpeak’ 的分布
通过比力 β p e a k ’ β_{peak’} βpeak’ 的分布与零假设( β p e a k ’ β_{peak’} βpeak’=0)来判断 β p e a k β_{peak} βpeak 是否显著。
多重检验校正: