怎么使用服务器运行pySCENIC

数据人与超自然意识 · 2025-2-17 23:15:59

媒介

我们留意到在其他的一些论坛，有一些用户反馈，在服务器上面运行pyscenic不太顺畅。本文我们整理了在服务器上运行pyscenic的三个方法供大家参考，分别是conda安装pyscenic运行、arboreto_with_multiprocessing运行、容器化运行。总的来说，推荐使用容器化方式运行，其次是arboreto_with_multiprocessing方式，最次是conda安装pyscenic运行的方式。
pyscenic的三个步骤，grn、ctx、aucell，分别耗时的级别是十几个小时、两三个小时、半小时，运行时间依据实际使用数据大小、服务器负载等具体环境有不同的时间体现，以上时间仅供参考，总之三部曲耗时是越来越短的。

一些优质的文档
- 《使用西柚云自学pySCENIC所遇Error》
- 《使用pyscenic做转录因子分析》
- 《pySCENIC报错、办理和完备流程(IOS系统)》
- 《PyScenic教学（容器化）》

conda安装pyscenic运行

Dask

默认的pyscenic是使用到了Dask的，Dask是一个python编写的，灵活的大数据并行计算库(框架)，能在分布式集群中举行分布式并行计算，也可以在单机（多核心）中举行伪分布式并行计算。

环境配置与运行

参考论坛里某位大佬的批评，pyscenic存在一些版本的问题，故安装的时候必要举行一些降级处置处罚。

mamba create -y -n pyscenic310 python=3.10 -vv
mamba activate pyscenic310
pip config set global.index-url http://mirror.xiyoucloud.pro:63333/repository/pypi/simple
pip config set install.trusted-host mirror.xiyoucloud.pro
pip config set global.timeout 6000
# pip 从 git 源码仓库直接 install 。要求是这个github仓库内要有setup.py文件。【这里有可能需要魔法】
pip install git+https://github.com/aertslab/pySCENIC
pip install numpy==1.23.5
pip install distributed==2024.2.1
pip install dask-expr==0.5.3
pip install numba==0.56.4
# 第一步 grn，sample.loom、hs_hgnc_tfs.txt是输入，产出是adj.sample.tsv
time pyscenic grn --num_workers 20 --output adj.sample.tsv --method grnboost2 sample.loom hs_hgnc_tfs.txt
# 第二步 ctx 输入是hg38__refseq-r80__10kb_up_and_down_tss.mc9nr.genes_vs_motifs.rankings.feather、motifs-v9-nr.hgnc-m0.001-o0.0.tbl，输出是reg.csv
time pyscenic ctx adj.sample.tsv hg38__refseq-r80__10kb_up_and_down_tss.mc9nr.genes_vs_motifs.rankings.feather --annotations_fname motifs-v9-nr.hgnc-m0.001-o0.0.tbl --expression_mtx_fname sample.loom --mode "dask_multiprocessing" --output reg.csv --num_workers 10 --mask_dropouts
# 第三步 aucell，sample.loom、reg.csv是输入，产出是sample_SCENIC.loom
time pyscenic aucell sample.loom reg.csv --output sample_SCENIC.loom --num_workers 10

复制代码

UserWarning: Port 8787 is already in use问题

Dask集群启动的时候，会启动一个web服务（web服务的可视化界面大概长下图这样，可以看到计算使命的资源使用环境以及使命拓扑图）对集群的运行举行数据的可视化，该服务监听8787端口，而Rstudio也是监听8787端口，二者就冲突了，但是这个不影响实际运行，因为Dask会随机选择一个未使用的端口来运行的。

Distributed core Error， Cancelled Error，CommClosedError问题

这种报错为Dask的分布式运算调和失败导致运行报错，我们单独调用Dask库是没有问题的，服务端与客户端都能正常启动，也能调用多个核心举行并行计算。问题有大概出在pyscenic调用Dask的时候，有什么地方没处置处罚好，导致举行多线程运算的时候偶尔出错，下面给出验证在西柚云服务器运行Dask是否有问题的Demo，与pyscenic没有什么关系，大家看看即可。

from dask.distributed import LocalCluster, Client
# 创建一个本地的伪分布式集群，监听14951端口，这样就不会与Rstudio的8787端口冲突了
cluster = LocalCluster(scheduler_port=14950,dashboard_address=":14951")

复制代码

from dask.distributed import Client
# 创建Dask集群客户端
client = Client("127.0.0.1:14950")
# 使用Dask进行并行计算
import dask.array as da
import numpy as np
# 创建一个大数组
x = da.from_array(np.random.random((10000, 10000)), chunks=(1000, 1000))
# 并行计算数组的平均值
mean = x.mean().compute()

复制代码

arboreto_with_multiprocessing运行

如果是单机运行pyscenic，还可以使用arboreto_with_multiprocessing来运行。
arboreto_with_multiprocessing.py文件在安装了pyscenic后就能直接使用了的，其特别适合单机运行的环境，因为不使用Dask，放弃了多服务器节点运行的能力，但是好处是依赖更少，更加稳定，可以制止出现上面说的Dask分布式运算调和失败导致运行报错。
Arboreto是pyscenic的一个依赖库，主要用于加速GRN推断，特别是使用多进程来并行化GENIE3或GRNBoost2算法。所以arboreto_with_multiprocessing.py应该只负责第一步的共表达网络推断，第二、第三步和方法一是一样的。

环境配置与运行

mamba create -y -n pyscenic379-arboreto python=3.7.9 -vv
mamba activate pyscenic379-arboreto
mamba install -y numpy==1.19.5 -vv
pip install pyscenic==0.12.0
# 第一步
time arboreto_with_multiprocessing.py --num_workers 20 --output adj.sample.tsv --method grnboost2 sample.loom hs_hgnc_tfs.txt
# 第二步
time pyscenic ctx adj.sample.tsv hg38__refseq-r80__10kb_up_and_down_tss.mc9nr.genes_vs_motifs.rankings.feather --annotations_fname motifs-v9-nr.hgnc-m0.001-o0.0.tbl --expression_mtx_fname sample.loom --mode "dask_multiprocessing" --output reg.csv --num_workers 10 --mask_dropouts
# 第三步
time pyscenic aucell sample.loom reg.csv --output sample_SCENIC.loom --num_workers 10

复制代码

程序没有使用多核心问题

此问题在仓库的issue（https://github.com/aertslab/pySCENIC/issues/463）中有提到，显着设置了num_workers为20，但是实际只有单核心在运行。有用户给出了办理方案是将pyscenic降级到0.12.0版本，实测可行。同时官方也指出了，可以使用容器化运行。

容器化运行

可以看到，前面两个方法都必要安装特定版本的依赖才气运行，比力复杂。使用容器化技术，可以将一整套打包好的软件拉取下来运行，免去了很多环境配置调试的烦恼。

pyscenic的可用版本

pip

docker

环境配置与运行

pyscenic的最新版本为0.12.1，维护时间是2年前，最近的几个版本分别是：0.12.1、0.12.0、0.11.2、0.11.1。
由于国内网络问题，所以必要从西柚云的docker仓库（拉取之前必要举行docker仓库的配置，具体仓库用法：西柚仓库集合）中拉取对应的镜像，否则会出现拉取镜像超时报错的环境。

sudo docker pull mirror.xiyoucloud.pro:63331/aertslab/pyscenic:0.12.1
sudo docker tag mirror.xiyoucloud.pro:63331/aertslab/pyscenic:0.12.1 aertslab/pyscenic:0.12.1
# 第一步
time docker run -it --rm -v ${HOME}/pyscenic/docker:/data aertslab/pyscenic:0.12.1 pyscenic grn --num_workers 20 -o /data/adj.sample.tsv --method grnboost2 /data/sample.loom /data/hs_hgnc_tfs.txt
# 第二步
time docker run -it --rm -v ${HOME}/pyscenic/docker:/data aertslab/pyscenic:0.12.1 pyscenic ctx /data/adj.sample.tsv /data/hg38__refseq-r80__10kb_up_and_down_tss.mc9nr.genes_vs_motifs.rankings.feather --annotations_fname /data/motifs-v9-nr.hgnc-m0.001-o0.0.tbl --expression_mtx_fname /data/sample.loom --mode "dask_multiprocessing" --output /data/reg.csv --num_workers 10 --mask_dropouts
# 第三步
time docker run -it --rm -v ${HOME}/pyscenic/docker:/data aertslab/pyscenic:0.12.1 pyscenic aucell /data/sample.loom /data/reg.csv --output /data/sample_SCENIC.loom --num_workers 10

复制代码

结语

如果碰到在西柚云服务器运行软件死活运行不乐成，乃至连朋友也运行不乐成，问题出现“群体现象”，请及时接洽我们。我们会尽最大大概为您办理，并像此文一样总结出来帮助大家。如果相关技术人员处置处罚不力，可直接接洽技术总负责人小柚子举行反馈或投诉，小柚子将尽快为大家调和办理问题。

如果大家对我们的内容有任何反馈，或者有特定的软件使用教程需求，欢迎在后台留言告诉我们，我们系统整理后与大家分享。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

用户名		自动登录	找回密码
密码			立即注册

怎么使用服务器运行pySCENIC

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云

浏览过的版块

怎么使用服务器运行pySCENIC

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云

浏览过的版块

登录参与点评抽奖加入IT实名职场社区