在docker中使用Dfam TE Tools分析基因组重复序列

手动安装RepeatMasker和RepeatModeler有点手疼,还好Dfam提供了基于docker的TE Tools。

TE Tools的官网:https://github.com/Dfam-consortium/TETools

使用docker,需要系统管理员将用户添加到docker用户组。

构建镜像

1
2
3
4
5
wget https://github.com/Dfam-consortium/TETools/archive/refs/tags/1.4.tar.gz
tar zxf 1.4.tar.gz
cd TETools-1.4/
./getsrc.sh
docker build -t dfam/tetools:1.4 .

构建成功后,可以使用docker image ls查看镜像。

构建镜像考验网速,可以下载我已经构建好的镜像。

1
2
3
wget https://www.biochen.org/public/software/tetools_1.4.tar.gz
gunzip tetools_1.4.tar.gz
docker load -i tetools_1.4.tar

在docker中使用RepeatMasker/RepeatModeler

1
docker run -it --rm --user $(id -u ${USER}):$(id -g ${USER}) -v /home/chenwen/data:/data dfam/tetools:1.4

参数说明

1
2
3
4
-it 为容器重新分配一个伪输入终端,以交互模式运行容器
--rm 容器退出后,自动清理容器内部的文件系统
--user $(id -u ${USER}):$(id -g ${USER}) 以当前用户和用户组运行docker
-v /home/chenwen/data:/data 挂载系统的/home/chenwen/data目录到容器的/data目录

在启动的新终端中,就可以运行RepeatMasker或者RepeatModeler,数据存放在宿主机的/home/chenwen/data目录中,对应到容器的/data目录。运行完之后,在终端输入exit退出容器。

RepeatMasker的用法参考之前的博文使用RepeatMasker屏蔽基因组重复序列

RepeatModeler的用法参考之前的博文使用RepeatModeler从头预测基因组重复序列