1.在alphafold目录执行
get fetch origin main
2.下载uniport数据库
./download_uniprot.sh <DOWNLOAD_DIR>
3.移除pdb_mmcif文件
rm <DOWNLOAD_DIR>/pdb_mmcif
4.下载pdb_mmcif文件,用多线程方式同步
#!/bin/sh
src='rsync.rcsb.org::ftp_data/structures/divided/mmCIF' #源路径,结尾不带斜线
dst='./pdb_mmcif/raw' #目标路径,结尾不带斜线
opt="--recursive --links --perms --times --compress --info=progress2 --delete --port=33444" #同步选项
num=10 #并发进程数
depth='5 4 3 2 1' #归递目录深度
task=/tmp/`echo $src$ | md5sum | head -c 16`
[ -f $task-next ] && cp $task-next $task-skip
[ -f $task-skip ] || touch $task-skip
# 创建目标目录结构
rsync $opt --include "*/" --exclude "*" $src/ $dst
# 从深到浅同步目录
for l in $depth ;do
# 启动rsync进程
for i in `find $dst -maxdepth $l -mindepth $l -type d`; do
i=`echo $i | sed "s#$dst/##"`
if `grep -q "$i$" $task-skip`; then
echo "skip $i"
continue
fi
while true; do
now_num=`ps axw | grep rsync | grep $dst | grep -v '\-\-daemon' | wc -l`
if [ $now_num -lt $num ]; then
echo "rsync $opt $src/$i/ $dst/$i" >>$task-log
rsync $opt $src/$i/ $dst/$i &
echo $i >>$task-next
sleep 1
break
else
sleep 5
fi
done
done
done
将以上代码保存至DOWNLOAD_DIR目录下再运行。使用时并发进程数num请勿设置的过大否则容易被服务器拉黑。
5.下载pdb_seqres文件
./download_pdb_seqres.sh <DOWNLOAD_DIR>
6.移除旧的参数文件
rm <DOWNLOAD_DIR>/params
7.下载新的参数文件
./download_alphafold_params.sh <DOWNLOAD_DIR>
8.下载完成后一定要核对文件结构一一对应,实际的文件体积可能会更大,但不会少。一定要尽可能一一对应!!!!!!!
看当前文件夹大小的命令为du -sh
$DOWNLOAD_DIR/ # Total: ~ 2.2 TB (download: 438 GB)
bfd/ # ~ 1.7 TB (download: 271.6 GB)
# 6 files.
mgnify/ # ~ 64 GB (download: 32.9 GB)
mgy_clusters_2018_12.fa
params/ # ~ 3.5 GB (download: 3.5 GB)
# 5 CASP14 models,
# 5 pTM models,
# 5 AlphaFold-Multimer models,
# LICENSE,
# = 16 files.
pdb70/ # ~ 56 GB (download: 19.5 GB)
# 9 files.
pdb_mmcif/ # ~ 206 GB (download: 46 GB)
mmcif_files/
# About 180,000 .cif files.
obsolete.dat
pdb_seqres/ # ~ 0.2 GB (download: 0.2 GB)
pdb_seqres.txt
small_bfd/ # ~ 17 GB (download: 9.6 GB)
bfd-first_non_consensus_sequences.fasta
uniclust30/ # ~ 86 GB (download: 24.9 GB)
uniclust30_2018_08/
# 13 files.
uniprot/ # ~ 98.3 GB (download: 49 GB)
uniprot.fasta
uniref90/ # ~ 58 GB (download: 29.7 GB)
uniref90.fasta
9.运行命令
可预测单聚体,同源多聚体,异源多聚体
--db_preset=reduced_dbs
跑简易数据库(8CPU,600G空间)
--db_preset=full_dbs
跑整个数据库 (所有数据类型均使用CASP14规格)
1.monomer model preset 单聚体蛋白
序列文件格式
>sequence_name
<SEQUENCE>
python3 docker/run_docker.py \
--fasta_paths=T1050.fasta \
--max_template_date=2020-05-14 \
--model_preset=monomer \
--db_preset=reduced_dbs \
--data_dir=$DOWNLOAD_DIR
2.multiple sequences 同源多聚体蛋白
默认每个模型跑5个种子,总共预测25个蛋白,可以通过–num_multimer_predictions_per_model=1命令让每个模型跑一个种子
>sequence_1
<SEQUENCE>
>sequence_2
<SEQUENCE>
>sequence_3
<SEQUENCE>
python3 docker/run_docker.py \
--fasta_paths=multimer.fasta \
--max_template_date=2020-05-14 \
--model_preset=multimer \
--data_dir=$DOWNLOAD_DIR
3.heteromer model 异聚体蛋白 比如2个A序列,3个B序列
>sequence_1
<SEQUENCE A>
>sequence_2
<SEQUENCE A>
>sequence_3
<SEQUENCE B>
>sequence_4
<SEQUENCE B>
>sequence_5
<SEQUENCE B>
命令同同源多聚体
4.连续预测多个单体的命令
python3 docker/run_docker.py \
--fasta_paths=monomer1.fasta,monomer2.fasta \
--max_template_date=2021-11-01 \
--model_preset=monomer \
--data_dir=$DOWNLOAD_DIR
5.连续预测多个多具体的命令
python3 docker/run_docker.py \
--fasta_paths=multimer1.fasta,multimer2.fasta \
--max_template_date=2021-11-01 \
--model_preset=multimer \
--data_dir=$DOWNLOAD_DIR
10.outputpdb文件解读
1.features.pkl 生成结构的NumPy数组
2.unrelaxed_model_*.pdb 预测的pdb格式,和输出的模型一致
3.relaxed_model_*.pdb 对未松弛结构执行Amber松弛后的结构
4.ranked_*.pdb 根据PLddt打分(包括松弛后的结构)排序,ranked_0.pdb 包含置信度最高的预测,ranked_4.pdb 应该包含置信度最低的预测。
5.ranking_debug.json json文件,包含PLddt和原始模型名称的映射
6.timings.json json文件,包含运行 AlphaFold 每个pipeline所花费的时间。
7.msas/ 构建MSA的各种遗传工具的文件
8.result_model_*.pkl 结构输出模块和辅助输出
参考文章:https://blog.csdn.net/qq_20291997/article/details/122613497
https://www.rehiy.com/post/134