蛋白分析 - 结构域分析（SMART, CDD, Pfam）

欢迎来到青岛农业大学于浩教授团队开放交流·合作共赢山东省现代农业产业技术体系食用菌体系

原创内容，欢迎转载，转载请注明出处

主笔：胡春辉

注意事项

能够进行蛋白结构域预测的网站和工具有很多，最常用的数据库就是SMART数据库、NCBI的CDD数据库、InterPro数据库、Pfam数据库，这些数据库有自己的独特的地方，也有统一性，比如说前面几个数据库都整合了Pfam的结构域。具体的详细的信息可以自己查阅文献或者资料。
对于单个蛋白的分析建议使用SMART数据库，快速，图形化界面友好。NCBI的CDD数据库非常全，提供的信息很多。自己用Hmmer工具进行pfam数据库检索的好处是结果可以整理成为标准的格式，便于后续的分析。

利用SMART数据库进行蛋白结构域预测

单个蛋白的结构域分析

1、进入SMART数据库进行检索

在文本框中输入蛋白序列（可以只有氨基酸序列，也可以以fasta格式粘贴），把下面的要鉴定的复选框都选上，点击“Sequence SMART”就可以进行蛋白结构域分析了，速度非常快。

2、结果展示

分析完成后会弹出一个新的窗口，里面有预测的结果，可以看到下面的蛋白预测到了一个信号肽signal peptide，预测到了2个Pfam结构域分别是“GMC_oxred_N"结构域和”GMC_oxred_C“结构域。

蛋白批量结构域分析

点击下面的网址链接，进入批量分析界面：http://smart.embl.de/smart/batch.pl

在网页的“Sequences”文本框中输入蛋白序列，或者点击Sequences”后面的“选择文件”选择fasta格式的蛋白序列文本文档。

选择完成后把Options前面的复选框都选上。

点击“提交”，开始分析。

利用NCBI的CDD数据库进行蛋白结构域预测

单个蛋白的结构域分析

1、进入CDD数据库进行检索

点击网址链接进入比对界面：https://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi

跟SMART一样，输入蛋白序列，选择要分析的内容，点击“submit”开始分析。

2、结果展示

下面的结果我们应该都比较熟悉，利用NCBI的Blastp比对蛋白的小伙伴都应该看过这个结果。

看起来要比SMART整合了更多的数据库的信息，NCBI牛！

蛋白批量结构域分析

批量比对的网址如下：https://www.ncbi.nlm.nih.gov/Structure/bwrpsb/bwrpsb.cgi

这里就不展示教程了，是时候展示你自己强大的自学能力了！

Hmmer软件利用Pfam数据库进行蛋白结构域预测

准备工作

1、下载Pfam数据库

Pfam数据库的下载地址如下：http://ftp.ebi.ac.uk/pub/databases/Pfam/releases/

下拉窗口，可以看到最新的Pfam数据库（2024年1月份是36.0），点击进入文件夹，右键点击“Pfam-A.hmm.gz“，点击”复制链接地址“。

在Linux系统中利用wget工具下载Pfam数据库。

# 下载Pfam数据库
wget http://ftp.ebi.ac.uk/pub/databases/Pfam/releases/Pfam36.0/Pfam-A.hmm.gz
# 解压缩数据库
gzip -d Pfam-A.hmm.gz

2、在Linux系统中安装HMMER工具

建议使用系统工具或者Conda安装Hmmer，具体的代码如下

ubuntu系统中使用apt-get安装：

apt-get install hmmer

使用conda安装代码：

conda install hmmer

也可以自己下载安装这个软件，具体的方法如下。

# 首先下最新的hmmer软件压缩包（改地址可以下载到最新版本，也可以上官网自行下载最新版的压缩包）
wget http://eddylab.org/software/hmmer/hmmer.tar.gz
# 解压缩
tar -zxvf hmmer.tar.gz
# 进入文件夹（我2024年1月份下载的是3.4版本）
cd hmmer-3.4/
# 编译
./configure
# 编译
make
# 最后一步添加环境变量

批量序列比对和信息提取

1、Pfam蛋白结构域预测

准备好了Pfam数据库和hmmer工具之后，把所有的蛋白序列放到proteome.fa文本文档里面，可以用下面的代码来进行蛋白批量的pfam结构域预测。

# 用下面的脚本批量进行蛋白的pfam结构域预测
hmmscan -o out.txt --tblout  pfam_out.tbl   --noali -E    1e-5  Pfam-A.hmm    proteome.fa

# proteome.fa  蛋白序列，需要是fasta结构
# pfam_out.tbl  以表格形式输出的pfam比对的结果
# 比对的evalue值为最常用的默认参数

2、提取Pfam蛋白预测结果整理成为excel表格的形式

按照我写的一个python脚本文件，可以将上面生成的 pfam_out.tbl 文件中的各个蛋白的Pfam结构域信息提取出来。

python脚本的下载地址如下：下载地址

python3 annotation_extraction_pfam.py

改脚本会生成两个excel表格文件：

prediction_info_from_pfam.xlsx：就是把pfam_out.tbl文件整理成为excel表格的形式。

proteome_annotation_pfam.xlsx：就是提取出来的每个蛋白的pfam结构域的注释信息，其中如果一个蛋白有多个结构域，不同结构域就会用“; "隔开。

如果脚本运行错误有可能是最新的Hmmer的版本不同导致输出结果不同导致的，可以自己修改python脚本或者下载比较早的hmmer用这个脚本。

上面用来比较的蛋白序列如下：

>A0A067NEU8
MAPLHLLAISLVWLLLLQTCTGRIYSKLSDLPTTRFDFVIIGSGAAGNVLANRLTENPHISVLVLEAGGSNEGVLDSEVPFFCPKLSPGTPFDWNFTTTPQAALNNHTVAFPRGFMLGGSTSINFLAYTRGSMDDWNRFAAITGDKGWSWHRLQRYFRKNEHFTRPADHHNIIGEFNPRVHSRRGINSVSLGGFPRPIDQMVLRAMQELPDEFPFNVDMNSGKQIGIGWTQGTIKGGRRSSSATSYLGSKFIRRRNLHVLLHARVTRLLQDGVTGGKKSFRKVEFAQNAPGSGVNGPFGPRRTILASKSVILSAGSVMSPNILMHSGIGDEQMLRRVGIKPLHNLPSVGQNLIDHSLTRLAWNVNSTDTYETHLRNATIAAADLAEWKRSETGYLTTTRFSFLGWLRLPKNATIFQRFKDPAAGLDTAHIEMLIGVSSAFTNGMNLAPPTGNFLSLSVGVVSPASRGSITINSSNPFDPPLIDPGLMTSEFDLFTMREAIRSVARFLSAPAWAGYILSPAGALADVDLSSDEQLNAYIRNNTGSLFHPVGTSSMSRRGSSSGVVDPDLKVKGIEGVHVVDASVMPRVPAAHTQVPTYVVAERAADLIKEAWDCY

目录CONTENT

蛋白分析 - 结构域分析（SMART, CDD, Pfam）

注意事项

利用SMART数据库进行蛋白结构域预测

单个蛋白的结构域分析

蛋白批量结构域分析

利用NCBI的CDD数据库进行蛋白结构域预测

单个蛋白的结构域分析

蛋白批量结构域分析

Hmmer软件利用Pfam数据库进行蛋白结构域预测

准备工作

批量序列比对和信息提取

评论区