侧边栏壁纸
  • 累计撰写 51 篇文章
  • 累计创建 1 个标签
  • 累计收到 15 条评论
标签搜索

目 录CONTENT

文章目录

蛋白分析 - 结构域分析(SMART, CDD, Pfam)

食用菌精准育种实验室-实验宝典
2024-01-16 / 0 评论 / 11 点赞 / 20,750 阅读 / 1,500 字

原创内容,欢迎转载,转载请注明出处**


主笔:于浩


注意事项

  • 能够进行蛋白结构域预测的网站和工具有很多,最常用的数据库就是SMART数据库、NCBI的CDD数据库、InterPro数据库、Pfam数据库,这些数据库有自己的独特的地方,也有统一性,比如说前面几个数据库都整合了Pfam的结构域。具体的详细的信息可以自己查阅文献或者资料。
  • 对于单个蛋白的分析建议使用SMART数据库,快速,图形化界面友好。NCBI的CDD数据库非常全,提供的信息很多。自己用Hmmer工具进行pfam数据库检索的好处是结果可以整理成为标准的格式,便于后续的分析。

利用SMART数据库进行蛋白结构域预测

单个蛋白的结构域分析

1、进入SMART数据库进行检索

在文本框中输入蛋白序列(可以只有氨基酸序列,也可以以fasta格式粘贴),把下面的要鉴定的复选框都选上,点击“Sequence SMART”就可以进行蛋白结构域分析了,速度非常快。

微信截图_20240116100016.png

2、结果展示

分析完成后会弹出一个新的窗口,里面有预测的结果,可以看到下面的蛋白预测到了一个信号肽signal peptide,预测到了2个Pfam结构域分别是“GMC_oxred_N"结构域和”GMC_oxred_C“结构域。

微信截图_20240116100332.png


蛋白批量结构域分析

点击下面的网址链接,进入批量分析界面:http://smart.embl.de/smart/batch.pl

在网页的“Sequences”文本框中输入蛋白序列,或者点击Sequences”后面的“选择文件”选择fasta格式的蛋白序列文本文档。

选择完成后把Options前面的复选框都选上。

点击“提交”,开始分析。

微信截图_20240116093953.png


利用NCBI的CDD数据库进行蛋白结构域预测

单个蛋白的结构域分析

1、进入CDD数据库进行检索

点击网址链接进入比对界面:https://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi

跟SMART一样,输入蛋白序列,选择要分析的内容,点击“submit”开始分析。

微信截图_20240116101559.png

2、结果展示

下面的结果我们应该都比较熟悉,利用NCBI的Blastp比对蛋白的小伙伴都应该看过这个结果。

看起来要比SMART整合了更多的数据库的信息,NCBI牛!

微信截图_20240116101735.png


蛋白批量结构域分析

批量比对的网址如下:https://www.ncbi.nlm.nih.gov/Structure/bwrpsb/bwrpsb.cgi

这里就不展示教程了,是时候展示你自己强大的自学能力了!



Hmmer软件利用Pfam数据库进行蛋白结构域预测

准备工作

1、下载Pfam数据库

Pfam数据库的下载地址如下:http://ftp.ebi.ac.uk/pub/databases/Pfam/releases/

下拉窗口,可以看到最新的Pfam数据库(2024年1月份是36.0),点击进入文件夹,右键点击“Pfam-A.hmm.gz“,点击”复制链接地址“。

在Linux系统中利用wget工具下载Pfam数据库。

# 下载Pfam数据库
wget http://ftp.ebi.ac.uk/pub/databases/Pfam/releases/Pfam36.0/Pfam-A.hmm.gz
# 解压缩数据库
gzip -d Pfam-A.hmm.gz

2、在Linux系统中安装HMMER工具

建议使用系统工具或者Conda安装Hmmer,具体的代码如下

ubuntu系统中使用apt-get安装:

apt-get install hmmer

使用conda安装代码:

conda install hmmer

也可以自己下载安装这个软件,具体的方法如下。

# 首先下最新的hmmer软件压缩包(改地址可以下载到最新版本,也可以上官网自行下载最新版的压缩包)
wget http://eddylab.org/software/hmmer/hmmer.tar.gz
# 解压缩
tar -zxvf hmmer.tar.gz
# 进入文件夹(我2024年1月份下载的是3.4版本)
cd hmmer-3.4/
# 编译
./configure
# 编译
make
# 最后一步添加环境变量

批量序列比对和信息提取

1、Pfam蛋白结构域预测

准备好了Pfam数据库和hmmer工具之后,把所有的蛋白序列放到proteome.fa文本文档里面,可以用下面的代码来进行蛋白批量的pfam结构域预测。

# 用下面的脚本批量进行蛋白的pfam结构域预测
hmmscan -o out.txt --tblout  pfam_out.tbl   --noali -E    1e-5  Pfam-A.hmm    proteome.fa

# proteome.fa  蛋白序列,需要是fasta结构
# pfam_out.tbl  以表格形式输出的pfam比对的结果
# 比对的evalue值为最常用的默认参数

2、提取Pfam蛋白预测结果整理成为excel表格的形式

按照我写的一个python脚本文件,可以将上面生成的 pfam_out.tbl 文件中的各个蛋白的Pfam结构域信息提取出来。

python脚本的下载地址如下:下载地址

python3 annotation_extraction_pfam.py

改脚本会生成两个excel表格文件:

prediction_info_from_pfam.xlsx:就是把pfam_out.tbl文件整理成为excel表格的形式。

proteome_annotation_pfam.xlsx:就是提取出来的每个蛋白的pfam结构域的注释信息,其中如果一个蛋白有多个结构域,不同结构域就会用“; "隔开。

如果脚本运行错误有可能是最新的Hmmer的版本不同导致输出结果不同导致的,可以自己修改python脚本或者下载比较早的hmmer用这个脚本。



上面用来比较的蛋白序列如下:

>A0A067NEU8
MAPLHLLAISLVWLLLLQTCTGRIYSKLSDLPTTRFDFVIIGSGAAGNVLANRLTENPHISVLVLEAGGSNEGVLDSEVPFFCPKLSPGTPFDWNFTTTPQAALNNHTVAFPRGFMLGGSTSINFLAYTRGSMDDWNRFAAITGDKGWSWHRLQRYFRKNEHFTRPADHHNIIGEFNPRVHSRRGINSVSLGGFPRPIDQMVLRAMQELPDEFPFNVDMNSGKQIGIGWTQGTIKGGRRSSSATSYLGSKFIRRRNLHVLLHARVTRLLQDGVTGGKKSFRKVEFAQNAPGSGVNGPFGPRRTILASKSVILSAGSVMSPNILMHSGIGDEQMLRRVGIKPLHNLPSVGQNLIDHSLTRLAWNVNSTDTYETHLRNATIAAADLAEWKRSETGYLTTTRFSFLGWLRLPKNATIFQRFKDPAAGLDTAHIEMLIGVSSAFTNGMNLAPPTGNFLSLSVGVVSPASRGSITINSSNPFDPPLIDPGLMTSEFDLFTMREAIRSVARFLSAPAWAGYILSPAGALADVDLSSDEQLNAYIRNNTGSLFHPVGTSSMSRRGSSSGVVDPDLKVKGIEGVHVVDASVMPRVPAAHTQVPTYVVAERAADLIKEAWDCY

11

评论区