蛋白分析 - 碳水化合物活性酶（CAZymes）注释

欢迎来到青岛农业大学于浩教授团队开放交流·合作共赢山东省现代农业产业技术体系食用菌体系

原创内容，欢迎转载，转载请注明出处

主笔：于浩

前言

1、CAZymes介绍

CAZymes官网地址：http://www.cazy.org/

碳水化合物亦称糖类化合物，是自然界存在最多、分布最广的一类重要有机化合物，是一切生物体维持生命活动所需能量的主要来源。作用于各种糖复合物、寡糖和多糖等碳水化合物的酶类构成了地球上结构最多样的蛋白质集合。

碳水化合物活性酶数据库（CAZymes）是关于能够合成或者分解复杂碳水化合物和糖复合物的酶类的一个数据库资源，其基于蛋白质结构域中的氨基酸序列相似性，将碳水化合物活性酶类归入不同蛋白质家族。该数据库提供了碳化合物合成、代谢、转运等酶的分类和相关信息。

2、dbCAN网站

官网地址：https://bcb.unl.edu/dbCAN2/index.php

2023年已经更新到了dbCAN3

dbCAN是一个用于注释碳水化合物活性相关酶的在线服务器和数据库，其基于保守结构域数据库（CDD）搜索和文献精选，为每个CAZymes家族明确定义了一个标签结构域并为此结构域构建隐马尔科夫模型（HMM）。其数据来源主包括CAZy数据库和CAT，并随着CAZy的更新而更新。dbCAN可以进行在线注释，也可以下载本地数据库，本地数据库使用的是HMMs模型数据库，结合hmmer软件进行本地注释。

3、dbCAN-PUL网站

官网地址：https://bcb.unl.edu/dbCAN_PUL/

多糖利用位点(PULs)是由酶(碳水化合物活性酶)和其他基因组成的离散基因簇，共同作用于碳水化合物底物消化和利用。就像网站上面展示的一样，这个软件是实验验证后的CAZyme酶。

一、在线CAZymes注释

1、提交序列进行比对

进入dbCAN3比对页面：https://bcb.unl.edu/dbCAN2/blast.php

一般比对的时候选择默认的Tools运行就行（也就是利用HMMER工具来比对dbCAN数据库），默认的筛选的阈值是E-Value<1e-15，coverage>0.35。可以直接将蛋白序列以fasta格式形式粘贴到文本框中，也可以点击 “选择文件” 来进行选择（在线工具最大上传的文件大小为10 MB，超过这个长度就要用本地的工具比较了，或者分开比较多次）。

如果比较的比较多建议在上面留邮箱。如果比较的蛋白条数比较少就不需要了，因为速度还是很快的，点击“Submit”之后开始进行结构域比对，会弹出一个新的窗口，如果没有保留邮箱，记住这个网页的IP地址也行，也可以用来查看结果。

2、结果展示

结果是以表格的形式展现的，默认是选择HMMER工具，因此会显示这一栏对应的比较出来的蛋白家族，还会同时比较Signal Peptide信号肽，一般分泌蛋白都会有信号肽，很多降解大分子化合物的CAZymes都是分泌蛋白。

一个蛋白有可能对应多个蛋白家族。

点击上面的蓝色的选项，就可以下载比对结果。

二、本地CAZymes注释

本地比较的好处是可以大批量的比较，而且可以自己设定阈值，不过建议使用推荐的阈值来进行比对。

1、dbCAN的安装

dbCAN可以用pip安装也可以用conda安装，具体的方法如下。

# 推荐创建虚拟环境安装dbCAN，不创建虚拟环境也没有问题。
conda create -n run_dbcan python=3.8
conda activate run_dbcan

# 利用pip工具安装,我现在尝试了一下用pip3只能安装到3.0.6。conda可以安装到4.1.3
pip3 install dbcan==3.0.6

# 用conda安装，可以用conda search dbcan先查看一下可以安装的版本
conda install dbcan==4.1.3

也可以只加下载之后进行配置安装，下载的地址如下：https://github.com/linnabrown/run_dbcan/releases

具体安装方法网页上面有，可以自己学习。

2、下载数据库文件和配置

数据库下载：https://bcb.unl.edu/dbCAN2/download/Databases/

目前最新的版本是V12，建议下载最新版本，配置方法网上有。

3、利用run_dbcan进行比对

数据准备

蛋白序列，fasta格式的文本文档。

proteins.fa

run_dbcan  proteins.fa  protein    --db_dir  /pub/database/cazymesDB    --out_dir  cayzmes_out  --tools  hmmer --hmm_cpu  10
# proteins.fa     检索用的初始序列的文件名
# protein         代表检索的文件是蛋白
# --db_dir        后面是数据库所在的路径
# --out_dir       后面跟着一个文件夹的名字，随便起，结果保存在里面
# --tools hmmer   代表使用的比对工具是hmmer，如果要用diamond就要写成 “--tools diamond” 同时使用两者“--tools hmmer diamond”
# --hmm_cpu 10    代表使用的cpu的线程数为10个线程

目录CONTENT

蛋白分析 - 碳水化合物活性酶（CAZymes）注释

前言

一、在线CAZymes注释

二、本地CAZymes注释

评论区