我们已经为您准备好复现该模型所需的环境,您可以创建实例、一键复用哦!

模型的使用文档涵盖模型所需环境、模型简介以及复现模型的具体步骤。模型效果和模型详细来源可以点击论文地址和模型来源链接查看哦~

ESM

2022-01-28 esm:ubuntu18.04-cuda10.2-cudnn7-python3.6-pytorch1.6.0

模型标签
文本分类文本匹配文本生成文本摘要

模型简介

这篇论文《Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences》 .是2019年2月的文章,发布在biorxiv上。代码中包括来自 Facebook AI Research 的 Transformer 蛋白质语言模型的代码和预训练权重,包括我们最先进的 ESM-1b 和 MSA Transformer。并且论文中介绍了 Transformer 蛋白质语言模型。介绍了一个新的蛋白质语言模型ESM-1v,它具有与目前最先进的突变预测模型相媲美的零样本预测的能力,说明了使用大量多样的蛋白序列数据训练的语言模型可以在无需监督式学习的情况下预测蛋白功能的实验测量结果。模型在零样本场景的泛化说明了大型预训练语言模型捕获领域知识的潜力,这可能有助于生成新的功能蛋白。 论文地址:https://www.biorxiv.org/content/10.1101/622803v4



1. 使用方法

1.1. 模型推断

进入终端,在root/esm路径下,输入以下命令:

python extract.py esm1b_t33_650M_UR50S examples/some_proteins.fasta examples/some_proteins_emb_esm1b/ \
    --repr_layers 0 32 33 --include mean per_tok
参数 说明
repr_layers 选择要包含嵌入的层
examples/someproteinsemb_esm1b 包含 FASTA序列的pt文件
include 指定嵌入的形式
mean 包括每层在整个序列上的平均嵌入

1.2. 准备数据集

进入终端,在root/esm路径下,输入以下命令:

python extract.py esm1_t34_670M_UR50S examples/P62593.fasta examples/P62593_reprs --repr_layers 34 --include mean

1.3. 模型训练

进入终端,在root/esm路径下,输入以下命令:

python extract.py esm1_t34_670M_UR50S examples/P62593.fasta examples/P62593_reprs/ \
    --repr_layers 34 --include mean

2. 模型来源

https://github.com/facebookresearch/esm