2022-01-28 esm:ubuntu18.04-cuda10.2-cudnn7-python3.6-pytorch1.6.0
这篇论文《Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences》 .是2019年2月的文章,发布在biorxiv上。代码中包括来自 Facebook AI Research 的 Transformer 蛋白质语言模型的代码和预训练权重,包括我们最先进的 ESM-1b 和 MSA Transformer。并且论文中介绍了 Transformer 蛋白质语言模型。介绍了一个新的蛋白质语言模型ESM-1v,它具有与目前最先进的突变预测模型相媲美的零样本预测的能力,说明了使用大量多样的蛋白序列数据训练的语言模型可以在无需监督式学习的情况下预测蛋白功能的实验测量结果。模型在零样本场景的泛化说明了大型预训练语言模型捕获领域知识的潜力,这可能有助于生成新的功能蛋白。 论文地址:https://www.biorxiv.org/content/10.1101/622803v4
进入终端,在root/esm路径下,输入以下命令:
python extract.py esm1b_t33_650M_UR50S examples/some_proteins.fasta examples/some_proteins_emb_esm1b/ \
--repr_layers 0 32 33 --include mean per_tok
参数 | 说明 |
---|---|
repr_layers | 选择要包含嵌入的层 |
examples/someproteinsemb_esm1b | 包含 FASTA序列的pt文件 |
include | 指定嵌入的形式 |
mean | 包括每层在整个序列上的平均嵌入 |
进入终端,在root/esm路径下,输入以下命令:
python extract.py esm1_t34_670M_UR50S examples/P62593.fasta examples/P62593_reprs --repr_layers 34 --include mean
进入终端,在root/esm路径下,输入以下命令:
python extract.py esm1_t34_670M_UR50S examples/P62593.fasta examples/P62593_reprs/ \
--repr_layers 34 --include mean