2022-02-21 model:deit-ubuntu18.04-cuda11.0-cudnn8-python3.8-pytorch1.7.0-new
华为诺亚实验室的研究者提出了一种新型视觉 Transformer 网络架构 Transformer in Transformer,它的表现优于谷歌的 ViT 和 Facebook 的 DeiT。 论文提出了一个全新的 TNT 模块(Transformer iN Transformer),旨在通过内外两个 transformer 联合提取图像局部和全局特征。通过堆叠 TNT 模块,研究者搭建了全新的纯 Transformer 网络架构——TNT。值得注意的是,TNT 还暗合了 Geoffrey Hinton 最新提出的 part-whole hierarchies 思想。在 ImageNet 图像识别任务上,TNT 在相似计算量情况下的 Top-1 正确率达到 81.3%,高于 DeiT 的 79.8% 和 ViT 的 77.9%。官方论文:https://arxiv.org/pdf/2103.00112.pdf,
进入终端,在root/deit(默认)路径下,输入以下命令:
python run_with_submitit.py --model deit_base_patch16_224
进入终端,在root/deit(默认)路径下,输入以下命令:
python main.py --eval --resume https://dl.fbaipublicfiles.com/deit/deit_base_patch16_224-b5f2ef4d.pth
参数 | 说明 |
---|---|
resume | 自动下载权重文件 |