常见问题

一、关于实例的问题

1.实例启动或者重启失败/卡在启动中,怎么办?

  • 实例数据超过30G会导致实例启动失败。建议删除一些数据,或者把数据放在 /user-data

  • 机器被占用导致启动失败。建议重新创建实例,联系客服。

  • 使用官方镜像,启动时间在5分钟内。自定义镜像,启动时间15分钟以内。

  • 联系客服。

2.提示启动失败,机器被占用,请进行迁移怎么办?

说明机器被其他用户占用,等机器空出再使用或者迁移数据至其他机器使用。可以选择包周包月来避免这个问题。

3.如何避免忘记关机?

  • 方法一:

用户中心-我的实例-实例管理-定时关机

../_images/1.png
  • 方法二:

在代码最后调用命令 ``&&/root/shutdown``(注意&&前有空格), 则这段代码运行完毕后,实例将会自动关机。

*eg:python train.py --data coco128.yaml --cfg yolov5s.yaml --weights '' --batch-size 16 &&/root/shutdown

4.训练的时候我能关闭终端吗?

在终端中直接运行程序的时候断开终端,或者在Jupyter Notebook里面运行程序的时候关掉Jupyter的网页,都会导致进程直接被杀死。

如果您想要关掉终端或者网页,您需要将训练任务转为后台运行,并输出log到 /tmp 目录下。

您可以用类似这样的指令把任务放到后台执行:

nohup python test.py > /tmp/log 2>&1 &

当您下次进入终端时可以用如下指令看您的训练任务打出来的log:

tail -f /tmp/log

您在python 中 print 之后需要调用 sys.stdout.flush() 才能让log实时的重定向到文件中。

或者在python3 中您也可以 print("begin", flush=True) 这样的方式让log实时的重定向到文件中。

5.实例/数据会为用户保留多久?

  • 实例关机后(处于“已过期”状态)10天内未被启动,将被自动释放。如将长时间不使用实例,建议使用“创建自定义镜像”功能进行备份。

  • 若您的账户发生欠费,从欠费当日算起第10天我们将发送欠费预警短信,第15天将会清除您的所有数据;若期间欠款偿清,则数据继续保留。

二、关于实例变更配置的问题

1.如何包周转按量付费?

创建自定义镜像,通过自定义镜像重新创建实例,选择按量付费。

2.使用过程中想要增加或减少显卡数量,更换显卡型号怎么办?

找到需要变配的实例,在实例管理中选择创建自定义镜像。通过自定义镜像重新创建新的实例。

三、关于实例收费的问题

1.什么是按量付费?

按实际开通时长以小时为单位进行收费,后付费模式。按量付费主机即开即用,可随时释放。每个账户最多同时运行1 个实例,充值任意金额可最多可同时运行 3 个实例。适合测试阶段或者业务量暂时不稳定的客户。

使用期间,当余额不足以支付最近1个小时的费用时,平台将会给您发送邮件提醒余额不足。

当云主机遇到不可抗力(如:停电,断网等)停止运行影响到您的训练任务时,会自动给您一些补偿。

2.什么是包周包月?

按周/月购买及续费,为预付费模式。包周包月不限运行实例数。一次性购买时长越长,单价越便宜。

四、关于数据集

1.如何使用公共数据集?

  • 公共数据集无需解压和下载,可直接在代码中更改数据集路径使用;

  • 数据集路径见对应数据集的详情页

2.如何添加新的公共数据集?

论坛留言,写明所需数据集的名字和链接。

五、关于模型库的问题

1.模型复现示例

2.若通过模型镜像创建实例,连接实例后,您将直接进入模型目录下。

六、关于存储计费的问题

1.存储数据该怎么收费呢?

  • 11月8日零点起,每个用户可在/user-data中免费存储30G的数据,超过30G的部分将按(每天实际存储容量的最大值-30G)*0.05元/天的价格计费;

  • 示例:若您11月8日使用/user-data存储空间的峰值为36G,则平台将在11月9日凌晨1点扣除您(36G-30G)*0.05=0.3元的存储费用。

  • 存储费用将于次日凌晨1点结算后自动从您的账户余额中扣除。若扣款账户持有云币券,则优先扣除云币券;

  • 您可在扣费的订单明细可在【订单记录-数据订单】中查看;

  • 若您的账户发生欠费,从欠费当日算起第10天我们将发送欠费预警短信,第15天将会清除您的所有数据;若期间欠款偿清,则数据继续保留。

七、关于框架的问题

1.可以安装除了官方配置以外的框架吗?

您可以在极链AI云的云主机上安装任何您需要的软件框架,关机再开机后,所有安装好的软件都会保留。

如果主机资源被占用,无法开机,需要使用 开始迁移 功能,平台会帮你迁移到其他物理机上,你已经安装的框架还会得到保存,不会丢失。

2.如何安装第三方的python包?

pip的源您可以用手动指定源的方式来安装,例如安装pandas可以使用命令:

pip install pandas --index https://pypi.mirrors.ustc.edu.cn/simple/      (使用国内的pip源将会极大的加快安装软件的速度)

我们的云主机是基于docker实现的,所以您 不能在我们的主机内安装docker。

您也可以使用conda来安装您需要的软件框架,conda会自动替您安装好一些依赖的库,很方便。

但国内的conda源好多都无法使用了。您可以使用以下方法指定其他的conda源。

vim /root/.condarc

# 然后把里面内容的改成这个样子
channels:
- defaults
show_channel_urls: true

# 然后命令行执行这个
conda config --add channels https://mirrors.sjtug.sjtu.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.sjtug.sjtu.edu.cn/anaconda/pkgs/free/
conda config --set show_channel_urls yes

# 然后您就可以使用conda来安装软件包了,例如
conda install tensorflow-gpu=1.9

3.如何使用Keras框架?

首先选择tensorflow框架,执行一个命令就可以使用keras框架了。

cuda11: pip install keras

cuda10: conda install keras

八、关于实例迁移的问题

1.主机被占用,数据该怎么办?

您可以对您的机器进行迁移,以便于您在另一台机器上使用和您之前完全相同的环境。迁移会将您原机器的所有内容, 包括您自己装的软件等等数据迁移到另一台机器上。( /data-tmp 文件夹下的内容不会跟着迁移 )

2.哪些因素会影响迁移时间?

迁移所需的时间和您的实例中的增量数据大小有关,数据量越大,迁移需要时间越长。(数据量大的时候迁移速度会慢,请耐心等待)

3.迁移过程中需要注意哪些问题?

在迁移结束之前,请不要开启、关闭、释放迁移实例,避免迁移失败 。

九、关于显卡的问题

1.一张显卡与两张显卡有什么区别?

如果选择的主机为32 核、256 GB 内存、8 张显卡。购买此主机的 2 张显卡。分配给您的资源为 (2/8)*32=8 核、(2/8)*256=64 GB。购买4张显卡分配到的资源为(4/8)*32=16 核、(4/8)*256=128 GB。 注意因为实例是以 Docker 容器运行,在实例内看到的主机信息可能为整机资源,但实际并不能使用该主机的所有资源。

请注意控制您实例内进程的内存使用情况,如果超出分配的内存,实例内的进程会发生被kill或重启的情况。如遇到此情况,请使用 top 命令(按 e 来切换内存单位)来查看进程的内存占用,降低训练的内存使用量。

2.如何查看显卡情况?

使用 nvidia-smi 命令可以查看显卡信息,包括显卡驱动、型号、温度、功耗、显存和进程等。

小技巧

实例使用容器虚拟化,因 PID Namespace 隔离问题使用 nvidia-smi 命令无法看到使用显卡的进程。

如果 Processes 下显示 No running processes found 代表没有进程使用显卡,如果为空代表有进程使用显卡。

也可以根据显卡的使用率、功耗来判断。

~# nvidia-smi
Sun Jun 28 10:49:35 2020
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 440.33.01    Driver Version: 440.33.01    CUDA Version: 10.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla K40c          On   | 00000000:02:00.0 Off |                    0 |
| 23%   36C    P8    23W / 235W |      0MiB / 11441MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

十、关于jupyter lab/jupyter notebook的问题

1.如何使用原版jupyter notebook?

把网址中的 lab 改为 tree 即可

../_images/5.png

2.jupyter lab / jupyter Notebook登不进去怎么办?

云主机开机后较罕见情况下会出现Jupyter Notebook 链接点不开或者点开后需要输入密码的情况,解决方法如下:

1.您可以在云主机列表页面 “操作 -> 更换端口号并重启” 重新分配登录的端口号,绝大多数情况下会修复这个问题。

2.您也可以尝试使用ssh登录云主机,使用命令 jupyter notebook list 或者 jupyter server list 获取token。

3.如果以上方法无法解决您的问题,您可以联系客服。

3.ssh断开是什么原因?

长时间不操作 ssh 会断开,使用 jupyter-lab 自带的终端可以避免这个问题 或者把程序放在后台运行

可以用如下的命令把任务放到后台执行。

# 将程序放到后台运行,将标准输出和错误输出写入到 /data-input/log1.log 文件中
nohup python test.py > /data-input/log1.log 2>&1 &

# 实时查看日志
tail -f /data-input/log1.log

# 查看进程是否还在运行,以及查看 PID 进程号
ps aux | grep test.py

# 终止后台正在运行的进程,<PID> 替换为实际进程号,如果无法终止,使用 kill -9
kill -15 <PID>

十一、关于第三方工具的使用问题

1.如何接入桌面 VNC ?

VNC 默认是没有安装的,2021年07月06日之后创建的实例内置了安装VNC的脚本,可以使用脚本一键安装和控制起停。 脚本位置: /root/vncserver.sh

2021年07月06日之前创建的实例可以通过下面命令获取脚本

curl -L -o vncserver.sh https://ai-cloud-plat.videojj.com/tools/vnc/vncserver.sh
chmod +x vncserver.sh

脚本的使用

# 安装
./vncserver.sh install

# 启动 (想要使用vnc需要把jupyter或者tensorboard停掉,第二个参数就是决定停哪个服务)
./vncserver.sh start jupyter 或者 ./vncserver.sh start tensorboard

# 停止
./vncserver.sh stop

以上步骤安装并启动vncserver

如何在自己的电脑上通过vnc连接服务器呢?

  • 下载vnc客户端工具 vncviewer

  • 配置连接

    • 2021年7月6日之后创建的实例在执行上面脚本启动vnc后会把需要的连接地址信息打印出来,直接用之连接vnc即可。

    • 之前的实例连接地址需要到后台实例列表中查看。具体的步骤见 文档步骤4

十二、关于OpenCV使用问题

1.引入OpenCV包的时候会报错(如下),怎么办?

报错 ImportError: libGL.so.1: cannot open shared object file: No such file or directory。

连接实例后,在命令行中输入以下指令,安装依赖包即可。

apt update
apt install libgl1-mesa-glx

十三、关于发票的问题

1.可以开充值发票吗

累计充值金额达到200元以上,即可申请开充值发票发票。

2.可以开电子发票吗?

支持开电子发票以及纸质发票

3.发票明细开什么?

信息服务费或者技术服务费

4.开发票之前需要注意的问题

1.学校/公司报销是否有单张发票最高限额?(如:单张发票不可超过1000元,则需要分开开多张发票)

2.学校/公司是否可以接受多张发票连号?

十四、关于云币券的问题

1.云币券怎么使用?

云币券与现金1:1使用,在结算的时候会直接抵扣掉现金

2.云币券/优惠券金额为什么会减少?

云币券/优惠券在有效期内才能使用,若云币券/优惠券过期,则会自动清零。

3.如何查看云币券、优惠券有时间期限?

官网-用户中心-我的钱包-钱包总览中点击“查看”即可看到时间期限。

十五、免责声明

1.哪些行为属于违禁?

  • 在平台没有开过任何实例

  • 邀请大量虚假用户。

  • 短时间恶意占用大量机器。

  • 恶意刷取平台活动奖励。

  • 使用实例进行挖矿操作。

  • 其他恶意或不正当行为

2.以下情形不属于极链AI云违约

鉴于计算机及互联网以及个人机主出租算力资源的特殊性,您理解并同意以下情形不属于极链AI云违约:

  • 因黑客、病毒、电信部门技术调整和骨干线路中断等引起的事件;

  • 极链AI云在进行网络调整和维护时需要中断服务,或者由于Internet上通路的阻塞造成您对云服务访问速度下降;

  • 极链AI云在提前通知您进行数据备份、业务迁移或业务暂停后,极链AI云实施的操作维护,包含但不限于故障处理、系统升级、系统调优、系统扩容等导致的云服务不可用、您的内容不可用等;

  • 因机主的机器故障或网络电力等故障导致的数据丢失或损坏。

  • 因国家或运营商政策调整导致极链AI云无法继续为您提供服务的,不构成极链AI云违约。

极链AI云保留自行对云服务及其相关功能、应用软件变更、升级、修改、迁移的权利。极链AI云进一步保留在云服务中开发新的模块、功能、软件和服务的权利。上述所有新的模块、功能、软件和服务的提供,除非极链AI云另有说明,否则仍适用本协议。

您同意极链AI云在极链AI云没有重大过失或恶意的情况下无需对您或第三方在使用云服务时在数据传输中的迟延、不准确、错误或疏漏及因此而致使的损害负责。

因您不提供云服务开通的必要条件而使云服务不能提供、不能及时提供或造成云服务缺陷的,极链AI云不承担任何责任。因您的原因导致云服务延迟超过3个月的,极链AI云有权终止协议、相关订单及云服务,您应赔偿因此给极链AI云造成的相应损失。

您应负责您在极链AI云服务上部署的应用系统、OS系统,以及用户的口令、数据等的安全性保障。因您的安全保障不当或不足够导致的上述系统、口令、数据等的被盗、丢失、损坏、泄露等一切后果和损失由您自行承担。