GPU服务器使用教程
GPU服务器使用教程

2019未来杯高校AI挑战赛 > 赛事资讯

发布时间:2019-03-16 12:06:49

GPU服务器使用教程

硬件型号和配置

本次大赛区域赛免费为选手提供GPU计算资源。GPU服务器为金山云P3I.14B1,配置如下:

  • GPU:Tesla P4 x 1
  • vCPU:Xeon E5 v4 14核
  • 内存:DDR4 120GB
  • 数据盘:本地SSD 500GB

软件环境

GPU服务器默认安装:

  • Ubuntu Linux 16.04-64位
  • CUDA 9.1
  • Anaconda 3.7

我们也可提供 CentOS 7.2/3镜像或CUDA8.0,如有需求,请联系小助手申请重置。

我们暂不提供桌面版本Linux,请使用命令行进行操作。

如何登陆

  • Windows 环境,可以使用 PuTTY 等SSH 终端软件登录,配置host, 填入IP地址、用户名和密码即可登录。
  • Linux、Mac OS 可以使用系统自带的"终端"直接登录。命令如下:
    # IP地址请替换为申请时下发的IP,输入正确的用户名和密码即可登录。
    ssh ubuntu@111.222.10.123
  • Mac OSX 系统推荐使用Terminus终端,可获得更好的操作体验。

挂载数据盘

系统提供的数据盘需要自行操作挂载,命令如下:

sudo mkfs.ext4 /dev/vdb
sudo mkdir /data
sudo mount /dev/vdb /data
# 执行 df -h 可以查看到磁盘空间被挂载到 /data目录下

下载和解压数据集

使用如下命令即可通过内网环境高速下载数据集:

# 跨设备说话人识别训练集
wget http://172.31.0.3:9090/2019af-sr-aishell2.zip
# 跨设备说话人识别训练集 SHA1SUM
wget http://172.31.0.3:9090/2019af-sr-aishell2.zip.sha1

# 跨设备说话人识别开发集
wget http://172.31.0.3:9090/af2019-sr-devset-20190312.zip
# 跨设备说话人识别开发集 SHA1SUM
wget http://172.31.0.3:9090/af2019-sr-devset-20190312.zip.sha1

# 发现超新星训练集
wget http://172.31.0.3:9090/af2019-cv-training-20190312.zip
# 发现超新星训练集 SHA1SUM
wget http://172.31.0.3:9090/af2019-cv-training-20190312.zip.sha1

检查数据集完整性:

# 以图像数据集为例
sha1sum -c af2019-cv-training-20190312.zip.sha1
# af2019-cv-training-20190312.zip: OK
# 输出OK,即为成功下载

解压数据集:

# 以图像数据集为例
unzip af2019-cv-training-20190312.zip
# 系统会提示输入密码,解压密码请与微信小助手联系取得。

上传和下载程序和模型

您可以通过SCP命令远程拷贝你开发的程序。

在本地打开终端,执行如下命令:

# 从本地拷贝到服务器, 目录和IP地址根据实际情况填入。
scp -r /myprojects/mycodes ubuntu@111.222.10.123:/data/

# 从远程拷贝到本地:
scp -r ubuntu@111.222.10.123:/data/mycodes /myprojects

您也可以考虑使用gitlab一类的代码托管平台,使用git传递代码,考虑到竞赛期间的代码保密,建议使用private仓库,竞赛结束后再考虑是否转为public仓库。

数据训练后,记得下载保存训练好的模型用于测试集的计算,否则您的计算成果有可能丢失。

安装所需的其他程序

您可以使用 apt-get 命令安装所需的软件包。

# 例如安装 g++
sudo apt-get install g++

您也可以选择自行下载源码编译,具体请查询所需软件包的文档。

安装python软件包

推荐使用conda在挂载数据盘上创建环境并安装软件包。

# 在/data/myproject创建环境
conda create -p /data/myproject
# 进入环境
conda activate /data/myproject
# 安装软件包
conda install tensorflow
# 可以安装指定版本python或软件包
conda install python=3.6 tensorflow=1.4