项目 | 内容 |
---|---|
这个作业属于哪个课程 | |
这个作业的要求在哪里 | |
我在本作业的目标 | 学习OpenPAI的使用 |
学习OpenPAI的使用
OpenPAI简介
OpenPAI用于管理计算资源,并对机器学习任务进行了优化。通过Docker技术,硬件计算资源与软件相分离。这样,用户能轻松的进行分布式计算,在不同的深度学习框架间切换,也能在完全一致的环境中重复运行作业。适用场景如下:
- 在团队间共享强大的AI计算资源(例如,GPU,FPGA集群)。
- 在组织内共享或重用AI资产(如模型,数据,运行环境等)。
- 构建易于IT运维的AI计算平台。
- 在同一个环境中完成模型训练过程。
OpenPAI使用体验
在安装扩展后,可直接在VS Code中使用OpenPAI。
Use shortcut key Ctrl+Shift+P to open command palette.
input and look for PAI:Add PAI Cluster as below.
press Enter,and it takes to input the host of OpenPAI.
之后,会弹出的集群配置文件,填写"username"和”password”并保存配置。
添加文件,文件夹需要包含以下项:
- _init__.py: 用于调用filetrans.py
- filetrans.py:实现hdfs和docker container之间的数据传输操作。主要实现数据download和upload
- run_samples.py:实现整个训练过程,包括下载数据,训练模型,上传结果模型
- train.sh: 训练模型的脚本命令
添加任务:
- 双击Create Job Config…创建配置文件。本例中直接copy了实例中的JSON文件,修改了jobname(便于后面辨认出自己提交的任务)
{ "jobName": "jyh_test_couplet_001", "image": "tobeyqin/pai.build.cu80:my", "codeDir": "$PAI_DEFAULT_FS_URI/$PAI_USER_NAME/$PAI_JOB_NAME", "dataDir": "$PAI_DEFAULT_FS_URI/Data/$PAI_JOB_NAME", "outputDir": "$PAI_DEFAULT_FS_URI/Output/$PAI_JOB_NAME", "taskRoles": [ { "name": "test_001", "taskNumber": 1, "cpuNumber": 2, "gpuNumber": 1, "memoryMB": 8192, "command": "pip3 --quiet install future && cd $PAI_JOB_NAME && chmod +x train.sh && python3 run_samples.py" } ] }
提交任务:
在配置文件中,单机鼠标右键,选择Submit Job to PAI Cluster,提交任务。
查看状态:
提交任务后,PAI Client会在右下角提示Open Web Portal,点击可打开OpenPAI的web
portal,查看任务的运行状态。
完成训练:
当任务状态变成successed时,即完成训练过程。并且将训练模型结果传回hdfs。在程序中,我们编写的默认传回路径为output/目录下,以JobName命名的文件夹中。
下载模型:
用户可以在PAI CLUSTER EXPLORER下的集群中,双击Open HDFS,打开HDFS explorer。在/Beihang_Couplet/output/目录下,右键单击JobName命名的文件夹,选择Download,下载模型文件。
OpenPAI使用心得
OpenPAI配合VScode客户端使用,操作非常简单便捷,Web UI界面也很简洁明了。在本例中用了两个半小时就完成了对联项目的数据训练,让我体验到了云部署的强大算力的便捷高效。
在使用中用到的问题
在进入HDFS EXPlORER后想返回到PAI CLUSTER EXPLORER时要输入命令“EXPLORER: focus on PAI cluster explorer view",感觉比较麻烦(不知道是不是我操作有问题)