博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
人工智能实战2019第七次作业(OpenPAI) 16721088 焦宇恒
阅读量:5239 次
发布时间:2019-06-14

本文共 2003 字,大约阅读时间需要 6 分钟。

项目 内容
这个作业属于哪个课程
这个作业的要求在哪里
我在本作业的目标 学习OpenPAI的使用

学习OpenPAI的使用

OpenPAI简介

​ OpenPAI用于管理计算资源,并对机器学习任务进行了优化。通过Docker技术,硬件计算资源与软件相分离。这样,用户能轻松的进行分布式计算,在不同的深度学习框架间切换,也能在完全一致的环境中重复运行作业。适用场景如下:

  • 在团队间共享强大的AI计算资源(例如,GPU,FPGA集群)。
  • 在组织内共享或重用AI资产(如模型,数据,运行环境等)。
  • 构建易于IT运维的AI计算平台。
  • 在同一个环境中完成模型训练过程。

OpenPAI使用体验

​ 在安装扩展后,可直接在VS Code中使用OpenPAI。

  1. Use shortcut key Ctrl+Shift+P to open command palette.

  2. input and look for PAI:Add PAI Cluster as below.

  3. press Enter,and it takes to input the host of OpenPAI.

  4. 之后,会弹出的集群配置文件,填写"username"和”password”并保存配置。

  5. 添加文件,文件夹需要包含以下项:

    • _init__.py: 用于调用filetrans.py
    • filetrans.py:实现hdfs和docker container之间的数据传输操作。主要实现数据download和upload
    • run_samples.py:实现整个训练过程,包括下载数据,训练模型,上传结果模型
    • train.sh: 训练模型的脚本命令
  6. 添加任务:

    • 双击Create Job Config…创建配置文件。本例中直接copy了实例中的JSON文件,修改了jobname(便于后面辨认出自己提交的任务)
    {     "jobName": "jyh_test_couplet_001",     "image": "tobeyqin/pai.build.cu80:my",     "codeDir": "$PAI_DEFAULT_FS_URI/$PAI_USER_NAME/$PAI_JOB_NAME",     "dataDir": "$PAI_DEFAULT_FS_URI/Data/$PAI_JOB_NAME",     "outputDir": "$PAI_DEFAULT_FS_URI/Output/$PAI_JOB_NAME",     "taskRoles": [         {             "name": "test_001",             "taskNumber": 1,             "cpuNumber": 2,             "gpuNumber": 1,             "memoryMB": 8192,             "command": "pip3 --quiet install future && cd $PAI_JOB_NAME && chmod +x train.sh && python3 run_samples.py"         }     ] }
  7. 提交任务:

    在配置文件中,单机鼠标右键,选择Submit Job to PAI Cluster,提交任务。

  8. 查看状态:

    提交任务后,PAI Client会在右下角提示Open Web Portal,点击可打开OpenPAI的web

    portal,查看任务的运行状态。

1613934-20190513103738085-1269212275.png

1613934-20190513103432941-1954413916.png

  1. 完成训练:

    当任务状态变成successed时,即完成训练过程。并且将训练模型结果传回hdfs。在程序中,我们编写的默认传回路径为output/目录下,以JobName命名的文件夹中。

1613934-20190513103750612-630758736.png

  1. 下载模型:

    用户可以在PAI CLUSTER EXPLORER下的集群中,双击Open HDFS,打开HDFS explorer。在/Beihang_Couplet/output/目录下,右键单击JobName命名的文件夹,选择Download,下载模型文件。

OpenPAI使用心得

​ OpenPAI配合VScode客户端使用,操作非常简单便捷,Web UI界面也很简洁明了。在本例中用了两个半小时就完成了对联项目的数据训练,让我体验到了云部署的强大算力的便捷高效。

在使用中用到的问题

​ 在进入HDFS EXPlORER后想返回到PAI CLUSTER EXPLORER时要输入命令“EXPLORER: focus on PAI cluster explorer view",感觉比较麻烦(不知道是不是我操作有问题)

1613934-20190513102545229-1056823501.png

1613934-20190513102553520-1146062749.png

1613934-20190513102602264-1009361861.png

转载于:https://www.cnblogs.com/JiaoYh98/p/10855228.html

你可能感兴趣的文章
python习题:unittest参数化-数据从文件或excel中读取
查看>>
Android控件之GridView探究
查看>>
在工程中要加入新的错误弹出方法
查看>>
PS 滤镜— — sparkle 效果
查看>>
snmpwalk命令常用方法总结
查看>>
网站产品设计
查看>>
代理ARP
查看>>
go 学习笔记(4) ---项目结构
查看>>
java中静态代码块的用法 static用法详解
查看>>
Java线程面试题
查看>>
Paper Reading: Relation Networks for Object Detection
查看>>
Java IO流学习总结
查看>>
day22 01 初识面向对象----简单的人狗大战小游戏
查看>>
mybatis源代码分析:深入了解mybatis延迟加载机制
查看>>
Flask三剑客
查看>>
Hibernate-缓存
查看>>
【BZOJ4516】生成魔咒(后缀自动机)
查看>>
提高PHP性能的10条建议
查看>>
svn“Previous operation has not finished; run 'cleanup' if it was interrupted“报错的解决方法...
查看>>
熟用TableView
查看>>