GPU实验室-通过GPU云服务器训练GPT-2[阿里云]

实验简介:

本文介绍如何使用GPU云服务器,使用Megatron-Deepspeed框架训练GPT-2模型并生成文本。实验室地址:https://developer.aliyun.com/adc/scenario/exp/85b05a98c93049f198a4705bb59486e0查看更多最佳实践:https://www.aliyun.com/daily-act/ecs/markets/aliyun/gpu/aigc

实验说明

1. 实验资源方式简介及开始

a.云起实验室支持个人账户资源一种实验资源方式。

  • 个人账户资源
    • 使用您个人的云资源进行操作,资源归属于个人。
    • 所有实验操作将保留至您的账号,请谨慎操作。
    • 平台仅提供手册参考,不会对资源做任何操作。
    • 说明:使用个人账户资源,在创建资源时,可能会产生一定的费用,请您及时关注相关云产品资源的计费概述。

b.准备开始实验

  • 在实验开始前,请您选择个人账户资源,单击确认开启实验。

2. 创建ECS实例

a.前往实例创建页。b.按照界面提示完成参数配置,创建一台ECS实例。

  • 需要注意的参数如下,其他参数的配置,请参见自定义购买实例。​
    • 实例:选择实例规格为ecs.gn7i-c8g1.2xlarge(单卡NVIDIA A10)。
    • 镜像:使用云市场镜像,名称为aiacc-train-solution,您可以直接通过名称搜索该镜像,选择最新版本即可。

    • 公网IP:选中分配公网IPv4地址,带宽计费模式选择按使用流量,带宽峰值设置为100 Mbps。以加快模型下载速度。

c.为当前ECS实例设置登录密码,登录凭证选择自定义密码,登录名选择root,输入登录密码和确认密码。d.在云服务ECS购买页面右侧,选中服务协议,单击确认下单。e.在创建成功对话框中,单击管理控制台。创建完成后,在ECS实例页面,获取公网IP地址。f.在实例页面,等待状态变为运行中后,即可使用该云服务器ECS。

3. 安装Megatron-Deepspeed框架

a.在实验室页面右侧,单击图标,切换至Web Terminal。

  • 输入ECS服务器登录用户名和密码,登录ECS。

b.执行以下命令,启动容器。docker run -d -t –network=host –gpus all –privileged –ipc=host –ulimit memlock=-1 –ulimit stack=67108864 –name megatron-deepspeed -v /etc/localtime:/etc/localtime -v /root/.ssh:/root/.ssh nvcr.io/nvidia/pytorch:21.10-py3