cube studio 开源云原生一站式机器学习 (二)-本地部署

cube studio开源云原生一站式机器学习/深度学习/大模型AI平台,支持sso登录,多租户,大数据平台对接,notebook在线开发,拖拉拽任务流pipeline编排,多机多卡分布式训练,超参搜索,推理服务VGPU,边缘计算,serverless,标注平台,自动化标注,数据集管理,大模型微调,vllm大模型推理,llmops,私有知识库,AI模型应用商店,支持模型一键开发/推理/微调,支持国产cpu/gpu/npu芯片,支持RDMA,支持pytorch/tf/mxnet/deepspeed/paddle/colossalai/horovod/spark/ray/volcano分布式。

整体架构

file

k8s集群构建

已经在本地搭建好了 k8s 集群:
http://11.0.1.10:30880/clusters/default/nodes
admin/K8s@123456

集群信息:
file

部署

1、克隆代码

cd /data/cube-studio/
git clone https://github.com/tencentmusic/cube-studio.git

2、创建挂载目录

# 所有节点都创建
mkdir -p /data/k8s/

部署NFS:

在线安装(所有节点)

ubuntu

apt update
apt install -y nfs-kernel-server
apt install -y nfs-common

centos

yum install -y nfs-utils rpcbind

离线安装

ubuntu使用deb包方式安装(所有节点)

查看自己版本的包https://mirrors.tuna.tsinghua.edu.cn/ubuntu/pool/main/n/nfs-utils/
下载nfs-common、nfs-kernel-server

dpkg -i nfs-common

dpkg -i nfs-kernel-server

centos使用rpm包方式安装(所有节点)

wget https://cube-studio.oss-cn-hangzhou.aliyuncs.com/install/nfsrpm.tar.gz
tar -zxvf nfsrpm.tar.gz
cd nfs
rpm -ivh *.rpm --force --nodeps

nfs server配置


# 修改配置文件,增加下面这一行数据
# /data/nfs/ 代表nfs server本地存储目录
mkdir -p /data/nfs
echo "/data/nfs/ *(rw,no_root_squash,async)" >> /etc/exports

# 加载配置文件
exportfs -arv
systemctl enable rpcbind.service 
systemctl enable nfs-server.service
systemctl start rpcbind.service
systemctl start nfs-server.service

#验证
[root@nfs ~]# showmount -e localhost
Export list for localhost:
/data/nfs   *

server端可以软链到/data/k8s目录

mkdir -p /data/nfs/k8s
ln -s /data/nfs/k8s /data/

如果只是单机部署nfs,那么到这里就部署结束了,如果是多机部署,则还需要部署客户端,就在客户端机器上接着往下部署。

nfs client配置

客户端的配置依据以下的步骤,需要注意的是客户端和服务端的挂载不能在同一台机器上,否则挂载会出现问题。

export server=192.168.3.100

#查看nfs server 信息

showmount -e $server

结果
Export list for xx.xx.xx.xx:
/data/nfs      *

# 系统层面添加挂载添加一行,重启自动添加,将服务端上的/data/nfs挂载到客户端上的/data/nfs
mkdir -p /data/nfs
echo "${server}:/data/nfs  /data/nfs   nfs   defaults  0  0" >> /etc/fstab

mount -a 

# 或者使用命令行,如果是一台机器记得不要是同一个地址
mount -t nfs $server:/data/nfs /data/nfs

#验证
df -h |grep nfs

# 软链到cube studio的目录
mkdir -p /data/nfs/k8s
ln -s /data/nfs/k8s /data/

#输出 表示挂载成功
[root@node02 ~]# df -h /data/nfs/
Filesystem                Size  Used Avail Use% Mounted on
172.16.101.13:/data/nfs  3.5T  626M  3.5T   1% /data/nfs

性能压测

time dd if=/dev/zero of=/data/nfs/test bs=2M count=1000
time dd if=/data/nfs/test of=/dev/null bs=2M

相关文章:
cube studio开源云原生一站式机器学习
cube-studio/wiki

为者常成,行者常至