Kubernetes V1.15管理NVIDIA GPU容器
connygpt 2024-11-20 14:07 11 浏览
参考链接:
- nvidia-k8s-device-plugin
- k8s-1.15调度GPU文档
- nvidia-docker
0. GPU主机依赖
- 1.下载nvidia-driver(官方提示要约等于361.93)
- 2.安装nvidia-docker2.x(nvidia-docker1.x和2.x完全不同)
- 3.docker配置成nvidia的默认运行时
- 4.kubernetes版本大于1.10
1. systemd服务配置文件
注意:在企业级生产环境里通常都会使用Centos来运行服务,但由于GPU环境下需要安装GPU驱动、cuda、cudnn之类的依赖库,导致操作不方便,因此可能会使用Ubuntu来运行GPU相关服务,两种发型版的systemd服务启动配置默认不同,因此在自动化安装时需要适配到多个发行版
- 1.centos服务默认目录: /usr/lib/systemd/system/docker.service
- 2.ubuntu服务默认目录: /lib/systemd/system/docker.service
可在手动部署服务时,将服务配置文件都放置到/etc/systemd/system/目录
提示:systemd加载配置文件的顺序和优先级可自行查阅
2. kubelet默认配置
注意:k8s官方文档依然标明需要添加--feature-gates="Accelerators=true"参数,但其实在k8s-v1.15版本Accelerators已经废弃,改为使用"DevicePlugins=true"参数了。
另外,在k8s比较高版本后(至少v1.15),kubelet相关参数建议在--config中进行指定,大概内容如下:
$ cat kubelet.config ... kind: KubeletConfiguration apiVersion: kubelet.config.k8s.io/v1beta1 port: 10250 featureGates: DevicePlugins: true clusterDomain: cluster.local. ... ...
3. docker默认配置
增加nvidia的默认运行时
安装nvidia-docker 2+
$ cat /etc/docker/daemon.json { "default-runtime": "nvidia", "runtimes": { "nvidia": { "path": "/usr/bin/nvidia-container-runtime", "runtimeArgs": [] } } } # 重启docker和kubelet $ systemctl daemon-reload && systemctl restart docker kubelet
4. 给gpu节点打标签
kubectl label nodes 172.16.21.0 gpu=nvidia-tesla-p100
5. 给gpu节点部署nvidia-device-plugin插件
# 给gpu节点创建nvidia-device-plugin插件 $ kubectl apply -f nvidia-device-plugin-v1.9.yaml daemonset.extensions/nvidia-device-plugin-daemonset created $ kubectl get pods -n kube-system -o wide | grep nvidia-device nvidia-device-plugin-daemonset-p9kff 1/1 Running 0 2s 20.0.52.3 172.16.21.0 <none> <none> # 查看device-plugin日志详情 $ kubectl logs nvidia-device-plugin-daemonset-p9kff -n kube-system 2019/09/30 08:05:44 Loading NVML 2019/09/30 08:05:44 Fetching devices. 2019/09/30 08:05:44 Starting FS watcher. 2019/09/30 08:05:44 Starting OS watcher. 2019/09/30 08:05:44 Starting to serve on /var/lib/kubelet/device-plugins/nvidia.sock 2019/09/30 08:05:44 Registered device plugin with Kubelet # 也可以在docker上测试该驱动 $ docker run --security-opt=no-new-privileges --cap-drop=ALL --network=none -it -v /var/lib/kubelet/device-plugins:/var/lib/kubelet/device-plugins nvidia/k8s-device-plugin:1.11
6. 在k8s集群中调度gpu业务容器
$ kubectl apply -f gpu-deploy-svc.yaml ... ... # 查看gpu容器的deploy和svc(使用了service,并且使用nodePort类型) $ kubectl get pods,svc | grep gpu pod/gpu-image-cluster-6565586479-x89bk 1/1 Running 0 9m1s service/gpu-image-cluster NodePort 10.253.172.218 <none> 8080:38080/TCP 8m21s
7. 测试GPU容器业务
注意:想要测试GPU容器,可以直接使用nvidia/cuda:8.0-runtime-ubuntu14.04镜像,容器运行后执行nvidia-smi可以显示GPU卡,即为生产。
$ kubectl get nodes NAME STATUS ROLES AGE VERSION 172.16.21.0 Ready <none> 7h11m v1.15.0 172.16.21.26 Ready <none> 24d v1.15.0 172.16.21.27 Ready <none> 24d v1.15.0 172.16.21.28 Ready <none> 24d v1.15.0 # 使用service 进行访问 $ curl -H 'Content-Type:application/json' -X POST -d '{"imgUrl": "https://img.bgbiao.cn/image/2019-08-27/f208b338-af03-4557-8d23-9cf308c38ba9-1566921008172.png"}' "http://10.253.172.218:8080/api/predict/class" {"class_id":958,"class_name":"\u5c0f\u718a\u732b\u5927\u6bb5\u6587\u5b57\uff08\u53d7\u4e0d\u4e86\u7f51\u604b\uff09\u8868\u60c5\u5305","code":200,"message":"OK"} # 由于是使用的nodePort类型的service,可以直接访问每个node节点的28080 $ curl -H 'Content-Type:application/json' -X POST -d '{"imgUrl": "https://img.bgbiao.cn/image/2019-08-27/f208b338-af03-4557-8d23-9cf308c38ba9-1566921008172.png"}' "http://172.16.21.0:38080/api/predict/class" {"class_id":958,"class_name":"\u5c0f\u718a\u732b\u5927\u6bb5\u6587\u5b57\uff08\u53d7\u4e0d\u4e86\u7f51\u604b\uff09\u8868\u60c5\u5305","code":200,"message":"OK"} $ curl -H 'Content-Type:application/json' -X POST -d '{"imgUrl": "https://img.bgbiao.cn/image/2019-08-27/f208b338-af03-4557-8d23-9cf308c38ba9-1566921008172.png"}' "http://172.16.21.26:38080/api/predict/class" {"class_id":958,"class_name":"\u5c0f\u718a\u732b\u5927\u6bb5\u6587\u5b57\uff08\u53d7\u4e0d\u4e86\u7f51\u604b\uff09\u8868\u60c5\u5305","code":200,"message":"OK"} $ curl -H 'Content-Type:application/json' -X POST -d '{"imgUrl": "https://img.bgbiao.cn/image/2019-08-27/f208b338-af03-4557-8d23-9cf308c38ba9-1566921008172.png"}' "http://172.16.21.27:38080/api/predict/class" {"class_id":958,"class_name":"\u5c0f\u718a\u732b\u5927\u6bb5\u6587\u5b57\uff08\u53d7\u4e0d\u4e86\u7f51\u604b\uff09\u8868\u60c5\u5305","code":200,"message":"OK"} $ curl -H 'Content-Type:application/json' -X POST -d '{"imgUrl": "https://img.bgbiao.cn/image/2019-08-27/f208b338-af03-4557-8d23-9cf308c38ba9-1566921008172.png"}' "http://172.16.21.28:38080/api/predict/class" {"class_id":958,"class_name":"\u5c0f\u718a\u732b\u5927\u6bb5\u6587\u5b57\uff08\u53d7\u4e0d\u4e86\u7f51\u604b\uff09\u8868\u60c5\u5305","code":200,"message":"OK"}
- 上一篇:K8S实战笔记—使用标签选择器过滤对象
- 下一篇:9、Service资源管理
相关推荐
- 自学Python,写一个挨打的游戏代码来初识While循环
-
自学Python的第11天。旋转~跳跃~,我~闭着眼!学完循环,沐浴着while的光芒,闲来无事和同事一起扯皮,我说:“编程语言好神奇,一个小小的循环,竟然在生活中也可以找到原理和例子”,同事也...
- 常用的 Python 工具与资源,你知道几个?
-
最近几年你会发现,越来越多的人开始学习Python,工欲善其事必先利其器,今天纬软小编就跟大家分享一些常用的Python工具与资源,记得收藏哦!不然下次就找不到我了。1、PycharmPychar...
- 一张思维导图概括Python的基本语法, 一周的学习成果都在里面了
-
一周总结不知不觉已经自学Python一周的时间了,这一周,从认识Python到安装Python,再到基本语法和基本数据类型,对于小白的我来说无比艰辛的,充满坎坷。最主要的是每天学习时间有限。只...
- 三日速成python?打工人,小心钱包,别当韭菜
-
随着人工智能的热度越来越高,许多非计算机专业的同学们也都纷纷投入到学习编程的道路上来。而Python,作为一种相对比较容易上手的语言,也越来越受欢迎。网络上各类网课层出不穷,各式广告令人眼花缭乱。某些...
- Python自动化软件测试怎么学?路线和方法都在这里了
-
Python自动化测试是指使用Python编程语言和相关工具,对软件系统进行自动化测试的过程。学习Python自动化测试需要掌握以下技术:Python编程语言:学习Python自动化测试需要先掌握Py...
- Python从放弃到入门:公众号历史文章爬取为例谈快速学习技能
-
这篇文章不谈江流所专研的营销与运营,而聊一聊技能学习之路,聊一聊Python这门最简单的编程语言该如何学习,我完成的第一个Python项目,将任意公众号的所有历史文章导出成PDF电子书。或许我这个Py...
- 【黑客必会】python学习计划
-
阅读Python文档从Python官方网站上下载并阅读Python最新版本的文档(中文版),这是学习Python的最好方式。对于每个新概念和想法,请尝试运行一些代码片段,并检查生成的输出。这将帮助您更...
- 公布了!2025CDA考试安排
-
CDA数据分析师报考流程数据分析师是指在不同行业中专门从事行业数据搜集、整理、分析依据数据作出行业研究评估的专业人员CDA证书分为1-3级,中英文双证就业面广,含金量高!!?报考条件:满18...
- 一文搞懂全排列、组合、子集问题(经典回溯递归)
-
原创公众号:【bigsai】头条号:程序员bigsai前言Hello,大家好,我是bigsai,longtimenosee!在刷题和面试过程中,我们经常遇到一些排列组合类的问题,而全排列、组合...
- 「西法带你学算法」一次搞定前缀和
-
我花了几天时间,从力扣中精选了五道相同思想的题目,来帮助大家解套,如果觉得文章对你有用,记得点赞分享,让我看到你的认可,有动力继续做下去。467.环绕字符串中唯一的子字符串[1](中等)795.区...
- 平均数的5种方法,你用过几种方法?
-
平均数,看似很简单的东西,其实里面包含着很多学问。今天,分享5种经常会用到的平均数方法。1.算术平均法用到最多的莫过于算术平均法,考试平均分、平均工资等等,都是用到这个。=AVERAGE(B2:B11...
- 【干货收藏】如何最简单、通俗地理解决策树分类算法?
-
决策树(Decisiontree)是基于已知各种情况(特征取值)的基础上,通过构建树型决策结构来进行分析的一种方式,是常用的有监督的分类算法。决策树算法是机器学习中的一种经典算法,它通过一系列的规则...
- 面试必备:回溯算法详解
-
我们刷leetcode的时候,经常会遇到回溯算法类型题目。回溯算法是五大基本算法之一,一般大厂也喜欢问。今天跟大家一起来学习回溯算法的套路,文章如果有不正确的地方,欢迎大家指出哈,感谢感谢~什么是回溯...
- 「机器学习」决策树——ID3、C4.5、CART(非常详细)
-
决策树是一个非常常见并且优秀的机器学习算法,它易于理解、可解释性强,其可作为分类算法,也可用于回归模型。本文将分三篇介绍决策树,第一篇介绍基本树(包括ID3、C4.5、CART),第二篇介绍Ran...
- 大话AI算法: 决策树
-
所谓的决策树算法,通俗的说就是建立一个树形的结构,通过这个结构去一层一层的筛选判断问题是否好坏的算法。比如判断一个西瓜是否好瓜,有20条西瓜的样本提供给你,让你根据这20条(通过机器学习)建立起...
- 一周热门
- 最近发表
- 标签列表
-
- kubectlsetimage (56)
- mysqlinsertoverwrite (53)
- addcolumn (54)
- helmpackage (54)
- varchar最长多少 (61)
- 类型断言 (53)
- protoc安装 (56)
- jdk20安装教程 (60)
- rpm2cpio (52)
- 控制台打印 (63)
- 401unauthorized (51)
- vuexstore (68)
- druiddatasource (60)
- 企业微信开发文档 (51)
- rendertexture (51)
- speedphp (52)
- gitcommit-am (68)
- bashecho (64)
- str_to_date函数 (58)
- yum下载包及依赖到本地 (72)
- jstree中文api文档 (59)
- mvnw文件 (58)
- rancher安装 (63)
- nginx开机自启 (53)
- .netcore教程 (53)