lvycoder / lvycoder.github.io

Blog
https://lvycoder.github.io/
5 stars 1 forks source link

工作内容 #46

Open lvycoder opened 1 year ago

lvycoder commented 1 year ago
- 9.5--9.9
  - 更新上海临港集群证书
  - 调试公司泰坦机器dns问题
  - 测试新增机器与ceph的mon其中两个不同问题
  - 添加stor3(ansible-playbook)到produce集群中
  - 添加新ssd固态磁盘到T40,用来给docker数据目录做数据盘
  - a100-1 换两根 100g 网线 
  - 统计正式机器Mac地址表

- 9.13--9.16
  - 调试公司的网络设备
  - 测试新增3090网络是否可用(已完成)
  - 添加A100-1(ansible-playbook)到produce集群中
  - 调试新增机器lxcfs(ubunt22.04 只开启cgroup v2导致的)
  - 去数据中心安装stor4新系统,并查看stor3网线问题
  - 添加ssd osd 到produce集群中
- 9.19--9.23
  - 添加ssd osd 到produce集群中
  - 添加新增机器网卡配置
- 9.26--9.30
  - 搭建新环境,给研发人员使用
  - produce 环境调试问题
  - ansible-playbook g2
  - 重新安装a100-1
  - 重新安装g1
- 10.8--10.14
  - 重新安装a100-2
  - 北京办公室office重新部署 (k8s方式)
  - 燧原环境重新部署(k3s方式)
  - 部署完成,总结文章,提交github ~
- 10.17--10.22
  - 制作燧原的镜像,适配T20
  - fio压力测试produce环境
  - 部署燧原环境的GPU监控服务
  -  生产环境 t40 docker 数据迁移到 ssd
  - office环境gitops
- 11.7-- 11.11
  - 天津大学环境网络测试
  - 天津大学集群增加机器
  - 修复prometheus监控
- 12.19-- 12.23
  - 测试网络组件的性能
  - 升级dev环境kubernetes版本
  - 测试正式环境cert-manager可用行
- 12.26--12.30
  - 升级cert-manager
  - 排查cert-manager不工作的问题
  - 排查dev环境jupyer打不开的问题
  - 测试caclio问题
  - 测试pytorch-1-13-1
  - 处理dev环境遗留问题
- 1.3--1.6
  - 处理宁波环境osd问题
  - 测试caclio问题,dev环境模拟测试

- 1.9--1.13
  - 天津大学(增加机器)
  - 测试正式环境的mysql网络问题
  - 安装网络驱动amd-1,a100-1并进行网络测试

- 2.13--2.17
  - 测试office环境,切mysql服务
  - 测试IPoIB 点对点方案
  - 总结IPoIB 相关内容
  - 处理天津大学集群问题(lxcfs无法running,无法发送手机验证码和邮件)
  - 清理服务器磁盘
  - 测试kubenetes高可用(进行中)
- 2.20--2.22
  - 测试IB
  - 更新天大集群
  - kubernetes 高可用方案:
  - 部署上海集群
  - 处理DEV环