Open lvycoder opened 1 year ago
- 9.5--9.9 - 更新上海临港集群证书 - 调试公司泰坦机器dns问题 - 测试新增机器与ceph的mon其中两个不同问题 - 添加stor3(ansible-playbook)到produce集群中 - 添加新ssd固态磁盘到T40,用来给docker数据目录做数据盘 - a100-1 换两根 100g 网线 - 统计正式机器Mac地址表 - 9.13--9.16 - 调试公司的网络设备 - 测试新增3090网络是否可用(已完成) - 添加A100-1(ansible-playbook)到produce集群中 - 调试新增机器lxcfs(ubunt22.04 只开启cgroup v2导致的) - 去数据中心安装stor4新系统,并查看stor3网线问题 - 添加ssd osd 到produce集群中 - 9.19--9.23 - 添加ssd osd 到produce集群中 - 添加新增机器网卡配置 - 9.26--9.30 - 搭建新环境,给研发人员使用 - produce 环境调试问题 - ansible-playbook g2 - 重新安装a100-1 - 重新安装g1 - 10.8--10.14 - 重新安装a100-2 - 北京办公室office重新部署 (k8s方式) - 燧原环境重新部署(k3s方式) - 部署完成,总结文章,提交github ~ - 10.17--10.22 - 制作燧原的镜像,适配T20 - fio压力测试produce环境 - 部署燧原环境的GPU监控服务 - 生产环境 t40 docker 数据迁移到 ssd - office环境gitops - 11.7-- 11.11 - 天津大学环境网络测试 - 天津大学集群增加机器 - 修复prometheus监控 - 12.19-- 12.23 - 测试网络组件的性能 - 升级dev环境kubernetes版本 - 测试正式环境cert-manager可用行 - 12.26--12.30 - 升级cert-manager - 排查cert-manager不工作的问题 - 排查dev环境jupyer打不开的问题 - 测试caclio问题 - 测试pytorch-1-13-1 - 处理dev环境遗留问题 - 1.3--1.6 - 处理宁波环境osd问题 - 测试caclio问题,dev环境模拟测试 - 1.9--1.13 - 天津大学(增加机器) - 测试正式环境的mysql网络问题 - 安装网络驱动amd-1,a100-1并进行网络测试 - 2.13--2.17 - 测试office环境,切mysql服务 - 测试IPoIB 点对点方案 - 总结IPoIB 相关内容 - 处理天津大学集群问题(lxcfs无法running,无法发送手机验证码和邮件) - 清理服务器磁盘 - 测试kubenetes高可用(进行中) - 2.20--2.22 - 测试IB - 更新天大集群 - kubernetes 高可用方案: - 部署上海集群 - 处理DEV环