Open KeepAndWin opened 1 year ago
在参与了openmmlab开营以及理论课概述之后,我整理了如下笔记。
1.预习资料
| python入门
这里我推荐自己一直在看的b站up主孙兴华老师的python零基础入门课程,讲的十分细致
https://www.bilibili.com/video/BV1HE41157bu/?spm_id_from=333.337.search-card.all.click
| 熟悉Github,明白github各个标签,符号所代表的意义
| 进行环境配置,有最基本的运行软件,推荐pycharm
2.了解OpenMMLab
OpenMMLab 为香港中文大学-商汤科技联合实验室 MMLab 开源的算法平台,拥有诸多的算法库,是国内视觉识别的顶流平台,甚至于世界而言都是一流的算法平台。我们可以直接使用其中的算法库,将其运用到自己的产品论文之中,不再需要复现,也不需要去自己调试,真正意义上的做到了开箱即用,用子豪兄的话来说,真的是太爽了。
3.了解OpenMMLab各个算法库的功能
MMDetection :detection算法库之中收录了许多目标检测模型,我们能够以很少的代码量实现一个新算法,大大提高了代码复用率; MMYolo:yolo是用来单目标检测的,例如在比对麦穗是否成熟的时候,对麦穗进行一一检测,整个过程十分迅速; MMOcr:Ocr主要包括了文本检测,文本识别以及关键信息的提取,像我们使用软件搜题以及提取车牌号的时候都用到了这一科技; MMDetection 3d:detection 3d是基于detection之上,建立3d模型,将二维提升到了三维,广泛的在无人驾驶之中使用; MMSegmentation:segmentation多用于医疗界,多彩分割,遥感(卫星的高空识别); MMPretrain:Pretrain是机器学习之中重要的部分--预训练,通过使用这一算法库,我们不再需要自己训练网络模型,不再靠运气去随机初始化参数,随用随取; MMPose:pose主要用于关键点检测,既可以对骨骼进行关键点检测,也可以对姿态等进行,例如在NBA2K游戏中,对球员的动作就用到了关键点检测; MMAction 2:Action2是用来记录人的动作行为,(那在未来我们是否可以在Action2的基础之上去建立一个“习惯库”,检测到人的动作便知道这是谁?仅为猜想,希望有大佬可以参考想法) MMRotate:Rotate是在普通画框标注的基础上,不再是死板的矩形框,而是根据物体的形状旋转目标检测。
总结
作为一个大一初入计算机视觉的小白,有许多的问题,(甚至连最基本的pytorch如何下载也不会。。),但是在AI实战营的许多大佬的鼓励与帮助之下,我掌握了许多新的技能,谢谢大家!在openmmlab社区让我很开心,也希望屏幕前的你快快加入我们吧!
破冰之后,给我们主讲的是B站的同济子豪兄,他和稚晖君一样,都是我喜欢的科技UP主,他给我们挨个仔细介绍了OpenMMLab中比较知名和常用的算法库。 这是我第一次接触深度学习相关的知识,经过子豪兄详细的讲解,感觉给我打开了一扇全新的大门 【二十分钟入门计算机视觉开源神器OpenMMLab】https://www.bilibili.com/video/BV1js4y1i72P?vd_source=e0a39ae9bf0336998941a8e70cc93188
其中我最感兴趣的是MMDetection3D 以及MMHuman3D,前者是因为我对无人驾驶比较感兴趣,认为这是未来的趋势,我希望将深度学习和无人驾驶结合,后者是因为我比较喜欢运动,我想用MM human3d,应用到我以及更多喜爱运动的人身上,通过3d模型包括人体捕捉他们的动作,从而更好的提高他们的成绩。 其中,open MM lab中知名的算法库如下:
MMdetection:目标检测;实例分割;全景分割;目标追踪。 MMYoLo:速度快,专门为特定目标检测。 MMOCR(文字检测识别):文本检测;文本识别;关键信息提取。 MMDetection3D:主要用于无人驾驶领域。 MMRotate:旋转目标检测;框有方向性。 MMSegmentation:模块化设计在医疗影像和卫星遥感图像领域较重要。 MMpretrain:图像分类+预训练+多模态算法库,具有丰富的骨干网络,以及多样的预训练模型。 MMpose: 姿态估计;关键点检测。 MMHuman3D:用3d模型包络出人体;用3d模型拟合真人,运用于动作捕捉领域。 MMAction2:动作识别;时序检测;时空检测。 MMmagic:生成模型+底层视觉+AIGC算法库,可以超分辨率生成图片;应用于视觉领域。 MMDeploy:模型部署工作箱,可以进行模型的部署和推理。
人工智能模型可以部署在硬件,芯片,厂商等场景。 OpenMMlab具有巨大的社区影响力以及丰富的生态环境!!! 以及这里有许多特别厉害的大佬 希望这是一个好的开始,从这里我将开始我对深度学习的学习之旅...! 希望和各位小伙伴们,一起进步
Online lesson link is here.
OpenMMlab is an open-source CV (Computer Vision) algorithms and models platform. It contains 30+ projects, 300+ algorithms, and 2000+ pretrained models, with united basic architecture and covering almost all kinds of CV topics for academic research and industrial applications. Codebases are all open-sourced in github.
Based on Pytorch, all of OpenMMlab CV codebases follow united workflow, which is established with 2 foundational libraries, MMCV and MMEngine. So it requires some time to be familiar with these united routines at first, and then you can make full use of whichever codebase for your interested topic.
Main projects are:
All code bases are under here .
CSDN: Click here
第一次作业:基于RTMPose的耳朵穴位关键点检测 https://github.com/no11s/-OpenMMLabCamp-Homework/blob/main/hw1.md
题目:基于RTMPose的耳朵穴位关键点检测
背景:根据中医的“倒置胎儿”学说,耳朵的穴位反映了人体全身脏器的健康,耳穴按摩可以缓解失眠多梦、内分泌失调等疾病。耳朵面积较小,但穴位密集,涉及耳舟、耳轮、三角窝、耳甲艇、对耳轮等三维轮廓,普通人难以精准定位耳朵穴位。
任务 1.Labelme标注关键点检测数据集(子豪兄已经帮你完成了) 2.划分训练集和测试集(子豪兄已经帮你完成了) 3.Labelme标注转MS COCO格式(子豪兄已经帮你完成了) 4.使用MMDetection算法库,训练RTMDet耳朵目标检测算法,提交测试集评估指标 5.使用MMPose算法库,训练RTMPose耳朵关键点检测算法,提交测试集评估指标 6.用自己耳朵的图像预测,将预测结果发到群里 7.用自己耳朵的视频预测,将预测结果发到群里 需提交的测试集评估指标(不能低于baseline指标的50%)
We recommend using English or English & Chinese for issues so that we could have broader discussion.