PaddlePaddle / PaddleSeg

Easy-to-use image segmentation library with awesome pre-trained model zoo, supporting wide-range of practical tasks in Semantic Segmentation, Interactive Segmentation, Panoptic Segmentation, Image Matting, 3D Segmentation, etc.
https://arxiv.org/abs/2101.06175
Apache License 2.0
8.68k stars 1.68k forks source link

CV套件建设专项活动 #3333

Closed shiyutang closed 8 months ago

shiyutang commented 1 year ago

活动说明

飞桨套件快乐开源常规赛活动旨在让众多开发者能参与到各大CV/NLP套件的建设工作中(也是我们原有Issue攻关活动的升级版本),包括不限于新增基础功能、论文复现、Issue回复等,任何有利于社区意见流动和问题解决的行为都热切希望大家的参与。让我们共同成长为成为飞桨CV/NLP套件的重要contributors。🎉🎉

在套件快乐开源常规赛活动中,我们会结合技术研讨和任务发布两种活动形式互相促进。任何愿意参与社区贡献(新增代码、Issue解答等),对增长在分割、OCR方向(后续我们会持续开放包括图像检测、部署、图像分类、3D、自然语言处理等方向)知识感兴趣的开发者都可以加入😊。在这个过程中,让大家保持对各大视觉方向知识的持续积累是我们的不变的主旨🔥。

技术研讨会

为了帮助大家循序渐进地了解、建议、开发飞桨模型方向的开源项目,我们搭建了技术研讨会,参与活动的开发者每周可以参与到飞桨RD分享的技术研讨会中,研讨内容包括不限于:

  1. 套件代码结构剖析,read the code。
  2. OCR、Segmentation方向算法综述分享。
  3. OCR、Segmentation方向前沿论文解读。
  4. 讨论新增需求的重要程度,让你的发言推动飞桨套件的发展。

活动价值

研讨会学习的知识可以帮助大家参与我们的各项代码和Issue解答任务,任务完成排行榜将在下方每天更新,期待大家的参与。完成任务的贡献者可以获得:

  1. 技术提升:学习行业内的新动态新方向,让自己的技术实力得以提升;
  2. 荣誉奖励: a. 成为极具影响力的视觉套件的重要contributor。 b. 获得开源贡献证书、社区曝光度、奖状徽章等;
  3. 优秀的开源贡献者可以获得实习内推机会,成为飞桨模型套件方向实习生;

任务攻克排行榜(Issue解答、代码开发)

开发者github id issue解答数量 解答issue 产生的PR数量 (🌟) 完成命题任务的数量 (:dart:)
冲呀呀呀-livingbody 41 🌟 :dart: :dart:
ToddBear 11 :dart: :dart:
曲项向天歌-Asthestarsfalll 60 🌟 🌟 🌟 🌟 🌟 🌟 :dart:
强盛大队-MINGtoMING :dart:
Liyulingyue 2 🌟 🌟
冲锋小队-Gmgge 7 🌟
风清扬-WilliamQf-AI 6 🌟
GreatX-GreatV 4 🌟
kerneltravel 1 🌟
xu-peng-7 1 🌟
明月心-raoyutian 8
德布罗意波-marshall-dteach 2
bltcn 1

任务列表

1. Good first issue

2. 命题任务(持续更新中):

命题任务是我们经过在 https://github.com/PaddlePaddle/PaddleOCR/issues/10334 进行需求征集、在技术研讨会上经过大家讨论确定重要的需求。欢迎对这些需求也感兴趣的开发者参与到这些任务的开发✌️✌️。在开发过程中,你能进行包括任务分解、代码撰写等工作,还会有飞桨的研发全程和你一起解决可能遇到的问题。还等什么,快来参与吧。🎉🎉

任务名称
(需求提出者)
任务描述 tracking issue mentor 报名
文字识别返回单字识别坐标(@EasyIsAllYouNeed @WilliamQf-AI,已完成) 在文本识别之后,增加对单字位置坐标的返回,可以用于文档比对、合同篡改等大量场景中。 PaddleOCR#10377 @shiyutang @ToddBear #10515
【论文复现】OCR版面矫正网络DocTr++ (@shiyutang @WilliamQf-AI) 大量文档进行版面分析之前需要进行光照、扭曲等矫正,通过定量实验和定性对比,作者团队验证了 DocTr++ 的性能优势及泛化性,并在现有及所提出的基准测试中刷新了多项最佳记录,是目前最优的文档矫正方案。 PaddleOCR#10379 @shiyutang @GreatV
套件一致性计划 任务有更新为两个子任务(@Bobholamovic ) 各大CV套件目前在依赖库、模型保存路径等问题上存在很多不一致性,导致没有办法达到环境统一,使用知识迁移等效果,体验效果变差。此任务致力解决这个问题,同时解决难度不高,是一个非常适合上手的任务 PaddleOCR#10380 @shiyutang @Bobholamovic @livingbody
版面恢复功能(恢复为docx或者excel)的c++版(@WilliamQf-AI) 实现版面回复的 c++版本,用于端侧部署,实现本地本地化的办公文档扫描 PaddleOCR#10381 @shiyutang @WilliamQf-AI
新增生僻字模型(@EasyIsAllYouNeed @livingbody ) OCR的中文字符目前存在字典不全问题,没有覆盖《通用规范汉字表》;对于字典中存在的生僻字,可能因为训练语料不平衡问题,识别效果很差。新增生僻字模型能大幅提升模型在身份证、古文识别场景的能力 PaddleOCR#10390 @shiyutang @livingbody
【论文复现】轻量语义分割网络PIDNet (@shiyutang) 该模型为轻量化分割方向的前沿模型,超过自研模型ppliteseg精度和速度平衡,Cityscapes上精度直逼高精度OCRNet,数据和模型、代码均已经开源。 PaddleOCR#10450 @shiyutang @Asthestarsfalll
【论文复现】Segment Anything 加速版 MobileSAM(@qiaoyu1002 (已完成) 根据原作者提出的issue https://github.com/PaddlePaddle/PaddleSeg/issues/3346, 复现论文MobileSAM。该模型为火爆的SAM模型的加速版本,大大提升了SAM的使用体验,该模型目前已经有2.9k star,模型、代码已经开源,只需进行前向对齐即可 PaddleOCR#10451 @shiyutang @Asthestarsfalll PaddleSeg#3349
【论文复现】OCR识别模型Parseq(@printfxs)(已完成) 该模型将视觉和语义信息结合,实现精度和速度的双重提升,对比前沿模型SVTR有进一步优势 PaddleOCR#10452 @shiyutang @ToddBear
【论文复现】大模型赛题 TaskMatrix(@w5688414) 该模型建立了一个VIsual ChatGPT系统,实现了对任意图片进行视觉编辑和图文问答。该算法代码已经开源,需要调用paddlemix和paddlenlp中已经集成的模型,接入llm进行视觉对话系统的搭建。该算法不需要进行模型转换等,只需要对现有模型进行串联。 PaddleNLP#6544 @sijunhe @wujingjing @YICHISHENGHONG
【论文复现】大模型赛题 Tree of Thoughts (@w5688414) ToT提出了一种新的思维架构来显著提升GPT解决问题的能力,通过考虑多个不同的推理路径和自我评估来提升行动的成功率。例如,在《24点游戏》中,具有思维链提示的GPT-4只解决了4%的任务,而ToT的成功率为74%。该算法代码已开源,需要将代码转换并接入开源语言模型。 PaddleNLP#6543 @sijunhe @w5688414 @ErnestinaQiu
【论文复现】大模型赛题 InstructorEmbedding (@w5688414) INSTRUCTOR基于更少的参数,平均精度提高了3.4%,在70个不同的数据集上获得最佳结果。该算法已经开源,需要进行前反向对齐后,基于nlp的trainer训练达到指标即可。 PaddleNLP#6542 @sijunhe @w5688414 @qiuwenbogdut
【论文复现】大模型赛题SGPT (@w5688414) 58亿参数SGPT-BE在BEIR上的表现优于最佳可用句子嵌入7%,达到了SOTA的水平。该算法已经开源,需要进行前反向对齐后,基于nlp的trainer训练达到指标即可。 PaddleNLP#6618 @sijunhe @w5688414
【论文复现】检测模型策略--基于PPDET Deformable DETR复现SQR增强策略(@lyuwenyu ) 为Paddledet增加前沿策略SQR,可以应用在多个模型中 PaddleDetection#8498 @shiyutang @juncaipeng @flytocc
Paddle3D新增部署链条--bevfusion (@LielinJiang ) 该任务基于Paddle Inference为bevfusion增加python和C++的部署链条,为该3D模型的部署助力。 Paddle3D#398 @LielinJiang @shiyutang
【论文复现】分类模型--多标签分类任务ML-Decoder (@cuicheng01 @zhangyubo0722)(已完成) 该论文提出的可扩展通用分类头在多标签分类、zero-sho以及单标签分类任务上表现出很好的效果。本任务的完成可以扩充PaddleClas多标签分类相关视觉任务,并有众多应用场景。作者团队基于不同数据集验证不同任务的性能,充分证明ML-Decoder分类头的性能以及泛用性。 PaddleClas#2896 @cuicheng01 @shiyutang @MINGtoMING
【论文复现】分类大模型--人体视觉任务SOLIDER (@cuicheng01 @zhangyubo0722) 该论文利用自监督训练方式,充分利用现有大量人体无标注数据,得到一个可以通用于下游各种人体视觉任务的预训练大模型,本任务的完成可以支持PaddleClas各种人体视觉任务。 PaddleClas#2897 @cuicheng01 @shiyutang @ooooo-create
【模型压缩推全计划】为六大套件新增模型压缩功能(@shiyutang) 目前各套件的模型压缩能力参差不齐,而模型压缩作为部署之前的一步,可以在不损害或者少量损害模型精度的情况下,对模型的能耗,速度、大小都有显著的改善。因此为了对各套件的模型压缩进行推全,我们提出了基于PaddleSlim的ACT为各大套件新增模型压缩功能的计划。 PaddleOCR#10657 @shiyutang 在issue页面报名
为PaddleSeg添加多标签语义分割的功能(@Wulx2050) 多标签分割是分割中的一个分支,常用于医疗分割中,通过修改分割头和损失函数即可实现。 PaddleSeg#3456 @shiyutang @MINGtoMING

报名模版

队伍名:XXX 队伍成员微信昵称:XX 功能描述:(可选)描述想要实现的功能 【提交时补充】issue/PR地址:Github链接

💡 欢迎提出你的想法

marshall-dteach commented 1 year ago

队伍名:德布罗意波 队伍成员微信昵称:Dynamic 功能描述:各种主干网络的预训练权重 【提交时补充】issue/PR地址:Github链接(验证通过)

marshall-dteach commented 1 year ago

队伍名:德布罗意波 队伍成员微信昵称:Dynamic 功能描述:语义分割类别嵌套,一个小面积类别永远在大面积类别里面,请问这种情况怎么处理呢? 【提交时补充】https://github.com/PaddlePaddle/PaddleSeg/issues/3217(验证通过

marshall-dteach commented 1 year ago

队伍名:德布罗意波 队伍成员微信昵称:Dynamic

2998 (继续跟进)

3472 (验证通过)

Asthestarsfalll commented 1 year ago

队伍名:曲项向天歌 队伍成员微信昵称:Starfall 功能描述:直接调用paddleseg里的pspnet报错 【提交时补充】 https://github.com/PaddlePaddle/PaddleSeg/issues/3354 (验证通过) https://github.com/PaddlePaddle/PaddleSeg/issues/3353 (验证通过) https://github.com/PaddlePaddle/PaddleSeg/issues/3352 (验证通过) https://github.com/PaddlePaddle/PaddleSeg/issues/3348 (验证通过) https://github.com/PaddlePaddle/PaddleSeg/issues/3345 PR:https://github.com/PaddlePaddle/PaddleSeg/pull/3347(验证通过

3364 (验证通过)

Asthestarsfalll commented 1 year ago

队伍名:曲项向天歌 队伍成员微信昵称:Starfall 功能描述:模型部署使用int64精度

3367 (验证通过)

3346 PR: https://github.com/PaddlePaddle/PaddleSeg/pull/3349 (验证通过)

3358 PR: https://github.com/PaddlePaddle/PaddleSeg/pull/3359 (验证通过)

3360 (验证通过)

3362 (验证通过)

3369 (验证通过)

3371 (验证通过)

3376 PR:https://github.com/PaddlePaddle/PaddleSeg/pull/3377 (验证通过)

3382 (验证通过)

3384 (验证通过)

3385 (验证通过)

3387 (验证通过)

3395 (验证通过)

3396 (验证通过)

3398 PR: https://github.com/PaddlePaddle/PaddleSeg/pull/3404 (验证通过)

3400 (验证通过)

3401 (验证通过)

3405 (验证通过)

3406 (验证通过)

3407 (继续跟进)

3408 (验证通过)

3409 (继续跟进)

3410 (验证通过)

3415 PR: https://github.com/PaddlePaddle/PaddleSeg/issues/3415 (继续跟进)

3424 (验证通过)

3433 (验证通过)

3434 (验证通过)

3435 (验证通过)

3437 (验证通过)

3438 (继续跟进)

3439 (验证通过)

3440 (验证通过)

3445 (验证通过)

3447 (验证通过)

3448 (验证通过)

3449 (验证通过)

3454 (验证通过)

3455 (验证通过)

3465 (验证通过)

3466 (继续跟进)

3470 (验证通过)

3471 (继续跟进)

3476 (验证通过)

3483 (验证通过)

3473 (验证通过)

qiuwenbogdut commented 1 year ago

队伍名:小馒头 队伍成员微信昵称: qiuwenbogdut 功能描述:论文复现 大模型赛题 InstructorEmbedding 【提交时补充】issue/PR地址:

guoqsGary commented 1 year ago

队伍名:ai小白 队伍成员微信昵称:郭丘山 功能描述:【论文复现】检测大模型--Co-DETR with ViT-L

shiyutang commented 8 months ago

closing...