PaddlePaddle / PaddleOCR

Awesome multilingual OCR toolkits based on PaddlePaddle (practical ultra lightweight OCR system, support 80+ languages recognition, provide data annotation and synthesis tools, support training and deployment among server, mobile, embedded and IoT devices)
Apache License 2.0
39.34k stars 7.35k forks source link

🏅️飞桨套件快乐开源常规赛 #10223

Closed shiyutang closed 4 months ago

shiyutang commented 11 months ago

活动说明

飞桨套件快乐开源常规赛活动旨在让众多开发者能参与到各大CV/NLP套件的建设工作中(也是我们原有Issue攻关活动的升级版本),包括不限于新增基础功能、论文复现、Issue回复等,任何有利于社区意见流动和问题解决的行为都热切希望大家的参与。让我们共同成长为成为飞桨CV/NLP套件的重要contributors。🎉🎉

在套件快乐开源常规赛活动中,我们会结合技术研讨和任务发布两种活动形式互相促进。任何愿意参与社区贡献(新增代码、Issue解答等),对增长在分割、OCR方向(后续我们会持续开放包括图像检测、部署、图像分类、3D、自然语言处理等方向)知识感兴趣的开发者都可以加入😊。在这个过程中,让大家保持对各大视觉方向知识的持续积累是我们的不变的主旨🔥。

技术研讨会

为了帮助大家循序渐进地了解、建议、开发飞桨模型方向的开源项目,我们搭建了技术研讨会,参与活动的开发者每周可以参与到飞桨RD分享的技术研讨会中,研讨内容包括不限于:

  1. 套件代码结构剖析,read the code。
  2. OCR、Segmentation方向算法综述分享。
  3. OCR、Segmentation方向前沿论文解读。
  4. 讨论新增需求的重要程度,让你的发言推动飞桨套件的发展。

活动价值

研讨会学习的知识可以帮助大家参与我们的各项代码和Issue解答任务,任务完成排行榜将在下方每天更新,期待大家的参与。完成任务的贡献者可以获得:

  1. 技术提升:学习行业内的新动态新方向,让自己的技术实力得以提升;
  2. 荣誉奖励: a. 成为极具影响力的视觉套件的重要contributor。 b. 获得开源贡献证书、社区曝光度、奖状徽章等; c. 快乐开源共享奖品,包括PS5,airpods等。
  3. 优秀的开源贡献者可以获得实习内推机会,成为飞桨模型套件方向实习生;

任务攻克排行榜(Issue解答、代码开发)

开发者github id issue解答数量 解答issue 产生的PR数量 (🌟) 完成命题任务的数量 (:dart:)
冲呀呀呀-livingbody 41 🌟 :dart: :dart:
ToddBear 11 :dart: :dart:
强盛大队-MINGtoMING :dart: :dart:
曲项向天歌-Asthestarsfalll 69 🌟 🌟 🌟 🌟 🌟 🌟 :dart:
德布罗意波-marshall-dteach 3 :dart:
flytocc :dart:
Liyulingyue 2 🌟 🌟
冲锋小队-Gmgge 7 🌟
风清扬-WilliamQf-AI 6 🌟
GreatX-GreatV 4 🌟
kerneltravel 1 🌟
xu-peng-7 1 🌟
明月心-raoyutian 8
bltcn 1

任务列表

1. 命题任务(持续更新中):

命题任务是我们经过在 https://github.com/PaddlePaddle/PaddleOCR/issues/10334 进行需求征集、在技术研讨会上经过大家讨论确定重要的需求。欢迎对这些需求也感兴趣的开发者参与到这些任务的开发✌️✌️。在开发过程中,你能进行包括任务分解、代码撰写等工作,还会有飞桨的研发全程和你一起解决可能遇到的问题。还等什么,快来参与吧。🎉🎉

23年Q4任务

任务名称
(需求提出者)
任务描述 tracking issue mentor 报名
MedicalSeg增加滑窗推理功能(@tangshiyu) 3D医疗图像中缺少滑窗推理推理功能,滑窗推理可以进一步增强任意模型的精度 PaddleSeg#3536 @shiyutang
新增early stop功能 (@tangshiyu) ~~early stop作为一种正则化的工具,可以用于模型开发的优化过程中,作为新增功能增加paddleseg中 PaddleSeg#3537~~ @shiyutang @ooooo-create (已完成)
增加类激活图 (@tangshiyu) 激活图可视化能够可以帮助理解深度学习模型任务中的决策过程。通过观察模型关注的区域,可以了解模型是如何根据不同区域的特征来进行分类决策的,是一项十分有意义且重要的功能 PaddleSeg#3538 @shiyutang
增加训练图像、推理图像、标签图像可视化(@Wst-sd) 飞桨支持强大的训练可视化工具VisualDL,用于记录和监控训练过程,可以在每次模型保存过程中,增加训练图像、推理图像、标签图像可视化,更直观地感受训练效果 PaddleSeg#3545 @shiyutang
CAT-Seg (CVPR'2023)模型复现(@tangshiyu) CAT-Seg是open-vocabulary semantic segmentation的前沿模型,其提出了一种cost aggregation方法将CLIP表征应用于像素级分割任务,在多个数据集上达到了开放集分割的SOTA PaddleSeg#3535 @shiyutang
VPD模型+下游任务(视觉感知、图像分割、深度估计)(@tangshiyu) VPD是结合Diffusion Models的图文预训练模型,可以广泛的应用于下游任务,如视觉感知、图像分割、深度估计等等,且均取得了不错的效果。可以将VPD接入PaddleSeg中,并应用于下游任务中 PaddleSeg#3540 @shiyutang
新增图文对话模型X-GPT (@tangshiyu) X-Decoder 集成了图像理解的多类任务,结合GPT和SD相关生成模型就可以实现All-in-One的图文对话式agnet PaddleSeg#3541 @shiyutang
验证并提升SAM+Clip在语义分割场景下的zero-shot分割精度 (@tangshiyu) 以语义分割为代表的视觉任务存在泛化性差的问题,即每次在新数据上都需要重新训练。大模型的发展利用图文链接的形式大大提升了模型的泛化性,但是前沿论文对于zero-shot的研究表明,完全的zero-shot的分割精度依旧较低。因此我们借用clip中对zero-shot的定义,即在未见过的图片而非是未见过的类别上,查看CLIP+SAM模型的分割效果(这一定义也十分有实用意义),并借用前沿论文的思想对baseline进一步优化。这一举动将验证并优化语义分割模型在未见过的数据上的泛化性 PaddleSeg#3542 @shiyutang
【Bug Fix】humanseg显存泄漏(@enemy1205) 使用PaddleSeg进行人像分割时,对大批量数据进行人像分割推理时,内存释放不充分,出现内存堆积问题,触发Linux OOM机制导致程序被kill。 PaddleSeg#3543 @shiyutang
【Bug Fix】modnet推理问题(@munibkhanali) 使用modnet进行image matting,在将其转换为 paddlelite 兼容模型时,出现报错,具体参考(#3477 PaddleSeg#3544 @shiyutang
补充Satrn识别模型文档(@tangshiyu) 新增的Satrn识别模型缺少说明文档,适合开源贡献经历较少的同学了解提交PR过程并熟悉OCR文档 PaddleOCR#11131 @shiyutang @wkml
补充Satrn识别模型TIPC(@tangshiyu) 新增的Satrn模型缺少TIPC,完成tipc有利于上手训推全流程自动化脚本验证过程 PaddleOCR#11133 @shiyutang
增加多卡评估(@flytocc) 目前PaddleDetection仅支持单卡评估,希望支持多卡评估 PaddleDet#8682 @shiyutang @MINGtoMING
为PaddleOCR增加训练时周期性验证的开关(@tangshiyu) 为PaddleOCR增加训练时周期性验证的开关;为PaddleOCR增加eval_epoch_step参数。与PaddleCV的其它基础套件PaddleSeg、PaddleDetection、PaddleClas、Paddle3D等不同,PaddleOCR不支持上述功能,这导致包括但不限于如下问题:用户有时只想要将模型训练一定的迭代轮数,并不希望在训练时进行精度评估(这可能带来额外的时间开销),而目前PaddleOCR无法优雅地满足这个需求,只能通过设定一个较大的eval_batch_step数值来实现。更换数据集后,由于数据集大小发生改变,用户往往也需要修改eval_batch_step配置,以使得eval频率合适。PaddleOCR中实现的是epoch-based trainer,在配置文件中设置的也是epoch_num而不是num_iters,但eval_batch_step却是iters粒度的控制,存在风格不契合的问题。 PaddleOCR#11132 @shiyutang

23年Q3任务

任务名称
(需求提出者)
任务描述 tracking issue mentor 报名
文字识别返回单字识别坐标(@EasyIsAllYouNeed @WilliamQf-AI,已完成) 在文本识别之后,增加对单字位置坐标的返回,可以用于文档比对、合同篡改等大量场景中。 PaddleOCR#10377 @shiyutang @ToddBear #10515
套件一致性计划 任务有更新为两个子任务(@Bobholamovic ) 各大CV套件目前在依赖库、模型保存路径等问题上存在很多不一致性,导致没有办法达到环境统一,使用知识迁移等效果,体验效果变差。此任务致力解决这个问题,同时解决难度不高,是一个非常适合上手的任务 PaddleOCR#10380 @shiyutang @Bobholamovic @livingbody
【论文复现】Segment Anything 加速版 MobileSAM(@qiaoyu1002 (已完成) 根据原作者提出的issue https://github.com/PaddlePaddle/PaddleSeg/issues/3346, 复现论文MobileSAM。该模型为火爆的SAM模型的加速版本,大大提升了SAM的使用体验,该模型目前已经有2.9k star,模型、代码已经开源,只需进行前向对齐即可 PaddleOCR#10451 @shiyutang @Asthestarsfalll PaddleSeg#3349
【论文复现】OCR识别模型Parseq(@printfxs)(已完成) 该模型将视觉和语义信息结合,实现精度和速度的双重提升,对比前沿模型SVTR有进一步优势 PaddleOCR#10452 @shiyutang @ToddBear
【论文复现】检测模型策略--基于PPDET Deformable DETR复现SQR增强策略(@lyuwenyu ) 为Paddledet增加前沿策略SQR,可以应用在多个模型中 PaddleDetection#8498 @shiyutang @juncaipeng @flytocc
【论文复现】分类模型--多标签分类任务ML-Decoder (@cuicheng01 @zhangyubo0722)(已完成) 该论文提出的可扩展通用分类头在多标签分类、zero-sho以及单标签分类任务上表现出很好的效果。本任务的完成可以扩充PaddleClas多标签分类相关视觉任务,并有众多应用场景。作者团队基于不同数据集验证不同任务的性能,充分证明ML-Decoder分类头的性能以及泛用性。 PaddleClas#2896 @cuicheng01 @shiyutang @MINGtoMING
【模型压缩推全计划】为六大套件新增模型压缩功能(@shiyutang) 目前各套件的模型压缩能力参差不齐,而模型压缩作为部署之前的一步,可以在不损害或者少量损害模型精度的情况下,对模型的能耗,速度、大小都有显著的改善。因此为了对各套件的模型压缩进行推全,我们提出了基于PaddleSlim的ACT为各大套件新增模型压缩功能的计划。 PaddleOCR#10657 @shiyutang 在issue页面报名
为PaddleSeg添加多标签语义分割的功能(@Wulx2050) 多标签分割是分割中的一个分支,常用于医疗分割中,通过修改分割头和损失函数即可实现。 PaddleSeg#3456 @shiyutang @MINGtoMING

2. Good first issue

报名模版

队伍名:XXX 队伍成员微信昵称:XX 功能描述:(可选)描述想要实现的功能 【提交时补充】issue/PR地址:Github链接

💡 欢迎提出你的想法

Gmgge commented 11 months ago

队伍名:冲锋小队 队伍成员微信昵称:浮云 功能描述:OCR,推理部署 1.https://github.com/PaddlePaddle/PaddleOCR/issues/10115 onnx推理问题,由于当前onnx模型已经支持动态shape,尝试获取固定的输入shape从而进一步处理的操作不再需要 (验证通过) 2.https://github.com/PaddlePaddle/PaddleOCR/issues/10244 论文与数据集相关问题(验证通过) 3.https://github.com/PaddlePaddle/PaddleOCR/issues/10233 旋转文本检测意见 (验证通过) 4.https://github.com/PaddlePaddle/PaddleOCR/issues/10301 PaddleLabel修改自动标注使用的模型(验证通过) 5.https://github.com/PaddlePaddle/PaddleOCR/issues/10327 图像resize预处理问题 (验证通过) 6.https://github.com/PaddlePaddle/PaddleOCR/issues/10578 pyqt中float隐式转int问题(验证通过) 7.https://github.com/PaddlePaddle/PaddleOCR/issues/10748 图像通道数不匹配问题(验证通过) 8.https://github.com/PaddlePaddle/PaddleOCR/issues/11166 paddlelabel启动时,调用到环境中的paddleocr而非本地的代码问题

livingbody commented 11 months ago

队伍名:冲呀呀呀 队伍成员微信昵称:livingbody 功能描述:OCR

https://github.com/PaddlePaddle/PaddleOCR/issues/10232 (需要继续跟进) https://github.com/PaddlePaddle/PaddleOCR/issues/10258 (已经由shiyutang回答) https://github.com/PaddlePaddle/PaddleOCR/issues/10248 (验证通过) https://github.com/PaddlePaddle/PaddleOCR/issues/10247 (需要继续跟进) https://github.com/PaddlePaddle/PaddleOCR/issues/10231 (验证通过)

10273 (验证通过)

livingbody commented 11 months ago

队伍名:冲呀呀呀 队伍成员微信昵称:livingbody 功能描述:OCR

https://github.com/PaddlePaddle/PaddleOCR/issues/10205 (需要继续跟进)

livingbody commented 11 months ago

队伍名:冲呀呀呀 队伍成员微信昵称:livingbody 功能描述:OCR

https://github.com/PaddlePaddle/PaddleOCR/issues/10202 (验证通过)

livingbody commented 11 months ago

队伍名:冲呀呀呀 队伍成员微信昵称:livingbody 功能描述:OCR

https://github.com/PaddlePaddle/PaddleOCR/issues/10200 (需要继续跟进)

livingbody commented 11 months ago

队伍名:冲呀呀呀 队伍成员微信昵称:livingbody 功能描述:OCR

https://github.com/PaddlePaddle/PaddleOCR/issues/10204 (验证通过)

livingbody commented 11 months ago

队伍名:冲呀呀呀 队伍成员微信昵称:livingbody 功能描述:OCR

https://github.com/PaddlePaddle/PaddleOCR/issues/10188 (验证通过)

livingbody commented 11 months ago

队伍名:冲呀呀呀 队伍成员微信昵称:livingbody 功能描述:OCR

https://github.com/PaddlePaddle/PaddleOCR/issues/10062 (需要进一步跟进)

livingbody commented 11 months ago

队伍名:冲呀呀呀 队伍成员微信昵称:livingbody 功能描述:OCR

https://github.com/PaddlePaddle/PaddleOCR/issues/10103 (验证通过)

livingbody commented 11 months ago

队伍名:冲呀呀呀 队伍成员微信昵称:livingbody 功能描述:OCR

https://github.com/PaddlePaddle/PaddleOCR/issues/10022 (验证通过)

livingbody commented 11 months ago

队伍名:冲呀呀呀 队伍成员微信昵称:livingbody 功能描述:OCR

https://github.com/PaddlePaddle/PaddleOCR/issues/10021 (验证通过)

livingbody commented 11 months ago

队伍名:冲呀呀呀 队伍成员微信昵称:livingbody 功能描述:OCR

https://github.com/PaddlePaddle/PaddleOCR/issues/9854 (验证通过)

livingbody commented 11 months ago

队伍名:冲呀呀呀 队伍成员微信昵称:livingbody 功能描述:OCR

https://github.com/PaddlePaddle/PaddleOCR/issues/9830 (需要继续跟进)

livingbody commented 11 months ago

队伍名:冲呀呀呀 队伍成员微信昵称:livingbody 功能描述:OCR

https://github.com/PaddlePaddle/PaddleOCR/issues/9821 (需要进一步跟进)

livingbody commented 11 months ago

队伍名:冲呀呀呀 队伍成员微信昵称:livingbody 功能描述:OCR

https://github.com/PaddlePaddle/PaddleOCR/issues/10208 (验证通过)

livingbody commented 11 months ago

队伍名:冲呀呀呀 队伍成员微信昵称:livingbody 功能描述:OCR

https://github.com/PaddlePaddle/PaddleOCR/issues/9947 (需要继续跟进)

livingbody commented 11 months ago

队伍名:冲呀呀呀 队伍成员微信昵称:livingbody 功能描述:OCR

https://github.com/PaddlePaddle/PaddleOCR/issues/9926 (验证通过)

livingbody commented 11 months ago

队伍名:冲呀呀呀 队伍成员微信昵称:livingbody 功能描述:OCR

https://github.com/PaddlePaddle/PaddleOCR/issues/9909 (验证通过)

livingbody commented 11 months ago

队伍名:冲呀呀呀 队伍成员微信昵称:livingbody 功能描述:OCR

https://github.com/PaddlePaddle/PaddleOCR/issues/9542 (验证通过)

livingbody commented 11 months ago

队伍名:冲呀呀呀 队伍成员微信昵称:livingbody 功能描述:OCR

https://github.com/PaddlePaddle/PaddleOCR/issues/9519 (验证通过)

livingbody commented 11 months ago

队伍名:冲呀呀呀 队伍成员微信昵称:livingbody 功能描述:OCR

https://github.com/PaddlePaddle/PaddleOCR/issues/10022 (验证通过)

livingbody commented 11 months ago

队伍名:冲呀呀呀 队伍成员微信昵称:livingbody 功能描述:OCR

https://github.com/PaddlePaddle/PaddleOCR/issues/10241 (需要继续跟进)

livingbody commented 11 months ago

队伍名:冲呀呀呀 队伍成员微信昵称:livingbody 功能描述:OCR

https://github.com/PaddlePaddle/PaddleOCR/issues/10238 (验证通过)

livingbody commented 11 months ago

队伍名:冲呀呀呀 队伍成员微信昵称:livingbody 功能描述:OCR

https://github.com/PaddlePaddle/PaddleOCR/issues/10235 (需要继续跟进)

livingbody commented 11 months ago

队伍名:冲呀呀呀 队伍成员微信昵称:livingbody 功能描述:OCR

https://github.com/PaddlePaddle/PaddleOCR/issues/10234 (验证通过)

livingbody commented 11 months ago

队伍名:冲呀呀呀 队伍成员微信昵称:livingbody 功能描述:OCR

https://github.com/PaddlePaddle/PaddleOCR/issues/10250 (继续跟进)

livingbody commented 11 months ago

队伍名:冲呀呀呀 队伍成员微信昵称:livingbody 功能描述:OCR

https://github.com/PaddlePaddle/PaddleOCR/issues/10259 (验证通过) PR: https://github.com/PaddlePaddle/PaddleOCR/pull/10290 (验证通过,已合入)

GreatV commented 11 months ago

队伍名:GreatX 队伍成员微信昵称:GreatX 功能描述:None issue地址:

livingbody commented 11 months ago

队伍名:冲呀呀呀 队伍成员微信昵称:livingbody 功能描述:OCR

https://github.com/PaddlePaddle/PaddleOCR/issues/10225 (需要继续跟进)

livingbody commented 11 months ago

队伍名:冲呀呀呀 队伍成员微信昵称:livingbody 功能描述:OCR

https://github.com/PaddlePaddle/PaddleOCR/issues/10226 (继续跟进)

livingbody commented 10 months ago

队伍名:冲呀呀呀 队伍成员微信昵称:livingbody 功能描述:OCR

https://github.com/PaddlePaddle/PaddleOCR/issues/10324 (验证通过)

livingbody commented 10 months ago

队伍名:冲呀呀呀 队伍成员微信昵称:livingbody 功能描述:OCR

https://github.com/PaddlePaddle/PaddleOCR/issues/10288 (继续跟进)

livingbody commented 10 months ago

队伍名:冲呀呀呀 队伍成员微信昵称:livingbody 功能描述:OCR

https://github.com/PaddlePaddle/PaddleOCR/issues/10276 (继续跟进)

livingbody commented 10 months ago

队伍名:冲呀呀呀 队伍成员微信昵称:livingbody 功能描述:OCR

https://github.com/PaddlePaddle/PaddleOCR/issues/10272 (继续跟进)

livingbody commented 10 months ago

队伍名:冲呀呀呀 队伍成员微信昵称:livingbody 功能描述:OCR

https://github.com/PaddlePaddle/PaddleOCR/issues/10273 (继续跟进)

livingbody commented 10 months ago

队伍名:冲呀呀呀 队伍成员微信昵称:livingbody 功能描述:OCR

https://github.com/PaddlePaddle/PaddleOCR/issues/10087 (验证通过)

livingbody commented 10 months ago

队伍名:冲呀呀呀 队伍成员微信昵称:livingbody 功能描述:OCR

https://github.com/PaddlePaddle/PaddleOCR/issues/10316 (继续跟进下看看有没有后续的问题,没有可关闭)

livingbody commented 10 months ago

队伍名:冲呀呀呀 队伍成员微信昵称:livingbody 功能描述:OCR

https://github.com/PaddlePaddle/PaddleOCR/issues/10305 (验证通过)

livingbody commented 10 months ago

队伍名:冲呀呀呀 队伍成员微信昵称:livingbody 功能描述:OCR 手把手解决了。

https://github.com/PaddlePaddle/PaddleOCR/issues/10232 (验证通过)

livingbody commented 10 months ago

队伍名:冲呀呀呀 队伍成员微信昵称:livingbody 功能描述:OCR

https://github.com/PaddlePaddle/PaddleOCR/issues/10110 (验证通过)

livingbody commented 10 months ago

队伍名:冲呀呀呀 队伍成员微信昵称:livingbody 功能描述:OCR

https://github.com/PaddlePaddle/PaddleOCR/issues/10107 (验证通过)

livingbody commented 10 months ago

队伍名:冲呀呀呀 队伍成员微信昵称:livingbody 功能描述:OCR

https://github.com/PaddlePaddle/PaddleOCR/issues/10027 (验证通过)

livingbody commented 10 months ago

队伍名:冲呀呀呀 队伍成员微信昵称:livingbody 功能描述:OCR

https://github.com/PaddlePaddle/PaddleOCR/issues/9987 (验证通过)

livingbody commented 10 months ago

队伍名:冲呀呀呀 队伍成员微信昵称:livingbody 功能描述:OCR

https://github.com/PaddlePaddle/PaddleOCR/issues/9962 (验证通过)

raoyutian commented 10 months ago

队伍名:明月心 队伍成员微信昵称:明月心 功能描述:OCR

10183 (验证通过) 55281(非CV套件Issue)

10337 (验证通过)

55290(非CV套件Issue) 10342 (验证通过) #10304 (需要继续跟进)

livingbody commented 10 months ago

队伍名:冲呀呀呀 队伍成员微信昵称:livingbody 功能描述:OCR

https://github.com/PaddlePaddle/PaddleOCR/issues/10356 (可以补充文档PR)

livingbody commented 10 months ago

队伍名:冲呀呀呀 队伍成员微信昵称:livingbody 功能描述:OCR

https://github.com/PaddlePaddle/PaddleOCR/issues/10347 (验证通过)

livingbody commented 10 months ago

队伍名:冲呀呀呀 队伍成员微信昵称:livingbody 功能描述:OCR

https://github.com/PaddlePaddle/PaddleOCR/issues/10343 (验证通过)

livingbody commented 10 months ago

队伍名:冲呀呀呀 队伍成员微信昵称:livingbody 功能描述:OCR

https://github.com/PaddlePaddle/PaddleOCR/issues/10328 (等待提问者答复确认解决问题)

livingbody commented 10 months ago

队伍名:冲呀呀呀 队伍成员微信昵称:livingbody 功能描述:OCR

https://github.com/PaddlePaddle/PaddleOCR/issues/10314 (验证通过)