henryliangt / usyd

0 stars 0 forks source link

Direction of research. #49

Open henryliangt opened 1 year ago

henryliangt commented 1 year ago

 图像理解

图像理解(目标检测,图像分类,图像分割)下,三个子领域都是 benchmark 成熟。人多,优秀工作少,从李飞飞2009的 image Net   ,相当完善。 卷,要学不要做, 突破口:1. 小样本学习的 benchmark, 建立一个有规模的迁移学习数据集。

  1. 持续学习,的benchmark。
  2. 医疗影像理解。特别是mri. 乐观, 4.多目标的好点。但也很卷。yolo很厉害。
  3. 3D比2D的好。

图像生成

大实验室,要算力足 超分辨率,文本 to图像,图像去噪,风格迁移。 超分辨率,卷,烂,简单。 文本生成不卷,几千亿算力的大公司。google, dall-e , 图像去噪,小众,mri结合实用。前景好。 风格迁移,艺术结合多,funding 不够。

检索: (图搜图,文搜图)本质还是图像理解。成熟,不推荐

Robotics: (无人车,无人机,机械臂)

大佬可以做,前景好。能做的多。 用到深度学习(给予统计)的还很少,基本都是基于规则的方法。 计算机图形学更多一些。 最热门的算法像是slam, 都是被规则方法统治的。 想要应用计算机视觉到这里,难度很大,调参不如规则好。 想做,数学要好。否则很容易成横向。研究性质的paper 不多。

图像序列 :(多目标跟踪,图像序列, 步态识别)

专业lab 去做。 安防,无人驾驶, 目标跟踪,则推荐多目标跟踪,应用价值最高,funding 不错。 热点在落地可行性,实时检测和降低算力门槛。 序列分析最火的是事件监测,交通应用大。 步态识别,小众。

跨学科多模态: 适合,多个学科的知识。

结合Nlp (视频理解,视频生成,视频搜索)

蓝海期,图像序列 + 音频 + 文字 概括视频内容,提取视频事件, 远机位视频理解的benchmark 太少。缺苦干做数据集的人。

视频分类是大瓶颈。两三年,还是一个模型。 视频生成:从一张图片生成整个视频,研究火爆,用作推理专家系统,从一幅画进行有端联想。 视频生成质量,也很值得做。优质视频,但是分辨率太低。视频超分辨率感人,研究很少。 视频搜索可以用来做视频推荐算法,作为视频除了标题的一个文本参照。提高推荐质量。 总体看,难度较大,cv+ Nlp.