Food201【Im2Calories: towards an automated mobile vision food diary】包含约 12,000 张图片,跨越 201 种菜肴类。
UECFoodPix【A new large-scale food image segmentation dataset and its application to food calorie estimation based on grains of rice】和 UEC-FoodPIX Complete【UEC-FoodPIX Complete: A large-scale food image segmentation dataset】,它们包含了大约 10,000 张图片,跨越 102 种菜肴类型用于分割。
Recipe-1M+【Recipe1m+: a dataset for learning cross-modalembeddings for cooking recipes and food images】是当前最大的图像与食谱成对数据集,有大约 1,000,000 个烹饪食谱。每份食谱都详细介绍了菜肴的名称、烹饪方法、配料表,以及来自不同餐馆的大约 10 张代表这道菜的图片。这个数据集包含了大量的食物照片和配料表。需要注意的是,数据集中的成分列表通常包括“看不见的”成分,如糖、油和盐。
CVPR 2024 - OVFoodSeg - Elevating Open-Vocabulary Food Image Segmentation via Image-Informed Textual Representation
主要内容
大量食材之间的类别差异、新食材的出现以及与大型食物分割数据集相关的高注释成本。现有方法主要采用封闭词汇和静态文本嵌入设置,往往无法有效处理食材,特别是新颖和多样化的食材。为此本文提出了一种新的开放词汇食品图像分割(Open-Vocabulary Food Image Segmentation)框架 OVFoodSeg,通过采用图像感知文本表示来提升开放词汇食品图像分割的能力。这一任务和框架旨在解决现有方法在处理新和多样化的食材时的不足。
在整合视觉语言模型 CLIP 的基础上,为了处理食物配料视觉表征中大的类内方差,该方法集成了两个创新模块,即图像到文本学习器 FoodLearner 和图像感知的文本编码器 Image-Informed Text Encoder,丰富了文本嵌入与图像特定的信息,从而有效地将知识从已知的食材转移到新的食材。
OVFoodSeg 的训练过程分为两个阶段:
第一阶段是预训练 FoodLearner,使其具备将视觉信息与特定相关食物的文本表征对齐的能力。利用视觉表征利用交叉注意力层更新可学习的 query token,文本信息联合生成文本表征。
第二阶段是用于分割任务的学习阶段,调整 FoodLearner 和 Image-Informed Text Encoder 以适应分割任务。
通过在大规模食品相关图像文本对数据集上预训练 FoodLearner,OVFoodSeg 成功地将视觉信息与文本表示紧密地联系起来,从而有效地解决了食材图像分割中的大类内变化问题。OVFoodSeg 在两个开放词汇食品图像分割基准测试中都取得了最先进的性能,证明了其有效性和对现有方法的超越。
食品相关的分割数据集
食品图像分割是食品计算的核心问题,构建具有像素级掩码注释的大规模数据集是解决这一问题的基础。