fukun07 / neural-image-captioning

Using scene-specific contexts and region-based attention in neural image captioning
MIT License
44 stars 18 forks source link

可以分享关于如何预处理数据的代码吗? #12

Open 17000432 opened 5 years ago

17000432 commented 5 years ago
  您好,我看了您的实验很感兴趣。我最近在做关于化工场景的实验,我想尝试用自己的图片来跑您的例子,不知道您方不方便分享一下关于数据预处理部分的代码,使处理后的数据包含提取的边框、字幕、场景主题的。
   希望能够的到您的帮助,非常感谢!
fukun07 commented 5 years ago

scene vector: 我们没有花费太多时间在LDA的调参上。使用的工具包是 https://pypi.python.org/pypi/lda 。alpha、beta和迭代次数均为默认值。因为程序很短,当时直接在jupyter里面边敲边运行的,也没有特意存下代码。 得到LDA之后,可以修改scene.py来预测场景向量

patch proposal: 如论文里所写,我们使用了Selective Search,可以参考代码 https://github.com/sergeyk/selective_search_ijcv_with_python 。当然,15年的时候是用matlab跑的。

caption: 这个也是在jupyter里交互式完成的,没有存代码下来。如果熟悉python的话,应该挺快的,主要是统计一下词频,然后把低于5的过滤掉。将文件格式简单整理一下方便使用。

化工场景相比自然图片其数据分布会差异较大。可以先用最简单的baseline(此项目里的gnic模型)跑一跑,验证可行性,如果有希望,再加入scene vector和region attention(锦上添花之用)。

17000432 commented 5 years ago

@fukun07 谢谢