ContentMine / getpapers

Get metadata, fulltexts or fulltext URLs of papers matching a search query
MIT License
197 stars 37 forks source link

PLOS ONE 'supp materials' are mostly just figures NOT SI #49

Open rossmounce opened 9 years ago

rossmounce commented 9 years ago

Single paper demonstration of issue: http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0079155 Expected getpapers to download the supp info: File S1 (9 Mb PDF). EuropePMC does hold this supp file: http://europepmc.org/articles/PMC3838368/bin/pone.0079155.s001.pdf

But getpapers unexpectedly returns all 9 main paper figure images as supp info and NOT the real supp info.

getpapers --query 'JOURNAL:"PLOS ONE" TITLE:"Monogenean lost clamps"' -s  --outdir plosmono
cd plosmono/PMC3838368/
unzip supplementaryFiles.zip
ls
pone.0079155.g001.jpg  pone.0079155.g005.jpg  pone.0079155.g009.jpg
pone.0079155.g002.jpg  pone.0079155.g006.jpg  supplementaryFiles.zip
pone.0079155.g003.jpg  pone.0079155.g007.jpg
pone.0079155.g004.jpg  pone.0079155.g008.jpg

Multiple PLOS ONE example, where only 3 out of 25 hits returns real supplementary information files. The three that do return real supp info are: PMC3665537, PMC3669350, PMC3692442 All others, as apparent from file names g001 etc are just the figures from the main paper

#Downloads 25 supplementary materials zip files
getpapers --query 'JOURNAL:"PLOS ONE" METHODS:"NHMUK"' -s --outdir plosbmnh
#unzip all
tree
.
├── eupmc_results.json
├── PMC3648582
├── PMC3665537
│   ├── pone.0065295.e001.jpg
│   ├── pone.0065295.e002.jpg
│   ├── pone.0065295.g001.jpg
│   ├── pone.0065295.g002.jpg
│   ├── pone.0065295.g003.jpg
│   ├── pone.0065295.g004.jpg
│   ├── pone.0065295.g005.jpg
│   ├── pone.0065295.g006.jpg
│   ├── pone.0065295.g007.jpg
│   ├── pone.0065295.s001.doc
│   ├── pone.0065295.s002.doc
│   ├── pone.0065295.s003.doc
│   ├── pone.0065295.s004.doc
│   ├── pone.0065295.s005.wmv
│   ├── pone.0065295.s006.wmv
│   ├── pone.0065295.s007.wmv
│   ├── pone.0065295.s008.wmv
│   └── supplementaryFiles.zip
├── PMC3669350
│   ├── pone.0064203.g001.jpg
│   ├── pone.0064203.g002.jpg
│   ├── pone.0064203.g003.jpg
│   ├── pone.0064203.g004.jpg
│   ├── pone.0064203.g005.jpg
│   ├── pone.0064203.g006.jpg
│   ├── pone.0064203.g007.jpg
│   ├── pone.0064203.g008.jpg
│   ├── pone.0064203.g009.jpg
│   ├── pone.0064203.g010.jpg
│   ├── pone.0064203.g011.jpg
│   ├── pone.0064203.s001.doc
│   ├── pone.0064203.s002.doc
│   ├── pone.0064203.s003.doc
│   ├── pone.0064203.s004.nex
│   └── supplementaryFiles.zip
├── PMC3692442
│   ├── pone.0067176.g001.jpg
│   ├── pone.0067176.g002.jpg
│   ├── pone.0067176.g003.jpg
│   ├── pone.0067176.g004.jpg
│   ├── pone.0067176.g005.jpg
│   ├── pone.0067176.s001.xls
│   ├── pone.0067176.s002.pdf
│   └── supplementaryFiles.zip
├── PMC3789696
│   ├── pone.0077457.g001.jpg
│   ├── pone.0077457.g002.jpg
│   ├── pone.0077457.g003.jpg
│   ├── pone.0077457.g004.jpg
│   └── supplementaryFiles.zip
├── PMC3838368
│   ├── pone.0079155.g001.jpg
│   ├── pone.0079155.g002.jpg
│   ├── pone.0079155.g003.jpg
│   ├── pone.0079155.g004.jpg
│   ├── pone.0079155.g005.jpg
│   ├── pone.0079155.g006.jpg
│   ├── pone.0079155.g007.jpg
│   ├── pone.0079155.g008.jpg
│   ├── pone.0079155.g009.jpg
│   └── supplementaryFiles.zip
├── PMC3847141
│   ├── pone.0080405.g001.jpg
│   ├── pone.0080405.g002.jpg
│   ├── pone.0080405.g003.jpg
│   ├── pone.0080405.g004.jpg
│   ├── pone.0080405.g005.jpg
│   ├── pone.0080405.g006.jpg
│   ├── pone.0080405.g007.jpg
│   ├── pone.0080405.g008.jpg
│   ├── pone.0080405.g009.jpg
│   ├── pone.0080405.g010.jpg
│   ├── pone.0080405.g011.jpg
│   ├── pone.0080405.g012.jpg
│   ├── pone.0080405.g013.jpg
│   ├── pone.0080405.g014.jpg
│   ├── pone.0080405.g015.jpg
│   ├── pone.0080405.g016.jpg
│   ├── pone.0080405.g017.jpg
│   ├── pone.0080405.g018.jpg
│   ├── pone.0080405.g019.jpg
│   ├── pone.0080405.g020.jpg
│   ├── pone.0080405.g021.jpg
│   ├── pone.0080405.g022.jpg
│   ├── pone.0080405.g023.jpg
│   ├── pone.0080405.g024.jpg
│   ├── pone.0080405.g025.jpg
│   ├── pone.0080405.g026.jpg
│   ├── pone.0080405.g027.jpg
│   ├── pone.0080405.g028.jpg
│   ├── pone.0080405.g029.jpg
│   ├── pone.0080405.g030.jpg
│   ├── pone.0080405.g031.jpg
│   ├── pone.0080405.g032.jpg
│   ├── pone.0080405.g033.jpg
│   ├── pone.0080405.g034.jpg
│   └── supplementaryFiles.zip
├── PMC3852158
│   ├── pone.0080974.g001.jpg
│   ├── pone.0080974.g002.jpg
│   ├── pone.0080974.g003.jpg
│   ├── pone.0080974.g004.jpg
│   ├── pone.0080974.g005.jpg
│   ├── pone.0080974.g006.jpg
│   ├── pone.0080974.g007.jpg
│   ├── pone.0080974.g008.jpg
│   ├── pone.0080974.g009.jpg
│   ├── pone.0080974.g010.jpg
│   ├── pone.0080974.g011.jpg
│   ├── pone.0080974.g012.jpg
│   ├── pone.0080974.g013.jpg
│   ├── pone.0080974.g014.jpg
│   ├── pone.0080974.g015.jpg
│   ├── pone.0080974.g016.jpg
│   ├── pone.0080974.g017.jpg
│   └── supplementaryFiles.zip
├── PMC3859474
│   ├── pone.0066075.g001.jpg
│   ├── pone.0066075.g002.jpg
│   ├── pone.0066075.g003.jpg
│   ├── pone.0066075.g004.jpg
│   ├── pone.0066075.g005.jpg
│   ├── pone.0066075.g006.jpg
│   └── supplementaryFiles.zip
├── PMC3897400
│   ├── pone.0084709.g001.jpg
│   ├── pone.0084709.g002.jpg
│   ├── pone.0084709.g003.jpg
│   ├── pone.0084709.g004.jpg
│   ├── pone.0084709.g005.jpg
│   ├── pone.0084709.g006.jpg
│   ├── pone.0084709.g007.jpg
│   ├── pone.0084709.g008.jpg
│   ├── pone.0084709.g009.jpg
│   ├── pone.0084709.g010.jpg
│   ├── pone.0084709.g011.jpg
│   ├── pone.0084709.g012.jpg
│   ├── pone.0084709.g013.jpg
│   ├── pone.0084709.g014.jpg
│   ├── pone.0084709.g015.jpg
│   ├── pone.0084709.g016.jpg
│   ├── pone.0084709.g017.jpg
│   ├── pone.0084709.g018.jpg
│   ├── pone.0084709.g019.jpg
│   ├── pone.0084709.g020.jpg
│   └── supplementaryFiles.zip
├── PMC3907582
│   ├── pone.0086864.g001.jpg
│   ├── pone.0086864.g002.jpg
│   ├── pone.0086864.g003.jpg
│   ├── pone.0086864.g004.jpg
│   ├── pone.0086864.g005.jpg
│   ├── pone.0086864.g006.jpg
│   ├── pone.0086864.g007.jpg
│   ├── pone.0086864.g008.jpg
│   ├── pone.0086864.g009.jpg
│   ├── pone.0086864.g010.jpg
│   ├── pone.0086864.g011.jpg
│   ├── pone.0086864.g012.jpg
│   ├── pone.0086864.g013.jpg
│   ├── pone.0086864.g014.jpg
│   ├── pone.0086864.g015.jpg
│   ├── pone.0086864.g016.jpg
│   ├── pone.0086864.g017.jpg
│   ├── pone.0086864.g018.jpg
│   ├── pone.0086864.g019.jpg
│   └── supplementaryFiles.zip
├── PMC3914794
│   ├── pone.0087048.g001.jpg
│   ├── pone.0087048.g002.jpg
│   ├── pone.0087048.g003.jpg
│   ├── pone.0087048.g004.jpg
│   ├── pone.0087048.g005.jpg
│   └── supplementaryFiles.zip
├── PMC3937355
│   ├── pone.0089165.g001.jpg
│   ├── pone.0089165.g002.jpg
│   ├── pone.0089165.g003.jpg
│   ├── pone.0089165.g004.jpg
│   ├── pone.0089165.g005.jpg
│   ├── pone.0089165.g006.jpg
│   ├── pone.0089165.g007.jpg
│   ├── pone.0089165.g008.jpg
│   ├── pone.0089165.g009.jpg
│   ├── pone.0089165.g010.jpg
│   ├── pone.0089165.g011.jpg
│   ├── pone.0089165.g012.jpg
│   ├── pone.0089165.g013.jpg
│   ├── pone.0089165.g014.jpg
│   ├── pone.0089165.g015.jpg
│   ├── pone.0089165.g016.jpg
│   ├── pone.0089165.g017.jpg
│   ├── pone.0089165.g018.jpg
│   ├── pone.0089165.g019.jpg
│   ├── pone.0089165.g020.jpg
│   ├── pone.0089165.g021.jpg
│   └── supplementaryFiles.zip
├── PMC3991637
│   ├── pone.0095296.g001.jpg
│   ├── pone.0095296.g002.jpg
│   ├── pone.0095296.g003.jpg
│   ├── pone.0095296.g004.jpg
│   ├── pone.0095296.g005.jpg
│   ├── pone.0095296.g006.jpg
│   ├── pone.0095296.g007.jpg
│   ├── pone.0095296.g008.jpg
│   ├── pone.0095296.g009.jpg
│   ├── pone.0095296.g010.jpg
│   ├── pone.0095296.g011.jpg
│   ├── pone.0095296.g012.jpg
│   ├── pone.0095296.g013.jpg
│   ├── pone.0095296.g014.jpg
│   ├── pone.0095296.g015.jpg
│   └── supplementaryFiles.zip
├── PMC4118863
│   ├── pone.0103152.g001.jpg
│   ├── pone.0103152.g002.jpg
│   ├── pone.0103152.g003.jpg
│   ├── pone.0103152.g004.jpg
│   ├── pone.0103152.g005.jpg
│   ├── pone.0103152.g006.jpg
│   ├── pone.0103152.g007.jpg
│   ├── pone.0103152.g008.jpg
│   ├── pone.0103152.g009.jpg
│   ├── pone.0103152.g010.jpg
│   ├── pone.0103152.g011.jpg
│   ├── pone.0103152.g012.jpg
│   ├── pone.0103152.g013.jpg
│   ├── pone.0103152.g014.jpg
│   ├── pone.0103152.g015.jpg
│   └── supplementaryFiles.zip
├── PMC4131922
│   ├── pone.0104551.g001.jpg
│   ├── pone.0104551.g002.jpg
│   ├── pone.0104551.g003.jpg
│   ├── pone.0104551.g004.jpg
│   ├── pone.0104551.g005.jpg
│   ├── pone.0104551.g006.jpg
│   ├── pone.0104551.g007.jpg
│   ├── pone.0104551.g008.jpg
│   ├── pone.0104551.g009.jpg
│   ├── pone.0104551.g010.jpg
│   ├── pone.0104551.g011.jpg
│   └── supplementaryFiles.zip
├── PMC4192354
│   ├── pone.0109785.g001.jpg
│   ├── pone.0109785.g002.jpg
│   ├── pone.0109785.g003.jpg
│   ├── pone.0109785.g004.jpg
│   ├── pone.0109785.g005.jpg
│   └── supplementaryFiles.zip
├── PMC4206445
│   ├── pone.0110646.e001.jpg
│   ├── pone.0110646.e002.jpg
│   ├── pone.0110646.g001.jpg
│   ├── pone.0110646.g002.jpg
│   ├── pone.0110646.g003.jpg
│   ├── pone.0110646.g004.jpg
│   ├── pone.0110646.g005.jpg
│   ├── pone.0110646.g006.jpg
│   ├── pone.0110646.g007.jpg
│   ├── pone.0110646.g008.jpg
│   ├── pone.0110646.g009.jpg
│   ├── pone.0110646.g010.jpg
│   ├── pone.0110646.g011.jpg
│   ├── pone.0110646.g012.jpg
│   ├── pone.0110646.g013.jpg
│   ├── pone.0110646.g014.jpg
│   ├── pone.0110646.g015.jpg
│   └── supplementaryFiles.zip
├── PMC4269487
│   ├── pone.0113911.g001.jpg
│   ├── pone.0113911.g002.jpg
│   ├── pone.0113911.g003.jpg
│   ├── pone.0113911.g004.jpg
│   ├── pone.0113911.g005.jpg
│   ├── pone.0113911.g006.jpg
│   ├── pone.0113911.g007.jpg
│   ├── pone.0113911.g008.jpg
│   ├── pone.0113911.g009.jpg
│   ├── pone.0113911.g010.jpg
│   ├── pone.0113911.g011.jpg
│   ├── pone.0113911.g012.jpg
│   ├── pone.0113911.g013.jpg
│   ├── pone.0113911.g014.jpg
│   ├── pone.0113911.g015.jpg
│   ├── pone.0113911.g016.jpg
│   ├── pone.0113911.g017.jpg
│   ├── pone.0113911.g018.jpg
│   ├── pone.0113911.g019.jpg
│   ├── pone.0113911.g020.jpg
│   ├── pone.0113911.g021.jpg
│   ├── pone.0113911.g022.jpg
│   ├── pone.0113911.g023.jpg
│   ├── pone.0113911.g024.jpg
│   ├── pone.0113911.g025.jpg
│   └── supplementaryFiles.zip
├── PMC4382297
│   ├── pone.0120924.g001.jpg
│   ├── pone.0120924.g002.jpg
│   ├── pone.0120924.g003.jpg
│   ├── pone.0120924.g004.jpg
│   ├── pone.0120924.g005.jpg
│   ├── pone.0120924.g006.jpg
│   ├── pone.0120924.g007.jpg
│   ├── pone.0120924.g008.jpg
│   ├── pone.0120924.g009.jpg
│   ├── pone.0120924.g010.jpg
│   ├── pone.0120924.g011.jpg
│   ├── pone.0120924.g012.jpg
│   ├── pone.0120924.g013.jpg
│   ├── pone.0120924.g014.jpg
│   ├── pone.0120924.g015.jpg
│   ├── pone.0120924.g016.jpg
│   ├── pone.0120924.g017.jpg
│   ├── pone.0120924.g018.jpg
│   ├── pone.0120924.g019.jpg
│   ├── pone.0120924.g020.jpg
│   ├── pone.0120924.g021.jpg
│   ├── pone.0120924.g022.jpg
│   ├── pone.0120924.g023.jpg
│   ├── pone.0120924.g024.jpg
│   ├── pone.0120924.g025.jpg
│   ├── pone.0120924.g026.jpg
│   ├── pone.0120924.g027.jpg
│   ├── pone.0120924.g028.jpg
│   ├── pone.0120924.g029.jpg
│   ├── pone.0120924.g030.jpg
│   ├── pone.0120924.g031.jpg
│   └── supplementaryFiles.zip
├── PMC4406738
│   ├── pone.0123503.g001.jpg
│   ├── pone.0123503.g002.jpg
│   ├── pone.0123503.g003.jpg
│   ├── pone.0123503.g004.jpg
│   ├── pone.0123503.g005.jpg
│   └── supplementaryFiles.zip
├── PMC4454574
│   ├── pone.0125819.g001.jpg
│   ├── pone.0125819.g002.jpg
│   ├── pone.0125819.g003.jpg
│   ├── pone.0125819.g004.jpg
│   ├── pone.0125819.g005.jpg
│   ├── pone.0125819.g006.jpg
│   ├── pone.0125819.g007.jpg
│   ├── pone.0125819.g008.jpg
│   ├── pone.0125819.g009.jpg
│   ├── pone.0125819.g010.jpg
│   ├── pone.0125819.g011.jpg
│   ├── pone.0125819.g012.jpg
│   ├── pone.0125819.g013.jpg
│   ├── pone.0125819.g014.jpg
│   ├── pone.0125819.g015.jpg
│   ├── pone.0125819.g016.jpg
│   ├── pone.0125819.g017.jpg
│   ├── pone.0125819.g018.jpg
│   └── supplementaryFiles.zip
├── PMC4465186
│   ├── pone.0127727.g001.jpg
│   ├── pone.0127727.g002.jpg
│   └── supplementaryFiles.zip
├── PMC4480851
│   ├── pone.0129193.g001.jpg
│   ├── pone.0129193.g002.jpg
│   ├── pone.0129193.g003.jpg
│   ├── pone.0129193.g004.jpg
│   ├── pone.0129193.g005.jpg
│   ├── pone.0129193.g006.jpg
│   ├── pone.0129193.g007.jpg
│   ├── pone.0129193.g008.jpg
│   ├── pone.0129193.g009.jpg
│   └── supplementaryFiles.zip
└── PMC4480985
    ├── pone.0127621.g001.jpg
    ├── pone.0127621.g002.jpg
    ├── pone.0127621.g003.jpg
    ├── pone.0127621.g004.jpg
    ├── pone.0127621.g005.jpg
    ├── pone.0127621.g006.jpg
    ├── pone.0127621.g007.jpg
    ├── pone.0127621.g008.jpg
    └── supplementaryFiles.zip

25 directories, 360 files
blahah commented 9 years ago

I will double-check this, but I suspect this means PLOS figures are being incorrectly deposited as supp info into EPMC. We can report it upstream, but can't fix it at the getpapers level.

blahah commented 9 years ago

I have confirmed this is a problem at the EuropePMC end, and contacted Jo about the problem.