freme-project / freme-ner

Apache License 2.0
6 stars 1 forks source link

Missing annotations on NIF service response #171

Open kurzum opened 7 years ago

kurzum commented 7 years ago

Hi guys, so the error is simple and legit:


We uploaded the terms.nt as SBR2 and it seems to have been uploaded correctly. We attached the terms.nt file, wich contains this line: <http://data.sbrcurnet/Referentiedetail/> <> "ankerloze spouwmuur"@nl .

entity linking

entities are not matched in the text, although there is a direct occurrence. Below is the snippet and the terms.nt to reproduce the bug.

curl -X POST --header 'Content-Type: text/plain' --header 'Accept: application/ld+json' -d "Voor de details waarbij een ankerloze spouwmuur aansluit op een plat dak is ter voorkoming van brandoverslag / branddoorslag een 15 mm vezelversterkte gipskartonplaat als plafond aangegeven. " '''&language=nl&dataset=sbr2&mode=all&nif-version=2.1'
kurzum commented 7 years ago

Ah yes, the services provides blank nodes (with no further properties) as a result of the matching. DBpedia NL is working fine

grep taIdentRef nif1-008.nt 
_:genid2 <> _:genid1 .
_:genid3 <> <> .
_:genid5 <> _:genid4 .
_:genid6 <> <> .
_:genid7 <> <http://data.sbrcurnet/Referentiedetail/> .
_:genid8 <> <> .
_:genid10 <> _:genid9 .
_:genid11 <> <> .
_:genid12 <> <> .
_:genid14 <> _:genid13 .
_:genid15 <> <> .
_:genid17 <> _:genid16 .
_:genid19 <> _:genid18 .
_:genid21 <> _:genid20 .
_:genid23 <> _:genid22 .
_:genid25 <> _:genid24 .
_:genid27 <> _:genid26 .
_:genid29 <> _:genid28 .
_:genid31 <> _:genid30 .
_:genid32 <> <> .
_:genid33 <> <> .
_:genid35 <> _:genid34 .
_:genid36 <> <\u00FCm> .
kurzum commented 7 years ago

for the whole text corpus (10 texts) we recieve 212 of these erroneous matches

grep taIdentRef * | grep '> _:genid' | wc -l
jnehring commented 7 years ago

The curl you provided does not work. I changed the server. And I changed the output format for better readibility:

curl -X POST --header 'Content-Type: text/plain' --header 'Accept: text/turtle' -d "Voor de details waarbij een ankerloze spouwmuur aansluit op een plat dak is ter voorkoming van brandoverslag / branddoorslag een 15 mm vezelversterkte gipskartonplaat als plafond aangegeven. " '''&language=nl&dataset=sbr2&mode=all&nif-version=2.1'

The output:

@prefix xsd:   <> .
@prefix itsrdf: <> .
@prefix nif:   <> .

        a               nif:ContextCollection ;
        nif:hasContext  <> ;
                <> .

        a               nif:Context , nif:OffsetBasedString ;
        nif:beginIndex  "0"^^xsd:nonNegativeInteger ;
        nif:endIndex    "191"^^xsd:nonNegativeInteger ;
        nif:isString    "Voor de details waarbij een ankerloze spouwmuur aansluit op een plat dak is ter voorkoming van brandoverslag / branddoorslag een 15 mm vezelversterkte gipskartonplaat als plafond aangegeven. "^^xsd:string .

        a               nif:Context , nif:OffsetBasedString ;
        nif:beginIndex  "0"^^xsd:nonNegativeInteger ;
        nif:endIndex    "191"^^xsd:nonNegativeInteger ;
        nif:isString    "Voor de details waarbij een ankerloze spouwmuur aansluit op een plat dak is ter voorkoming van brandoverslag / branddoorslag een 15 mm vezelversterkte gipskartonplaat als plafond aangegeven. "^^xsd:string .

There are no entity annotations. I think it is the same bug as

The language model does not spot the entities and therefore they are not send to linking.

Besides this the NIF isString property is produced twice. Therefore I reopened