mff-uk / odcs-dpus

Repository for DPUs (Data processing units) for ETL tool for RDF data
3 stars 2 forks source link

[VZ] IC 00000000 na profilech zadavatelu #64

Open martinnec opened 10 years ago

martinnec commented 10 years ago

Obcas je na profilu zadavatele v tenderu IC 00000000 a to se ti pak slejva do jednoho resource. Nebyl by v techto pripadech lepsi GUID nebo URI z nazvu dodavtele?

jakubklimek commented 10 years ago

Tak je to otazka. Tyhle data jsou tak jako tak vadny takze je otazka jestli se tim zabyvat. Techhle specialnich ic je tam vic. On Apr 17, 2014 12:47 PM, "Martin Nečaský" notifications@github.com wrote:

Obcas je na profilu zadavatele v tenderu IC 00000000 a to se ti pak slejva do jednoho resource. Nebyl by v techto pripadech lepsi GUID nebo URI z nazvu dodavtele?

— Reply to this email directly or view it on GitHubhttps://github.com/mff-uk/DPUs/issues/64 .

martinnec commented 10 years ago

No, ses si jistej tou vadnosti? Lepsi nemame, takze je treba je brat jako fakt :-)

jakubklimek commented 10 years ago

V ARES:


darv_or.cgi@ico=96094392364.rdf
darv_or.cgi@ico=98393835.rdf
darv_or.cgi@ico=99999987.rdf
darv_or.cgi@ico=99999990.rdf
darv_or.cgi@ico=99999996.rdf
darv_or.cgi@ico=99999998.rdf
darv_or.cgi@ico=99999999.rdf
darv_or.cgi@ico=ATU21505707.rdf
darv_or.cgi@ico=DE116084527.rdf
darv_or.cgi@ico=HE269417.rdf
darv_or.cgi@ico=HRB172107.rdf
darv_or.cgi@ico=HRB726261.rdf
darv_or.cgi@ico=IT00974240491.rdf
darv_or.cgi@ico=nep_id_leno.rdf
darv_or.cgi@ico=nep?id?leno.rdf
darv_or.cgi@ico=NEUVEDENO.rdf
darv_or.cgi@ico=xxx.rdf
darv_or.cgi@ico=ZAHRANICNI.rdf
jindrichmynarz commented 10 years ago

V případě Věstníku veřejných zakázek jsme nespolehlivé IČO a chybné slévání firem, které sdílí stejné (chybné) IČO a přesto jsou různé, (dočasně) vyřešili generováním UUID-based URI pro každou firmu a následně pomocí deduplikace, která brala v potaz nejenom IČO, ale taky další vlastnosti (název firmy atp.). Deduplikační pravidla pro Silk pro instance gr:BusinessEntity z Věstníku veřejných zakázek jsou tady.

jindrichmynarz commented 10 years ago

Kromě toho jsme si půjčili Martinovu validaci IČO a provádíme ji rovnou při XSL transformaci, která potom označí IČO neplatná dle kontrolní číslice (ty lze potom brát jinak při deduplikaci, např. pomocí string distance metriky namísto přesné shody).