keboola / db-writer-snowflake

Snowflake database writer
MIT License
0 stars 1 forks source link

Dedup on full load & pkey #10

Open ondrejhlavacek opened 7 years ago

ondrejhlavacek commented 7 years ago

If primary key is set, dedup must be executed even on full load.

offsite

Halama commented 7 years ago

v pripade writeru to tak byt nemusi vlastne, protoze ten PK jde ze storage kde uz je dedupnuty.

ondrejhlavacek commented 7 years ago

pokud je ten PK ve writeru a storage stejný (a nebo je PK writeru podmnožina PK ve storage), jinak se to dedupovat musí

Halama commented 7 years ago

aha to jsem nevedel ze to jde nastavit jinak nez je to ve storage.

ondrejhlavacek commented 7 years ago

jj, je to úplně nezávislé

MiroCillik commented 7 years ago

Rozumiem tomu spravne, ze pre nejakych stlpec v Storage nie je nastaveny PK, v konfiguracii writeru je nastaveny a tento stlpec obsahuje duplicitne hodnoty? To znamena, ze by sa to data naloadovali do DB, potom dedupli a az potom by sa nastavil PK?

Hmm a nebude to divne z pohladu uzivatela, ze sa mu tam stratia nejake zaznamy? Myslim, ze je to vlastne dobre, ze to hodi chybu. Aspon vie, ze tam ma duplicitne zaznamy.

MiroCillik commented 7 years ago

Alebo nedovolime nastavit PK pokial nie je aj na vstupnej tabulke

Halama commented 7 years ago

ono to chybu nehodi. Snflk PK neresi.

Halama commented 7 years ago

prijde mi to ale dost divny ze by si pk nastavoval jinak nez mas ve storage.

ondrejhlavacek commented 7 years ago

vzhledem k tomu, že jsme spíš schema-less a PK u nás slouží primárně pro inkrementy (a dedup je spíš side effect), tak se tomu vůbec nedivím. PK lítaj sem a tam úplně všude. Možná by na to mohl být přepínač? :-)