ufal / neuralmonkey

An open-source tool for sequence learning in NLP built on TensorFlow.
BSD 3-Clause "New" or "Revised" License
410 stars 104 forks source link

T2T batching #786

Open varisd opened 5 years ago

varisd commented 5 years ago

included batching scheme methods from: https://github.com/tensorflow/tensor2tensor/blob/415585f40d9f21c56df7bda35033bc915d82321e/tensor2tensor/utils/data_reader.py

jindrahelcl commented 5 years ago

ad workaround - to už svuj pull request má, proč je to tady taky?

varisd commented 5 years ago

Workaround == je to rozvrtane (rozumej, pada to v normalnich scenarich), takze potrebuju rychly fix, abych mohl pracovat na dalsich vecech.

Vetsina tech veci na sobe zavisi, na druhou stranu se daji semanticky rozdelit, coz jsem udelal do pull requestu. Klidne muzu priste udelat jeden velky PR a nebudeme muset resit zavislosti.

jlibovicky commented 5 years ago

Rozumím tomu správě, že tohle potřeba zamergovat jako první? Na čem to teda přesně vázne?

varisd commented 5 years ago

Rozumím tomu správě, že tohle potřeba zamergovat jako první? Na čem to teda přesně vázne? Jo, protoze tento PR prinasi humanni vytvareni schematu pro bucketed token-level batching (ktery je de-facto pro transformery nezbytny).

Je potreba opravit dokumentaci v tech dataset.* metodach vykradenych z t2t (a uvest, ze je berem od nich). Dale doplnit anotace... Jak rikam slo prakticky o copy-paste, abych si nemusel pokazde rucne pocitat bucket_batch_sizes a bucket_boundaries.

Samozrejme ty ostatni PR by mely fungovat i bez tohoto, ale budes si je muset rebasnout :)

jindrahelcl commented 5 years ago

Tohle je teda součást #802? Jestli jo, tak to prosím zavři.

varisd commented 5 years ago

Neni. Spatne jsem rebasnul