OrdinalEncoder - Githubissues

monkey0head commented 2 years ago

Коллеги, можете, пожалуйста, уточнить, что происходит в SparkOrdinalEncoderEstimator и SparkOrdinalEncoderTransformer с nan-ами и новыми label-ами?

В SparkOrdinalEncoderEstimator создается LAMLStringIndexer с параметрами handleInvalid="keep", defaultValue=self._fillna_val, nanLast=True.

В _transform SparkOrdinalEncoderTransformer выполняется indexed_dataset = indexed_dataset.replace(float('nan'), 0.0, subset=output_columns)

Часть этих параметров в моем понимании пересекаются. Можете, пожалуйста, уточнить логику?

Не получилось создать дискуссию, если лучше вопросы писать в другое место - напишите, куда.

monkey0head commented 2 years ago

почему тут error? я понимаю, что сначала идет label encoder, но он может создавать доп колонку для новых labels в случае применения transform к другому датасету

monkey0head commented 2 years ago

может быть, стоит добавить тесты transfomer-ов с fit на отдельном куске датасета и transform на другой, чтобы убедиться, что кейсы появления новых значений кат.фичей обрабатываются корректно?

fonhorst / LightAutoML_Spark