fonhorst / LightAutoML_Spark

Apache License 2.0
7 stars 1 forks source link

OrdinalEncoder #132

Open monkey0head opened 2 years ago

monkey0head commented 2 years ago

Коллеги, можете, пожалуйста, уточнить, что происходит в SparkOrdinalEncoderEstimator и SparkOrdinalEncoderTransformer с nan-ами и новыми label-ами?

В SparkOrdinalEncoderEstimator создается LAMLStringIndexer с параметрами handleInvalid="keep", defaultValue=self._fillna_val, nanLast=True.

В _transform SparkOrdinalEncoderTransformer выполняется indexed_dataset = indexed_dataset.replace(float('nan'), 0.0, subset=output_columns)

Часть этих параметров в моем понимании пересекаются. Можете, пожалуйста, уточнить логику?

Не получилось создать дискуссию, если лучше вопросы писать в другое место - напишите, куда.

monkey0head commented 2 years ago
monkey0head commented 2 years ago