почему тут error? я понимаю, что сначала идет label encoder, но он может создавать доп колонку для новых labels в случае применения transform к другому датасету
может быть, стоит добавить тесты transfomer-ов с fit на отдельном куске датасета и transform на другой, чтобы убедиться, что кейсы появления новых значений кат.фичей обрабатываются корректно?
Коллеги, можете, пожалуйста, уточнить, что происходит в SparkOrdinalEncoderEstimator и SparkOrdinalEncoderTransformer с nan-ами и новыми label-ами?
В SparkOrdinalEncoderEstimator создается LAMLStringIndexer с параметрами handleInvalid="keep", defaultValue=self._fillna_val, nanLast=True.
В _transform SparkOrdinalEncoderTransformer выполняется
indexed_dataset = indexed_dataset.replace(float('nan'), 0.0, subset=output_columns)
Часть этих параметров в моем понимании пересекаются. Можете, пожалуйста, уточнить логику?
Не получилось создать дискуссию, если лучше вопросы писать в другое место - напишите, куда.