KhiopsML / khiops

Khiops is an AutoML suite for supervised and unsupervised learning
https://khiops.org
BSD 3-Clause Clear License
37 stars 4 forks source link

Segmentation fault in SNB with multiple cores #103

Closed marcboulle closed 2 months ago

marcboulle commented 1 year ago

Bug detecte initialement lors d'un bench d'un bench sur L-TORNADO: E:\utilisateurs\Marc\BenchLargeDataset\bench_large_dataset.py

Bug observe tres rarement lors du developpement de Khios V11. Bug non qualifie correctement, potentiellement difficile a reproduire.

Update 2023-12-04

Urgence: a traiter sous forme de hot-fix des que la version open source est finalisee

marcboulle commented 3 months ago

Bug reproduit avec la dernière version 10.5.3-b.0 Plante lors de l'analyse de Dionis, 32 coeurs, 4096 Mb RAM (sur L-TORNADO) Ne plante pas avec 16 coeurs.

Ci joint un zip contenant un script python (chemins à adapter) reproduisant le problème, avec log et trace dans le répertoire results.

BugSNBDionis.zip

folmos-at-orange commented 2 months ago

The bug comes from the Parallel framework: When MasterInitialize returns false the boolean bProcessEndedCorrectly in MasterFinalize is set to true.

This happens only in MPI mode, and not in simulated mode.

I made a temporary commit (df6f18dd) in the branch for this issue that makes MasterInitialize that doesn't initialize anything and returns false. This reproduces the bug with any dataset.

I'm transferring this issue to @bruno-at-orange.

marcboulle commented 2 months ago

Autre information, après avoir relancé l'outil cette fois en mode debug. Au bout de 2 à 3 heures, j'ai un assert dans le master: Assert failed in file C:\Applications\boullema\DevGit\khiops\src\Parallel\PLParallelTask\RMParallelResourceManager.cpp line 1671d dPercentage <= 1 and dPercentage >= 0 Peut-être un conséquence indirecte problème?