Infinite partial_mapreduce_device recursion

JuliaGPU / oneAPI.jl

Julia support for the oneAPI programming toolkit.

Other

179 stars 21 forks source link

Looks like Level Zero's zeKernelSuggestGroupSize doesn't like prime-sized global sizes:

julia> k = @oneapi launch=false identity(nothing)

julia> oneL0.suggest_groupsize(k.fun, 521)
oneAPI.oneL0.ZeDim3(1, 1, 1)

julia> oneL0.suggest_groupsize(k.fun, 7877)
oneAPI.oneL0.ZeDim3(1, 1, 1)

julia> oneL0.suggest_groupsize(k.fun, 7919)
oneAPI.oneL0.ZeDim3(1, 1, 1)

These are really bad launch configurations... Maybe I'm misinterpreting the API?

EDIT: it seems to suggest really bad configurations for non-prime inputs too:

julia> oneL0.suggest_groupsize(k.fun, 8000)
oneAPI.oneL0.ZeDim3(64, 1, 1)

julia> oneL0.suggest_groupsize(k.fun, 512)
oneAPI.oneL0.ZeDim3(512, 1, 1)

JuliaGPU / oneAPI.jl

Infinite partial_mapreduce_device recursion #426