zeratax / yacx

Yet Another CudaExecutor - wrapper to easily compile and execute cuda kernels
https://zeratax.github.io/yacx
MIT License
8 stars 4 forks source link

Tensor Cores #116

Closed LukasSiefke closed 4 years ago

LukasSiefke commented 4 years ago

Beispiel mit Nutzung von Tensor Cores.

Folgendes Problem gibt es dabei noch:

Hey ich versuch gerade unseren Tensor Core Kernel mit dem Executor zu verbinden, allerdings bin ich da auf ein Problem gestoßen. Für das Padding der Matrizen und der Umwandlung von Float in Half kopieren wir die Matrizen auf eine besondere Weise vom Host zum Device und wieder zurück, beim Executor macht der das ja aber automatisch und lässt einem an dem Kopierprozess nichts ändern. Habt ihr vielleicht ne Idee, wie wir das machen könnten? Gibt es z.B. ne Möglichkeit vom Executor aus eine Cuda Host Funktion anstatt eines Kernels aufzurufen, sodass diese sich dann selber um das Rüberkopieren kümmert?

zeratax commented 4 years ago

vielleicht einfach direkt in den executor implementieren, aber hochladen, downloaden und ausführen noch in funktionen separieren ist sowieso geplant mit #46 glaube ich