VLDB '21 | Accelerating Large Scale Real-Time GNN Inference using Channel Pruning

GNN inference分两种:

一种是full inference，就是对所有节点都做一次inference. 很慢，一般是offline，对throughput要求高. 这个例子很多，比如推荐系统，用node embedding做推荐，比如每天根据新的数据算一次node embedding. 这个一般会用GPU.

一种是batch inference，这个一般是online，只有一些target nodes，对latency要求高. 不过这种use case是啥？有这种需求吗？这个GPU/CPU都可. 感觉CPU就行了，毕竟没啥计算量.