Convolution layer refactoring (memory allocation)

The current convolution layer needs to be cleaned up:

#ifndef CPU_ONLY
#ifdef use_packing_scheme
template <typename Dtype> size_t BaseConvolutionLayer<Dtype>::subtop_mem_size = sizeof(Dtype);
template <typename Dtype> size_t BaseConvolutionLayer<Dtype>::trans_mem_size = sizeof(Dtype);
template <typename Dtype> cl_mem BaseConvolutionLayer<Dtype>::subTopMem = clCreateBuffer(amdDevice.Context, CL_MEM_READ_WRITE, BaseConvolutionLayer<Dtype>::subtop_mem_size, NULL, NULL);
template <typename Dtype> cl_mem BaseConvolutionLayer<Dtype>::transMem = clCreateBuffer(amdDevice.Context, CL_MEM_READ_WRITE, BaseConvolutionLayer<Dtype>::trans_mem_size, NULL, NULL);
#endif

is not conform to Caffe in instantiation and memory allocation, where device memory should be allocated through a SyncedMem object.

amd / OpenCL-caffe

Convolution layer refactoring (memory allocation) #8