Use custom C++ code with TVM

masahi · April 30, 2021, 8:20pm

See for example how we integrate cublas:

apache/tvm/blob/main/src/runtime/contrib/cublas/cublas.cc#L333


  auto B_data = reinterpret_cast<void*>(static_cast<char*>(B->data) + B->byte_offset);
  auto C_data = reinterpret_cast<void*>(static_cast<char*>(C->data) + C->byte_offset);
  CHECK_CUBLAS_ERROR(cublasGemmStridedBatchedEx(
      hdl, CUBLASBooleanToTranspose(transb), CUBLASBooleanToTranspose(transa),
      ColumnCount3D(B, transb), RowCount3D(A, transa), ColumnCount3D(A, transa), alpha_ptr, B_data,
      cuda_in_type, ColumnStride3D(B), B_size, A_data, cuda_in_type, ColumnStride3D(A), A_size,
      beta_ptr, C_data, cuda_out_type, ColumnStride3D(C), C_size, batch_size, cuda_out_type, algo));
}


// matrix multiplication for row major
TVM_REGISTER_GLOBAL("tvm.contrib.cublas.matmul").set_body([](TVMArgs args, TVMRetValue* ret) {
  DLTensor* A = args[0];
  DLTensor* C = args[2];


  CuBlasThreadEntry* entry_ptr = CuBlasThreadEntry::ThreadLocal();


  CUBLASTryEnableTensorCore(entry_ptr->handle);


  if (TypeEqual(A->dtype, C->dtype)) {
    ICHECK(TypeMatch(A->dtype, kDLFloat, 16) || TypeMatch(A->dtype, kDLFloat, 32) ||
           TypeMatch(A->dtype, kDLFloat, 64));

github.com

apache/tvm/blob/813136401a11a49d6c15e6013c34dd822a5c4ff6/python/tvm/contrib/cublas.py#L44-L52


return te.extern(
    (n, m),
    [lhs, rhs],
    lambda ins, outs: tvm.tir.call_packed(
        "tvm.contrib.cublas.matmul", ins[0], ins[1], outs[0], transa, transb
    ),
    dtype=dtype,
    name="matmul_cublas",
)