namd/doxygen/CudaGlobalMasterServerKernel_8cu_source.html

#include "CudaGlobalMasterServerKernel.h"
#include "CudaUtils.h"

#if (defined(NAMD_CUDA) || defined(NAMD_HIP)) && defined(NODEGROUP_FORCE_REGISTER)

#define ATOM_BLOCKS 128

template <bool copyPositions, bool copyMasses, bool copyCharges,
          bool copyTransforms, bool copyVelocities>
__global__ void copyAtomsToClientsKernel(
    const double *__restrict x, const double *__restrict y,
    const double *__restrict z, const double *__restrict v_x,
    const double *__restrict v_y, const double *__restrict v_z,
    const char3 *__restrict d_transform, const float *__restrict d_mass,
    const float *__restrict d_charge, const Lattice lat,
    const CudaGlobalMasterServer::CopyListTuple *__restrict d_copyList,
    size_t numCopyTuples,
    CudaGlobalMasterServer::ClientBuffer *__restrict d_clientBuffers) {
  const int i = threadIdx.x + blockIdx.x * blockDim.x;
  // double3 pos = {0, 0, 0};
  if (i < numCopyTuples) {
    const int srcIndex = d_copyList[i].m_soa_index;
    const int dstClient = d_copyList[i].m_client_index;
    const int dstIndex = d_copyList[i].m_client_atom_pos;
    const size_t stride = d_clientBuffers[dstClient].sz;
    if (copyPositions) {
      const double3 pos = {x[srcIndex], y[srcIndex], z[srcIndex]};
      const char3 t = d_transform[srcIndex];
      const double3 pos_trans = lat.reverse_transform(pos, t);
      d_clientBuffers[dstClient].d_data[dstIndex] = pos_trans.x;
      d_clientBuffers[dstClient].d_data[dstIndex + stride] = pos_trans.y;
      d_clientBuffers[dstClient].d_data[dstIndex + 2 * stride] = pos_trans.z;
    }
    if (copyMasses) {
      d_clientBuffers[dstClient].d_mass[dstIndex] = d_mass[srcIndex];
    }
    if (copyCharges) {
      d_clientBuffers[dstClient].d_charge[dstIndex] = d_charge[srcIndex];
    }
    if (copyTransforms) {
      d_clientBuffers[dstClient].d_transform[dstIndex] =
          d_transform[srcIndex].x;
      d_clientBuffers[dstClient].d_transform[dstIndex + stride] =
          d_transform[srcIndex].y;
      d_clientBuffers[dstClient].d_transform[dstIndex + 2 * stride] =
          d_transform[srcIndex].z;
    }
    if (copyVelocities) {
      d_clientBuffers[dstClient].d_vel[dstIndex] = v_x[srcIndex];
      d_clientBuffers[dstClient].d_vel[dstIndex + stride] = v_y[srcIndex];
      d_clientBuffers[dstClient].d_vel[dstIndex + 2 * stride] = v_z[srcIndex];
    }
  }
}

void copyAtomsToClientsCUDA(
    bool copyPositions, bool copyMasses, bool copyCharges, bool copyTransforms,
    bool copyVelocities, const double *d_pos_x, const double *d_pos_y,
    const double *d_pos_z, const double *d_vel_x, const double *d_vel_y,
    const double *d_vel_z, const char3 *d_transform, const float *d_mass,
    const float *d_charge, const Lattice lat,
    const CudaGlobalMasterServer::CopyListTuple *d_copyList,
    size_t numCopyTuples, CudaGlobalMasterServer::ClientBuffer *d_clientBuffers,
    size_t numClients, cudaStream_t stream) {
  if (numCopyTuples == 0) return;
  const int grid = (numCopyTuples + ATOM_BLOCKS - 1) / ATOM_BLOCKS;
#define CALL(POSITION, MASS, CHARGE, TRANSFORM, VELOCITY)                      \
  copyAtomsToClientsKernel<bool(POSITION), bool(MASS), bool(CHARGE),           \
                           bool(TRANSFORM), bool(VELOCITY)>                    \
      <<<grid, ATOM_BLOCKS, 0, stream>>>(                                      \
          d_pos_x, d_pos_y, d_pos_z, d_vel_x, d_vel_y, d_vel_z, d_transform,   \
          d_mass, d_charge, lat, d_copyList, numCopyTuples, d_clientBuffers);
  const int options = (int(copyPositions) << 4) + (int(copyMasses) << 3) +
                      (int(copyCharges) << 2) + (int(copyTransforms) << 1) +
                      (int(copyVelocities));
  switch (options) {
  case 0:
    break; // Nothing is copied
  case 1:
    CALL(0, 0, 0, 0, 1);
    break;
  case 2:
    CALL(0, 0, 0, 1, 0);
    break;
  case 3:
    CALL(0, 0, 0, 1, 1);
    break;
  case 4:
    CALL(0, 0, 1, 0, 0);
    break;
  case 5:
    CALL(0, 0, 1, 0, 1);
    break;
  case 6:
    CALL(0, 0, 1, 1, 0);
    break;
  case 7:
    CALL(0, 0, 1, 1, 1);
    break;
  case 8:
    CALL(0, 1, 0, 0, 0);
    break;
  case 9:
    CALL(0, 1, 0, 0, 1);
    break;
  case 10:
    CALL(0, 1, 0, 1, 0);
    break;
  case 11:
    CALL(0, 1, 0, 1, 1);
    break;
  case 12:
    CALL(0, 1, 1, 0, 0);
    break;
  case 13:
    CALL(0, 1, 1, 0, 1);
    break;
  case 14:
    CALL(0, 1, 1, 1, 0);
    break;
  case 15:
    CALL(0, 1, 1, 1, 1);
    break;
  case 16:
    CALL(1, 0, 0, 0, 0);
    break;
  case 17:
    CALL(1, 0, 0, 0, 1);
    break;
  case 18:
    CALL(1, 0, 0, 1, 0);
    break;
  case 19:
    CALL(1, 0, 0, 1, 1);
    break;
  case 20:
    CALL(1, 0, 1, 0, 0);
    break;
  case 21:
    CALL(1, 0, 1, 0, 1);
    break;
  case 22:
    CALL(1, 0, 1, 1, 0);
    break;
  case 23:
    CALL(1, 0, 1, 1, 1);
    break;
  case 24:
    CALL(1, 1, 0, 0, 0);
    break;
  case 25:
    CALL(1, 1, 0, 0, 1);
    break;
  case 26:
    CALL(1, 1, 0, 1, 0);
    break;
  case 27:
    CALL(1, 1, 0, 1, 1);
    break;
  case 28:
    CALL(1, 1, 1, 0, 0);
    break;
  case 29:
    CALL(1, 1, 1, 0, 1);
    break;
  case 30:
    CALL(1, 1, 1, 1, 0);
    break;
  case 31:
    CALL(1, 1, 1, 1, 1);
    break;
  }
#undef CALL
}

template <bool copyPositions, bool copyMasses, bool copyCharges,
          bool copyTransforms, bool copyVelocities>
__global__ void copyAtomsToClientsKernelMGPU(
    const double **__restrict x, const double **__restrict y,
    const double **__restrict z, const double **__restrict v_x,
    const double **__restrict v_y, const double **__restrict v_z,
    const char3 **__restrict d_transform, const float **__restrict d_mass,
    const float **__restrict d_charge, const Lattice lat,
    const CudaGlobalMasterServer::CopyListTuple *__restrict d_copyList,
    size_t numCopyTuples,
    CudaGlobalMasterServer::ClientBuffer *__restrict d_clientBuffers) {
  const int i = threadIdx.x + blockIdx.x * blockDim.x;
  // double3 pos = {0, 0, 0};
  if (i < numCopyTuples) {
    const int srcDevIdx = d_copyList[i].m_src_dev_index;
    const int srcIndex = d_copyList[i].m_soa_index;
    const int dstClient = d_copyList[i].m_client_index;
    const int dstIndex = d_copyList[i].m_client_atom_pos;
    const size_t stride = d_clientBuffers[dstClient].sz;
    if (copyPositions) {
      const double3 pos = {x[srcDevIdx][srcIndex], y[srcDevIdx][srcIndex],
                           z[srcDevIdx][srcIndex]};
      const char3 t = d_transform[srcDevIdx][srcIndex];
      const double3 pos_trans = lat.reverse_transform(pos, t);
      d_clientBuffers[dstClient].d_data[dstIndex] = pos_trans.x;
      d_clientBuffers[dstClient].d_data[dstIndex + stride] = pos_trans.y;
      d_clientBuffers[dstClient].d_data[dstIndex + 2 * stride] = pos_trans.z;
    }
    if (copyMasses) {
      d_clientBuffers[dstClient].d_mass[dstIndex] = d_mass[srcDevIdx][srcIndex];
    }
    if (copyCharges) {
      d_clientBuffers[dstClient].d_charge[dstIndex] =
          d_charge[srcDevIdx][srcIndex];
    }
    if (copyTransforms) {
      d_clientBuffers[dstClient].d_transform[dstIndex] =
          d_transform[srcDevIdx][srcIndex].x;
      d_clientBuffers[dstClient].d_transform[dstIndex + stride] =
          d_transform[srcDevIdx][srcIndex].y;
      d_clientBuffers[dstClient].d_transform[dstIndex + 2 * stride] =
          d_transform[srcDevIdx][srcIndex].z;
    }
    if (copyVelocities) {
      d_clientBuffers[dstClient].d_vel[dstIndex] = v_x[srcDevIdx][srcIndex];
      d_clientBuffers[dstClient].d_vel[dstIndex + stride] =
          v_y[srcDevIdx][srcIndex];
      d_clientBuffers[dstClient].d_vel[dstIndex + 2 * stride] =
          v_z[srcDevIdx][srcIndex];
    }
  }
}

void copyAtomsToClientsCUDAMGPU(
    bool copyPositions, bool copyMasses, bool copyCharges, bool copyTransforms,
    bool copyVelocities, const double **d_peer_pos_x,
    const double **d_peer_pos_y, const double **d_peer_pos_z,
    const double **d_peer_vel_x, const double **d_peer_vel_y,
    const double **d_peer_vel_z, const char3 **d_peer_transform,
    const float **d_peer_mass, const float **d_peer_charge, const Lattice lat,
    const CudaGlobalMasterServer::CopyListTuple *d_copyList,
    size_t numCopyTuples, CudaGlobalMasterServer::ClientBuffer *d_clientBuffers,
    size_t numClients, cudaStream_t stream) {
  if (numCopyTuples == 0) return;
  const int grid = (numCopyTuples + ATOM_BLOCKS - 1) / ATOM_BLOCKS;
#define CALL(POSITION, MASS, CHARGE, TRANSFORM, VELOCITY)                      \
  copyAtomsToClientsKernelMGPU<bool(POSITION), bool(MASS), bool(CHARGE),       \
                               bool(TRANSFORM), bool(VELOCITY)>                \
      <<<grid, ATOM_BLOCKS, 0, stream>>>(                                      \
          d_peer_pos_x, d_peer_pos_y, d_peer_pos_z, d_peer_vel_x,              \
          d_peer_vel_y, d_peer_vel_z, d_peer_transform, d_peer_mass,           \
          d_peer_charge, lat, d_copyList, numCopyTuples, d_clientBuffers);
  const int options = (int(copyPositions) << 4) + (int(copyMasses) << 3) +
                      (int(copyCharges) << 2) + (int(copyTransforms) << 1) +
                      (int(copyVelocities));
  switch (options) {
  case 0:
    break; // Nothing is copied
  case 1:
    CALL(0, 0, 0, 0, 1);
    break;
  case 2:
    CALL(0, 0, 0, 1, 0);
    break;
  case 3:
    CALL(0, 0, 0, 1, 1);
    break;
  case 4:
    CALL(0, 0, 1, 0, 0);
    break;
  case 5:
    CALL(0, 0, 1, 0, 1);
    break;
  case 6:
    CALL(0, 0, 1, 1, 0);
    break;
  case 7:
    CALL(0, 0, 1, 1, 1);
    break;
  case 8:
    CALL(0, 1, 0, 0, 0);
    break;
  case 9:
    CALL(0, 1, 0, 0, 1);
    break;
  case 10:
    CALL(0, 1, 0, 1, 0);
    break;
  case 11:
    CALL(0, 1, 0, 1, 1);
    break;
  case 12:
    CALL(0, 1, 1, 0, 0);
    break;
  case 13:
    CALL(0, 1, 1, 0, 1);
    break;
  case 14:
    CALL(0, 1, 1, 1, 0);
    break;
  case 15:
    CALL(0, 1, 1, 1, 1);
    break;
  case 16:
    CALL(1, 0, 0, 0, 0);
    break;
  case 17:
    CALL(1, 0, 0, 0, 1);
    break;
  case 18:
    CALL(1, 0, 0, 1, 0);
    break;
  case 19:
    CALL(1, 0, 0, 1, 1);
    break;
  case 20:
    CALL(1, 0, 1, 0, 0);
    break;
  case 21:
    CALL(1, 0, 1, 0, 1);
    break;
  case 22:
    CALL(1, 0, 1, 1, 0);
    break;
  case 23:
    CALL(1, 0, 1, 1, 1);
    break;
  case 24:
    CALL(1, 1, 0, 0, 0);
    break;
  case 25:
    CALL(1, 1, 0, 0, 1);
    break;
  case 26:
    CALL(1, 1, 0, 1, 0);
    break;
  case 27:
    CALL(1, 1, 0, 1, 1);
    break;
  case 28:
    CALL(1, 1, 1, 0, 0);
    break;
  case 29:
    CALL(1, 1, 1, 0, 1);
    break;
  case 30:
    CALL(1, 1, 1, 1, 0);
    break;
  case 31:
    CALL(1, 1, 1, 1, 1);
    break;
  }
#undef CALL
}

template <bool FIXEDATOM>
__global__ void copyForcesToClientsKernel(
    const double *__restrict d_f_normal_x,
    const double *__restrict d_f_normal_y,
    const double *__restrict d_f_normal_z, const double *__restrict d_f_nbond_x,
    const double *__restrict d_f_nbond_y, const double *__restrict d_f_nbond_z,
    const double *__restrict d_f_slow_x, const double *__restrict d_f_slow_y,
    const double *__restrict d_f_slow_z, const int *__restrict d_atomFixed,
    const CudaGlobalMasterServer::CopyListTuple *__restrict d_copyList,
    size_t numCopyTuples,
    CudaGlobalMasterServer::ClientBuffer *__restrict d_clientBuffers) {
  const int i = threadIdx.x + blockIdx.x * blockDim.x;
  if (i < numCopyTuples) {
    const int srcIndex = d_copyList[i].m_soa_index;
    const int dstClient = d_copyList[i].m_client_index;
    const int dstIndex = d_copyList[i].m_client_atom_pos;
    const size_t stride = d_clientBuffers[dstClient].sz;
    double fx, fy, fz;
    if (FIXEDATOM) {
      if (d_atomFixed[srcIndex]) {
        fx = fy = fz = 0.0;
      } else {
        fx = d_f_normal_x[srcIndex] + d_f_nbond_x[srcIndex] +
             d_f_slow_x[srcIndex];
        fy = d_f_normal_y[srcIndex] + d_f_nbond_y[srcIndex] +
             d_f_slow_y[srcIndex];
        fz = d_f_normal_z[srcIndex] + d_f_nbond_z[srcIndex] +
             d_f_slow_z[srcIndex];
      }
    } else {
      fx =
          d_f_normal_x[srcIndex] + d_f_nbond_x[srcIndex] + d_f_slow_x[srcIndex];
      fy =
          d_f_normal_y[srcIndex] + d_f_nbond_y[srcIndex] + d_f_slow_y[srcIndex];
      fz =
          d_f_normal_z[srcIndex] + d_f_nbond_z[srcIndex] + d_f_slow_z[srcIndex];
    }
    d_clientBuffers[dstClient].d_data[dstIndex] = fx;
    d_clientBuffers[dstClient].d_data[dstIndex + stride] = fy;
    d_clientBuffers[dstClient].d_data[dstIndex + 2 * stride] = fz;
  }
}

void copyTotalForcesToClientsCUDA(
    bool fixedOn, const double *d_f_normal_x, const double *d_f_normal_y,
    const double *d_f_normal_z, const double *d_f_nbond_x,
    const double *d_f_nbond_y, const double *d_f_nbond_z,
    const double *d_f_slow_x, const double *d_f_slow_y,
    const double *d_f_slow_z, const int *d_atomFixed,
    const CudaGlobalMasterServer::CopyListTuple *d_copyList,
    size_t numCopyTuples, CudaGlobalMasterServer::ClientBuffer *d_clientBuffers,
    size_t numClients, cudaStream_t stream) {
  if (numCopyTuples == 0) return;
  const int grid = (numCopyTuples + ATOM_BLOCKS - 1) / ATOM_BLOCKS;
  if (fixedOn) {
    copyForcesToClientsKernel<true><<<grid, ATOM_BLOCKS, 0, stream>>>(
        d_f_normal_x, d_f_normal_y, d_f_normal_z, d_f_nbond_x, d_f_nbond_y,
        d_f_nbond_z, d_f_slow_x, d_f_slow_y, d_f_slow_z, d_atomFixed,
        d_copyList, numCopyTuples, d_clientBuffers);
  } else {
    copyForcesToClientsKernel<false><<<grid, ATOM_BLOCKS, 0, stream>>>(
        d_f_normal_x, d_f_normal_y, d_f_normal_z, d_f_nbond_x, d_f_nbond_y,
        d_f_nbond_z, d_f_slow_x, d_f_slow_y, d_f_slow_z, d_atomFixed,
        d_copyList, numCopyTuples, d_clientBuffers);
  }
}

template <bool FIXEDATOM>
__global__ void copyForcesToClientsKernelMGPU(
    const double **__restrict d_f_normal_x,
    const double **__restrict d_f_normal_y,
    const double **__restrict d_f_normal_z,
    const double **__restrict d_f_nbond_x,
    const double **__restrict d_f_nbond_y,
    const double **__restrict d_f_nbond_z, const double **__restrict d_f_slow_x,
    const double **__restrict d_f_slow_y, const double **__restrict d_f_slow_z,
    const int **__restrict d_atomFixed,
    const CudaGlobalMasterServer::CopyListTuple *__restrict d_copyList,
    size_t numCopyTuples,
    CudaGlobalMasterServer::ClientBuffer *__restrict d_clientBuffers) {
  const int i = threadIdx.x + blockIdx.x * blockDim.x;
  if (i < numCopyTuples) {
    const int srcDevIdx = d_copyList[i].m_src_dev_index;
    const int srcIndex = d_copyList[i].m_soa_index;
    const int dstClient = d_copyList[i].m_client_index;
    const int dstIndex = d_copyList[i].m_client_atom_pos;
    const size_t stride = d_clientBuffers[dstClient].sz;
    double fx, fy, fz;
    if (FIXEDATOM) {
      if (d_atomFixed[srcDevIdx][srcIndex]) {
        fx = fy = fz = 0.0;
      } else {
        fx = d_f_normal_x[srcDevIdx][srcIndex] +
             d_f_nbond_x[srcDevIdx][srcIndex] + d_f_slow_x[srcDevIdx][srcIndex];
        fy = d_f_normal_y[srcDevIdx][srcIndex] +
             d_f_nbond_y[srcDevIdx][srcIndex] + d_f_slow_y[srcDevIdx][srcIndex];
        fz = d_f_normal_z[srcDevIdx][srcIndex] +
             d_f_nbond_z[srcDevIdx][srcIndex] + d_f_slow_z[srcDevIdx][srcIndex];
      }
    } else {
      fx = d_f_normal_x[srcDevIdx][srcIndex] +
           d_f_nbond_x[srcDevIdx][srcIndex] + d_f_slow_x[srcDevIdx][srcIndex];
      fy = d_f_normal_y[srcDevIdx][srcIndex] +
           d_f_nbond_y[srcDevIdx][srcIndex] + d_f_slow_y[srcDevIdx][srcIndex];
      fz = d_f_normal_z[srcDevIdx][srcIndex] +
           d_f_nbond_z[srcDevIdx][srcIndex] + d_f_slow_z[srcDevIdx][srcIndex];
    }
    d_clientBuffers[dstClient].d_data[dstIndex] = fx;
    d_clientBuffers[dstClient].d_data[dstIndex + stride] = fy;
    d_clientBuffers[dstClient].d_data[dstIndex + 2 * stride] = fz;
  }
}

void copyTotalForcesToClientsCUDAMGPU(
    bool fixedOn, const double **d_peer_f_normal_x,
    const double **d_peer_f_normal_y, const double **d_peer_f_normal_z,
    const double **d_peer_f_nbond_x, const double **d_peer_f_nbond_y,
    const double **d_peer_f_nbond_z, const double **d_peer_f_slow_x,
    const double **d_peer_f_slow_y, const double **d_peer_f_slow_z,
    const int **d_peer_atomFixed,
    const CudaGlobalMasterServer::CopyListTuple *d_copyList,
    size_t numCopyTuples, CudaGlobalMasterServer::ClientBuffer *d_clientBuffers,
    size_t numClients, cudaStream_t stream) {
  if (numCopyTuples == 0) return;
  const int grid = (numCopyTuples + ATOM_BLOCKS - 1) / ATOM_BLOCKS;
  if (fixedOn) {
    copyForcesToClientsKernelMGPU<true><<<grid, ATOM_BLOCKS, 0, stream>>>(
        d_peer_f_normal_x, d_peer_f_normal_y, d_peer_f_normal_z,
        d_peer_f_nbond_x, d_peer_f_nbond_y, d_peer_f_nbond_z, d_peer_f_slow_x,
        d_peer_f_slow_y, d_peer_f_slow_z, d_peer_atomFixed, d_copyList,
        numCopyTuples, d_clientBuffers);
  } else {
    copyForcesToClientsKernelMGPU<false><<<grid, ATOM_BLOCKS, 0, stream>>>(
        d_peer_f_normal_x, d_peer_f_normal_y, d_peer_f_normal_z,
        d_peer_f_nbond_x, d_peer_f_nbond_y, d_peer_f_nbond_z, d_peer_f_slow_x,
        d_peer_f_slow_y, d_peer_f_slow_z, d_peer_atomFixed, d_copyList,
        numCopyTuples, d_clientBuffers);
  }
}

template <bool FIXEDATOM, bool UNIQUE_ATOMS>
__global__ void addGlobalForcesFromClientsKernel(
    double *__restrict d_f_global_x, double *__restrict d_f_global_y,
    double *__restrict d_f_global_z, const int *__restrict d_atomFixed,
    const CudaGlobalMasterServer::CopyListTuple *__restrict d_copyList,
    size_t numCopyTuples,
    CudaGlobalMasterServer::ClientBuffer *__restrict d_clientBuffers) {
  const int i = threadIdx.x + blockIdx.x * blockDim.x;
  if (i < numCopyTuples) {
    const int dstIndex = d_copyList[i].m_soa_index;
    const int srcClient = d_copyList[i].m_client_index;
    const int srcIndex = d_copyList[i].m_client_atom_pos;
    const size_t stride = d_clientBuffers[srcClient].sz;
    double fx, fy, fz;
    if (FIXEDATOM) {
      if (d_atomFixed[dstIndex]) {
        fx = fy = fz = 0.0;
      } else {
        fx = d_clientBuffers[srcClient].d_data[srcIndex];
        fy = d_clientBuffers[srcClient].d_data[srcIndex + stride];
        fz = d_clientBuffers[srcClient].d_data[srcIndex + 2 * stride];
      }
    } else {
      fx = d_clientBuffers[srcClient].d_data[srcIndex];
      fy = d_clientBuffers[srcClient].d_data[srcIndex + stride];
      fz = d_clientBuffers[srcClient].d_data[srcIndex + 2 * stride];
    }
    if (UNIQUE_ATOMS) {
      d_f_global_x[dstIndex] += fx;
      d_f_global_y[dstIndex] += fy;
      d_f_global_z[dstIndex] += fz;
    } else {
      atomicAdd(&(d_f_global_x[dstIndex]), fx);
      atomicAdd(&(d_f_global_y[dstIndex]), fy);
      atomicAdd(&(d_f_global_z[dstIndex]), fz);
    }
  }
}

void addGlobalForcesFromClients(
    const int fixedOn, const int uniqueAtoms,
    double *d_f_global_x, double *d_f_global_y,
    double *d_f_global_z, const int *__restrict d_atomFixed,
    const CudaGlobalMasterServer::CopyListTuple *d_copyList,
    size_t numCopyTuples, CudaGlobalMasterServer::ClientBuffer *d_clientBuffers,
    size_t numClients, cudaStream_t stream) {
  if (numCopyTuples == 0) return;
  const int grid = (numCopyTuples + ATOM_BLOCKS - 1) / ATOM_BLOCKS;
  const int options = (fixedOn << 1) + uniqueAtoms;
#define CALL(FIXEDATOM, UNIQUE_ATOMS) \
  addGlobalForcesFromClientsKernel<FIXEDATOM, UNIQUE_ATOMS> \
    <<<grid, ATOM_BLOCKS, 0, stream>>>( \
    d_f_global_x, d_f_global_y, d_f_global_z, d_atomFixed, d_copyList, \
    numCopyTuples, d_clientBuffers)
  switch (options) {
    case ((0<<1) + 0): CALL(0, 0); break;
    case ((0<<1) + 1): CALL(0, 1); break;
    case ((1<<1) + 0): CALL(1, 0); break;
    case ((1<<1) + 1): CALL(1, 1); break;
    default: {
      const std::string error = "Error in addGlobalForcesFromClients. No kernel is called.\n";
      NAMD_bug(error.c_str());
    }
  }
#undef CALL
}

template <bool FIXEDATOM, bool UNIQUE_ATOMS>
__global__ void addGlobalForcesFromClientsKernelMGPU(
    double **__restrict d_f_global_x, double **__restrict d_f_global_y,
    double **__restrict d_f_global_z, const int **__restrict d_atomFixed,
    const CudaGlobalMasterServer::CopyListTuple *__restrict d_copyList,
    size_t numCopyTuples,
    CudaGlobalMasterServer::ClientBuffer *__restrict d_clientBuffers) {
  const int i = threadIdx.x + blockIdx.x * blockDim.x;
  if (i < numCopyTuples) {
    const int dstDev = d_copyList[i].m_src_dev_index;
    const int dstIndex = d_copyList[i].m_soa_index;
    const int srcClient = d_copyList[i].m_client_index;
    const int srcIndex = d_copyList[i].m_client_atom_pos;
    const size_t stride = d_clientBuffers[srcClient].sz;
    double fx, fy, fz;
    if (FIXEDATOM) {
      if (d_atomFixed[dstIndex]) {
        fx = fy = fz = 0.0;
      } else {
        fx = d_clientBuffers[srcClient].d_data[srcIndex];
        fy = d_clientBuffers[srcClient].d_data[srcIndex + stride];
        fz = d_clientBuffers[srcClient].d_data[srcIndex + 2 * stride];
      }
    } else {
      fx = d_clientBuffers[srcClient].d_data[srcIndex];
      fy = d_clientBuffers[srcClient].d_data[srcIndex + stride];
      fz = d_clientBuffers[srcClient].d_data[srcIndex + 2 * stride];
    }
    if (UNIQUE_ATOMS) {
      d_f_global_x[dstDev][dstIndex] += fx;
      d_f_global_y[dstDev][dstIndex] += fy;
      d_f_global_z[dstDev][dstIndex] += fz;
    } else {
      atomicAdd(&(d_f_global_x[dstDev][dstIndex]), fx);
      atomicAdd(&(d_f_global_y[dstDev][dstIndex]), fy);
      atomicAdd(&(d_f_global_z[dstDev][dstIndex]), fz);
    }
  }
}

void addGlobalForcesFromClientsMGPU(
    const int fixedOn, const int uniqueAtoms,
    double **d_peer_f_global_x, double **d_peer_f_global_y,
    double **d_peer_f_global_z, const int **d_peer_atomFixed,
    const CudaGlobalMasterServer::CopyListTuple *d_copyList,
    size_t numCopyTuples, CudaGlobalMasterServer::ClientBuffer *d_clientBuffers,
    size_t numClients, cudaStream_t stream) {
  if (numCopyTuples == 0) return;
  const int grid = (numCopyTuples + ATOM_BLOCKS - 1) / ATOM_BLOCKS;
  const int options = (fixedOn << 1) + uniqueAtoms;
#define CALL(FIXEDATOM, UNIQUE_ATOMS) \
  addGlobalForcesFromClientsKernelMGPU<FIXEDATOM, UNIQUE_ATOMS>\
    <<<grid, ATOM_BLOCKS, 0, stream>>>( \
    d_peer_f_global_x, d_peer_f_global_y, d_peer_f_global_z, \
    d_peer_atomFixed, d_copyList, numCopyTuples, d_clientBuffers);
  switch (options) {
    case ((0<<1) + 0): CALL(0, 0); break;
    case ((0<<1) + 1): CALL(0, 1); break;
    case ((1<<1) + 0): CALL(1, 0); break;
    case ((1<<1) + 1): CALL(1, 1); break;
    default: {
      const std::string error = "Error in addGlobalForcesFromClientsMGPU. No kernel is called.\n";
      NAMD_bug(error.c_str());
    }
  }
#undef CALL
}

#endif // (defined(NAMD_CUDA) || defined(NAMD_HIP)) && defined(NODEGROUP_FORCE_REGISTER)