namd/doxygen/CudaComputeNonbonded_8h_source.html

 #ifndef CUDACOMPUTENONBONDED_H
 #define CUDACOMPUTENONBONDED_H

 #ifdef NAMD_CUDA
 #include <cuda.h>
 #endif
 #ifdef NAMD_HIP
 #include <hip/hip_runtime.h>
 #endif

 #include <vector>
 #include "Compute.h"
 #include "Box.h"
 #include "PatchTypes.h"
 #include "CudaUtils.h"
 #include "ComputeNonbondedUtil.h"
 #include "CudaNonbondedTables.h"
 #include "CudaTileListKernel.h"
 #include "CudaTileListKernel.hip.h"
 #include "CudaComputeNonbondedKernel.h"
 #include "CudaComputeNonbondedKernel.hip.h"
 #include "CudaComputeGBISKernel.h"
 #include "ComputeMgr.h"
 #include "HipDefines.h"

 #if defined(NAMD_CUDA) || defined(NAMD_HIP)
 // 2^11 ints * 2^5 bits = 2^16 bits = range of unsigned short excl_index
 // 2^27 ints * 2^5 bits = 2^32 bits = range of unsigned int excl_index
 #define MAX_EXCLUSIONS (1<<27)

 class CudaComputeNonbonded : public Compute, public ComputeNonbondedUtil {
 public:
   struct ComputeRecord {
     ComputeID cid;
     PatchID pid[2];
     // Index to patches[] -array
     int patchInd[2];
     Vector offset;
   };

   struct PatchRecord {
     PatchRecord(PatchID patchID) : patchID(patchID) {
       patch = NULL;
       compAtom = NULL;
       results = NULL;
       positionBox = NULL;
       forceBox = NULL;
       intRadBox = NULL;
       psiSumBox = NULL;
       bornRadBox = NULL;
       dEdaSumBox = NULL;
       dHdrPrefixBox = NULL;
     }
     PatchID patchID;
     Patch *patch;
     int numAtoms;
     int numFreeAtoms;
     int atomStart;
     // Pe where the patch was registered
     int pe;
     // For priority sorting
     int reversePriorityRankInPe;
     bool isSamePhysicalNode;
     bool isSameNode;
     // Storage for open positionBox
     CompAtom *compAtom;
     // Storage for open forceBox
     Results *results;
     // Boxes
     Box<Patch,CompAtom> *positionBox;
     Box<Patch,Results> *forceBox;
     Box<Patch,Real>   *intRadBox; //5 GBIS Boxes
     Box<Patch,GBReal> *psiSumBox;
     Box<Patch,Real>   *bornRadBox;
     Box<Patch,GBReal> *dEdaSumBox;
     Box<Patch,Real>   *dHdrPrefixBox;
     Real   *intRad; //5 GBIS arrays
     GBReal *psiSum;
     Real   *bornRad;
     GBReal *dEdaSum;
     Real   *dHdrPrefix;
     bool operator < (const PatchRecord& pr) const {
       return (patchID < pr.patchID);
     }
     bool operator == (const PatchRecord& pr) const {
       return (patchID == pr.patchID);
     }
   };

 private:
   SimParameters *params; // convenience
   // This variable is set in atomUpdate() by any Pe
   bool atomsChangedIn;
   // This variable is set in doWork() by masterPe
   bool atomsChanged;
   int npairlists;

   bool computesChanged;

   const int deviceID;
   size_t maxShmemPerBlock;
   cudaStream_t stream;

   // PME and VdW CUDA kernels
   CudaComputeNonbondedKernel nonbondedKernel;

   // GBIS kernel
   CudaComputeGBISKernel GBISKernel;

   // Tile list CUDA kernels
   CudaTileListKernel tileListKernel;

   // Exclusions
   int2 *exclusionsByAtom;

   // VdW-types
   // Pinned host memory
   int* vdwTypes;
   size_t vdwTypesSize;

   // Maximum number of tiles per tile list
   int maxTileListLen;

   // Pinned host memory
   int2* exclIndexMaxDiff;
   size_t exclIndexMaxDiffSize;

   // Pinned host memory
   int* atomIndex;
   size_t atomIndexSize;

   // Required (xyzq, vdwTypes) storage
   int atomStorageSize;

   // Atom and charge storage
   // Pinned host memory
   CudaAtom* atoms;
   size_t atomsSize;

   char *part;
   size_t partSize;

   // Drude/NbThole
   int *isDrude;
   size_t isDrudeSize;

   std::vector<int> atomIndexToNBindex;
   float* drudeAtomAlpha;
   size_t drudeAtomAlphaSize;

   // Force storage
   float4* h_forces;
   size_t h_forcesSize;
   float4* h_forcesSlow;
   size_t h_forcesSlowSize;

   float4* d_forces;
   size_t d_forcesSize;
   float4* d_forcesSlow;
   size_t d_forcesSlowSize;

   // Virial and energy storage
   VirialEnergy* h_virialEnergy;
   VirialEnergy* d_virialEnergy;

   // GBIS storage
   //--------------
   // Pinned host memory
   float* intRad0H;
   size_t intRad0HSize;
   // Pinned host memory
   float* intRadSH;
   size_t intRadSHSize;
   // Mapped host memory
   GBReal* psiSumH;
   size_t psiSumHSize;
   // Pinned host memory
   float* bornRadH;
   size_t bornRadHSize;
   // Mapped host memory
   GBReal* dEdaSumH;
   size_t dEdaSumHSize;
   // Pinned host memory
   float* dHdrPrefixH;
   size_t dHdrPrefixHSize;

   // Event and sanity check flag for making sure event was actually recorded
   cudaEvent_t forceDoneEvent;
   bool forceDoneEventRecord;
   // Check counter for event polling
   int checkCount;

   // Node lock
   CmiNodeLock lock;
   // List of local PEs that have patches
   std::vector<int> pes;
   // List of patch indices on each rank
   std::vector< std::vector<int> > rankPatches;
   // Master Pe = Pe where this Compute and reduction lives
   int masterPe;

   // Are we in skip?
   bool doSkip;

   // Device-wide patch and compute records, and the list of patches
   std::vector<ComputeRecord> computes;
   std::vector<PatchRecord> patches;

   // CUDA versions of patches
   // Pinned host memory
   CudaPatchRecord* cudaPatches;

   // Maintain two reduction objects for different simulation modes
   SubmitReduction *reductionGpuOffload = nullptr;
   SubmitReduction *reductionGpuResident = nullptr;

   // Pair lists
   int pairlistsValid;
   float pairlistTolerance;
   int usePairlists;
   int savePairlists;
   float plcutoff2;

   bool reSortDone;

   // Flags
   bool doSlow;
   bool doEnergy;
   bool doVirial;
   bool doAlch;
   bool doNbThole;
   bool doMinimize;

   AlchData alchFlags;
   bool lambdaWindowUpdated;
   // Walltime for force compute start
   double beforeForceCompute;

   static inline void updateVdwTypesExclLoop(int first, int last, void *result, int paraNum, void *param);
   void updateVdwTypesExclSubset(int first, int last);

   static inline void copyAtomsLoop(int first, int last, void *result, int paraNum, void *param);
   void copyAtomsSubset(int first, int last);

   void addPatch(PatchID pid);
   void addCompute(ComputeID cid, PatchID pid1, PatchID pid2, Vector offset);
   void updatePatches();
   int calcNumTileLists();
   void getMaxMovementTolerance(float& maxAtomMovement, float& maxPatchTolerance);
   void updateVdwTypesExcl();
   void buildNeighborlist();
   void skip();
   void doGBISphase1();
   void doGBISphase2();
   void doGBISphase3();
   void doForce();
   void finishSetOfPatchesOnPe(std::vector<int>& patchSet);
   void finishGBISPhase(int i);
   void finishTimers();
   void forceDone();
   static void forceDoneCheck(void *arg, double walltime);
   void forceDoneSetCallback();
   void updateComputes();
   void buildExclusions();
   void skipPatch(int i);
   void openBox(int i);
   void reallocateArrays();
 #ifdef NODEGROUP_FORCE_REGISTER
   void updatePatchRecord();
 #endif
   void copyGBISphase(int i);
   void updatePatch(int i);
   int findPid(PatchID pid);
   void assignPatch(int i);
   ComputeMgr* computeMgr;
   int patchesCounter;

   const bool doStreaming;
   int* patchReadyQueue;
   int patchReadyQueueNext, patchReadyQueueLen;

   void finishPatch(int i);
   void unregisterBox(int i);

   // void writeId(const char* filename);
   // void writeXYZ(const char* filename);

 public:
   CudaComputeNonbonded(ComputeID c, int deviceID, CudaNonbondedTables& cudaNonbondedTables, bool doStreaming);
   ~CudaComputeNonbonded();
   void registerComputeSelf(ComputeID cid, PatchID pid);
   void registerComputePair(ComputeID cid, PatchID* pid, int* trans);
   void assignPatches(ComputeMgr* computeMgrIn);
   virtual void initialize();
   virtual void atomUpdate();
   virtual int noWork();
   virtual void doWork();
   void launchWork();
   void finishReductions();
   void unregisterBoxesOnPe();
   void assignPatchesOnPe();
   void openBoxesOnPe();
   void skipPatchesOnPe();
   void finishPatchesOnPe();
   void finishPatchOnPe(int i);
   void finishPatches();
   void messageEnqueueWork();
   virtual void patchReady(PatchID, int doneMigration, int seq);
   virtual void gbisP2PatchReady(PatchID, int seq);
   virtual void gbisP3PatchReady(PatchID, int seq);
   void reSortTileLists();

   void updatePatchOrder(const std::vector<CudaLocalRecord>& data);
   std::vector<PatchRecord>& getPatches() { return patches; }

   // Utility function to compute nonbonded parameters, used by ComputeBondedCUDAKernel as well
   static CudaNBConstants getNonbondedCoef(SimParameters* params);
   // Utility function to determine if force table will be used, used by ComputeBondedCUDAKernel as well
   static bool getDoTable(SimParameters* params, const bool doSlow, const bool doVirial);

   // Returns current reduction object based on if simulation is in GPU resident or GPU offload mode
   SubmitReduction* getCurrentReduction();
 };

 #endif // NAMD_CUDA
 #endif // CUDACOMPUTENONBONDED_H
CudaComputeNonbonded::finishReductions
void finishReductions()
Definition: CudaComputeNonbonded.C:1704

CudaUtils.h

CudaComputeNonbonded::PatchRecord::operator==
bool operator==(const PatchRecord &pr) const
Definition: CudaComputeNonbonded.h:85

CudaComputeNonbonded::finishPatchOnPe
void finishPatchOnPe(int i)
Definition: CudaComputeNonbonded.C:1958

CudaComputeNonbonded::getCurrentReduction
SubmitReduction * getCurrentReduction()
Definition: CudaComputeNonbonded.C:2425

Results
Definition: PatchTypes.h:141

AlchData
Alchemical datastructure that holds the lambda-relevant paramenters for FEP/TI.
Definition: CudaComputeNonbondedKernel.h:24

CudaComputeNonbonded::finishPatchesOnPe
void finishPatchesOnPe()
Definition: CudaComputeNonbonded.C:1951

CudaComputeNonbondedKernel
Definition: CudaComputeNonbondedKernel.h:52

CudaComputeNonbonded::PatchRecord::pe
int pe
Definition: CudaComputeNonbonded.h:60

CudaComputeNonbonded::initialize
virtual void initialize()
Definition: CudaComputeNonbonded.C:642

CudaComputeNonbonded::PatchRecord::dHdrPrefixBox
Box< Patch, Real > * dHdrPrefixBox
Definition: CudaComputeNonbonded.h:76

CudaComputeNonbonded::PatchRecord::intRadBox
Box< Patch, Real > * intRadBox
Definition: CudaComputeNonbonded.h:72

CudaComputeNonbonded::PatchRecord::isSamePhysicalNode
bool isSamePhysicalNode
Definition: CudaComputeNonbonded.h:63

Compute
Definition: Compute.h:28

CudaComputeNonbonded::PatchRecord::patch
Patch * patch
Definition: CudaComputeNonbonded.h:55

CudaComputeNonbonded::PatchRecord::operator<
bool operator<(const PatchRecord &pr) const
Definition: CudaComputeNonbonded.h:82

ComputeID
int32 ComputeID
Definition: NamdTypes.h:288

SimParameters
Definition: SimParameters.h:139

CudaComputeNonbonded::PatchRecord::dEdaSum
GBReal * dEdaSum
Definition: CudaComputeNonbonded.h:80

Vector
Definition: Vector.h:72

HipDefines.h

CudaComputeNonbonded::gbisP2PatchReady
virtual void gbisP2PatchReady(PatchID, int seq)
Definition: CudaComputeNonbonded.C:277

Real
float Real
Definition: common.h:118

CudaTileListKernel
Definition: CudaTileListKernel.h:121

ComputeMgr.h

CudaPatchRecord
Definition: CudaTileListKernel.h:51

CudaComputeNonbonded::reSortTileLists
void reSortTileLists()
Definition: CudaComputeNonbonded.C:2018

CudaComputeNonbonded::PatchRecord
Definition: CudaComputeNonbonded.h:41

CudaComputeNonbonded::getPatches
std::vector< PatchRecord > & getPatches()
Definition: CudaComputeNonbonded.h:329

CudaComputeNonbonded::messageEnqueueWork
void messageEnqueueWork()
Definition: CudaComputeNonbonded.C:1097

CudaComputeNonbonded::PatchRecord::psiSum
GBReal * psiSum
Definition: CudaComputeNonbonded.h:78

CudaComputeNonbonded::PatchRecord::dEdaSumBox
Box< Patch, GBReal > * dEdaSumBox
Definition: CudaComputeNonbonded.h:75

Patch
Definition: Patch.h:35

CudaComputeNonbonded::PatchRecord::patchID
PatchID patchID
Definition: CudaComputeNonbonded.h:54

CudaNBConstants
Definition: CudaUtils.h:602

CudaComputeNonbonded::getNonbondedCoef
static CudaNBConstants getNonbondedCoef(SimParameters *params)
Definition: CudaComputeNonbonded.C:2377

CudaComputeNonbonded::PatchRecord::bornRadBox
Box< Patch, Real > * bornRadBox
Definition: CudaComputeNonbonded.h:74

VirialEnergy
Definition: CudaTileListKernel.h:98

CudaComputeNonbonded::PatchRecord::intRad
Real * intRad
Definition: CudaComputeNonbonded.h:77

CudaComputeNonbonded::assignPatchesOnPe
void assignPatchesOnPe()
Definition: CudaComputeNonbonded.C:335

CudaComputeNonbonded::gbisP3PatchReady
virtual void gbisP3PatchReady(PatchID, int seq)
Definition: CudaComputeNonbonded.C:283

CudaComputeNonbonded::finishPatches
void finishPatches()
Definition: CudaComputeNonbonded.C:1963

SubmitReduction
Definition: ReductionMgr.h:326

CudaComputeNonbonded::PatchRecord::isSameNode
bool isSameNode
Definition: CudaComputeNonbonded.h:64

ComputeNonbondedUtil.h

ComputeNonbondedUtil
Definition: ComputeNonbondedUtil.h:240

CudaComputeNonbonded::CudaComputeNonbonded
CudaComputeNonbonded(ComputeID c, int deviceID, CudaNonbondedTables &cudaNonbondedTables, bool doStreaming)
Definition: CudaComputeNonbonded.C:39

CudaComputeNonbonded
Definition: CudaComputeNonbonded.h:31

CudaComputeNonbonded::skipPatchesOnPe
void skipPatchesOnPe()
Definition: CudaComputeNonbonded.C:814

CudaComputeGBISKernel.h

CudaNonbondedTables
Definition: CudaNonbondedTables.h:16

CudaComputeNonbonded::ComputeRecord::patchInd
int patchInd[2]
Definition: CudaComputeNonbonded.h:37

CudaComputeNonbonded::~CudaComputeNonbonded
~CudaComputeNonbonded()
Definition: CudaComputeNonbonded.C:119

ComputeMgr
Definition: ComputeMgr.h:66

CudaComputeNonbonded::doWork
virtual void doWork()
Definition: CudaComputeNonbonded.C:1184

CudaComputeNonbonded::PatchRecord::atomStart
int atomStart
Definition: CudaComputeNonbonded.h:58

CudaComputeNonbonded::PatchRecord::numAtoms
int numAtoms
Definition: CudaComputeNonbonded.h:56

CudaComputeNonbonded::unregisterBoxesOnPe
void unregisterBoxesOnPe()
Definition: CudaComputeNonbonded.C:176

CudaComputeNonbonded::PatchRecord::dHdrPrefix
Real * dHdrPrefix
Definition: CudaComputeNonbonded.h:81

CudaComputeNonbonded::openBoxesOnPe
void openBoxesOnPe()
Definition: CudaComputeNonbonded.C:1103

CudaAtom
Definition: CudaRecord.h:58

CudaTileListKernel.h

CudaComputeNonbondedKernel.h

CudaComputeNonbonded::PatchRecord::PatchRecord
PatchRecord(PatchID patchID)
Definition: CudaComputeNonbonded.h:42

CudaComputeGBISKernel
Definition: CudaComputeGBISKernel.h:9

CudaComputeNonbonded::PatchRecord::results
Results * results
Definition: CudaComputeNonbonded.h:68

CudaComputeNonbonded::registerComputeSelf
void registerComputeSelf(ComputeID cid, PatchID pid)
Definition: CudaComputeNonbonded.C:188

CudaComputeNonbonded::PatchRecord::compAtom
CompAtom * compAtom
Definition: CudaComputeNonbonded.h:66

CudaComputeNonbonded::noWork
virtual int noWork()
Definition: CudaComputeNonbonded.C:1149

CudaComputeNonbonded::PatchRecord::forceBox
Box< Patch, Results > * forceBox
Definition: CudaComputeNonbonded.h:71

CudaComputeNonbonded::ComputeRecord::cid
ComputeID cid
Definition: CudaComputeNonbonded.h:34

CudaComputeNonbonded::ComputeRecord::pid
PatchID pid[2]
Definition: CudaComputeNonbonded.h:35

CudaComputeNonbonded::patchReady
virtual void patchReady(PatchID, int doneMigration, int seq)
Definition: CudaComputeNonbonded.C:260

CudaComputeNonbonded::PatchRecord::positionBox
Box< Patch, CompAtom > * positionBox
Definition: CudaComputeNonbonded.h:70

CudaTileListKernel.hip.h

Box< Patch, CompAtom >

CudaComputeNonbonded::launchWork
void launchWork()
Definition: CudaComputeNonbonded.C:1248

CompAtom
Definition: NamdTypes.h:77

CudaComputeNonbonded::PatchRecord::numFreeAtoms
int numFreeAtoms
Definition: CudaComputeNonbonded.h:57

CudaComputeNonbondedKernel.hip.h

CudaComputeNonbonded::PatchRecord::psiSumBox
Box< Patch, GBReal > * psiSumBox
Definition: CudaComputeNonbonded.h:73

CudaComputeNonbonded::PatchRecord::bornRad
Real * bornRad
Definition: CudaComputeNonbonded.h:79

CudaComputeNonbonded::PatchRecord::reversePriorityRankInPe
int reversePriorityRankInPe
Definition: CudaComputeNonbonded.h:62

CudaComputeNonbonded::registerComputePair
void registerComputePair(ComputeID cid, PatchID *pid, int *trans)
Definition: CudaComputeNonbonded.C:198

Compute.h

CudaComputeNonbonded::assignPatches
void assignPatches(ComputeMgr *computeMgrIn)
Definition: CudaComputeNonbonded.C:397

CudaNonbondedTables.h

CudaComputeNonbonded::ComputeRecord
Definition: CudaComputeNonbonded.h:33

CudaComputeNonbonded::ComputeRecord::offset
Vector offset
Definition: CudaComputeNonbonded.h:38

Box.h

PatchID
int32 PatchID
Definition: NamdTypes.h:287

PatchTypes.h

Compute::cid
const ComputeID cid
Definition: Compute.h:43

CudaComputeNonbonded::atomUpdate
virtual void atomUpdate()
Definition: CudaComputeNonbonded.C:702

CudaComputeNonbonded::getDoTable
static bool getDoTable(SimParameters *params, const bool doSlow, const bool doVirial)
Definition: CudaComputeNonbonded.C:2410

GBReal
float GBReal
Definition: ComputeGBIS.inl:17

CudaComputeNonbonded::updatePatchOrder
void updatePatchOrder(const std::vector< CudaLocalRecord > &data)
Definition: CudaComputeNonbonded.C:613