[CUDAX] Add modernized simpleP2P sample #2696

pciolkosz · 2024-11-04T17:57:57Z

This is a sample with a very simple P2P memory transfer benchmark and showing P2P access from the kernel. This version is modernized to use P2P access management using memory resources and new copy_bytes to do the copies.

There is a weird performance bug that I need to investigate, for now a workaround is to use stream on device 1 in the benchmark code.

Original sample link: https://github.com/NVIDIA/cuda-samples/blob/master/Samples/0_Introduction/simpleP2P/simpleP2P.cu

github-actions · 2024-11-04T19:08:18Z

🟨 CI finished in 55m 42s: Pass: 99%/400 | Total: 2d 07h | Avg: 8m 22s | Max: 41m 59s | Hits: 87%/25829

🟨 cccl: Pass: 33%/6 | Total: 30m 31s | Avg: 5m 05s | Max: 5m 56s

🟨 ctk
  🟩 11.1               Pass: 100%/2   | Total:  8m 46s | Avg:  4m 23s | Max:  4m 39s
  🟥 12.0               Pass:   0%/2   | Total: 10m 53s | Avg:  5m 26s | Max:  5m 45s
  🟥 12.6               Pass:   0%/2   | Total: 10m 52s | Avg:  5m 26s | Max:  5m 56s
🟨 cudacxx
  🟩 nvcc11.1           Pass: 100%/2   | Total:  8m 46s | Avg:  4m 23s | Max:  4m 39s
  🟥 nvcc12.0           Pass:   0%/2   | Total: 10m 53s | Avg:  5m 26s | Max:  5m 45s
  🟥 nvcc12.6           Pass:   0%/2   | Total: 10m 52s | Avg:  5m 26s | Max:  5m 56s
🟨 cxx
  🟩 Clang9             Pass: 100%/1   | Total:  4m 07s | Avg:  4m 07s | Max:  4m 07s
  🟥 Clang14            Pass:   0%/1   | Total:  5m 08s | Avg:  5m 08s | Max:  5m 08s
  🟥 Clang18            Pass:   0%/1   | Total:  5m 56s | Avg:  5m 56s | Max:  5m 56s
  🟩 GCC6               Pass: 100%/1   | Total:  4m 39s | Avg:  4m 39s | Max:  4m 39s
  🟥 GCC12              Pass:   0%/1   | Total:  5m 45s | Avg:  5m 45s | Max:  5m 45s
  🟥 GCC13              Pass:   0%/1   | Total:  4m 56s | Avg:  4m 56s | Max:  4m 56s
🟨 cpu
  🟨 amd64              Pass:  33%/6   | Total: 30m 31s | Avg:  5m 05s | Max:  5m 56s
🟨 cudacxx_family
  🟨 nvcc               Pass:  33%/6   | Total: 30m 31s | Avg:  5m 05s | Max:  5m 56s
🟨 gpu
  🟨 v100               Pass:  33%/6   | Total: 30m 31s | Avg:  5m 05s | Max:  5m 56s
🟨 jobs
  🟨 Infra              Pass:  33%/6   | Total: 30m 31s | Avg:  5m 05s | Max:  5m 56s
🟨 cxx_family
  🟨 Clang              Pass:  33%/3   | Total: 15m 11s | Avg:  5m 03s | Max:  5m 56s
  🟨 GCC                Pass:  33%/3   | Total: 15m 20s | Avg:  5m 06s | Max:  5m 45s

🟩 libcudacxx: Pass: 100%/118 | Total: 23h 55m | Avg: 12m 09s | Max: 41m 59s | Hits: 67%/9480

🟩 cpu
  🟩 amd64              Pass: 100%/110 | Total: 22h 52m | Avg: 12m 28s | Max: 41m 59s | Hits:  67%/9480  
  🟩 arm64              Pass: 100%/8   | Total:  1h 03m | Avg:  7m 52s | Max: 22m 53s
🟩 ctk
  🟩 11.1               Pass: 100%/15  | Total:  2h 59m | Avg: 11m 58s | Max: 34m 46s | Hits:  35%/2176  
  🟩 11.8               Pass: 100%/3   | Total: 54m 56s | Avg: 18m 18s | Max: 27m 23s
  🟩 12.5               Pass: 100%/4   | Total:  1h 27m | Avg: 21m 59s | Max: 41m 59s
  🟩 12.6               Pass: 100%/96  | Total: 18h 32m | Avg: 11m 35s | Max: 34m 39s | Hits:  76%/7304  
🟩 cudacxx
  🟩 ClangCUDA18        Pass: 100%/12  | Total:  2h 37m | Avg: 13m 08s | Max: 22m 30s
  🟩 nvcc11.1           Pass: 100%/15  | Total:  2h 59m | Avg: 11m 58s | Max: 34m 46s | Hits:  35%/2176  
  🟩 nvcc11.8           Pass: 100%/3   | Total: 54m 56s | Avg: 18m 18s | Max: 27m 23s
  🟩 nvcc12.5           Pass: 100%/4   | Total:  1h 27m | Avg: 21m 59s | Max: 41m 59s
  🟩 nvcc12.6           Pass: 100%/84  | Total: 15h 55m | Avg: 11m 22s | Max: 34m 39s | Hits:  76%/7304  
🟩 cudacxx_family
  🟩 ClangCUDA          Pass: 100%/12  | Total:  2h 37m | Avg: 13m 08s | Max: 22m 30s
  🟩 nvcc               Pass: 100%/106 | Total: 21h 17m | Avg: 12m 03s | Max: 41m 59s | Hits:  67%/9480  
🟩 cxx
  🟩 Clang9             Pass: 100%/6   | Total:  1h 17m | Avg: 12m 53s | Max: 30m 17s
  🟩 Clang10            Pass: 100%/3   | Total: 39m 52s | Avg: 13m 17s | Max: 28m 22s
  🟩 Clang11            Pass: 100%/4   | Total: 31m 22s | Avg:  7m 50s | Max: 16m 18s
  🟩 Clang12            Pass: 100%/4   | Total: 43m 51s | Avg: 10m 57s | Max: 28m 44s
  🟩 Clang13            Pass: 100%/4   | Total: 37m 48s | Avg:  9m 27s | Max: 22m 43s
  🟩 Clang14            Pass: 100%/4   | Total: 41m 08s | Avg: 10m 17s | Max: 26m 08s
  🟩 Clang15            Pass: 100%/4   | Total: 36m 24s | Avg:  9m 06s | Max: 21m 22s
  🟩 Clang16            Pass: 100%/4   | Total: 42m 46s | Avg: 10m 41s | Max: 27m 36s
  🟩 Clang17            Pass: 100%/4   | Total: 35m 18s | Avg:  8m 49s | Max: 20m 02s
  🟩 Clang18            Pass: 100%/18  | Total:  3h 22m | Avg: 11m 14s | Max: 23m 13s
  🟩 GCC6               Pass: 100%/2   | Total: 41m 45s | Avg: 20m 52s | Max: 24m 21s
  🟩 GCC7               Pass: 100%/6   | Total:  1h 13m | Avg: 12m 12s | Max: 23m 40s
  🟩 GCC8               Pass: 100%/6   | Total: 57m 07s | Avg:  9m 31s | Max: 21m 15s
  🟩 GCC9               Pass: 100%/6   | Total:  1h 16m | Avg: 12m 46s | Max: 26m 34s
  🟩 GCC10              Pass: 100%/4   | Total:  1h 00m | Avg: 15m 09s | Max: 31m 03s
  🟩 GCC11              Pass: 100%/7   | Total:  1h 35m | Avg: 13m 42s | Max: 27m 25s
  🟩 GCC12              Pass: 100%/4   | Total: 37m 25s | Avg:  9m 21s | Max: 23m 39s
  🟩 GCC13              Pass: 100%/17  | Total:  3h 22m | Avg: 11m 52s | Max: 26m 40s
  🟩 Intel2023.2.0      Pass: 100%/3   | Total: 20m 04s | Avg:  6m 41s | Max:  6m 51s
  🟩 MSVC14.16          Pass: 100%/1   | Total: 34m 46s | Avg: 34m 46s | Max: 34m 46s | Hits:  35%/2176  
  🟩 MSVC14.29          Pass: 100%/2   | Total: 45m 39s | Avg: 22m 49s | Max: 34m 39s | Hits:  64%/4715  
  🟩 MSVC14.39          Pass: 100%/1   | Total: 13m 55s | Avg: 13m 55s | Max: 13m 55s | Hits:  98%/2589  
  🟩 NVHPC24.7          Pass: 100%/4   | Total:  1h 27m | Avg: 21m 59s | Max: 41m 59s
🟩 cxx_family
  🟩 Clang              Pass: 100%/55  | Total:  9h 48m | Avg: 10m 41s | Max: 30m 17s
  🟩 GCC                Pass: 100%/52  | Total: 10h 44m | Avg: 12m 23s | Max: 31m 03s
  🟩 Intel              Pass: 100%/3   | Total: 20m 04s | Avg:  6m 41s | Max:  6m 51s
  🟩 MSVC               Pass: 100%/4   | Total:  1h 34m | Avg: 23m 35s | Max: 34m 46s | Hits:  67%/9480  
  🟩 NVHPC              Pass: 100%/4   | Total:  1h 27m | Avg: 21m 59s | Max: 41m 59s
🟩 gpu
  🟩 v100               Pass: 100%/118 | Total: 23h 55m | Avg: 12m 09s | Max: 41m 59s | Hits:  67%/9480  
🟩 jobs
  🟩 Build              Pass: 100%/110 | Total: 21h 22m | Avg: 11m 39s | Max: 41m 59s | Hits:  67%/9480  
  🟩 NVRTC              Pass: 100%/4   | Total:  1h 33m | Avg: 23m 26s | Max: 26m 40s
  🟩 Test               Pass: 100%/3   | Total: 56m 28s | Avg: 18m 49s | Max: 23m 13s
  🟩 VerifyCodegen      Pass: 100%/1   | Total:  2m 56s | Avg:  2m 56s | Max:  2m 56s
🟩 sm
  🟩 60;70;80;90        Pass: 100%/3   | Total: 54m 56s | Avg: 18m 18s | Max: 27m 23s
  🟩 90                 Pass: 100%/4   | Total: 44m 35s | Avg: 11m 08s | Max: 13m 22s
  🟩 90a                Pass: 100%/8   | Total:  1h 02m | Avg:  7m 46s | Max: 12m 14s
🟩 std
  🟩 11                 Pass: 100%/32  | Total:  5h 51m | Avg: 10m 59s | Max: 25m 40s
  🟩 14                 Pass: 100%/32  | Total:  6h 26m | Avg: 12m 04s | Max: 34m 46s | Hits:  67%/4455  
  🟩 17                 Pass: 100%/30  | Total:  5h 38m | Avg: 11m 16s | Max: 34m 39s | Hits:  32%/2436  
  🟩 20                 Pass: 100%/23  | Total:  5h 55m | Avg: 15m 28s | Max: 41m 59s | Hits:  98%/2589

🟩 cub: Pass: 100%/110 | Total: 13h 00m | Avg: 7m 05s | Max: 33m 21s | Hits: 99%/2948

🟩 cpu
  🟩 amd64              Pass: 100%/102 | Total: 12h 22m | Avg:  7m 16s | Max: 33m 21s | Hits:  99%/2948  
  🟩 arm64              Pass: 100%/8   | Total: 38m 33s | Avg:  4m 49s | Max:  5m 25s
🟩 ctk
  🟩 11.1               Pass: 100%/15  | Total:  1h 09m | Avg:  4m 36s | Max: 12m 36s | Hits:  99%/737   
  🟩 11.8               Pass: 100%/3   | Total: 15m 13s | Avg:  5m 04s | Max:  5m 35s
  🟩 12.5               Pass: 100%/4   | Total: 40m 41s | Avg: 10m 10s | Max: 10m 37s
  🟩 12.6               Pass: 100%/88  | Total: 10h 55m | Avg:  7m 27s | Max: 33m 21s | Hits:  99%/2211  
🟩 cudacxx
  🟩 ClangCUDA18        Pass: 100%/4   | Total: 17m 40s | Avg:  4m 25s | Max:  4m 42s
  🟩 nvcc11.1           Pass: 100%/15  | Total:  1h 09m | Avg:  4m 36s | Max: 12m 36s | Hits:  99%/737   
  🟩 nvcc11.8           Pass: 100%/3   | Total: 15m 13s | Avg:  5m 04s | Max:  5m 35s
  🟩 nvcc12.5           Pass: 100%/4   | Total: 40m 41s | Avg: 10m 10s | Max: 10m 37s
  🟩 nvcc12.6           Pass: 100%/84  | Total: 10h 38m | Avg:  7m 35s | Max: 33m 21s | Hits:  99%/2211  
🟩 cudacxx_family
  🟩 ClangCUDA          Pass: 100%/4   | Total: 17m 40s | Avg:  4m 25s | Max:  4m 42s
  🟩 nvcc               Pass: 100%/106 | Total: 12h 43m | Avg:  7m 12s | Max: 33m 21s | Hits:  99%/2948  
🟩 cxx
  🟩 Clang9             Pass: 100%/6   | Total: 32m 31s | Avg:  5m 25s | Max:  7m 05s
  🟩 Clang10            Pass: 100%/3   | Total: 19m 16s | Avg:  6m 25s | Max:  6m 57s
  🟩 Clang11            Pass: 100%/4   | Total: 21m 29s | Avg:  5m 22s | Max:  5m 42s
  🟩 Clang12            Pass: 100%/4   | Total: 22m 44s | Avg:  5m 41s | Max:  6m 13s
  🟩 Clang13            Pass: 100%/4   | Total: 21m 55s | Avg:  5m 28s | Max:  6m 01s
  🟩 Clang14            Pass: 100%/4   | Total: 22m 58s | Avg:  5m 44s | Max:  6m 06s
  🟩 Clang15            Pass: 100%/4   | Total: 22m 59s | Avg:  5m 44s | Max:  6m 07s
  🟩 Clang16            Pass: 100%/4   | Total: 23m 21s | Avg:  5m 50s | Max:  5m 56s
  🟩 Clang17            Pass: 100%/4   | Total: 22m 26s | Avg:  5m 36s | Max:  5m 50s
  🟩 Clang18            Pass: 100%/11  | Total:  1h 34m | Avg:  8m 33s | Max: 32m 55s
  🟩 GCC6               Pass: 100%/2   | Total:  8m 00s | Avg:  4m 00s | Max:  4m 05s
  🟩 GCC7               Pass: 100%/6   | Total: 28m 23s | Avg:  4m 43s | Max:  5m 56s
  🟩 GCC8               Pass: 100%/6   | Total: 30m 22s | Avg:  5m 03s | Max:  6m 15s
  🟩 GCC9               Pass: 100%/6   | Total: 28m 41s | Avg:  4m 46s | Max:  6m 04s
  🟩 GCC10              Pass: 100%/4   | Total: 22m 59s | Avg:  5m 44s | Max:  6m 03s
  🟩 GCC11              Pass: 100%/7   | Total: 38m 05s | Avg:  5m 26s | Max:  5m 59s
  🟩 GCC12              Pass: 100%/4   | Total: 24m 33s | Avg:  6m 08s | Max:  6m 22s
  🟩 GCC13              Pass: 100%/16  | Total:  3h 09m | Avg: 11m 49s | Max: 33m 21s
  🟩 Intel2023.2.0      Pass: 100%/3   | Total: 21m 45s | Avg:  7m 15s | Max:  7m 31s
  🟩 MSVC14.16          Pass: 100%/1   | Total: 12m 36s | Avg: 12m 36s | Max: 12m 36s | Hits:  99%/737   
  🟩 MSVC14.29          Pass: 100%/2   | Total: 20m 40s | Avg: 10m 20s | Max: 10m 38s | Hits:  99%/1474  
  🟩 MSVC14.39          Pass: 100%/1   | Total: 11m 07s | Avg: 11m 07s | Max: 11m 07s | Hits:  99%/737   
  🟩 NVHPC24.7          Pass: 100%/4   | Total: 40m 41s | Avg: 10m 10s | Max: 10m 37s
🟩 cxx_family
  🟩 Clang              Pass: 100%/48  | Total:  5h 03m | Avg:  6m 19s | Max: 32m 55s
  🟩 GCC                Pass: 100%/51  | Total:  6h 10m | Avg:  7m 15s | Max: 33m 21s
  🟩 Intel              Pass: 100%/3   | Total: 21m 45s | Avg:  7m 15s | Max:  7m 31s
  🟩 MSVC               Pass: 100%/4   | Total: 44m 23s | Avg: 11m 05s | Max: 12m 36s | Hits:  99%/2948  
  🟩 NVHPC              Pass: 100%/4   | Total: 40m 41s | Avg: 10m 10s | Max: 10m 37s
🟩 gpu
  🟩 v100               Pass: 100%/110 | Total: 13h 00m | Avg:  7m 05s | Max: 33m 21s | Hits:  99%/2948  
🟩 jobs
  🟩 Build              Pass: 100%/102 | Total:  9h 48m | Avg:  5m 46s | Max: 12m 36s | Hits:  99%/2948  
  🟩 DeviceLaunch       Pass: 100%/1   | Total: 19m 56s | Avg: 19m 56s | Max: 19m 56s
  🟩 GraphCapture       Pass: 100%/1   | Total: 18m 52s | Avg: 18m 52s | Max: 18m 52s
  🟩 HostLaunch         Pass: 100%/3   | Total:  1h 05m | Avg: 21m 51s | Max: 25m 06s
  🟩 TestGPU            Pass: 100%/3   | Total:  1h 28m | Avg: 29m 25s | Max: 33m 21s
🟩 sm
  🟩 60;70;80;90        Pass: 100%/3   | Total: 15m 13s | Avg:  5m 04s | Max:  5m 35s
  🟩 90a                Pass: 100%/4   | Total: 19m 26s | Avg:  4m 51s | Max:  5m 02s
🟩 std
  🟩 11                 Pass: 100%/30  | Total:  3h 13m | Avg:  6m 27s | Max: 22m 01s
  🟩 14                 Pass: 100%/29  | Total:  2h 50m | Avg:  5m 53s | Max: 12m 36s | Hits:  99%/1474  
  🟩 17                 Pass: 100%/27  | Total:  2h 37m | Avg:  5m 49s | Max: 10m 34s | Hits:  99%/737   
  🟩 20                 Pass: 100%/24  | Total:  4h 18m | Avg: 10m 46s | Max: 33m 21s | Hits:  99%/737

🟩 thrust: Pass: 100%/109 | Total: 13h 02m | Avg: 7m 10s | Max: 30m 01s | Hits: 99%/13165

🟩 cpu
  🟩 amd64              Pass: 100%/101 | Total: 12h 18m | Avg:  7m 18s | Max: 30m 01s | Hits:  99%/13165 
  🟩 arm64              Pass: 100%/8   | Total: 44m 15s | Avg:  5m 31s | Max:  6m 31s
🟩 ctk
  🟩 11.1               Pass: 100%/15  | Total:  1h 28m | Avg:  5m 52s | Max: 17m 15s | Hits:  99%/2633  
  🟩 11.8               Pass: 100%/3   | Total: 18m 57s | Avg:  6m 19s | Max:  6m 41s
  🟩 12.5               Pass: 100%/4   | Total:  1h 11m | Avg: 17m 49s | Max: 19m 11s
  🟩 12.6               Pass: 100%/87  | Total: 10h 04m | Avg:  6m 56s | Max: 30m 01s | Hits:  99%/10532 
🟩 cudacxx
  🟩 ClangCUDA18        Pass: 100%/4   | Total: 22m 51s | Avg:  5m 42s | Max:  6m 01s
  🟩 nvcc11.1           Pass: 100%/15  | Total:  1h 28m | Avg:  5m 52s | Max: 17m 15s | Hits:  99%/2633  
  🟩 nvcc11.8           Pass: 100%/3   | Total: 18m 57s | Avg:  6m 19s | Max:  6m 41s
  🟩 nvcc12.5           Pass: 100%/4   | Total:  1h 11m | Avg: 17m 49s | Max: 19m 11s
  🟩 nvcc12.6           Pass: 100%/83  | Total:  9h 41m | Avg:  7m 00s | Max: 30m 01s | Hits:  99%/10532 
🟩 cudacxx_family
  🟩 ClangCUDA          Pass: 100%/4   | Total: 22m 51s | Avg:  5m 42s | Max:  6m 01s
  🟩 nvcc               Pass: 100%/105 | Total: 12h 39m | Avg:  7m 14s | Max: 30m 01s | Hits:  99%/13165 
🟩 cxx
  🟩 Clang9             Pass: 100%/6   | Total: 33m 42s | Avg:  5m 37s | Max:  7m 13s
  🟩 Clang10            Pass: 100%/3   | Total: 20m 19s | Avg:  6m 46s | Max:  7m 16s
  🟩 Clang11            Pass: 100%/4   | Total: 21m 57s | Avg:  5m 29s | Max:  5m 40s
  🟩 Clang12            Pass: 100%/4   | Total: 21m 04s | Avg:  5m 16s | Max:  5m 39s
  🟩 Clang13            Pass: 100%/4   | Total: 20m 12s | Avg:  5m 03s | Max:  5m 13s
  🟩 Clang14            Pass: 100%/4   | Total: 21m 44s | Avg:  5m 26s | Max:  6m 08s
  🟩 Clang15            Pass: 100%/4   | Total: 22m 57s | Avg:  5m 44s | Max:  5m 54s
  🟩 Clang16            Pass: 100%/4   | Total: 22m 07s | Avg:  5m 31s | Max:  5m 45s
  🟩 Clang17            Pass: 100%/4   | Total: 21m 18s | Avg:  5m 19s | Max:  5m 56s
  🟩 Clang18            Pass: 100%/11  | Total:  1h 27m | Avg:  7m 57s | Max: 30m 01s
  🟩 GCC6               Pass: 100%/2   | Total: 10m 13s | Avg:  5m 06s | Max:  5m 13s
  🟩 GCC7               Pass: 100%/6   | Total: 31m 37s | Avg:  5m 16s | Max:  5m 56s
  🟩 GCC8               Pass: 100%/6   | Total: 32m 10s | Avg:  5m 21s | Max:  5m 47s
  🟩 GCC9               Pass: 100%/6   | Total: 33m 00s | Avg:  5m 30s | Max:  6m 15s
  🟩 GCC10              Pass: 100%/4   | Total: 23m 42s | Avg:  5m 55s | Max:  6m 04s
  🟩 GCC11              Pass: 100%/7   | Total: 44m 13s | Avg:  6m 19s | Max:  6m 41s
  🟩 GCC12              Pass: 100%/4   | Total: 25m 06s | Avg:  6m 16s | Max:  6m 19s
  🟩 GCC13              Pass: 100%/14  | Total:  1h 50m | Avg:  7m 53s | Max: 22m 20s
  🟩 Intel2023.2.0      Pass: 100%/3   | Total: 22m 14s | Avg:  7m 24s | Max:  7m 45s
  🟩 MSVC14.16          Pass: 100%/1   | Total: 17m 15s | Avg: 17m 15s | Max: 17m 15s | Hits:  99%/2633  
  🟩 MSVC14.29          Pass: 100%/2   | Total: 31m 52s | Avg: 15m 56s | Max: 16m 47s | Hits:  99%/5266  
  🟩 MSVC14.39          Pass: 100%/2   | Total: 36m 46s | Avg: 18m 23s | Max: 20m 43s | Hits:  99%/5266  
  🟩 NVHPC24.7          Pass: 100%/4   | Total:  1h 11m | Avg: 17m 49s | Max: 19m 11s
🟩 cxx_family
  🟩 Clang              Pass: 100%/48  | Total:  4h 52m | Avg:  6m 06s | Max: 30m 01s
  🟩 GCC                Pass: 100%/49  | Total:  5h 10m | Avg:  6m 20s | Max: 22m 20s
  🟩 Intel              Pass: 100%/3   | Total: 22m 14s | Avg:  7m 24s | Max:  7m 45s
  🟩 MSVC               Pass: 100%/5   | Total:  1h 25m | Avg: 17m 10s | Max: 20m 43s | Hits:  99%/13165 
  🟩 NVHPC              Pass: 100%/4   | Total:  1h 11m | Avg: 17m 49s | Max: 19m 11s
🟩 gpu
  🟩 v100               Pass: 100%/109 | Total: 13h 02m | Avg:  7m 10s | Max: 30m 01s | Hits:  99%/13165 
🟩 jobs
  🟩 Build              Pass: 100%/102 | Total: 11h 08m | Avg:  6m 33s | Max: 19m 11s | Hits:  99%/10532 
  🟩 TestCPU            Pass: 100%/4   | Total: 43m 52s | Avg: 10m 58s | Max: 20m 43s | Hits:  99%/2633  
  🟩 TestGPU            Pass: 100%/3   | Total:  1h 10m | Avg: 23m 20s | Max: 30m 01s
🟩 sm
  🟩 60;70;80;90        Pass: 100%/3   | Total: 18m 57s | Avg:  6m 19s | Max:  6m 41s
  🟩 90a                Pass: 100%/4   | Total: 20m 15s | Avg:  5m 03s | Max:  5m 24s
🟩 std
  🟩 11                 Pass: 100%/30  | Total:  3h 09m | Avg:  6m 18s | Max: 22m 20s
  🟩 14                 Pass: 100%/29  | Total:  3h 20m | Avg:  6m 55s | Max: 18m 33s | Hits:  99%/5266  
  🟩 17                 Pass: 100%/27  | Total:  3h 00m | Avg:  6m 41s | Max: 17m 39s | Hits:  99%/2633  
  🟩 20                 Pass: 100%/23  | Total:  3h 31m | Avg:  9m 13s | Max: 30m 01s | Hits:  99%/5266

🟩 cudax: Pass: 100%/54 | Total: 4h 56m | Avg: 5m 29s | Max: 25m 05s | Hits: 88%/236

🟩 cpu
  🟩 amd64              Pass: 100%/50  | Total:  4h 42m | Avg:  5m 39s | Max: 25m 05s | Hits:  88%/236   
  🟩 arm64              Pass: 100%/4   | Total: 13m 47s | Avg:  3m 26s | Max:  3m 35s
🟩 ctk
  🟩 12.0               Pass: 100%/19  | Total:  1h 44m | Avg:  5m 28s | Max: 23m 14s | Hits:  88%/118   
  🟩 12.5               Pass: 100%/2   | Total: 14m 25s | Avg:  7m 12s | Max:  7m 15s
  🟩 12.6               Pass: 100%/33  | Total:  2h 58m | Avg:  5m 24s | Max: 25m 05s | Hits:  88%/118   
🟩 cudacxx
  🟩 nvcc12.0           Pass: 100%/19  | Total:  1h 44m | Avg:  5m 28s | Max: 23m 14s | Hits:  88%/118   
  🟩 nvcc12.5           Pass: 100%/2   | Total: 14m 25s | Avg:  7m 12s | Max:  7m 15s
  🟩 nvcc12.6           Pass: 100%/33  | Total:  2h 58m | Avg:  5m 24s | Max: 25m 05s | Hits:  88%/118   
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/54  | Total:  4h 56m | Avg:  5m 29s | Max: 25m 05s | Hits:  88%/236   
🟩 cxx
  🟩 Clang9             Pass: 100%/2   | Total:  8m 03s | Avg:  4m 01s | Max:  4m 24s
  🟩 Clang10            Pass: 100%/2   | Total:  8m 27s | Avg:  4m 13s | Max:  4m 16s
  🟩 Clang11            Pass: 100%/4   | Total: 15m 03s | Avg:  3m 45s | Max:  4m 06s
  🟩 Clang12            Pass: 100%/4   | Total: 14m 00s | Avg:  3m 30s | Max:  3m 57s
  🟩 Clang13            Pass: 100%/4   | Total: 14m 58s | Avg:  3m 44s | Max:  4m 17s
  🟩 Clang14            Pass: 100%/4   | Total: 29m 44s | Avg:  7m 26s | Max: 19m 13s
  🟩 Clang15            Pass: 100%/2   | Total:  7m 23s | Avg:  3m 41s | Max:  3m 59s
  🟩 Clang16            Pass: 100%/4   | Total: 15m 06s | Avg:  3m 46s | Max:  4m 05s
  🟩 Clang17            Pass: 100%/2   | Total:  7m 34s | Avg:  3m 47s | Max:  3m 53s
  🟩 Clang18            Pass: 100%/2   | Total: 21m 28s | Avg: 10m 44s | Max: 18m 23s
  🟩 GCC9               Pass: 100%/2   | Total:  6m 48s | Avg:  3m 24s | Max:  3m 57s
  🟩 GCC10              Pass: 100%/4   | Total: 13m 58s | Avg:  3m 29s | Max:  4m 06s
  🟩 GCC11              Pass: 100%/4   | Total: 12m 58s | Avg:  3m 14s | Max:  3m 52s
  🟩 GCC12              Pass: 100%/7   | Total:  1h 20m | Avg: 11m 26s | Max: 25m 05s
  🟩 GCC13              Pass: 100%/3   | Total: 10m 00s | Avg:  3m 20s | Max:  3m 27s
  🟩 MSVC14.36          Pass: 100%/1   | Total:  7m 41s | Avg:  7m 41s | Max:  7m 41s | Hits:  88%/118   
  🟩 MSVC14.39          Pass: 100%/1   | Total:  8m 58s | Avg:  8m 58s | Max:  8m 58s | Hits:  88%/118   
  🟩 NVHPC24.7          Pass: 100%/2   | Total: 14m 25s | Avg:  7m 12s | Max:  7m 15s
🟩 cxx_family
  🟩 Clang              Pass: 100%/30  | Total:  2h 21m | Avg:  4m 43s | Max: 19m 13s
  🟩 GCC                Pass: 100%/20  | Total:  2h 03m | Avg:  6m 11s | Max: 25m 05s
  🟩 MSVC               Pass: 100%/2   | Total: 16m 39s | Avg:  8m 19s | Max:  8m 58s | Hits:  88%/236   
  🟩 NVHPC              Pass: 100%/2   | Total: 14m 25s | Avg:  7m 12s | Max:  7m 15s
🟩 gpu
  🟩 v100               Pass: 100%/54  | Total:  4h 56m | Avg:  5m 29s | Max: 25m 05s | Hits:  88%/236   
🟩 jobs
  🟩 Build              Pass: 100%/49  | Total:  3h 11m | Avg:  3m 54s | Max:  8m 58s | Hits:  88%/236   
  🟩 Test               Pass: 100%/5   | Total:  1h 44m | Avg: 20m 59s | Max: 25m 05s
🟩 sm
  🟩 90                 Pass: 100%/1   | Total:  3m 49s | Avg:  3m 49s | Max:  3m 49s
  🟩 90a                Pass: 100%/1   | Total:  3m 20s | Avg:  3m 20s | Max:  3m 20s
🟩 std
  🟩 17                 Pass: 100%/29  | Total:  2h 23m | Avg:  4m 56s | Max: 23m 14s
  🟩 20                 Pass: 100%/25  | Total:  2h 33m | Avg:  6m 07s | Max: 25m 05s | Hits:  88%/236

🟩 cccl_c_parallel: Pass: 100%/2 | Total: 9m 32s | Avg: 4m 46s | Max: 7m 30s

🟩 cpu
  🟩 amd64              Pass: 100%/2   | Total:  9m 32s | Avg:  4m 46s | Max:  7m 30s
🟩 ctk
  🟩 12.6               Pass: 100%/2   | Total:  9m 32s | Avg:  4m 46s | Max:  7m 30s
🟩 cudacxx
  🟩 nvcc12.6           Pass: 100%/2   | Total:  9m 32s | Avg:  4m 46s | Max:  7m 30s
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/2   | Total:  9m 32s | Avg:  4m 46s | Max:  7m 30s
🟩 cxx
  🟩 GCC13              Pass: 100%/2   | Total:  9m 32s | Avg:  4m 46s | Max:  7m 30s
🟩 cxx_family
  🟩 GCC                Pass: 100%/2   | Total:  9m 32s | Avg:  4m 46s | Max:  7m 30s
🟩 gpu
  🟩 v100               Pass: 100%/2   | Total:  9m 32s | Avg:  4m 46s | Max:  7m 30s
🟩 jobs
  🟩 Build              Pass: 100%/1   | Total:  2m 02s | Avg:  2m 02s | Max:  2m 02s
  🟩 Test               Pass: 100%/1   | Total:  7m 30s | Avg:  7m 30s | Max:  7m 30s

🟩 python: Pass: 100%/1 | Total: 15m 08s | Avg: 15m 08s | Max: 15m 08s

🟩 cpu
  🟩 amd64              Pass: 100%/1   | Total: 15m 08s | Avg: 15m 08s | Max: 15m 08s
🟩 ctk
  🟩 12.6               Pass: 100%/1   | Total: 15m 08s | Avg: 15m 08s | Max: 15m 08s
🟩 cudacxx
  🟩 nvcc12.6           Pass: 100%/1   | Total: 15m 08s | Avg: 15m 08s | Max: 15m 08s
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/1   | Total: 15m 08s | Avg: 15m 08s | Max: 15m 08s
🟩 cxx
  🟩 GCC13              Pass: 100%/1   | Total: 15m 08s | Avg: 15m 08s | Max: 15m 08s
🟩 cxx_family
  🟩 GCC                Pass: 100%/1   | Total: 15m 08s | Avg: 15m 08s | Max: 15m 08s
🟩 gpu
  🟩 v100               Pass: 100%/1   | Total: 15m 08s | Avg: 15m 08s | Max: 15m 08s
🟩 jobs
  🟩 Test               Pass: 100%/1   | Total: 15m 08s | Avg: 15m 08s | Max: 15m 08s

👃 Inspect Changes

Modifications in project?

	Project
+/-	CCCL Infrastructure
	libcu++
	CUB
	Thrust
	CUDA Experimental
	python
	CCCL C Parallel Library
	Catch2Helper

Modifications in project or dependencies?

	Project
+/-	CCCL Infrastructure
+/-	libcu++
+/-	CUB
+/-	Thrust
+/-	CUDA Experimental
+/-	python
+/-	CCCL C Parallel Library
+/-	Catch2Helper

🏃‍ Runner counts (total jobs: 400)

#	Runner
326	`linux-amd64-cpu16`
31	`linux-amd64-gpu-v100-latest-1`
28	`linux-arm64-cpu16`
15	`windows-amd64-cpu16`

ericniebler

this sample belongs in cudax/examples, not examples/cudax. see #2697. cc @alliepiper

examples/cudax/simple_p2p/simple_p2p.cu

ericniebler · 2024-11-04T18:48:09Z

examples/cudax/simple_p2p/simple_p2p.cu

+  // Disable peer access
+  printf("Disabling peer access...\n");
+  dev0_resource.disable_peer_access(peers[1]);
+  dev1_resource.disable_peer_access(peers[0]);


why is this necessary? what happens if it's omitted?

It's not necessary, it was in the original sample so I added it to just show how to do it. But we can remove it if its confusing why its there

examples/cudax/simple_p2p/simple_p2p.cu

Co-authored-by: Eric Niebler <[email protected]>

github-actions · 2024-11-04T22:08:17Z

🟨 CI finished in 1h 38m: Pass: 99%/400 | Total: 1d 23h | Avg: 7m 10s | Max: 44m 19s | Hits: 90%/25829

🟨 cccl: Pass: 33%/6 | Total: 29m 01s | Avg: 4m 50s | Max: 6m 35s

🟨 ctk
  🟩 11.1               Pass: 100%/2   | Total: 10m 31s | Avg:  5m 15s | Max:  6m 35s
  🟥 12.0               Pass:   0%/2   | Total:  9m 21s | Avg:  4m 40s | Max:  4m 59s
  🟥 12.6               Pass:   0%/2   | Total:  9m 09s | Avg:  4m 34s | Max:  4m 37s
🟨 cudacxx
  🟩 nvcc11.1           Pass: 100%/2   | Total: 10m 31s | Avg:  5m 15s | Max:  6m 35s
  🟥 nvcc12.0           Pass:   0%/2   | Total:  9m 21s | Avg:  4m 40s | Max:  4m 59s
  🟥 nvcc12.6           Pass:   0%/2   | Total:  9m 09s | Avg:  4m 34s | Max:  4m 37s
🟨 cxx
  🟩 Clang9             Pass: 100%/1   | Total:  6m 35s | Avg:  6m 35s | Max:  6m 35s
  🟥 Clang14            Pass:   0%/1   | Total:  4m 59s | Avg:  4m 59s | Max:  4m 59s
  🟥 Clang18            Pass:   0%/1   | Total:  4m 32s | Avg:  4m 32s | Max:  4m 32s
  🟩 GCC6               Pass: 100%/1   | Total:  3m 56s | Avg:  3m 56s | Max:  3m 56s
  🟥 GCC12              Pass:   0%/1   | Total:  4m 22s | Avg:  4m 22s | Max:  4m 22s
  🟥 GCC13              Pass:   0%/1   | Total:  4m 37s | Avg:  4m 37s | Max:  4m 37s
🟨 cpu
  🟨 amd64              Pass:  33%/6   | Total: 29m 01s | Avg:  4m 50s | Max:  6m 35s
🟨 cudacxx_family
  🟨 nvcc               Pass:  33%/6   | Total: 29m 01s | Avg:  4m 50s | Max:  6m 35s
🟨 gpu
  🟨 v100               Pass:  33%/6   | Total: 29m 01s | Avg:  4m 50s | Max:  6m 35s
🟨 jobs
  🟨 Infra              Pass:  33%/6   | Total: 29m 01s | Avg:  4m 50s | Max:  6m 35s
🟨 cxx_family
  🟨 Clang              Pass:  33%/3   | Total: 16m 06s | Avg:  5m 22s | Max:  6m 35s
  🟨 GCC                Pass:  33%/3   | Total: 12m 55s | Avg:  4m 18s | Max:  4m 37s

🟩 libcudacxx: Pass: 100%/118 | Total: 18h 31m | Avg: 9m 25s | Max: 44m 19s | Hits: 73%/9480

🟩 cpu
  🟩 amd64              Pass: 100%/110 | Total: 17h 24m | Avg:  9m 29s | Max: 44m 19s | Hits:  73%/9480  
  🟩 arm64              Pass: 100%/8   | Total:  1h 06m | Avg:  8m 19s | Max: 25m 12s
🟩 ctk
  🟩 11.1               Pass: 100%/15  | Total:  2h 20m | Avg:  9m 23s | Max: 23m 52s | Hits:  98%/2176  
  🟩 11.8               Pass: 100%/3   | Total: 37m 49s | Avg: 12m 36s | Max: 31m 35s
  🟩 12.5               Pass: 100%/4   | Total: 32m 33s | Avg:  8m 08s | Max:  9m 21s
  🟩 12.6               Pass: 100%/96  | Total: 15h 00m | Avg:  9m 22s | Max: 44m 19s | Hits:  66%/7304  
🟩 cudacxx
  🟩 ClangCUDA18        Pass: 100%/12  | Total:  2h 31m | Avg: 12m 36s | Max: 19m 15s
  🟩 nvcc11.1           Pass: 100%/15  | Total:  2h 20m | Avg:  9m 23s | Max: 23m 52s | Hits:  98%/2176  
  🟩 nvcc11.8           Pass: 100%/3   | Total: 37m 49s | Avg: 12m 36s | Max: 31m 35s
  🟩 nvcc12.5           Pass: 100%/4   | Total: 32m 33s | Avg:  8m 08s | Max:  9m 21s
  🟩 nvcc12.6           Pass: 100%/84  | Total: 12h 28m | Avg:  8m 54s | Max: 44m 19s | Hits:  66%/7304  
🟩 cudacxx_family
  🟩 ClangCUDA          Pass: 100%/12  | Total:  2h 31m | Avg: 12m 36s | Max: 19m 15s
  🟩 nvcc               Pass: 100%/106 | Total: 15h 59m | Avg:  9m 03s | Max: 44m 19s | Hits:  73%/9480  
🟩 cxx
  🟩 Clang9             Pass: 100%/6   | Total:  1h 22m | Avg: 13m 43s | Max: 23m 19s
  🟩 Clang10            Pass: 100%/3   | Total: 16m 19s | Avg:  5m 26s | Max:  5m 43s
  🟩 Clang11            Pass: 100%/4   | Total: 17m 44s | Avg:  4m 26s | Max:  4m 37s
  🟩 Clang12            Pass: 100%/4   | Total: 17m 49s | Avg:  4m 27s | Max:  4m 57s
  🟩 Clang13            Pass: 100%/4   | Total:  1h 02m | Avg: 15m 42s | Max: 29m 51s
  🟩 Clang14            Pass: 100%/4   | Total: 34m 35s | Avg:  8m 38s | Max: 21m 38s
  🟩 Clang15            Pass: 100%/4   | Total: 42m 45s | Avg: 10m 41s | Max: 29m 32s
  🟩 Clang16            Pass: 100%/4   | Total: 17m 41s | Avg:  4m 25s | Max:  4m 59s
  🟩 Clang17            Pass: 100%/4   | Total: 31m 44s | Avg:  7m 56s | Max: 17m 58s
  🟩 Clang18            Pass: 100%/18  | Total:  3h 26m | Avg: 11m 26s | Max: 20m 38s
  🟩 GCC6               Pass: 100%/2   | Total: 25m 55s | Avg: 12m 57s | Max: 22m 48s
  🟩 GCC7               Pass: 100%/6   | Total: 41m 07s | Avg:  6m 51s | Max: 24m 53s
  🟩 GCC8               Pass: 100%/6   | Total: 47m 25s | Avg:  7m 54s | Max: 23m 52s
  🟩 GCC9               Pass: 100%/6   | Total: 21m 22s | Avg:  3m 33s | Max:  4m 20s
  🟩 GCC10              Pass: 100%/4   | Total: 36m 37s | Avg:  9m 09s | Max: 25m 01s
  🟩 GCC11              Pass: 100%/7   | Total:  1h 08m | Avg:  9m 45s | Max: 31m 35s
  🟩 GCC12              Pass: 100%/4   | Total: 16m 03s | Avg:  4m 00s | Max:  4m 14s
  🟩 GCC13              Pass: 100%/17  | Total:  3h 00m | Avg: 10m 36s | Max: 25m 12s
  🟩 Intel2023.2.0      Pass: 100%/3   | Total: 16m 40s | Avg:  5m 33s | Max:  5m 48s
  🟩 MSVC14.16          Pass: 100%/1   | Total: 17m 07s | Avg: 17m 07s | Max: 17m 07s | Hits:  98%/2176  
  🟩 MSVC14.29          Pass: 100%/2   | Total: 33m 44s | Avg: 16m 52s | Max: 23m 24s | Hits:  85%/4715  
  🟩 MSVC14.39          Pass: 100%/1   | Total: 44m 19s | Avg: 44m 19s | Max: 44m 19s | Hits:  31%/2589  
  🟩 NVHPC24.7          Pass: 100%/4   | Total: 32m 33s | Avg:  8m 08s | Max:  9m 21s
🟩 cxx_family
  🟩 Clang              Pass: 100%/55  | Total:  8h 49m | Avg:  9m 38s | Max: 29m 51s
  🟩 GCC                Pass: 100%/52  | Total:  7h 17m | Avg:  8m 24s | Max: 31m 35s
  🟩 Intel              Pass: 100%/3   | Total: 16m 40s | Avg:  5m 33s | Max:  5m 48s
  🟩 MSVC               Pass: 100%/4   | Total:  1h 35m | Avg: 23m 47s | Max: 44m 19s | Hits:  73%/9480  
  🟩 NVHPC              Pass: 100%/4   | Total: 32m 33s | Avg:  8m 08s | Max:  9m 21s
🟩 gpu
  🟩 v100               Pass: 100%/118 | Total: 18h 31m | Avg:  9m 25s | Max: 44m 19s | Hits:  73%/9480  
🟩 jobs
  🟩 Build              Pass: 100%/110 | Total: 16h 11m | Avg:  8m 50s | Max: 44m 19s | Hits:  73%/9480  
  🟩 NVRTC              Pass: 100%/4   | Total:  1h 28m | Avg: 22m 11s | Max: 23m 51s
  🟩 Test               Pass: 100%/3   | Total: 48m 49s | Avg: 16m 16s | Max: 19m 05s
  🟩 VerifyCodegen      Pass: 100%/1   | Total:  2m 02s | Avg:  2m 02s | Max:  2m 02s
🟩 sm
  🟩 60;70;80;90        Pass: 100%/3   | Total: 37m 49s | Avg: 12m 36s | Max: 31m 35s
  🟩 90                 Pass: 100%/4   | Total: 44m 25s | Avg: 11m 06s | Max: 13m 11s
  🟩 90a                Pass: 100%/8   | Total:  1h 00m | Avg:  7m 32s | Max: 13m 55s
🟩 std
  🟩 11                 Pass: 100%/32  | Total:  4h 05m | Avg:  7m 39s | Max: 23m 19s
  🟩 14                 Pass: 100%/32  | Total:  3h 52m | Avg:  7m 15s | Max: 23m 51s | Hits:  98%/4455  
  🟩 17                 Pass: 100%/30  | Total:  5h 34m | Avg: 11m 09s | Max: 31m 35s | Hits:  73%/2436  
  🟩 20                 Pass: 100%/23  | Total:  4h 57m | Avg: 12m 55s | Max: 44m 19s | Hits:  31%/2589

🟩 cub: Pass: 100%/110 | Total: 11h 58m | Avg: 6m 32s | Max: 39m 17s | Hits: 99%/2948

🟩 cpu
  🟩 amd64              Pass: 100%/102 | Total: 11h 23m | Avg:  6m 42s | Max: 39m 17s | Hits:  99%/2948  
  🟩 arm64              Pass: 100%/8   | Total: 35m 20s | Avg:  4m 25s | Max:  4m 53s
🟩 ctk
  🟩 11.1               Pass: 100%/15  | Total:  1h 10m | Avg:  4m 43s | Max: 13m 56s | Hits:  99%/737   
  🟩 11.8               Pass: 100%/3   | Total: 15m 33s | Avg:  5m 11s | Max:  5m 20s
  🟩 12.5               Pass: 100%/4   | Total: 33m 46s | Avg:  8m 26s | Max:  8m 53s
  🟩 12.6               Pass: 100%/88  | Total:  9h 58m | Avg:  6m 48s | Max: 39m 17s | Hits:  99%/2211  
🟩 cudacxx
  🟩 ClangCUDA18        Pass: 100%/4   | Total: 16m 03s | Avg:  4m 00s | Max:  4m 16s
  🟩 nvcc11.1           Pass: 100%/15  | Total:  1h 10m | Avg:  4m 43s | Max: 13m 56s | Hits:  99%/737   
  🟩 nvcc11.8           Pass: 100%/3   | Total: 15m 33s | Avg:  5m 11s | Max:  5m 20s
  🟩 nvcc12.5           Pass: 100%/4   | Total: 33m 46s | Avg:  8m 26s | Max:  8m 53s
  🟩 nvcc12.6           Pass: 100%/84  | Total:  9h 42m | Avg:  6m 56s | Max: 39m 17s | Hits:  99%/2211  
🟩 cudacxx_family
  🟩 ClangCUDA          Pass: 100%/4   | Total: 16m 03s | Avg:  4m 00s | Max:  4m 16s
  🟩 nvcc               Pass: 100%/106 | Total: 11h 42m | Avg:  6m 37s | Max: 39m 17s | Hits:  99%/2948  
🟩 cxx
  🟩 Clang9             Pass: 100%/6   | Total: 29m 06s | Avg:  4m 51s | Max:  5m 54s
  🟩 Clang10            Pass: 100%/3   | Total: 16m 56s | Avg:  5m 38s | Max:  6m 09s
  🟩 Clang11            Pass: 100%/4   | Total: 19m 24s | Avg:  4m 51s | Max:  5m 05s
  🟩 Clang12            Pass: 100%/4   | Total: 20m 02s | Avg:  5m 00s | Max:  5m 08s
  🟩 Clang13            Pass: 100%/4   | Total: 19m 07s | Avg:  4m 46s | Max:  4m 55s
  🟩 Clang14            Pass: 100%/4   | Total: 20m 02s | Avg:  5m 00s | Max:  5m 17s
  🟩 Clang15            Pass: 100%/4   | Total: 20m 23s | Avg:  5m 05s | Max:  5m 17s
  🟩 Clang16            Pass: 100%/4   | Total: 20m 20s | Avg:  5m 05s | Max:  5m 14s
  🟩 Clang17            Pass: 100%/4   | Total: 20m 16s | Avg:  5m 04s | Max:  5m 23s
  🟩 Clang18            Pass: 100%/11  | Total:  1h 37m | Avg:  8m 50s | Max: 39m 17s
  🟩 GCC6               Pass: 100%/2   | Total:  8m 05s | Avg:  4m 02s | Max:  4m 12s
  🟩 GCC7               Pass: 100%/6   | Total: 27m 04s | Avg:  4m 30s | Max:  5m 09s
  🟩 GCC8               Pass: 100%/6   | Total: 25m 57s | Avg:  4m 19s | Max:  4m 45s
  🟩 GCC9               Pass: 100%/6   | Total: 26m 01s | Avg:  4m 20s | Max:  4m 51s
  🟩 GCC10              Pass: 100%/4   | Total: 19m 54s | Avg:  4m 58s | Max:  5m 16s
  🟩 GCC11              Pass: 100%/7   | Total: 35m 28s | Avg:  5m 04s | Max:  5m 20s
  🟩 GCC12              Pass: 100%/4   | Total: 20m 59s | Avg:  5m 14s | Max:  5m 31s
  🟩 GCC13              Pass: 100%/16  | Total:  2h 54m | Avg: 10m 55s | Max: 28m 38s
  🟩 Intel2023.2.0      Pass: 100%/3   | Total: 17m 23s | Avg:  5m 47s | Max:  6m 13s
  🟩 MSVC14.16          Pass: 100%/1   | Total: 13m 56s | Avg: 13m 56s | Max: 13m 56s | Hits:  99%/737   
  🟩 MSVC14.29          Pass: 100%/2   | Total: 20m 43s | Avg: 10m 21s | Max: 10m 55s | Hits:  99%/1474  
  🟩 MSVC14.39          Pass: 100%/1   | Total: 11m 58s | Avg: 11m 58s | Max: 11m 58s | Hits:  99%/737   
  🟩 NVHPC24.7          Pass: 100%/4   | Total: 33m 46s | Avg:  8m 26s | Max:  8m 53s
🟩 cxx_family
  🟩 Clang              Pass: 100%/48  | Total:  4h 42m | Avg:  5m 53s | Max: 39m 17s
  🟩 GCC                Pass: 100%/51  | Total:  5h 38m | Avg:  6m 37s | Max: 28m 38s
  🟩 Intel              Pass: 100%/3   | Total: 17m 23s | Avg:  5m 47s | Max:  6m 13s
  🟩 MSVC               Pass: 100%/4   | Total: 46m 37s | Avg: 11m 39s | Max: 13m 56s | Hits:  99%/2948  
  🟩 NVHPC              Pass: 100%/4   | Total: 33m 46s | Avg:  8m 26s | Max:  8m 53s
🟩 gpu
  🟩 v100               Pass: 100%/110 | Total: 11h 58m | Avg:  6m 32s | Max: 39m 17s | Hits:  99%/2948  
🟩 jobs
  🟩 Build              Pass: 100%/102 | Total:  8h 49m | Avg:  5m 11s | Max: 13m 56s | Hits:  99%/2948  
  🟩 DeviceLaunch       Pass: 100%/1   | Total: 19m 19s | Avg: 19m 19s | Max: 19m 19s
  🟩 GraphCapture       Pass: 100%/1   | Total: 16m 42s | Avg: 16m 42s | Max: 16m 42s
  🟩 HostLaunch         Pass: 100%/3   | Total:  1h 09m | Avg: 23m 03s | Max: 28m 38s
  🟩 TestGPU            Pass: 100%/3   | Total:  1h 24m | Avg: 28m 12s | Max: 39m 17s
🟩 sm
  🟩 60;70;80;90        Pass: 100%/3   | Total: 15m 33s | Avg:  5m 11s | Max:  5m 20s
  🟩 90a                Pass: 100%/4   | Total: 15m 43s | Avg:  3m 55s | Max:  4m 02s
🟩 std
  🟩 11                 Pass: 100%/30  | Total:  2h 58m | Avg:  5m 56s | Max: 22m 04s
  🟩 14                 Pass: 100%/29  | Total:  2h 32m | Avg:  5m 16s | Max: 13m 56s | Hits:  99%/1474  
  🟩 17                 Pass: 100%/27  | Total:  2h 22m | Avg:  5m 17s | Max: 10m 55s | Hits:  99%/737   
  🟩 20                 Pass: 100%/24  | Total:  4h 05m | Avg: 10m 12s | Max: 39m 17s | Hits:  99%/737

🟩 thrust: Pass: 100%/109 | Total: 12h 14m | Avg: 6m 44s | Max: 21m 44s | Hits: 99%/13165

🟩 cpu
  🟩 amd64              Pass: 100%/101 | Total: 11h 37m | Avg:  6m 54s | Max: 21m 44s | Hits:  99%/13165 
  🟩 arm64              Pass: 100%/8   | Total: 37m 33s | Avg:  4m 41s | Max:  5m 05s
🟩 ctk
  🟩 11.1               Pass: 100%/15  | Total:  1h 20m | Avg:  5m 23s | Max: 18m 21s | Hits:  99%/2633  
  🟩 11.8               Pass: 100%/3   | Total: 17m 04s | Avg:  5m 41s | Max:  7m 00s
  🟩 12.5               Pass: 100%/4   | Total:  1h 12m | Avg: 18m 02s | Max: 19m 35s
  🟩 12.6               Pass: 100%/87  | Total:  9h 24m | Avg:  6m 29s | Max: 21m 44s | Hits:  99%/10532 
🟩 cudacxx
  🟩 ClangCUDA18        Pass: 100%/4   | Total: 20m 12s | Avg:  5m 03s | Max:  5m 11s
  🟩 nvcc11.1           Pass: 100%/15  | Total:  1h 20m | Avg:  5m 23s | Max: 18m 21s | Hits:  99%/2633  
  🟩 nvcc11.8           Pass: 100%/3   | Total: 17m 04s | Avg:  5m 41s | Max:  7m 00s
  🟩 nvcc12.5           Pass: 100%/4   | Total:  1h 12m | Avg: 18m 02s | Max: 19m 35s
  🟩 nvcc12.6           Pass: 100%/83  | Total:  9h 04m | Avg:  6m 33s | Max: 21m 44s | Hits:  99%/10532 
🟩 cudacxx_family
  🟩 ClangCUDA          Pass: 100%/4   | Total: 20m 12s | Avg:  5m 03s | Max:  5m 11s
  🟩 nvcc               Pass: 100%/105 | Total: 11h 54m | Avg:  6m 48s | Max: 21m 44s | Hits:  99%/13165 
🟩 cxx
  🟩 Clang9             Pass: 100%/6   | Total: 34m 03s | Avg:  5m 40s | Max:  6m 32s
  🟩 Clang10            Pass: 100%/3   | Total: 18m 58s | Avg:  6m 19s | Max:  6m 27s
  🟩 Clang11            Pass: 100%/4   | Total: 21m 00s | Avg:  5m 15s | Max:  5m 40s
  🟩 Clang12            Pass: 100%/4   | Total: 21m 33s | Avg:  5m 23s | Max:  5m 50s
  🟩 Clang13            Pass: 100%/4   | Total: 20m 36s | Avg:  5m 09s | Max:  5m 37s
  🟩 Clang14            Pass: 100%/4   | Total: 21m 46s | Avg:  5m 26s | Max:  5m 52s
  🟩 Clang15            Pass: 100%/4   | Total: 22m 04s | Avg:  5m 31s | Max:  5m 59s
  🟩 Clang16            Pass: 100%/4   | Total: 22m 06s | Avg:  5m 31s | Max:  5m 53s
  🟩 Clang17            Pass: 100%/4   | Total: 22m 57s | Avg:  5m 44s | Max:  6m 05s
  🟩 Clang18            Pass: 100%/11  | Total:  1h 10m | Avg:  6m 25s | Max: 19m 04s
  🟩 GCC6               Pass: 100%/2   | Total:  8m 19s | Avg:  4m 09s | Max:  4m 20s
  🟩 GCC7               Pass: 100%/6   | Total: 27m 48s | Avg:  4m 38s | Max:  5m 25s
  🟩 GCC8               Pass: 100%/6   | Total: 28m 04s | Avg:  4m 40s | Max:  5m 13s
  🟩 GCC9               Pass: 100%/6   | Total: 30m 27s | Avg:  5m 04s | Max:  6m 02s
  🟩 GCC10              Pass: 100%/4   | Total: 20m 55s | Avg:  5m 13s | Max:  5m 30s
  🟩 GCC11              Pass: 100%/7   | Total: 38m 24s | Avg:  5m 29s | Max:  7m 00s
  🟩 GCC12              Pass: 100%/4   | Total: 21m 45s | Avg:  5m 26s | Max:  5m 44s
  🟩 GCC13              Pass: 100%/14  | Total:  1h 41m | Avg:  7m 13s | Max: 20m 36s
  🟩 Intel2023.2.0      Pass: 100%/3   | Total: 21m 06s | Avg:  7m 02s | Max:  7m 17s
  🟩 MSVC14.16          Pass: 100%/1   | Total: 18m 21s | Avg: 18m 21s | Max: 18m 21s | Hits:  99%/2633  
  🟩 MSVC14.29          Pass: 100%/2   | Total: 31m 32s | Avg: 15m 46s | Max: 16m 38s | Hits:  99%/5266  
  🟩 MSVC14.39          Pass: 100%/2   | Total: 39m 06s | Avg: 19m 33s | Max: 21m 44s | Hits:  99%/5266  
  🟩 NVHPC24.7          Pass: 100%/4   | Total:  1h 12m | Avg: 18m 02s | Max: 19m 35s
🟩 cxx_family
  🟩 Clang              Pass: 100%/48  | Total:  4h 35m | Avg:  5m 44s | Max: 19m 04s
  🟩 GCC                Pass: 100%/49  | Total:  4h 36m | Avg:  5m 39s | Max: 20m 36s
  🟩 Intel              Pass: 100%/3   | Total: 21m 06s | Avg:  7m 02s | Max:  7m 17s
  🟩 MSVC               Pass: 100%/5   | Total:  1h 28m | Avg: 17m 47s | Max: 21m 44s | Hits:  99%/13165 
  🟩 NVHPC              Pass: 100%/4   | Total:  1h 12m | Avg: 18m 02s | Max: 19m 35s
🟩 gpu
  🟩 v100               Pass: 100%/109 | Total: 12h 14m | Avg:  6m 44s | Max: 21m 44s | Hits:  99%/13165 
🟩 jobs
  🟩 Build              Pass: 100%/102 | Total: 10h 33m | Avg:  6m 12s | Max: 19m 35s | Hits:  99%/10532 
  🟩 TestCPU            Pass: 100%/4   | Total: 45m 00s | Avg: 11m 15s | Max: 21m 44s | Hits:  99%/2633  
  🟩 TestGPU            Pass: 100%/3   | Total: 56m 11s | Avg: 18m 43s | Max: 20m 36s
🟩 sm
  🟩 60;70;80;90        Pass: 100%/3   | Total: 17m 04s | Avg:  5m 41s | Max:  7m 00s
  🟩 90a                Pass: 100%/4   | Total: 18m 09s | Avg:  4m 32s | Max:  4m 54s
🟩 std
  🟩 11                 Pass: 100%/30  | Total:  2h 57m | Avg:  5m 54s | Max: 20m 36s
  🟩 14                 Pass: 100%/29  | Total:  3h 05m | Avg:  6m 24s | Max: 18m 21s | Hits:  99%/5266  
  🟩 17                 Pass: 100%/27  | Total:  2h 54m | Avg:  6m 26s | Max: 18m 49s | Hits:  99%/2633  
  🟩 20                 Pass: 100%/23  | Total:  3h 17m | Avg:  8m 34s | Max: 21m 44s | Hits:  99%/5266

🟩 cudax: Pass: 100%/54 | Total: 4h 10m | Avg: 4m 38s | Max: 22m 04s | Hits: 89%/236

🟩 cpu
  🟩 amd64              Pass: 100%/50  | Total:  4h 00m | Avg:  4m 48s | Max: 22m 04s | Hits:  89%/236   
  🟩 arm64              Pass: 100%/4   | Total: 10m 24s | Avg:  2m 36s | Max:  2m 51s
🟩 ctk
  🟩 12.0               Pass: 100%/19  | Total:  1h 27m | Avg:  4m 37s | Max: 18m 24s | Hits:  89%/118   
  🟩 12.5               Pass: 100%/2   | Total:  9m 48s | Avg:  4m 54s | Max:  5m 16s
  🟩 12.6               Pass: 100%/33  | Total:  2h 32m | Avg:  4m 38s | Max: 22m 04s | Hits:  89%/118   
🟩 cudacxx
  🟩 nvcc12.0           Pass: 100%/19  | Total:  1h 27m | Avg:  4m 37s | Max: 18m 24s | Hits:  89%/118   
  🟩 nvcc12.5           Pass: 100%/2   | Total:  9m 48s | Avg:  4m 54s | Max:  5m 16s
  🟩 nvcc12.6           Pass: 100%/33  | Total:  2h 32m | Avg:  4m 38s | Max: 22m 04s | Hits:  89%/118   
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/54  | Total:  4h 10m | Avg:  4m 38s | Max: 22m 04s | Hits:  89%/236   
🟩 cxx
  🟩 Clang9             Pass: 100%/2   | Total:  6m 52s | Avg:  3m 26s | Max:  3m 46s
  🟩 Clang10            Pass: 100%/2   | Total:  6m 41s | Avg:  3m 20s | Max:  3m 45s
  🟩 Clang11            Pass: 100%/4   | Total: 11m 30s | Avg:  2m 52s | Max:  3m 10s
  🟩 Clang12            Pass: 100%/4   | Total: 11m 44s | Avg:  2m 56s | Max:  3m 07s
  🟩 Clang13            Pass: 100%/4   | Total: 12m 26s | Avg:  3m 06s | Max:  3m 21s
  🟩 Clang14            Pass: 100%/4   | Total: 27m 21s | Avg:  6m 50s | Max: 18m 24s
  🟩 Clang15            Pass: 100%/2   | Total:  6m 16s | Avg:  3m 08s | Max:  3m 09s
  🟩 Clang16            Pass: 100%/4   | Total: 11m 29s | Avg:  2m 52s | Max:  3m 10s
  🟩 Clang17            Pass: 100%/2   | Total:  6m 40s | Avg:  3m 20s | Max:  3m 23s
  🟩 Clang18            Pass: 100%/2   | Total: 20m 43s | Avg: 10m 21s | Max: 17m 37s
  🟩 GCC9               Pass: 100%/2   | Total:  5m 41s | Avg:  2m 50s | Max:  3m 06s
  🟩 GCC10              Pass: 100%/4   | Total: 11m 21s | Avg:  2m 50s | Max:  3m 08s
  🟩 GCC11              Pass: 100%/4   | Total: 11m 40s | Avg:  2m 55s | Max:  3m 11s
  🟩 GCC12              Pass: 100%/7   | Total:  1h 08m | Avg:  9m 46s | Max: 22m 04s
  🟩 GCC13              Pass: 100%/3   | Total:  7m 59s | Avg:  2m 39s | Max:  2m 54s
  🟩 MSVC14.36          Pass: 100%/1   | Total:  7m 15s | Avg:  7m 15s | Max:  7m 15s | Hits:  89%/118   
  🟩 MSVC14.39          Pass: 100%/1   | Total:  6m 36s | Avg:  6m 36s | Max:  6m 36s | Hits:  89%/118   
  🟩 NVHPC24.7          Pass: 100%/2   | Total:  9m 48s | Avg:  4m 54s | Max:  5m 16s
🟩 cxx_family
  🟩 Clang              Pass: 100%/30  | Total:  2h 01m | Avg:  4m 03s | Max: 18m 24s
  🟩 GCC                Pass: 100%/20  | Total:  1h 45m | Avg:  5m 15s | Max: 22m 04s
  🟩 MSVC               Pass: 100%/2   | Total: 13m 51s | Avg:  6m 55s | Max:  7m 15s | Hits:  89%/236   
  🟩 NVHPC              Pass: 100%/2   | Total:  9m 48s | Avg:  4m 54s | Max:  5m 16s
🟩 gpu
  🟩 v100               Pass: 100%/54  | Total:  4h 10m | Avg:  4m 38s | Max: 22m 04s | Hits:  89%/236   
🟩 jobs
  🟩 Build              Pass: 100%/49  | Total:  2h 37m | Avg:  3m 13s | Max:  7m 15s | Hits:  89%/236   
  🟩 Test               Pass: 100%/5   | Total:  1h 32m | Avg: 18m 31s | Max: 22m 04s
🟩 sm
  🟩 90                 Pass: 100%/1   | Total:  2m 40s | Avg:  2m 40s | Max:  2m 40s
  🟩 90a                Pass: 100%/1   | Total:  2m 54s | Avg:  2m 54s | Max:  2m 54s
🟩 std
  🟩 17                 Pass: 100%/29  | Total:  2h 03m | Avg:  4m 14s | Max: 22m 04s
  🟩 20                 Pass: 100%/25  | Total:  2h 07m | Avg:  5m 05s | Max: 18m 24s | Hits:  89%/236

🟩 cccl_c_parallel: Pass: 100%/2 | Total: 9m 12s | Avg: 4m 36s | Max: 7m 06s

🟩 cpu
  🟩 amd64              Pass: 100%/2   | Total:  9m 12s | Avg:  4m 36s | Max:  7m 06s
🟩 ctk
  🟩 12.6               Pass: 100%/2   | Total:  9m 12s | Avg:  4m 36s | Max:  7m 06s
🟩 cudacxx
  🟩 nvcc12.6           Pass: 100%/2   | Total:  9m 12s | Avg:  4m 36s | Max:  7m 06s
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/2   | Total:  9m 12s | Avg:  4m 36s | Max:  7m 06s
🟩 cxx
  🟩 GCC13              Pass: 100%/2   | Total:  9m 12s | Avg:  4m 36s | Max:  7m 06s
🟩 cxx_family
  🟩 GCC                Pass: 100%/2   | Total:  9m 12s | Avg:  4m 36s | Max:  7m 06s
🟩 gpu
  🟩 v100               Pass: 100%/2   | Total:  9m 12s | Avg:  4m 36s | Max:  7m 06s
🟩 jobs
  🟩 Build              Pass: 100%/1   | Total:  2m 06s | Avg:  2m 06s | Max:  2m 06s
  🟩 Test               Pass: 100%/1   | Total:  7m 06s | Avg:  7m 06s | Max:  7m 06s

🟩 python: Pass: 100%/1 | Total: 14m 59s | Avg: 14m 59s | Max: 14m 59s

🟩 cpu
  🟩 amd64              Pass: 100%/1   | Total: 14m 59s | Avg: 14m 59s | Max: 14m 59s
🟩 ctk
  🟩 12.6               Pass: 100%/1   | Total: 14m 59s | Avg: 14m 59s | Max: 14m 59s
🟩 cudacxx
  🟩 nvcc12.6           Pass: 100%/1   | Total: 14m 59s | Avg: 14m 59s | Max: 14m 59s
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/1   | Total: 14m 59s | Avg: 14m 59s | Max: 14m 59s
🟩 cxx
  🟩 GCC13              Pass: 100%/1   | Total: 14m 59s | Avg: 14m 59s | Max: 14m 59s
🟩 cxx_family
  🟩 GCC                Pass: 100%/1   | Total: 14m 59s | Avg: 14m 59s | Max: 14m 59s
🟩 gpu
  🟩 v100               Pass: 100%/1   | Total: 14m 59s | Avg: 14m 59s | Max: 14m 59s
🟩 jobs
  🟩 Test               Pass: 100%/1   | Total: 14m 59s | Avg: 14m 59s | Max: 14m 59s

👃 Inspect Changes

Modifications in project?

	Project
+/-	CCCL Infrastructure
	libcu++
	CUB
	Thrust
	CUDA Experimental
	python
	CCCL C Parallel Library
	Catch2Helper

Modifications in project or dependencies?

	Project
+/-	CCCL Infrastructure
+/-	libcu++
+/-	CUB
+/-	Thrust
+/-	CUDA Experimental
+/-	python
+/-	CCCL C Parallel Library
+/-	Catch2Helper

🏃‍ Runner counts (total jobs: 400)

#	Runner
326	`linux-amd64-cpu16`
31	`linux-amd64-gpu-v100-latest-1`
28	`linux-arm64-cpu16`
15	`windows-amd64-cpu16`

miscco · 2024-11-05T06:39:59Z

examples/cudax/simple_p2p/simple_p2p.cu

+std::vector<cudax::device_ref> find_peers_group()
+{
+  // Check possibility for peer access
+  printf("\nChecking GPU(s) for support of peer to peer memory access...\n");
+
+  std::vector<cudax::device_ref> peers;
+  for (auto& dev_i : cudax::devices)
+  {
+    for (auto& dev_j : cudax::devices)
+    {
+      if (dev_i != dev_j)
+      {
+        bool can_access_peer = dev_i.is_peer_accessible_from(dev_j);
+        // Save all peers of a first device found with a peer
+        if (can_access_peer && peers.size() == 0)
+        {
+          peers = dev_i.get_peers();
+          peers.insert(peers.begin(), dev_i);
+        }
+        printf("> Peer access from %s (GPU%d) -> %s (GPU%d) : %s\n",
+               dev_i.get_name().c_str(),
+               dev_i.get(),
+               dev_j.get_name().c_str(),
+               dev_j.get(),
+               can_access_peer ? "Yes" : "No");
+      }
+    }
+  }
+
+  return peers;
+}


I believe this could reuse device_ref::get_peers

It is using get_peers in line 75 to get the actual peers.

The original sample was printing out for every pair of devices if peer access is available, so I thought I should do it too. So I added the printing loop to show how you can access individual pairs, but also used get_peers as a way to construct the resulting vector to show that API as well.
But if this is too obscure, I could also get rid of the printing loop or separate it out

definitely separate it out. i'll also note that the printing loops are doing a cross-product, so this could be made linear with a cartesian_product view. but i don't think we have such a thing yet.

github-actions · 2024-11-05T20:31:41Z

🟨 CI finished in 51m 25s: Pass: 87%/54 | Total: 4h 41m | Avg: 5m 12s | Max: 18m 48s

🟨 cudax: Pass: 87%/54 | Total: 4h 41m | Avg: 5m 12s | Max: 18m 48s

🔍 cpu: amd64 🔍
  🔍 amd64              Pass:  86%/50  | Total:  4h 26m | Avg:  5m 19s | Max: 18m 48s
  🟩 arm64              Pass: 100%/4   | Total: 15m 14s | Avg:  3m 48s | Max:  4m 51s
🟨 ctk
  🟨 12.0               Pass:  84%/19  | Total:  1h 38m | Avg:  5m 11s | Max: 16m 33s
  🟩 12.5               Pass: 100%/2   | Total: 12m 01s | Avg:  6m 00s | Max:  6m 01s
  🟨 12.6               Pass:  87%/33  | Total:  2h 50m | Avg:  5m 10s | Max: 18m 48s
🟨 cudacxx
  🟨 nvcc12.0           Pass:  84%/19  | Total:  1h 38m | Avg:  5m 11s | Max: 16m 33s
  🟩 nvcc12.5           Pass: 100%/2   | Total: 12m 01s | Avg:  6m 00s | Max:  6m 01s
  🟨 nvcc12.6           Pass:  87%/33  | Total:  2h 50m | Avg:  5m 10s | Max: 18m 48s
🟨 cxx
  🟩 Clang9             Pass: 100%/2   | Total:  8m 00s | Avg:  4m 00s | Max:  4m 06s
  🟩 Clang10            Pass: 100%/2   | Total:  8m 32s | Avg:  4m 16s | Max:  4m 32s
  🟩 Clang11            Pass: 100%/4   | Total: 14m 55s | Avg:  3m 43s | Max:  3m 54s
  🟩 Clang12            Pass: 100%/4   | Total: 14m 24s | Avg:  3m 36s | Max:  3m 56s
  🟩 Clang13            Pass: 100%/4   | Total: 14m 25s | Avg:  3m 36s | Max:  3m 59s
  🟨 Clang14            Pass:  75%/4   | Total: 27m 31s | Avg:  6m 52s | Max: 16m 25s
  🟩 Clang15            Pass: 100%/2   | Total:  7m 53s | Avg:  3m 56s | Max:  4m 11s
  🟩 Clang16            Pass: 100%/4   | Total: 15m 38s | Avg:  3m 54s | Max:  4m 51s
  🟩 Clang17            Pass: 100%/2   | Total:  7m 36s | Avg:  3m 48s | Max:  3m 51s
  🟨 Clang18            Pass:  50%/2   | Total: 20m 51s | Avg: 10m 25s | Max: 17m 14s
  🟩 GCC9               Pass: 100%/2   | Total:  6m 41s | Avg:  3m 20s | Max:  3m 31s
  🟩 GCC10              Pass: 100%/4   | Total: 14m 23s | Avg:  3m 35s | Max:  3m 58s
  🟩 GCC11              Pass: 100%/4   | Total: 14m 06s | Avg:  3m 31s | Max:  3m 38s
  🟨 GCC12              Pass:  57%/7   | Total:  1h 08m | Avg:  9m 43s | Max: 18m 48s
  🟩 GCC13              Pass: 100%/3   | Total:  9m 49s | Avg:  3m 16s | Max:  3m 29s
  🟥 MSVC14.36          Pass:   0%/1   | Total:  8m 41s | Avg:  8m 41s | Max:  8m 41s
  🟥 MSVC14.39          Pass:   0%/1   | Total:  7m 56s | Avg:  7m 56s | Max:  7m 56s
  🟩 NVHPC24.7          Pass: 100%/2   | Total: 12m 01s | Avg:  6m 00s | Max:  6m 01s
🟨 cxx_family
  🟨 Clang              Pass:  93%/30  | Total:  2h 19m | Avg:  4m 39s | Max: 17m 14s
  🟨 GCC                Pass:  85%/20  | Total:  1h 53m | Avg:  5m 39s | Max: 18m 48s
  🟥 MSVC               Pass:   0%/2   | Total: 16m 37s | Avg:  8m 18s | Max:  8m 41s
  🟩 NVHPC              Pass: 100%/2   | Total: 12m 01s | Avg:  6m 00s | Max:  6m 01s
🟨 cudacxx_family
  🟨 nvcc               Pass:  87%/54  | Total:  4h 41m | Avg:  5m 12s | Max: 18m 48s
🟨 gpu
  🟨 v100               Pass:  87%/54  | Total:  4h 41m | Avg:  5m 12s | Max: 18m 48s
🟨 jobs
  🟨 Build              Pass:  95%/49  | Total:  3h 14m | Avg:  3m 57s | Max:  8m 41s
  🟥 Test               Pass:   0%/5   | Total:  1h 27m | Avg: 17m 29s | Max: 18m 48s
🟩 sm
  🟩 90                 Pass: 100%/1   | Total:  2m 49s | Avg:  2m 49s | Max:  2m 49s
  🟩 90a                Pass: 100%/1   | Total:  2m 52s | Avg:  2m 52s | Max:  2m 52s
🟨 std
  🟨 17                 Pass:  93%/29  | Total:  2h 17m | Avg:  4m 44s | Max: 18m 48s
  🟨 20                 Pass:  80%/25  | Total:  2h 23m | Avg:  5m 45s | Max: 18m 28s

👃 Inspect Changes

Modifications in project?

	Project
	CCCL Infrastructure
	libcu++
	CUB
	Thrust
+/-	CUDA Experimental
	python
	CCCL C Parallel Library
	Catch2Helper

Modifications in project or dependencies?

	Project
	CCCL Infrastructure
	libcu++
	CUB
	Thrust
+/-	CUDA Experimental
	python
	CCCL C Parallel Library
	Catch2Helper

🏃‍ Runner counts (total jobs: 54)

#	Runner
43	`linux-amd64-cpu16`
5	`linux-amd64-gpu-v100-latest-1`
4	`linux-arm64-cpu16`
2	`windows-amd64-cpu16`

github-actions · 2024-11-05T21:44:25Z

🟨 CI finished in 48m 26s: Pass: 96%/54 | Total: 4h 23m | Avg: 4m 52s | Max: 19m 52s

🟨 cudax: Pass: 96%/54 | Total: 4h 23m | Avg: 4m 52s | Max: 19m 52s

🔍 cpu: amd64 🔍
  🔍 amd64              Pass:  96%/50  | Total:  4h 11m | Avg:  5m 01s | Max: 19m 52s
  🟩 arm64              Pass: 100%/4   | Total: 11m 37s | Avg:  2m 54s | Max:  3m 16s
🚨 cxx_family: MSVC 🚨
  🟩 Clang              Pass: 100%/30  | Total:  2h 09m | Avg:  4m 19s | Max: 19m 52s
  🟩 GCC                Pass: 100%/20  | Total:  1h 48m | Avg:  5m 24s | Max: 19m 44s
  🔥 MSVC               Pass:   0%/2   | Total: 14m 23s | Avg:  7m 11s | Max:  7m 19s
  🟩 NVHPC              Pass: 100%/2   | Total: 10m 46s | Avg:  5m 23s | Max:  5m 27s
🔍 jobs: Build 🔍
  🔍 Build              Pass:  95%/49  | Total:  2h 47m | Avg:  3m 24s | Max:  7m 19s
  🟩 Test               Pass: 100%/5   | Total:  1h 35m | Avg: 19m 10s | Max: 19m 52s
🔍 std: 20 🔍
  🟩 17                 Pass: 100%/29  | Total:  2h 03m | Avg:  4m 16s | Max: 19m 44s
  🔍 20                 Pass:  92%/25  | Total:  2h 19m | Avg:  5m 33s | Max: 19m 52s
🟨 ctk
  🟨 12.0               Pass:  94%/19  | Total:  1h 31m | Avg:  4m 48s | Max: 19m 35s
  🟩 12.5               Pass: 100%/2   | Total: 10m 46s | Avg:  5m 23s | Max:  5m 27s
  🟨 12.6               Pass:  96%/33  | Total:  2h 41m | Avg:  4m 52s | Max: 19m 52s
🟨 cudacxx
  🟨 nvcc12.0           Pass:  94%/19  | Total:  1h 31m | Avg:  4m 48s | Max: 19m 35s
  🟩 nvcc12.5           Pass: 100%/2   | Total: 10m 46s | Avg:  5m 23s | Max:  5m 27s
  🟨 nvcc12.6           Pass:  96%/33  | Total:  2h 41m | Avg:  4m 52s | Max: 19m 52s
🟨 cxx
  🟩 Clang9             Pass: 100%/2   | Total:  7m 04s | Avg:  3m 32s | Max:  3m 51s
  🟩 Clang10            Pass: 100%/2   | Total:  6m 54s | Avg:  3m 27s | Max:  3m 43s
  🟩 Clang11            Pass: 100%/4   | Total: 12m 34s | Avg:  3m 08s | Max:  3m 19s
  🟩 Clang12            Pass: 100%/4   | Total: 12m 47s | Avg:  3m 11s | Max:  3m 26s
  🟩 Clang13            Pass: 100%/4   | Total: 12m 12s | Avg:  3m 03s | Max:  3m 11s
  🟩 Clang14            Pass: 100%/4   | Total: 28m 58s | Avg:  7m 14s | Max: 19m 35s
  🟩 Clang15            Pass: 100%/2   | Total:  6m 46s | Avg:  3m 23s | Max:  3m 25s
  🟩 Clang16            Pass: 100%/4   | Total: 12m 36s | Avg:  3m 09s | Max:  3m 27s
  🟩 Clang17            Pass: 100%/2   | Total:  6m 41s | Avg:  3m 20s | Max:  3m 35s
  🟩 Clang18            Pass: 100%/2   | Total: 23m 15s | Avg: 11m 37s | Max: 19m 52s
  🟩 GCC9               Pass: 100%/2   | Total:  6m 07s | Avg:  3m 03s | Max:  3m 09s
  🟩 GCC10              Pass: 100%/4   | Total: 12m 49s | Avg:  3m 12s | Max:  3m 24s
  🟩 GCC11              Pass: 100%/4   | Total: 12m 16s | Avg:  3m 04s | Max:  3m 24s
  🟩 GCC12              Pass: 100%/7   | Total:  1h 08m | Avg:  9m 48s | Max: 19m 44s
  🟩 GCC13              Pass: 100%/3   | Total:  8m 13s | Avg:  2m 44s | Max:  2m 58s
  🟥 MSVC14.36          Pass:   0%/1   | Total:  7m 04s | Avg:  7m 04s | Max:  7m 04s
  🟥 MSVC14.39          Pass:   0%/1   | Total:  7m 19s | Avg:  7m 19s | Max:  7m 19s
  🟩 NVHPC24.7          Pass: 100%/2   | Total: 10m 46s | Avg:  5m 23s | Max:  5m 27s
🟨 cudacxx_family
  🟨 nvcc               Pass:  96%/54  | Total:  4h 23m | Avg:  4m 52s | Max: 19m 52s
🟨 gpu
  🟨 v100               Pass:  96%/54  | Total:  4h 23m | Avg:  4m 52s | Max: 19m 52s
🟩 sm
  🟩 90                 Pass: 100%/1   | Total:  2m 33s | Avg:  2m 33s | Max:  2m 33s
  🟩 90a                Pass: 100%/1   | Total:  2m 33s | Avg:  2m 33s | Max:  2m 33s

👃 Inspect Changes

Modifications in project?

	Project
	CCCL Infrastructure
	libcu++
	CUB
	Thrust
+/-	CUDA Experimental
	python
	CCCL C Parallel Library
	Catch2Helper

Modifications in project or dependencies?

	Project
	CCCL Infrastructure
	libcu++
	CUB
	Thrust
+/-	CUDA Experimental
	python
	CCCL C Parallel Library
	Catch2Helper

🏃‍ Runner counts (total jobs: 54)

#	Runner
43	`linux-amd64-cpu16`
5	`linux-amd64-gpu-v100-latest-1`
4	`linux-arm64-cpu16`
2	`windows-amd64-cpu16`

github-actions · 2024-11-05T22:23:58Z

🟩 CI finished in 26m 31s: Pass: 100%/54 | Total: 4h 21m | Avg: 4m 50s | Max: 20m 57s | Hits: 89%/240

🟩 cudax: Pass: 100%/54 | Total: 4h 21m | Avg: 4m 50s | Max: 20m 57s | Hits: 89%/240

🟩 cpu
  🟩 amd64              Pass: 100%/50  | Total:  4h 09m | Avg:  4m 58s | Max: 20m 57s | Hits:  89%/240   
  🟩 arm64              Pass: 100%/4   | Total: 12m 31s | Avg:  3m 07s | Max:  3m 18s
🟩 ctk
  🟩 12.0               Pass: 100%/19  | Total:  1h 29m | Avg:  4m 41s | Max: 17m 51s | Hits:  89%/120   
  🟩 12.5               Pass: 100%/2   | Total: 10m 35s | Avg:  5m 17s | Max:  5m 39s
  🟩 12.6               Pass: 100%/33  | Total:  2h 41m | Avg:  4m 54s | Max: 20m 57s | Hits:  89%/120   
🟩 cudacxx
  🟩 nvcc12.0           Pass: 100%/19  | Total:  1h 29m | Avg:  4m 41s | Max: 17m 51s | Hits:  89%/120   
  🟩 nvcc12.5           Pass: 100%/2   | Total: 10m 35s | Avg:  5m 17s | Max:  5m 39s
  🟩 nvcc12.6           Pass: 100%/33  | Total:  2h 41m | Avg:  4m 54s | Max: 20m 57s | Hits:  89%/120   
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/54  | Total:  4h 21m | Avg:  4m 50s | Max: 20m 57s | Hits:  89%/240   
🟩 cxx
  🟩 Clang9             Pass: 100%/2   | Total:  6m 59s | Avg:  3m 29s | Max:  3m 57s
  🟩 Clang10            Pass: 100%/2   | Total:  7m 03s | Avg:  3m 31s | Max:  3m 51s
  🟩 Clang11            Pass: 100%/4   | Total: 12m 15s | Avg:  3m 03s | Max:  3m 17s
  🟩 Clang12            Pass: 100%/4   | Total: 12m 02s | Avg:  3m 00s | Max:  3m 12s
  🟩 Clang13            Pass: 100%/4   | Total: 11m 57s | Avg:  2m 59s | Max:  3m 07s
  🟩 Clang14            Pass: 100%/4   | Total: 26m 34s | Avg:  6m 38s | Max: 17m 05s
  🟩 Clang15            Pass: 100%/2   | Total:  6m 57s | Avg:  3m 28s | Max:  3m 32s
  🟩 Clang16            Pass: 100%/4   | Total: 12m 49s | Avg:  3m 12s | Max:  3m 18s
  🟩 Clang17            Pass: 100%/2   | Total:  6m 42s | Avg:  3m 21s | Max:  3m 24s
  🟩 Clang18            Pass: 100%/2   | Total: 24m 11s | Avg: 12m 05s | Max: 20m 51s
  🟩 GCC9               Pass: 100%/2   | Total:  5m 43s | Avg:  2m 51s | Max:  3m 02s
  🟩 GCC10              Pass: 100%/4   | Total: 12m 20s | Avg:  3m 05s | Max:  3m 08s
  🟩 GCC11              Pass: 100%/4   | Total: 12m 08s | Avg:  3m 02s | Max:  3m 18s
  🟩 GCC12              Pass: 100%/7   | Total:  1h 09m | Avg:  9m 52s | Max: 20m 57s
  🟩 GCC13              Pass: 100%/3   | Total:  8m 44s | Avg:  2m 54s | Max:  3m 15s
  🟩 MSVC14.36          Pass: 100%/1   | Total:  7m 37s | Avg:  7m 37s | Max:  7m 37s | Hits:  89%/120   
  🟩 MSVC14.39          Pass: 100%/1   | Total:  7m 55s | Avg:  7m 55s | Max:  7m 55s | Hits:  89%/120   
  🟩 NVHPC24.7          Pass: 100%/2   | Total: 10m 35s | Avg:  5m 17s | Max:  5m 39s
🟩 cxx_family
  🟩 Clang              Pass: 100%/30  | Total:  2h 07m | Avg:  4m 14s | Max: 20m 51s
  🟩 GCC                Pass: 100%/20  | Total:  1h 47m | Avg:  5m 23s | Max: 20m 57s
  🟩 MSVC               Pass: 100%/2   | Total: 15m 32s | Avg:  7m 46s | Max:  7m 55s | Hits:  89%/240   
  🟩 NVHPC              Pass: 100%/2   | Total: 10m 35s | Avg:  5m 17s | Max:  5m 39s
🟩 gpu
  🟩 v100               Pass: 100%/54  | Total:  4h 21m | Avg:  4m 50s | Max: 20m 57s | Hits:  89%/240   
🟩 jobs
  🟩 Build              Pass: 100%/49  | Total:  2h 46m | Avg:  3m 24s | Max:  7m 55s | Hits:  89%/240   
  🟩 Test               Pass: 100%/5   | Total:  1h 34m | Avg: 18m 59s | Max: 20m 57s
🟩 sm
  🟩 90                 Pass: 100%/1   | Total:  2m 38s | Avg:  2m 38s | Max:  2m 38s
  🟩 90a                Pass: 100%/1   | Total:  2m 41s | Avg:  2m 41s | Max:  2m 41s
🟩 std
  🟩 17                 Pass: 100%/29  | Total:  2h 05m | Avg:  4m 18s | Max: 20m 57s
  🟩 20                 Pass: 100%/25  | Total:  2h 16m | Avg:  5m 27s | Max: 20m 51s | Hits:  89%/240

👃 Inspect Changes

Modifications in project?

	Project
	CCCL Infrastructure
	libcu++
	CUB
	Thrust
+/-	CUDA Experimental
	python
	CCCL C Parallel Library
	Catch2Helper

Modifications in project or dependencies?

	Project
	CCCL Infrastructure
	libcu++
	CUB
	Thrust
+/-	CUDA Experimental
	python
	CCCL C Parallel Library
	Catch2Helper

🏃‍ Runner counts (total jobs: 54)

#	Runner
43	`linux-amd64-cpu16`
5	`linux-amd64-gpu-v100-latest-1`
4	`linux-arm64-cpu16`
2	`windows-amd64-cpu16`

github-actions · 2024-11-06T22:13:57Z

🟩 CI finished in 23m 05s: Pass: 100%/54 | Total: 4h 33m | Avg: 5m 04s | Max: 18m 03s | Hits: 80%/240

🟩 cudax: Pass: 100%/54 | Total: 4h 33m | Avg: 5m 04s | Max: 18m 03s | Hits: 80%/240

🟩 cpu
  🟩 amd64              Pass: 100%/50  | Total:  4h 19m | Avg:  5m 11s | Max: 18m 03s | Hits:  80%/240   
  🟩 arm64              Pass: 100%/4   | Total: 13m 53s | Avg:  3m 28s | Max:  3m 38s
🟩 ctk
  🟩 12.0               Pass: 100%/19  | Total:  1h 37m | Avg:  5m 09s | Max: 18m 03s | Hits:  80%/120   
  🟩 12.5               Pass: 100%/2   | Total: 11m 10s | Avg:  5m 35s | Max:  5m 38s
  🟩 12.6               Pass: 100%/33  | Total:  2h 44m | Avg:  4m 59s | Max: 17m 31s | Hits:  80%/120   
🟩 cudacxx
  🟩 nvcc12.0           Pass: 100%/19  | Total:  1h 37m | Avg:  5m 09s | Max: 18m 03s | Hits:  80%/120   
  🟩 nvcc12.5           Pass: 100%/2   | Total: 11m 10s | Avg:  5m 35s | Max:  5m 38s
  🟩 nvcc12.6           Pass: 100%/33  | Total:  2h 44m | Avg:  4m 59s | Max: 17m 31s | Hits:  80%/120   
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/54  | Total:  4h 33m | Avg:  5m 04s | Max: 18m 03s | Hits:  80%/240   
🟩 cxx
  🟩 Clang9             Pass: 100%/2   | Total:  7m 59s | Avg:  3m 59s | Max:  4m 16s
  🟩 Clang10            Pass: 100%/2   | Total:  7m 48s | Avg:  3m 54s | Max:  4m 07s
  🟩 Clang11            Pass: 100%/4   | Total: 13m 41s | Avg:  3m 25s | Max:  3m 31s
  🟩 Clang12            Pass: 100%/4   | Total: 13m 49s | Avg:  3m 27s | Max:  3m 32s
  🟩 Clang13            Pass: 100%/4   | Total: 14m 13s | Avg:  3m 33s | Max:  3m 41s
  🟩 Clang14            Pass: 100%/4   | Total: 26m 37s | Avg:  6m 39s | Max: 15m 17s
  🟩 Clang15            Pass: 100%/2   | Total:  7m 26s | Avg:  3m 43s | Max:  3m 51s
  🟩 Clang16            Pass: 100%/4   | Total: 14m 39s | Avg:  3m 39s | Max:  3m 59s
  🟩 Clang17            Pass: 100%/2   | Total:  7m 08s | Avg:  3m 34s | Max:  3m 40s
  🟩 Clang18            Pass: 100%/2   | Total: 20m 48s | Avg: 10m 24s | Max: 17m 18s
  🟩 GCC9               Pass: 100%/2   | Total:  7m 01s | Avg:  3m 30s | Max:  3m 38s
  🟩 GCC10              Pass: 100%/4   | Total: 14m 07s | Avg:  3m 31s | Max:  3m 40s
  🟩 GCC11              Pass: 100%/4   | Total: 13m 59s | Avg:  3m 29s | Max:  3m 40s
  🟩 GCC12              Pass: 100%/7   | Total:  1h 06m | Avg:  9m 34s | Max: 18m 03s
  🟩 GCC13              Pass: 100%/3   | Total:  9m 53s | Avg:  3m 17s | Max:  3m 27s
  🟩 MSVC14.36          Pass: 100%/1   | Total:  9m 01s | Avg:  9m 01s | Max:  9m 01s | Hits:  80%/120   
  🟩 MSVC14.39          Pass: 100%/1   | Total:  7m 31s | Avg:  7m 31s | Max:  7m 31s | Hits:  80%/120   
  🟩 NVHPC24.7          Pass: 100%/2   | Total: 11m 10s | Avg:  5m 35s | Max:  5m 38s
🟩 cxx_family
  🟩 Clang              Pass: 100%/30  | Total:  2h 14m | Avg:  4m 28s | Max: 17m 18s
  🟩 GCC                Pass: 100%/20  | Total:  1h 51m | Avg:  5m 35s | Max: 18m 03s
  🟩 MSVC               Pass: 100%/2   | Total: 16m 32s | Avg:  8m 16s | Max:  9m 01s | Hits:  80%/240   
  🟩 NVHPC              Pass: 100%/2   | Total: 11m 10s | Avg:  5m 35s | Max:  5m 38s
🟩 gpu
  🟩 v100               Pass: 100%/54  | Total:  4h 33m | Avg:  5m 04s | Max: 18m 03s | Hits:  80%/240   
🟩 jobs
  🟩 Build              Pass: 100%/49  | Total:  3h 08m | Avg:  3m 51s | Max:  9m 01s | Hits:  80%/240   
  🟩 Test               Pass: 100%/5   | Total:  1h 24m | Avg: 16m 58s | Max: 18m 03s
🟩 sm
  🟩 90                 Pass: 100%/1   | Total:  3m 01s | Avg:  3m 01s | Max:  3m 01s
  🟩 90a                Pass: 100%/1   | Total:  3m 06s | Avg:  3m 06s | Max:  3m 06s
🟩 std
  🟩 17                 Pass: 100%/29  | Total:  2h 13m | Avg:  4m 36s | Max: 18m 03s
  🟩 20                 Pass: 100%/25  | Total:  2h 20m | Avg:  5m 36s | Max: 17m 31s | Hits:  80%/240

👃 Inspect Changes

Modifications in project?

	Project
	CCCL Infrastructure
	libcu++
	CUB
	Thrust
+/-	CUDA Experimental
	python
	CCCL C Parallel Library
	Catch2Helper

Modifications in project or dependencies?

	Project
	CCCL Infrastructure
	libcu++
	CUB
	Thrust
+/-	CUDA Experimental
	python
	CCCL C Parallel Library
	Catch2Helper

🏃‍ Runner counts (total jobs: 54)

#	Runner
43	`linux-amd64-cpu16`
5	`linux-amd64-gpu-v100-latest-1`
4	`linux-arm64-cpu16`
2	`windows-amd64-cpu16`

* Add cuda::minimum and cuda::maximum

* Workaround non-copyable iterators * Use a named constant for SMEM * Cast to raw reference 2 * Fix passing non-copy-assignable iterators to transform_kernel via kernel_arg

* Add transform benchmark requiring a stable address * Make thrust::transform use cub::DeviceTransform * Introduces address stability detection and opt-in in libcu++ * Mark lambdas in Thrust BabelStream benchmark address oblivious * Optimize prefetch cub::DeviceTransform for small problems Fixes: NVIDIA#2263

… available (NVIDIA#2712) * Ensure that we only use the inline variable trait when it is actually available * Use the right define for internal traits

…VIDIA#2710) * Rename the type * Update tests * Rename async memory pool * Rename the tests * Change name in the docs * Generalise the memory_pool_properties name * Fix docs --------- Co-authored-by: Michael Schellenberger Costa <[email protected]>

github-actions · 2024-11-07T00:04:30Z

🟩 CI finished in 24m 57s: Pass: 100%/54 | Total: 4h 36m | Avg: 5m 07s | Max: 18m 52s | Hits: 78%/240

🟩 cudax: Pass: 100%/54 | Total: 4h 36m | Avg: 5m 07s | Max: 18m 52s | Hits: 78%/240

🟩 cpu
  🟩 amd64              Pass: 100%/50  | Total:  4h 23m | Avg:  5m 16s | Max: 18m 52s | Hits:  78%/240   
  🟩 arm64              Pass: 100%/4   | Total: 13m 29s | Avg:  3m 22s | Max:  3m 30s
🟩 ctk
  🟩 12.0               Pass: 100%/19  | Total:  1h 36m | Avg:  5m 05s | Max: 17m 27s | Hits:  78%/120   
  🟩 12.5               Pass: 100%/2   | Total: 12m 09s | Avg:  6m 04s | Max:  6m 16s
  🟩 12.6               Pass: 100%/33  | Total:  2h 47m | Avg:  5m 05s | Max: 18m 52s | Hits:  78%/120   
🟩 cudacxx
  🟩 nvcc12.0           Pass: 100%/19  | Total:  1h 36m | Avg:  5m 05s | Max: 17m 27s | Hits:  78%/120   
  🟩 nvcc12.5           Pass: 100%/2   | Total: 12m 09s | Avg:  6m 04s | Max:  6m 16s
  🟩 nvcc12.6           Pass: 100%/33  | Total:  2h 47m | Avg:  5m 05s | Max: 18m 52s | Hits:  78%/120   
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/54  | Total:  4h 36m | Avg:  5m 07s | Max: 18m 52s | Hits:  78%/240   
🟩 cxx
  🟩 Clang9             Pass: 100%/2   | Total:  8m 04s | Avg:  4m 02s | Max:  4m 25s
  🟩 Clang10            Pass: 100%/2   | Total:  8m 14s | Avg:  4m 07s | Max:  4m 22s
  🟩 Clang11            Pass: 100%/4   | Total: 14m 20s | Avg:  3m 35s | Max:  3m 43s
  🟩 Clang12            Pass: 100%/4   | Total: 14m 03s | Avg:  3m 30s | Max:  3m 49s
  🟩 Clang13            Pass: 100%/4   | Total: 14m 28s | Avg:  3m 37s | Max:  3m 52s
  🟩 Clang14            Pass: 100%/4   | Total: 28m 01s | Avg:  7m 00s | Max: 17m 27s
  🟩 Clang15            Pass: 100%/2   | Total:  7m 32s | Avg:  3m 46s | Max:  3m 54s
  🟩 Clang16            Pass: 100%/4   | Total: 14m 42s | Avg:  3m 40s | Max:  3m 59s
  🟩 Clang17            Pass: 100%/2   | Total:  7m 40s | Avg:  3m 50s | Max:  4m 01s
  🟩 Clang18            Pass: 100%/2   | Total: 20m 14s | Avg: 10m 07s | Max: 16m 39s
  🟩 GCC9               Pass: 100%/2   | Total:  6m 54s | Avg:  3m 27s | Max:  3m 28s
  🟩 GCC10              Pass: 100%/4   | Total: 14m 13s | Avg:  3m 33s | Max:  3m 40s
  🟩 GCC11              Pass: 100%/4   | Total: 13m 58s | Avg:  3m 29s | Max:  3m 43s
  🟩 GCC12              Pass: 100%/7   | Total:  1h 05m | Avg:  9m 24s | Max: 18m 52s
  🟩 GCC13              Pass: 100%/3   | Total:  9m 34s | Avg:  3m 11s | Max:  3m 29s
  🟩 MSVC14.36          Pass: 100%/1   | Total:  7m 57s | Avg:  7m 57s | Max:  7m 57s | Hits:  78%/120   
  🟩 MSVC14.39          Pass: 100%/1   | Total:  8m 56s | Avg:  8m 56s | Max:  8m 56s | Hits:  78%/120   
  🟩 NVHPC24.7          Pass: 100%/2   | Total: 12m 09s | Avg:  6m 04s | Max:  6m 16s
🟩 cxx_family
  🟩 Clang              Pass: 100%/30  | Total:  2h 17m | Avg:  4m 34s | Max: 17m 27s
  🟩 GCC                Pass: 100%/20  | Total:  1h 50m | Avg:  5m 31s | Max: 18m 52s
  🟩 MSVC               Pass: 100%/2   | Total: 16m 53s | Avg:  8m 26s | Max:  8m 56s | Hits:  78%/240   
  🟩 NVHPC              Pass: 100%/2   | Total: 12m 09s | Avg:  6m 04s | Max:  6m 16s
🟩 gpu
  🟩 v100               Pass: 100%/54  | Total:  4h 36m | Avg:  5m 07s | Max: 18m 52s | Hits:  78%/240   
🟩 jobs
  🟩 Build              Pass: 100%/49  | Total:  3h 11m | Avg:  3m 53s | Max:  8m 56s | Hits:  78%/240   
  🟩 Test               Pass: 100%/5   | Total:  1h 25m | Avg: 17m 10s | Max: 18m 52s
🟩 sm
  🟩 90                 Pass: 100%/1   | Total:  2m 54s | Avg:  2m 54s | Max:  2m 54s
  🟩 90a                Pass: 100%/1   | Total:  2m 55s | Avg:  2m 55s | Max:  2m 55s
🟩 std
  🟩 17                 Pass: 100%/29  | Total:  2h 12m | Avg:  4m 33s | Max: 16m 39s
  🟩 20                 Pass: 100%/25  | Total:  2h 24m | Avg:  5m 47s | Max: 18m 52s | Hits:  78%/240

👃 Inspect Changes

Modifications in project?

	Project
	CCCL Infrastructure
	libcu++
	CUB
	Thrust
+/-	CUDA Experimental
	python
	CCCL C Parallel Library
	Catch2Helper

Modifications in project or dependencies?

	Project
	CCCL Infrastructure
	libcu++
	CUB
	Thrust
+/-	CUDA Experimental
	python
	CCCL C Parallel Library
	Catch2Helper

🏃‍ Runner counts (total jobs: 54)

#	Runner
43	`linux-amd64-cpu16`
5	`linux-amd64-gpu-v100-latest-1`
4	`linux-arm64-cpu16`
2	`windows-amd64-cpu16`

* copy pasted sample * First draft * Kernel functor and some other things * Clean up and break up long main function * Needs launch fix * Switch to copy_bytes and cleanups * Missing include * Add exception print and waive value * Adjust copy count * Add license and switch benchmark streams * Remove a function left as a mistake * Update copyright date Co-authored-by: Eric Niebler <[email protected]> * Setup cudax examples. (NVIDIA#2697) * Move the sample to new location and fix warning * build fixes and 0 return code on waive * Some new MSVC errors * explicit cast * Rename enable/disable peer access and separate the sample loop * Add `cuda::minimum` and `cuda::maximum` (NVIDIA#2681) * Add cuda::minimum and cuda::maximum * Various fixes to cub::DeviceTransform (NVIDIA#2709) * Workaround non-copyable iterators * Use a named constant for SMEM * Cast to raw reference 2 * Fix passing non-copy-assignable iterators to transform_kernel via kernel_arg * Make `thrust::transform` use `cub::DeviceTransform` (NVIDIA#2389) * Add transform benchmark requiring a stable address * Make thrust::transform use cub::DeviceTransform * Introduces address stability detection and opt-in in libcu++ * Mark lambdas in Thrust BabelStream benchmark address oblivious * Optimize prefetch cub::DeviceTransform for small problems Fixes: NVIDIA#2263 * Ensure that we only use the inline variable trait when it is actually available (NVIDIA#2712) * Ensure that we only use the inline variable trait when it is actually available * Use the right define for internal traits * [CUDAX] Rename memory resource and memory pool from async to device (NVIDIA#2710) * Rename the type * Update tests * Rename async memory pool * Rename the tests * Change name in the docs * Generalise the memory_pool_properties name * Fix docs --------- Co-authored-by: Michael Schellenberger Costa <[email protected]> * Update memory resource name --------- Co-authored-by: Eric Niebler <[email protected]> Co-authored-by: Allison Piper <[email protected]> Co-authored-by: Jacob Faibussowitsch <[email protected]> Co-authored-by: Bernhard Manfred Gruber <[email protected]> Co-authored-by: Michael Schellenberger Costa <[email protected]>

pciolkosz requested review from a team as code owners November 4, 2024 17:57

pciolkosz requested review from wmaxey, fbusato and elstehle November 4, 2024 17:57

pciolkosz force-pushed the cudax_p2p_sample branch from 05d5cb1 to 494459e Compare November 4, 2024 18:06

pciolkosz added 15 commits November 4, 2024 10:07

copy pasted sample

eae1b06

WIP

5d7ad98

First draft

2a3060f

Fixes

795439b

More fixes

850f5ec

More fixes

bbc7d2e

More fixes

9ec90b6

Kernel functor and some other things

29d48b7

Clean up and break up long main function

4760c7d

Needs launch fix

836c512

Switch to copy_bytes and cleanups

824a568

Missing include

088dad2

Add exception print and waive value

3a813a3

Adjust copy count

8ffc7f7

Add license and switch benchmark streams

5174101

pciolkosz force-pushed the cudax_p2p_sample branch from 494459e to 5174101 Compare November 4, 2024 18:07

Remove a function left as a mistake

9d47842

ericniebler requested changes Nov 4, 2024

View reviewed changes

Update copyright date

a5f1e4a

Co-authored-by: Eric Niebler <[email protected]>

miscco reviewed Nov 5, 2024

View reviewed changes

alliepiper and others added 3 commits November 5, 2024 11:09

Setup cudax examples. (NVIDIA#2697)

fa570ad

Move the sample to new location and fix warning

197ed75

Merge branch 'main' into cudax_p2p_sample

3650705

pciolkosz added 2 commits November 5, 2024 12:34

build fixes and 0 return code on waive

f20190d

Some new MSVC errors

119b05c

explicit cast

02c94b9

Rename enable/disable peer access and separate the sample loop

baaff9b

Jacobfaib and others added 5 commits November 6, 2024 15:31

Add cuda::minimum and cuda::maximum (NVIDIA#2681)

ed5cf1f

* Add cuda::minimum and cuda::maximum

Various fixes to cub::DeviceTransform (NVIDIA#2709)

49c431c

* Workaround non-copyable iterators * Use a named constant for SMEM * Cast to raw reference 2 * Fix passing non-copy-assignable iterators to transform_kernel via kernel_arg

Ensure that we only use the inline variable trait when it is actually…

13961d0

… available (NVIDIA#2712) * Ensure that we only use the inline variable trait when it is actually available * Use the right define for internal traits

pciolkosz requested a review from a team as a code owner November 6, 2024 23:31

pciolkosz added 2 commits November 6, 2024 15:34

Update memory resource name

603f2aa

Merge branch 'main' into cudax_p2p_sample

76cd405

ericniebler approved these changes Nov 9, 2024

View reviewed changes

pciolkosz merged commit ad98303 into NVIDIA:main Nov 11, 2024
69 checks passed

[CUDAX] Add modernized simpleP2P sample #2696

[CUDAX] Add modernized simpleP2P sample #2696

Conversation

pciolkosz commented Nov 4, 2024 • edited Loading

github-actions bot commented Nov 4, 2024

🟨 cccl: Pass: 33%/6 | Total: 30m 31s | Avg: 5m 05s | Max: 5m 56s

🟩 libcudacxx: Pass: 100%/118 | Total: 23h 55m | Avg: 12m 09s | Max: 41m 59s | Hits: 67%/9480

🟩 cub: Pass: 100%/110 | Total: 13h 00m | Avg: 7m 05s | Max: 33m 21s | Hits: 99%/2948

🟩 thrust: Pass: 100%/109 | Total: 13h 02m | Avg: 7m 10s | Max: 30m 01s | Hits: 99%/13165

🟩 cudax: Pass: 100%/54 | Total: 4h 56m | Avg: 5m 29s | Max: 25m 05s | Hits: 88%/236

🟩 cccl_c_parallel: Pass: 100%/2 | Total: 9m 32s | Avg: 4m 46s | Max: 7m 30s

🟩 python: Pass: 100%/1 | Total: 15m 08s | Avg: 15m 08s | Max: 15m 08s

👃 Inspect Changes

Modifications in project?

Modifications in project or dependencies?

🏃‍ Runner counts (total jobs: 400)

ericniebler left a comment

Choose a reason for hiding this comment

ericniebler Nov 4, 2024

Choose a reason for hiding this comment

pciolkosz Nov 4, 2024

Choose a reason for hiding this comment

github-actions bot commented Nov 4, 2024

🟨 cccl: Pass: 33%/6 | Total: 29m 01s | Avg: 4m 50s | Max: 6m 35s

🟩 libcudacxx: Pass: 100%/118 | Total: 18h 31m | Avg: 9m 25s | Max: 44m 19s | Hits: 73%/9480

🟩 cub: Pass: 100%/110 | Total: 11h 58m | Avg: 6m 32s | Max: 39m 17s | Hits: 99%/2948

🟩 thrust: Pass: 100%/109 | Total: 12h 14m | Avg: 6m 44s | Max: 21m 44s | Hits: 99%/13165

🟩 cudax: Pass: 100%/54 | Total: 4h 10m | Avg: 4m 38s | Max: 22m 04s | Hits: 89%/236

🟩 cccl_c_parallel: Pass: 100%/2 | Total: 9m 12s | Avg: 4m 36s | Max: 7m 06s

🟩 python: Pass: 100%/1 | Total: 14m 59s | Avg: 14m 59s | Max: 14m 59s

👃 Inspect Changes

Modifications in project?

Modifications in project or dependencies?

🏃‍ Runner counts (total jobs: 400)

miscco Nov 5, 2024

Choose a reason for hiding this comment

pciolkosz Nov 5, 2024

Choose a reason for hiding this comment

ericniebler Nov 6, 2024

Choose a reason for hiding this comment

github-actions bot commented Nov 5, 2024

🟨 cudax: Pass: 87%/54 | Total: 4h 41m | Avg: 5m 12s | Max: 18m 48s

👃 Inspect Changes

Modifications in project?

Modifications in project or dependencies?

🏃‍ Runner counts (total jobs: 54)

github-actions bot commented Nov 5, 2024

🟨 cudax: Pass: 96%/54 | Total: 4h 23m | Avg: 4m 52s | Max: 19m 52s

👃 Inspect Changes

Modifications in project?

Modifications in project or dependencies?

🏃‍ Runner counts (total jobs: 54)

github-actions bot commented Nov 5, 2024

🟩 cudax: Pass: 100%/54 | Total: 4h 21m | Avg: 4m 50s | Max: 20m 57s | Hits: 89%/240

👃 Inspect Changes

Modifications in project?

Modifications in project or dependencies?

🏃‍ Runner counts (total jobs: 54)

github-actions bot commented Nov 6, 2024

🟩 cudax: Pass: 100%/54 | Total: 4h 33m | Avg: 5m 04s | Max: 18m 03s | Hits: 80%/240

👃 Inspect Changes

Modifications in project?

Modifications in project or dependencies?

🏃‍ Runner counts (total jobs: 54)

github-actions bot commented Nov 7, 2024

🟩 cudax: Pass: 100%/54 | Total: 4h 36m | Avg: 5m 07s | Max: 18m 52s | Hits: 78%/240

👃 Inspect Changes

Modifications in project?

Modifications in project or dependencies?

🏃‍ Runner counts (total jobs: 54)

pciolkosz commented Nov 4, 2024 •

edited

Loading