InternLM · HIT-cwh · Jun 12, 2024 · Jun 12, 2024 · Jun 12, 2024 · Jun 12, 2024
diff --git a/benchmark/README.md b/benchmark/README.md
@@ -0,0 +1,3 @@
+# 速度基准
+
+请参考 [速度基准文档](https://github.com/InternLM/xtuner/tree/main/docs/zh_cn/acceleration/benchmark.rst)
diff --git a/...b/llama2_70b_full_alpaca_enzh_128k_sp8.py → ...b/llama2_70b_full_alpaca_enzh_128k_sp8.py b/...b/llama2_70b_full_alpaca_enzh_128k_sp8.py → ...b/llama2_70b_full_alpaca_enzh_128k_sp8.py
diff --git a/.../llama2_70b_full_alpaca_enzh_256k_sp16.py → .../llama2_70b_full_alpaca_enzh_256k_sp16.py b/.../llama2_70b_full_alpaca_enzh_256k_sp16.py → .../llama2_70b_full_alpaca_enzh_256k_sp16.py
diff --git a/...0b/llama2_70b_full_alpaca_enzh_32k_sp4.py → ...0b/llama2_70b_full_alpaca_enzh_32k_sp4.py b/...0b/llama2_70b_full_alpaca_enzh_32k_sp4.py → ...0b/llama2_70b_full_alpaca_enzh_32k_sp4.py
diff --git a/...70b/llama2_70b_full_alpaca_enzh_8k_sp1.py → ...70b/llama2_70b_full_alpaca_enzh_8k_sp1.py b/...70b/llama2_70b_full_alpaca_enzh_8k_sp1.py → ...70b/llama2_70b_full_alpaca_enzh_8k_sp1.py
diff --git a/...7b/llama2_7b_full_alpaca_enzh_128k_sp8.py → ...7b/llama2_7b_full_alpaca_enzh_128k_sp8.py b/...7b/llama2_7b_full_alpaca_enzh_128k_sp8.py → ...7b/llama2_7b_full_alpaca_enzh_128k_sp8.py
diff --git a/..._7b/llama2_7b_full_alpaca_enzh_1M_sp16.py → ..._7b/llama2_7b_full_alpaca_enzh_1M_sp16.py b/..._7b/llama2_7b_full_alpaca_enzh_1M_sp16.py → ..._7b/llama2_7b_full_alpaca_enzh_1M_sp16.py
diff --git a/...7b/llama2_7b_full_alpaca_enzh_256k_sp8.py → ...7b/llama2_7b_full_alpaca_enzh_256k_sp8.py b/...7b/llama2_7b_full_alpaca_enzh_256k_sp8.py → ...7b/llama2_7b_full_alpaca_enzh_256k_sp8.py
diff --git a/..._7b/llama2_7b_full_alpaca_enzh_32k_sp1.py → ..._7b/llama2_7b_full_alpaca_enzh_32k_sp1.py b/..._7b/llama2_7b_full_alpaca_enzh_32k_sp1.py → ..._7b/llama2_7b_full_alpaca_enzh_32k_sp1.py
diff --git a/...2_7b/llama2_7b_full_alpaca_enzh_8k_sp1.py → ...2_7b/llama2_7b_full_alpaca_enzh_8k_sp1.py b/...2_7b/llama2_7b_full_alpaca_enzh_8k_sp1.py → ...2_7b/llama2_7b_full_alpaca_enzh_8k_sp1.py
diff --git a/.../yi_34b_200k_full_alpaca_enzh_128k_sp8.py → .../yi_34b_200k_full_alpaca_enzh_128k_sp8.py b/.../yi_34b_200k_full_alpaca_enzh_128k_sp8.py → .../yi_34b_200k_full_alpaca_enzh_128k_sp8.py
diff --git a/.../yi_34b_200k_full_alpaca_enzh_256k_sp8.py → .../yi_34b_200k_full_alpaca_enzh_256k_sp8.py b/.../yi_34b_200k_full_alpaca_enzh_256k_sp8.py → .../yi_34b_200k_full_alpaca_enzh_256k_sp8.py
diff --git a/...b/yi_34b_200k_full_alpaca_enzh_32k_sp2.py → ...b/yi_34b_200k_full_alpaca_enzh_32k_sp2.py b/...b/yi_34b_200k_full_alpaca_enzh_32k_sp2.py → ...b/yi_34b_200k_full_alpaca_enzh_32k_sp2.py
diff --git a/...4b/yi_34b_200k_full_alpaca_enzh_8k_sp1.py → ...4b/yi_34b_200k_full_alpaca_enzh_8k_sp1.py b/...4b/yi_34b_200k_full_alpaca_enzh_8k_sp1.py → ...4b/yi_34b_200k_full_alpaca_enzh_8k_sp1.py
diff --git a/docs/zh_cn/acceleration/benchmark.rst b/docs/zh_cn/acceleration/benchmark.rst
@@ -59,31 +59,31 @@
     - 8k
     - 3028.3
     - 185.3
-    - `llama2_70b_full_alpaca_enzh_8k_sp1.py <https://github.com/InternLM/xtuner/tree/main/xtuner/configs/llama_speed_benchmark/llama2_7b/llama2_7b_full_alpaca_enzh_8k_sp1.py>`_
+    - `llama2_70b_full_alpaca_enzh_8k_sp1.py <https://github.com/InternLM/xtuner/tree/main/benchmark/llama2_7b/llama2_7b_full_alpaca_enzh_8k_sp1.py>`_
   * - Llama2-7B
     - 8
     - 32k
     - 2234.2
     - 193.0
-    - `llama2_7b_full_alpaca_enzh_32k_sp1.py <https://github.com/InternLM/xtuner/tree/main/xtuner/configs/llama_speed_benchmark/llama2_7b/llama2_7b_full_alpaca_enzh_32k_sp1.py>`_
+    - `llama2_7b_full_alpaca_enzh_32k_sp1.py <https://github.com/InternLM/xtuner/tree/main/benchmark/llama2_7b/llama2_7b_full_alpaca_enzh_32k_sp1.py>`_
   * - Llama2-7B
     - 8
     - 128k
     - 948.6
     - 180.3
-    - `llama2_7b_full_alpaca_enzh_128k_sp8.py <https://github.com/InternLM/xtuner/tree/main/xtuner/configs/llama_speed_benchmark/llama2_7b/llama2_7b_full_alpaca_enzh_128k_sp8.py>`_
+    - `llama2_7b_full_alpaca_enzh_128k_sp8.py <https://github.com/InternLM/xtuner/tree/main/benchmark/llama2_7b/llama2_7b_full_alpaca_enzh_128k_sp8.py>`_
   * - Llama2-7B
     - 8
     - 256k
     - 540.1
     - 176.9
-    - `llama2_7b_full_alpaca_enzh_256k_sp8.py <https://github.com/InternLM/xtuner/tree/main/xtuner/configs/llama_speed_benchmark/llama2_7b/llama2_7b_full_alpaca_enzh_256k_sp8.py>`_
+    - `llama2_7b_full_alpaca_enzh_256k_sp8.py <https://github.com/InternLM/xtuner/tree/main/benchmark/llama2_7b/llama2_7b_full_alpaca_enzh_256k_sp8.py>`_
   * - Llama2-7B
     - 8
     - 1M
     - 133.6
     - 153.9
-    - `llama2_7b_full_alpaca_enzh_1M_sp16.py <https://github.com/InternLM/xtuner/tree/main/xtuner/configs/llama_speed_benchmark/llama2_7b/llama2_7b_full_alpaca_enzh_1M_sp16.py>`_
+    - `llama2_7b_full_alpaca_enzh_1M_sp16.py <https://github.com/InternLM/xtuner/tree/main/benchmark/llama2_7b/llama2_7b_full_alpaca_enzh_1M_sp16.py>`_
 
 .. list-table::
   :widths: 30 15 20 20 20 50
@@ -100,25 +100,25 @@
     - 8k
     - 485.1
     - 165.6
-    - `yi_34b_200k_full_alpaca_enzh_8k_sp1.py <https://github.com/InternLM/xtuner/tree/main/xtuner/configs/llama_speed_benchmark/yi_34b/yi_34b_200k_full_alpaca_enzh_8k_sp1.py>`_
+    - `yi_34b_200k_full_alpaca_enzh_8k_sp1.py <https://github.com/InternLM/xtuner/tree/main/benchmark/yi_34b/yi_34b_200k_full_alpaca_enzh_8k_sp1.py>`_
   * - Yi-34B-200K
     - 32
     - 32k
     - 491.5
     - 209.1
-    - `yi_34b_200k_full_alpaca_enzh_32k_sp2.py <https://github.com/InternLM/xtuner/tree/main/xtuner/configs/llama_speed_benchmark/yi_34b/yi_34b_200k_full_alpaca_enzh_32k_sp2.py>`_
+    - `yi_34b_200k_full_alpaca_enzh_32k_sp2.py <https://github.com/InternLM/xtuner/tree/main/benchmark/yi_34b/yi_34b_200k_full_alpaca_enzh_32k_sp2.py>`_
   * - Yi-34B-200K
     - 32
     - 128k
     - 251.1
     - 191.8
-    - `yi_34b_200k_full_alpaca_enzh_128k_sp8.py <https://github.com/InternLM/xtuner/tree/main/xtuner/configs/llama_speed_benchmark/yi_34b/yi_34b_200k_full_alpaca_enzh_128k_sp8.py>`_
+    - `yi_34b_200k_full_alpaca_enzh_128k_sp8.py <https://github.com/InternLM/xtuner/tree/main/benchmark/yi_34b/yi_34b_200k_full_alpaca_enzh_128k_sp8.py>`_
   * - Yi-34B-200K
     - 32
     - 256k
     - 119.7
     - 145.3
-    - `yi_34b_200k_full_alpaca_enzh_256k_sp8.py <https://github.com/InternLM/xtuner/tree/main/xtuner/configs/llama_speed_benchmark/yi_34b/yi_34b_200k_full_alpaca_enzh_256k_sp8.py>`_
+    - `yi_34b_200k_full_alpaca_enzh_256k_sp8.py <https://github.com/InternLM/xtuner/tree/main/benchmark/yi_34b/yi_34b_200k_full_alpaca_enzh_256k_sp8.py>`_
 
 .. list-table::
   :widths: 30 15 20 20 20 50
@@ -135,31 +135,31 @@
     - 8k
     - 216.8
     - 144.7
-    - `llama2_70b_full_alpaca_enzh_8k_sp1.py <https://github.com/InternLM/xtuner/tree/main/xtuner/configs/llama_speed_benchmark/llama2_70b/llama2_70b_full_alpaca_enzh_8k_sp1.py>`_
+    - `llama2_70b_full_alpaca_enzh_8k_sp1.py <https://github.com/InternLM/xtuner/tree/main/benchmark/llama2_70b/llama2_70b_full_alpaca_enzh_8k_sp1.py>`_
   * - Llama2-70B
     - 32
     - 32k
     - 300.9
     - 239.6
-    - `llama2_70b_full_alpaca_enzh_32k_sp4.py <https://github.com/InternLM/xtuner/tree/main/xtuner/configs/llama_speed_benchmark/llama2_70b/llama2_70b_full_alpaca_enzh_32k_sp4.py>`_
+    - `llama2_70b_full_alpaca_enzh_32k_sp4.py <https://github.com/InternLM/xtuner/tree/main/benchmark/llama2_70b/llama2_70b_full_alpaca_enzh_32k_sp4.py>`_
   * - Llama2-70B
     - 32
     - 128k
     - 144.7
     - 189.7
-    - `llama2_70b_full_alpaca_enzh_128k_sp8.py <https://github.com/InternLM/xtuner/tree/main/xtuner/configs/llama_speed_benchmark/llama2_70b/llama2_70b_full_alpaca_enzh_128k_sp8.py>`_
+    - `llama2_70b_full_alpaca_enzh_128k_sp8.py <https://github.com/InternLM/xtuner/tree/main/benchmark/llama2_70b/llama2_70b_full_alpaca_enzh_128k_sp8.py>`_
   * - Llama2-70B
     - 32
     - 256k
     - 63.8
     - 127.6
-    - `llama2_70b_full_alpaca_enzh_256k_sp16.py <https://github.com/InternLM/xtuner/tree/main/xtuner/configs/llama_speed_benchmark/llama2_70b/llama2_70b_full_alpaca_enzh_256k_sp16.py>`_
+    - `llama2_70b_full_alpaca_enzh_256k_sp16.py <https://github.com/InternLM/xtuner/tree/main/benchmark/llama2_70b/llama2_70b_full_alpaca_enzh_256k_sp16.py>`_
   * - Llama2-70B
     - 64
     - 1M
     - 21.8
     - 133.5
-    - `llama2_70b_full_alpaca_enzh_1M_sp64.py <https://github.com/InternLM/xtuner/tree/main/xtuner/configs/llama_speed_benchmark/llama2_70b/llama2_70b_full_alpaca_enzh_1M_sp64.py>`_
+    - `llama2_70b_full_alpaca_enzh_1M_sp64.py <https://github.com/InternLM/xtuner/tree/main/benchmark/llama2_70b/llama2_70b_full_alpaca_enzh_1M_sp64.py>`_
 
 .. note::
   所有实验都会将 Alpaca 数据集拼接为最大长度。由于 Alpaca 数据集所含

diff --git a/docs/zh_cn/acceleration/deepspeed.rst b/docs/zh_cn/acceleration/deepspeed.rst
@@ -100,4 +100,4 @@ XTuner 内置了五种 DeepSpeed ZeRO 配置：
     DeepSpeed Config 中的 ``gradient_clipping`` 会被 XTuner config 中的 ``optim_wrapper.clip_grad.max_norm`` 设置覆盖
 
 .. warning::
-    XTuner 会根据所使用的 GPU 架构自动选择 ``fp16`` 或 ``bf16`` 训练，不受
+    XTuner 会根据所使用的 GPU 架构自动选择 ``fp16`` 或 ``bf16`` 训练，不受 DeepSpeed 配置文件的控制