stanford-crfm · andyzorigin · Aug 12, 2023 · Aug 9, 2023 · Aug 10, 2023 · Aug 10, 2023
diff --git a/scripts/data_overlap/README.md b/scripts/data_overlap/README.md
@@ -24,13 +24,14 @@ This needs to be run from the data overlap directory; i.e. cd scripts/data_overl
 
 Usage:
 
-python [compute_data_overlap_metrics.py OR run_data_overlap_beam.py] --input-data <input_data> --scenario-data <scenario_data> --output-stats <output_stats> --input-format <input_format>
+python [compute_data_overlap_metrics.py OR run_data_overlap_beam.py] --input-data <input_data> --scenario-data <scenario_data> --output-stats <output_stats> --input-format <input_format> --output-ngrams <True/False>
 
 For instance, you can call this with The Pile, e.g. have:
     input_data  = 00.jsonl (download https://pile.eleuther.ai/)
     scenario_data = (example included with repo, but can use HELM to generate)
     output_stats = arbitrary output file name, e.g. "output_stats"
     input_format = the_pile
+    output_ngrams = output the ngrams that are overlapping in test set to a separate "{output_stats}_ngrams" file
 
 
 There are additional optional args:

diff --git a/scripts/data_overlap/common/arguments.py b/scripts/data_overlap/common/arguments.py
@@ -13,7 +13,7 @@ def get_data_overlap_args() -> Any:
         required=True,
         help="The format of your input file for your training data, e.g. raw, custom, the_pile",
     )
-    parser.add_argument("--output-ngrams", type=bool, default=False, help="Whether to output ngrams")
+    parser.add_argument("--output-ngrams", type=bool, default=True, help="Whether to output ngrams")
     parser.add_argument(
         "--tags",
         type=str,