nextstrain · j23414 · Jul 29, 2024 · Jul 23, 2024 · Jul 23, 2024 · Jul 26, 2024
diff --git a/ingest/Snakefile b/ingest/Snakefile
@@ -8,6 +8,11 @@ workdir: workflow.current_basedir
 # Use default configuration values. Override with Snakemake's --configfile/--config options.
 configfile: "defaults/config.yaml"
 
+segments = ['L', 'S']
+
+wildcard_constraints:
+    segment = "|".join(segments)
+
 # This is the default rule that Snakemake will run when there are no specified targets.
 # The default output of the ingest workflow is usually the curated metadata and sequences.
 # Nextstrain-maintained ingest workflows will produce metadata files with the
@@ -17,8 +22,9 @@ configfile: "defaults/config.yaml"
 # TODO: Add link to centralized docs on standard Nextstrain metadata fields
 rule all:
     input:
-        "results/sequences.fasta",
-        "results/metadata.tsv",
+        sequences=expand("results/sequences_{segment}.fasta", segment=segments),
+        metadata=expand("results/metadata_{segment}.tsv", segment=segments),
+        metadata_all="results/metadata_all.tsv",
 
 
 # Note that only PATHOGEN-level customizations should be added to these
@@ -28,12 +34,13 @@ rule all:
 # by build-specific rules.
 include: "rules/fetch_from_ncbi.smk"
 include: "rules/curate.smk"
+include: "rules/nextclade.smk"
 
 rule create_final_metadata:
     input:
         metadata="data/subset_metadata.tsv"
     output:
-        metadata="results/metadata.tsv"
+        metadata="results/metadata_all.tsv"
     shell:
         """
         mv {input.metadata} {output.metadata}

diff --git a/ingest/build-configs/nextstrain-automation/config.yaml b/ingest/build-configs/nextstrain-automation/config.yaml
@@ -17,5 +17,9 @@ s3_dst: "s3://nextstrain-data/files/workflows/lassa"
 # Mapping of files to upload
 files_to_upload:
   ncbi.ndjson.zst: data/ncbi.ndjson
-  metadata.tsv.zst: results/metadata.tsv
-  sequences.fasta.zst: results/sequences.fasta
+  metadata_all.tsv.zst: results/metadata_all.tsv
+  sequences_all.fasta.zst: results/sequences_all.fasta
+  metadata_L.tsv.zst: results/metadata_L.tsv
+  sequences_L.fasta.zst: results/sequences_L.fasta
+  metadata_S.tsv.zst: results/metadata_S.tsv
+  sequences_S.fasta.zst: results/sequences_S.fasta
diff --git a/ingest/defaults/config.yaml b/ingest/defaults/config.yaml
@@ -116,3 +116,7 @@ curate:
     "abbr_authors",
     "institution",
   ]
+
+nextclade:
+  segment_reference: "../shared/lassa_{segment}.fasta"
+  min_seed_cover: 0.01
diff --git a/ingest/rules/curate.smk b/ingest/rules/curate.smk
@@ -62,7 +62,7 @@ rule curate:
         annotations=config["curate"]["annotations"],
     output:
         metadata="data/all_metadata.tsv",
-        sequences="results/sequences.fasta",
+        sequences="results/sequences_all.fasta",
     log:
         "logs/curate.txt",
     benchmark:

diff --git a/ingest/rules/nextclade.smk b/ingest/rules/nextclade.smk
@@ -0,0 +1,54 @@
+"""
+This part of the workflow handles running Nextclade on the curated metadata
+and sequences to split the sequences into L and S segments.
+
+REQUIRED INPUTS:
+
+    metadata    = data/subset_metadata.tsv
+    sequences   = "results/sequences_all.fasta"
+
+OUTPUTS:
+
+    metadata        = results/metadata_{segment}.tsv
+    sequences       = results/sequences_{segment}.fasta
+
+See Nextclade docs for more details on usage, inputs, and outputs if you would
+like to customize the rules:
+https://docs.nextstrain.org/projects/nextclade/page/user/nextclade-cli.html
+"""
+
+rule run_nextclade_to_identify_segment:
+    input:
+        metadata = "data/subset_metadata.tsv",
+        sequences = "results/sequences_all.fasta",
+        segment_reference = config["nextclade"]["segment_reference"],
+    output:
+        sequences = "results/sequences_{segment}.fasta",
+    params:
+        min_seed_cover = config["nextclade"]["min_seed_cover"],
+    shell:
+        """
+        nextclade run \
+            --input-ref {input.segment_reference} \
+            --output-fasta {output.sequences} \
+            --min-seed-cover {params.min_seed_cover} \
+            --silent \
+            {input.sequences}
+        """
+
+rule subset_metadata_by_segment:
+    input:
+        metadata = "data/subset_metadata.tsv",
+        sequences = "results/sequences_{segment}.fasta",
+    output:
+        metadata = "results/metadata_{segment}.tsv",
+    params:
+        strain_id_field = config["curate"]["output_id_field"],
+    shell:
+        """
+        augur filter \
+            --sequences {input.sequences} \
+            --metadata {input.metadata} \
+            --metadata-id-columns {params.strain_id_field} \
+            --output-metadata {output.metadata}
+        """