Merge branch 'main' into jro_flu_antiviral_resistance_muts

theiagen · Nov 27, 2023 · 6aedb27 · 6aedb27
2 parents 17b7338 + 203ec3b
commit 6aedb27
Show file tree

Hide file tree

Showing 8 changed files with 512 additions and 60 deletions.
diff --git a/.dockstore.yml b/.dockstore.yml
@@ -50,6 +50,11 @@ workflows:
    primaryDescriptorPath: /workflows/theiacov/wf_theiacov_fasta.wdl
    testParameterFiles:
     - empty.json
+ - name: TheiaCoV_FASTA_Batch_PHB
+   subclass: WDL
+   primaryDescriptorPath: /workflows/theiacov/wf_theiacov_fasta_batch.wdl
+   testParameterFiles:
+    - empty.json
  - name: Mercury_Prep_N_Batch_PHB
    subclass: WDL
    primaryDescriptorPath: /workflows/submission/wf_mercury_prep_n_batch.wdl

diff --git a/tasks/assembly/task_irma.wdl b/tasks/assembly/task_irma.wdl
@@ -15,45 +15,52 @@ task irma {
   }
   command <<<
     date | tee DATE
+
     #capture reads as bash variables
     read1=~{read1}
-    if [[ "~{read2}" ]]; then
+    if [[ "~{read2}" ]]; then 
       read2=~{read2}
     fi
+
     # set cat command based on compression
     if [[ "~{read1}" == *".gz" ]] ; then
       cat_reads="zcat"
     else
       cat_reads="cat"
     fi
+
     # capture irma vesion
     IRMA | head -n1 | awk -F' ' '{ print "IRMA " $5 }' | tee VERSION
+
     # set config if needed
     if ~{keep_ref_deletions}; then 
       touch irma_config.sh
       echo 'DEL_TYPE="NNN"' >> irma_config.sh
       echo 'ALIGN_PROG="BLAT"' >> irma_config.sh
     fi
+
     # format reads, if needed
     read_header=$(${cat_reads} ~{read1} | head -n1)
     if ! [[ "${read_header}" =~ @(.+?)[_[:space:]][123]:.+ ]]; then
       echo "Read headers may lead to IRMA failure; reformatting to meet IRMA input requirements"
       sra_id=$(echo "~{read_basename}" | awk -F "_" '{ print $1 }')
       eval "${cat_reads} ~{read1}" | awk '{print (NR%4 == 1) ? "@'${sra_id}'-" ++i " 1:1" : $0}' | gzip -c > "${sra_id}-irmafix_R1.fastq.gz"
       read1="${sra_id}-irmafix_R1.fastq.gz"
-      if [[ "~{read2}" ]]; then
+      if [[ "~{read2}" ]]; then 
         eval "${cat_reads} ~{read2}" | awk '{print (NR%4 == 1) ? "@'${sra_id}'-" ++i " 2:2" : $0}' | gzip -c > "${sra_id}-irmafix_R2.fastq.gz"
         read2="${sra_id}-irmafix_R2.fastq.gz"
-      fi
+      fi     
     else
       echo "Read headers match IRMA formatting requirements"
     fi
+
     # set IRMA module depending on sequencing technology
     if [[ ~{seq_method} == "OXFORD_NANOPORE" ]]; then
       IRMA "FLU-minion" "${read1}" ~{samplename}
     else
       IRMA "FLU" "${read1}" "${read2}" ~{samplename}
     fi
+
     # capture IRMA type
     if compgen -G "~{samplename}/*fasta"; then
       echo "Type_"$(basename "$(echo "$(find ~{samplename}/*.fasta | head -n1)")" | cut -d_ -f1) > IRMA_TYPE
@@ -62,12 +69,14 @@ task irma {
     else
       echo "No IRMA assembly generated for flu type prediction" >> IRMA_TYPE
     fi
+
     # rename IRMA outputs
     for irma_out in ~{samplename}/*{.vcf,.fasta,.bam}; do
       new_name="~{samplename}_"$(basename "${irma_out}" | cut -d "_" -f2- )
       echo "New name: ${new_name}; irma_out: ${irma_out}"
       mv "${irma_out}" "${new_name}"
     done
+
     # capture type A subtype
     if compgen -G "~{samplename}_HA*.fasta"; then # check if HA segment exists
       if [[ "$(ls ~{samplename}_HA*.fasta)" == *"HA_H"* ]]; then # if so, grab H-type if one is identified in assembly header

diff --git a/tasks/taxon_id/task_krona.wdl b/tasks/taxon_id/task_krona.wdl
@@ -0,0 +1,33 @@
+version 1.0
+
+task krona {
+  input {
+    File kraken2_report
+    String samplename
+    String docker = "us-docker.pkg.dev/general-theiagen/biocontainers/krona:2.7.1--pl526_5"
+    Int memory = 8
+    Int cpu = 4
+  }
+  command <<<
+    # Get VERSION
+    ktImportTaxonomy 2>&1 | sed -n '/KronaTools /p' | sed 's/^.*KronaTools //; s/ - ktImportTaxonomy.*//' | tee VERSION
+
+    # Get taxonomy file 
+    ktUpdateTaxonomy.sh taxonomy
+
+    # Run krona with taxonomy on krakren report
+    ktImportTaxonomy -o ~{samplename}_krona.html ~{kraken2_report} -tax taxonomy
+  >>>
+  output {
+    String krona_version = read_string("VERSION")
+    String krona_docker = docker
+    File krona_html = "~{samplename}_krona.html"
+  }
+  runtime {
+      docker: "~{docker}"
+      memory: "~{memory} GB"
+      cpu: cpu
+      disks: "local-disk 100 SSD"
+      preemptible: 0
+  }
+}
diff --git a/tasks/utilities/task_theiacov_fasta_batch.wdl b/tasks/utilities/task_theiacov_fasta_batch.wdl
@@ -0,0 +1,225 @@
+version 1.0
+
+task sm_theiacov_fasta_wrangling { # the sm stands for supermassive
+  input {
+    String table_name
+    String workspace_name
+    String project_name
+    String bucket_name
+
+    Array[Pair[String, File]] sample_to_fasta
+    String organism = "sars-cov-2"
+
+    File? nextclade_tsv
+    File? nextclade_json
+    String? nextclade_docker
+    String? nextclade_version
+    String? nextclade_ds_tag
+
+    File? pango_lineage_report
+    String? pangolin_docker
+
+    String seq_platform
+    String assembly_method
+    String theiacov_fasta_analysis_date
+    String theiacov_fasta_version
+
+    Int disk_size = 100
+  }
+  command <<<
+    # convert the map into a JSON file for use in the python block
+    # example map: {ERR4439752.test: /mnt/miniwdl_task_container/work/_miniwdl_inputs/0/ERR4439752.ivar.consensus.fasta}
+    cp -v ~{write_json(sample_to_fasta)} sample_to_fasta.json
+
+    # check if nextclade json file exists
+    if [ -f ~{nextclade_json} ]; then
+      # this line splits into individual json files
+      jq -c '.results = (.results[] | [.]) ' ~{nextclade_json} | awk '{ print > "out" NR ".json"}'
+
+      # rename each individual json file with the sample name
+      for file in out*.json; do
+        samplename=$(jq -r '.results[].seqName' ${file})
+        cp -v ${file} ${samplename}.nextclade.json
+      done
+
+      # transfer all the json files to the bucket for access in Terra -- not sure if this works on Terra
+      gcloud storage cp -v *.nextclade.json gs://~{bucket_name}/theiacov_fasta_batch-~{theiacov_fasta_analysis_date}/nextclade_json/
+    fi
+
+    # check if pangolin lineage report file exists
+    if [ -f ~{pango_lineage_report} ]; then
+      # split the pangolin lineage report into individual csv files named by the taxon
+      awk 'BEGIN {FS=","} NR==1 {header=$0; next} {print header > $1".pangolin_report.csv" ; print $0 >> $1".pangolin_report.csv"}' ~{pango_lineage_report}
+
+      # transfer all pangolin lineage report files to the bucket for access in Terra
+      gcloud storage cp -v *pangolin_report.csv gs://~{bucket_name}/theiacov_fasta_batch-~{theiacov_fasta_analysis_date}/pangolin_report/
+    fi
+
+    echo "DEBUG: Now entering Python block to perform parsing of data for populating sample-level table"
+
+    python3 <<CODE 
+    import pandas as pd 
+    import numpy as np 
+    import json
+    import csv
+    import os 
+    import re
+    
+    # parse the map of sample names to fasta files
+    with open("sample_to_fasta.json") as map_file:
+      pair_list = json.load(map_file)
+
+      # reformat the array of pairs into a dictionary
+      sample_to_fasta = {}
+      for item in pair_list:
+        # left & right is the syntax for WDL pairs
+        key = item["left"]
+        value = item["right"]
+        sample_to_fasta[key] = value
+      
+      # fix assembly_name to be the basename of the fasta file
+      sample_to_assembly = {name:re.split("[.]", os.path.basename(assembly))[0] for name, assembly in sample_to_fasta.items()}
+
+    # create a sample-level table to upload to terra
+    upload_table = pd.DataFrame(sample_to_assembly.keys(), columns=["entity:~{table_name}_id"]).set_index("entity:~{table_name}_id")
+
+    # fill in the standard output parameters
+    upload_table["seq_platform"] = "~{seq_platform}"
+    upload_table["assembly_method"] = "~{assembly_method}"
+    upload_table["theiacov_fasta_analysis_date"] = "~{theiacov_fasta_analysis_date}"
+    upload_table["theiacov_fasta_version"] = "~{theiacov_fasta_version}"
+
+    # parse the NextClade output into an individual dataframe if a NextClade file exists
+    if os.path.exists("~{nextclade_tsv}"):
+      print("DEBUG: NEXTCLADE output TSV file identified; now parsing into a dataframe")
+      nextclade = pd.read_csv("~{nextclade_tsv}", delimiter='\t')
+
+      upload_table["nextclade_version"] = "~{nextclade_version}"
+      upload_table["nextclade_docker"] = "~{nextclade_docker}"
+      upload_table["nextclade_ds_tag"] = "~{nextclade_ds_tag}"
+      
+      for sample_name in sample_to_assembly.keys():        
+        assembly_name = sample_to_assembly[sample_name]
+
+        if nextclade["seqName"].str.contains(assembly_name).any():
+          if ("~{organism}" == "sars-cov-2"):
+            nc_clade = str(nextclade.loc[nextclade["seqName"] == assembly_name]["clade_nextstrain"].item())
+            who_clade = str(nextclade.loc[nextclade["seqName"] == assembly_name]["clade_who"].item())
+            if (nc_clade != who_clade) and (nc_clade != "") and (who_clade != "") and (who_clade != "nan"):
+              nc_clade = nc_clade + " (" + who_clade + ")"
+            if nc_clade == "":
+              nc_clade = "NA"
+          else:
+            nc_clade = str(nextclade.loc[nextclade["seqName"] == assembly_name]["clade"].item())
+            if nc_clade == "":
+              nc_clade = "NA"
+          # replace nextclade value in datatable if exists, if not, create it
+          if "nextclade_clade" not in upload_table.columns:
+            upload_table["nextclade_clade"] = ""
+          upload_table.at[sample_name, "nextclade_clade"] = nc_clade
+
+          # parse nextclade_aa_subs
+          nc_aa_subs = str(nextclade.loc[nextclade["seqName"] == assembly_name]["aaSubstitutions"].item())
+          if nc_aa_subs == "":
+            nc_aa_subs = "NA"
+          elif ("~{organism}" == "flu"):
+            print("FLU NOT SUPPORTED YET")
+          if "nextclade_aa_subs" not in upload_table.columns:
+            upload_table["nextclade_aa_subs"] = ""
+          upload_table.at[sample_name, "nextclade_aa_subs"] = nc_aa_subs
+
+          # parse nextclade_aa_dels
+          nc_aa_dels = str(nextclade.loc[nextclade["seqName"] == assembly_name]["aaDeletions"].item())
+          if nc_aa_dels == "":
+            nc_aa_dels = "NA"
+          if "nextclade_aa_dels" not in upload_table.columns:
+            upload_table["nextclade_aa_dels"] = ""
+          upload_table.at[sample_name, "nextclade_aa_dels"] = nc_aa_dels
+
+          # parse nextclade_lineage
+          try:
+            nc_lineage = str(nextclade.loc[nextclade["seqName"] == assembly_name]["lineage"].item())
+          except KeyError:
+            nc_lineage = ""
+          if nc_lineage == "":
+            nc_lineage = "NA"
+          if "nextclade_lineage" not in upload_table.columns:
+            upload_table["nextclade_lineage"] = ""
+          upload_table.at[sample_name, "nextclade_lineage"] = nc_lineage
+
+          # add path to individual json to table
+          if "nextclade_json" not in upload_table.columns:
+            upload_table["nextclade_json"] = ""
+          upload_table.at[sample_name, "nextclade_json"] = "gs://~{bucket_name}/theiacov_fasta_batch-~{theiacov_fasta_analysis_date}/nextclade_json/{}.nextclade.json".format(assembly_name)
+
+    # parse the Pangolin lineage report into an individual dataframe if a Pangolin report file exists
+    if os.path.exists("~{pango_lineage_report}"):
+      print("DEBUG: PANGOLIN lineage report file identified; now parsing into a dataframe")
+      pango_lineage_report = pd.read_csv("~{pango_lineage_report}", delimiter=',')
+      
+      upload_table["pangolin_docker"] = "~{pangolin_docker}"
+
+      pangolin_version = pango_lineage_report.loc[pango_lineage_report["taxon"] == assembly_name]["pangolin_version"].item()
+      version = pango_lineage_report.loc[pango_lineage_report["taxon"] == assembly_name]["version"].item()
+      upload_table["pangolin_version"] = "pangolin {}; {}".format(pangolin_version, version)
+
+      # iterate through results and add to table
+      for sample_name in sample_to_assembly.keys():        
+        assembly_name = sample_to_assembly[sample_name]
+ 
+        if pango_lineage_report["taxon"].str.contains(assembly_name).any():
+          # parse pango_lineage from pango lineage report
+          pango_lineage = pango_lineage_report.loc[pango_lineage_report["taxon"] == assembly_name]["lineage"].item()
+          if "pango_lineage" not in upload_table.columns:
+            upload_table["pango_lineage"] = ""
+          upload_table.at[sample_name, "pango_lineage"] = pango_lineage
+
+          # parse pango_lineage_expanded from pango lineage report
+          try:
+            pango_lineage_expanded = pango_lineage_report.loc[pango_lineage_report["taxon"] == assembly_name]["expanded_lineage"].item()
+          except KeyError:
+              pango_lineage_expanded = ""
+          if "pango_lineage_expanded" not in upload_table.columns:
+            upload_table["pango_lineage_expanded"] = ""
+          upload_table.at[sample_name, "pango_lineage_expanded"] = pango_lineage_expanded
+
+          # parse pangolin_conflicts from pango lineage report
+          pangolin_conflicts = pango_lineage_report.loc[pango_lineage_report["taxon"] == assembly_name]["conflict"].item()
+          if "pangolin_conflicts" not in upload_table.columns:
+            upload_table["pangolin_conflicts"] = ""
+          upload_table.at[sample_name, "pangolin_conflicts"] = pangolin_conflicts
+
+          # parse pangolin_notes from pango lineage report
+          pangolin_notes = pango_lineage_report.loc[pango_lineage_report["taxon"] == assembly_name]["note"].item()
+          if "pangolin_notes" not in upload_table.columns:
+            upload_table["pangolin_notes"] = ""
+          upload_table.at[sample_name, "pangolin_notes"] = pangolin_notes
+          
+          # add path to individual csv to table
+          if "pango_lineage_report" not in upload_table.columns:
+            upload_table["pango_lineage_report"] = ""
+          upload_table.at[sample_name, "pango_lineage_report"] = "gs://~{bucket_name}/theiacov_fasta_batch-~{theiacov_fasta_analysis_date}/pangolin_report/{}.pangolin_report.csv".format(assembly_name)
+
+    # to-do: add VADR outputs
+
+    upload_table.to_csv("terra-table-to-upload.tsv", sep='\t', index=True)
+
+    CODE
+
+    # upload results to terra databable 
+    python3 /scripts/import_large_tsv/import_large_tsv.py --project "~{project_name}" --workspace "~{workspace_name}" --tsv terra-table-to-upload.tsv
+
+    echo "DEBUG: upload to terra table complete"
+  >>>
+  output {
+    File terra_table = "terra-table-to-upload.tsv"
+  }
+  runtime {
+    docker: "us-docker.pkg.dev/general-theiagen/theiagen/terra-tools:2023-08-28-v4"
+    memory: "8 GB"
+    cpu: 4
+    disks:  "local-disk " + disk_size + " SSD"
+    disk: disk_size + " GB"
+    preemptible: 0
+  }
+}
diff --git a/tests/inputs/theiacov/wf_theiacov_ont.json b/tests/inputs/theiacov/wf_theiacov_ont.json
@@ -1,5 +1,5 @@
 {
     "theiacov_ont.samplename": "ont",
-    "theiacov_ont.demultiplexed_reads": "tests/data/theiacov/fastqs/ont/ont.fastq.gz",
+    "theiacov_ont.read1": "tests/data/theiacov/fastqs/ont/ont.fastq.gz",
     "theiacov_ont.primer_bed": "tests/data/theiacov/primers/artic-v3.primers.bed"
 }
diff --git a/workflows/metagenomics/wf_theiameta_illumina_pe.wdl b/workflows/metagenomics/wf_theiameta_illumina_pe.wdl
@@ -3,6 +3,7 @@ version 1.0
 import "../utilities/wf_read_QC_trim_pe.wdl" as read_qc_wf
 import "../utilities/wf_metaspades_assembly.wdl" as metaspades_assembly_wf
 import "../../tasks/taxon_id/task_kraken2.wdl" as kraken_task
+import "../../tasks/taxon_id/task_krona.wdl" as krona_task
 import "../../tasks/alignment/task_minimap2.wdl" as minimap2_task
 import "../../tasks/utilities/task_parse_mapping.wdl" as parse_mapping_task
 import "../../tasks/quality_control/task_quast.wdl" as quast_task
@@ -30,6 +31,11 @@ workflow theiameta_illumina_pe {
       classified_out = "classified#.fastq",
       unclassified_out = "unclassified#.fastq"
   }
+  call krona_task.krona as krona_raw {
+    input:
+      kraken2_report = kraken2_raw.kraken2_report,
+      samplename = samplename
+  }
   call read_qc_wf.read_QC_trim_pe as read_QC_trim {
       input:
         samplename = samplename,
@@ -47,6 +53,11 @@ workflow theiameta_illumina_pe {
       classified_out = "classified#.fastq",
       unclassified_out = "unclassified#.fastq"
   }
+  call krona_task.krona as krona_clean {
+    input:
+      kraken2_report = kraken2_clean.kraken2_report,
+      samplename = samplename
+  }
   call metaspades_assembly_wf.metaspades_assembly_pe as metaspades {
     input:
       read1 = read_QC_trim.read1_clean,
@@ -134,6 +145,11 @@ workflow theiameta_illumina_pe {
     Float kraken2_percent_human_raw = kraken2_raw.kraken2_percent_human
     File kraken2_report_clean = kraken2_clean.kraken2_report
     Float kraken2_percent_human_clean = kraken2_clean.kraken2_percent_human
+    # Krona outputs
+    String krona_version = krona_raw.krona_version
+    String krona_docker = krona_raw.krona_docker
+    File krona_html_raw = krona_raw.krona_html
+    File krona_html_clean = krona_clean.krona_html
     # Read QC - dehosting outputs
     File? read1_dehosted = read_QC_trim.read1_dehosted
     File? read2_dehosted = read_QC_trim.read2_dehosted