ichorCNA changed chrom input for R too

LCR-BCCRC · May 4, 2021 · ad9c362 · ad9c362
2 parents 0466b04 + c3bed01
commit ad9c362
Show file tree

Hide file tree

Showing 262 changed files with 548,858 additions and 364 deletions.
diff --git a/.github/PULL_REQUEST_TEMPLATE.md b/.github/PULL_REQUEST_TEMPLATE.md
@@ -24,6 +24,8 @@
 
 - [ ] I updated the `default.yaml` configuration file to provide default values for each rule in the module snakefile.
 
+- [ ] I did not set any global wildcard constraints. Any/all wildcard constraints are set on a per-rule basis. 
+
 - [ ] I ensured that all symbolic links are relative and self-contained (_i.e._ do not point outside of the repository).
 
 - [ ] I replaced every value that should (or might need to) be updated in the default configuration file with `__UPDATE__`.

diff --git a/.gitignore b/.gitignore
@@ -31,10 +31,12 @@ MANIFEST
 
 # Files creates when testing the demo project or workflows
 .snakemake/
-/demo/results/
-/demo/reference
-/demo/scratch/
-/demo/data/*bam
+demo/results
+demo/reference
+demo/scratch
+demo/data/*bam
+demo/results_archive
+demo/scratch_archive
 
 
 # Ignore example snakefiles
@@ -43,3 +45,4 @@ MANIFEST
 # Ignore sphinx builds
 /docs/build
 /docs/source/_build
+demo/run_clc.sh
diff --git a/demo/Snakefile b/demo/Snakefile
@@ -3,10 +3,10 @@
 
 ##### SETUP #####
 
-
 import oncopipe as op
 
 SAMPLES = op.load_samples("data/samples.tsv")
+CAPTURE = op.filter_samples(SAMPLES, seq_type = "capture")
 
 
 ##### REFERENCE_FILES WORKFLOW #####
@@ -25,21 +25,24 @@ subworkflow reference_files:
 
 
 # Load module-specific configuration
-configfile: "../modules/salmon/1.0/config/default.yaml"
-configfile: "../modules/bam2fastq/1.1/config/default.yaml"
-configfile: "../modules/star/1.3/config/default.yaml"
+configfile: "../modules/utils/2.1/config/default.yaml"
+configfile: "../modules/picard_qc/1.0/config/default.yaml"
+configfile: "../modules/salmon/1.1/config/default.yaml"
+configfile: "../modules/bam2fastq/1.2/config/default.yaml"
+configfile: "../modules/star/1.4/config/default.yaml"
 configfile: "../modules/manta/2.3/config/default.yaml"
-configfile: "../modules/vcf2maf/1.0/config/default.yaml"
-configfile: "../modules/gridss/1.0/config/default.yaml"
+configfile: "../modules/gridss/1.1/config/default.yaml"
+configfile: "../modules/vcf2maf/1.2/config/default.yaml"
 configfile: "../modules/sequenza/1.4/config/default.yaml"
 configfile: "../modules/strelka/1.1/config/default.yaml"
-configfile: "../modules/utils/2.0/config/default.yaml"
-configfile: "../modules/bwa_mem/1.0/config/default.yaml"
-configfile: "../modules/liftover/1.0/config/default.yaml"
+configfile: "../modules/bwa_mem/1.1/config/default.yaml"
 configfile: "../modules/controlfreec/1.1/config/default.yaml"
+configfile: "../modules/lofreq/1.0/config/default.yaml"
+configfile: "../modules/starfish/2.0/config/default.yaml"
+configfile: "../modules/sage/1.0/config/default.yaml"
+configfile: "../modules/slms_3/1.0/config/default.yaml"
 configfile: "../modules/ichorcna/1.0/config/default.yaml"
 
-
 # Load project-specific config, which includes the shared 
 # configuration and some module-specific config updates
 configfile: "config.yaml"
@@ -50,40 +53,51 @@ configfile: "config.yaml"
 
 # Use all samples as a default sample list for each module
 config["lcr-modules"]["_shared"]["samples"] = SAMPLES
-
+config["lcr-modules"]["starfish"]["samples"] = CAPTURE
 
 ##### MODULE SNAKEFILES #####
 
 
 # Load module-specific snakefiles
-include: "../modules/gridss/1.0/gridss.smk"
-include: "../modules/salmon/1.0/salmon.smk"
-include: "../modules/bam2fastq/1.1/bam2fastq.smk"
-include: "../modules/star/1.3/star.smk"
+
+include: "../modules/slms_3/1.0/slms_3.smk"
+include: "../modules/utils/2.1/utils.smk"
+include: "../modules/picard_qc/1.0/picard_qc.smk"
+include: "../modules/salmon/1.1/salmon.smk"
+include: "../modules/star/1.4/star.smk"
 include: "../modules/manta/2.3/manta.smk"
-include: "../modules/vcf2maf/1.0/vcf2maf.smk"
+include: "../modules/vcf2maf/1.2/vcf2maf.smk"
 include: "../modules/sequenza/1.4/sequenza.smk"
 include: "../modules/strelka/1.1/strelka.smk"
-include: "../modules/utils/2.0/utils.smk"
-include: "../modules/bwa_mem/1.0/bwa_mem.smk"
-include: "../modules/liftover/1.0/liftover.smk"
+include: "../modules/bwa_mem/1.1/bwa_mem.smk"
+include: "../modules/gridss/1.1/gridss.smk"
+include: "../modules/bam2fastq/1.2/bam2fastq.smk"
 include: "../modules/controlfreec/1.1/controlfreec.smk"
+include: "../modules/lofreq/1.0/lofreq.smk"
+include: "../modules/starfish/2.0/starfish.smk"
+include: "../modules/sage/1.0/sage.smk"
 include: "../modules/ichorcna/1.0/ichorcna.smk"
 
-
 ##### TARGETS ######
 
 rule all:
     input:
-        rules._gridss_all.input,
+        rules._picard_qc_all.input,
         rules._salmon_all.input,
         rules._bam2fastq_all.input,
         rules._star_all.input,
         rules._manta_all.input,
         rules._sequenza_all.input,
+        rules._lofreq_all.input,
         rules._strelka_all.input,
         rules._bwa_mem_all.input,
         rules._liftover_all.input,
         rules._controlfreec_all.input,
+        rules._gridss_all.input,
+        rules._controlfreec_all.input,
+        rules._starfish_all.input,
+        rules._vcf2maf_all.input,
+        rules._sage_all.input, 
+        rules._slms_3_all.input,
         rules._ichorcna_all.input
-
+
diff --git a/demo/config.yaml b/demo/config.yaml
@@ -2,24 +2,28 @@ lcr-modules:
 
     _shared:
         lcr-modules: "../"
-        lcr-scripts: "../../lcr-scripts"
+        lcr-scripts: "../../lcr-scripts/"
         root_output_dir: "results/"
         scratch_directory: "scratch/"
         unmatched_normal_ids:
             capture--grch37: "TCRBOA7-N-WEX"
 
+    slms_3: 
+        inputs: 
+            sample_bam: "data/{sample_id}.bam"
+            sample_bai: "data/{sample_id}.bam.bai"
+
+
     bam2fastq:
         inputs:
             sample_bam: "data/{sample_id}.bam"
-        temp_outputs: True # fastq outputs will be temporary
+        temp_outputs: False # fastq outputs will be temporary
 
     star:
         inputs:
-            sample_fastq_1: "data/{sample_id}.read1.fastq.gz"
-            sample_fastq_2: "data/{sample_id}.read2.fastq.gz"
-        reference_params:
-            star_overhang: "99"
-        scratch_subdirectories: ["star", "sort_bam", "mark_dups"]
+            sample_fastq_1: "results/bam2fastq-1.2/99-outputs/{seq_type}/{sample_id}.read1.fastq.gz"
+            sample_fastq_2: "results/bam2fastq-1.2/99-outputs/{seq_type}/{sample_id}.read2.fastq.gz"
+        scratch_subdirectories: []
 
     manta:
         inputs:
@@ -30,20 +34,62 @@ lcr-modules:
         inputs:
             sample_fastq_1: "data/{sample_id}.read1.fastq.gz"
             sample_fastq_2: "data/{sample_id}.read2.fastq.gz"
-    
+
     vcf2maf:
+        dirs:
+            _parent: "results/sage-1.0_vcf2maf-1.2"
         inputs:
             vep_cache: "reference/vep_caches/"
+            sample_vcf_gz: "results/sage-1.0/99-outputs/combined/{seq_type}--{genome_build}/{tumour_id}--{normal_id}--{pair_status}.{base_name}.vcf.gz"
+            convert_coord: "{SCRIPTSDIR}/crossmap/1.0/convert_maf_coords.sh"
+        vcf_base_name: "sage.combined"
+        options:
+            vcf2maf: "--filter-vcf 0 --vcf-tumor-id {tumour_id} --vcf-normal-id {normal_id}"
+            species: "homo_sapiens"
+        conda_envs:
+            vcf2maf: "{MODSDIR}/envs/vcf2maf-1.6.18.yaml"
+            crossmap: "{SCRIPTSDIR}/crossmap/1.0/convert_maf_coords.yaml"
+        # here you can specify path to txt file with a list of custom ENST IDs that override canonical selection
+        # it will be parsed to --custom-enst flag of vcf2maf
+        # if no non-canonical transcript IDs to be included, leave switches empty
+        # This is just an example of how to include the list of custom IDs
+        switches:
+            custom_enst:
+              hg38: ""
+              grch37: "data/custom_enst.txt"
+              hs37d5: ""
+        resources:
+            vcf2maf:
+                mem_mb: 12000
+                vcf: 1
+            crossmap:
+                mem_mb: 12000
+
 
     salmon:
         inputs:
             sample_fastq_1: "data/{sample_id}.read1.fastq.gz"
             sample_fastq_2: "data/{sample_id}.read2.fastq.gz"
+        transcriptome:
+            quant_to: "hg38"
 
     sequenza:
         inputs:
             sample_bam: "data/{sample_id}.bam"
             sample_bai: "data/{sample_id}.bam.bai"
+        scratch_subdirectories: []
+
+    lofreq:
+        inputs:
+            sample_bam: "data/{sample_id}.bam"
+            sample_bai: "data/{sample_id}.bam.bai"
+            lofreq_filter: "{MODSDIR}/src/bash/lofreq_filter.sh"
+        switches:
+            # Intentionally running LoFreq without a BED file for simplicity
+            # And to avoid having to include a large BED file in the repo
+            regions_bed:
+                _default: ""
+                capture: ""
 
     gridss: 
         inputs: 
@@ -62,11 +108,32 @@ lcr-modules:
             # if using manta output, use vcf file in the 99-outputs subdirectory and ensure manta version corresponds to the loaded module
             candidate_small_indels: "results/manta-2.3/99-outputs/vcf/{seq_type}--{genome_build}/candidateSmallIndels/{tumour_id}--{normal_id}--{pair_status}.candidateSmallIndels.vcf"
 
+    utils:
+        inputs:
+            bed: 
+                grch37: "data/exome_bed/hg19/target_regions.nochr.bed" # make sure this corresponds with config["lcr-modules"]["picard_qc"]["inputs"]["intervals"]
+                # if testing on GSC, use this file: "/projects/dscott_prj/CCSRI_1500/exomes/ref/agilent/hg19/target_regions.nochr.bed"
+        mem_mb:
+            bam_sort: 48000
+        threads:
+            bam_sort: 12
+
+    picard_qc:
+        inputs:
+            sample_bam: "data/{sample_id}.bam"
+            sample_bai: "data/{sample_id}.bam.bai"
+        switches:
+            capture_intervals: 
+                _default: "reference/exomes/grch37/interval/target_regions.nochr_intervals.txt"
+                # if 'capture_kit_id' is a column in samples.tsv and contain more than one kit_id, specify each kit using the values in the column. e.g. and add the corresponding bed file if needed
+                # S07604624: "reference/exomes/grch37/interval/S07604624_intervals.txt"
+                # <grch38_kit>: "reference/exomes/grch38/interval/<grch38_kit>_intervals.txt"
+
     bwa_mem:
         inputs:
-            sample_fastq_1: "data/{sample_id}.read1.fastq.gz"
-            sample_fastq_2: "data/{sample_id}.read2.fastq.gz"
-        scratch_subdirectories: ["bwa_mem", "sort_bam", "mark_dups"]
+            sample_fastq_1: "results/bam2fastq-1.2/99-outputs/{seq_type}/{sample_id}.read1.fastq.gz"
+            sample_fastq_2: "results/bam2fastq-1.2/99-outputs/{seq_type}/{sample_id}.read2.fastq.gz"
+        scratch_subdirectories: []
 
     controlfreec:
         inputs:
@@ -82,4 +149,25 @@ lcr-modules:
         inputs:
             sample_bam: "data/{sample_id}.bam"
             sample_bai: "data/{sample_id}.bam.bai"
-
+
+        scratch_subdirectories: [] # mpileup should be in scratch space
+
+    starfish: 
+        dirs: 
+            _parent: "results/starfish-2.0_strelka-1.1_lofreq-1.0"
+        inputs: 
+            names: ["strelka", "lofreq"]
+            paths: 
+                [
+                    "results/strelka-1.1/99-outputs/vcf/{seq_type}--{genome_build}/{tumour_id}--{normal_id}--{pair_status}.strelka.combined.vcf.gz", 
+                    "results/lofreq-1.0/99-outputs/{seq_type}--{genome_build}/{tumour_id}--{normal_id}--{pair_status}.lofreq.snvs.vcf.gz"
+                ]
+
+    sage:
+        inputs:
+            # Available wildcards: {seq_type} {genome_build} {sample_id}
+            sample_bam: "data/{sample_id}.bam"
+
+        # include here any additional flags to modify default parameters
+        options:
+            sage_run: ""
diff --git a/demo/data/custom_enst.txt b/demo/data/custom_enst.txt