diff --git a/_modules/index.html b/_modules/index.html
index 93a12d72..9eb57444 100644
--- a/_modules/index.html
+++ b/_modules/index.html
@@ -173,12 +173,7 @@
            <div itemprop="articleBody">
             
   <h1>All modules for which code is available</h1>
-<ul><li><a href="mammoth/decoders/decoder.html">mammoth.decoders.decoder</a></li>
-<li><a href="mammoth/decoders/transformer_decoder.html">mammoth.decoders.transformer_decoder</a></li>
-<li><a href="mammoth/encoders/encoder.html">mammoth.encoders.encoder</a></li>
-<li><a href="mammoth/encoders/mean_encoder.html">mammoth.encoders.mean_encoder</a></li>
-<li><a href="mammoth/encoders/transformer_encoder.html">mammoth.encoders.transformer_encoder</a></li>
-<li><a href="mammoth/models/model.html">mammoth.models.model</a></li>
+<ul><li><a href="mammoth/models/model.html">mammoth.models.model</a></li>
 <li><a href="mammoth/modules/average_attn.html">mammoth.modules.average_attn</a></li>
 <li><a href="mammoth/modules/conv_multi_step_attention.html">mammoth.modules.conv_multi_step_attention</a></li>
 <li><a href="mammoth/modules/copy_generator.html">mammoth.modules.copy_generator</a></li>
diff --git a/_modules/mammoth/decoders/decoder.html b/_modules/mammoth/decoders/decoder.html
deleted file mode 100644
index cf48cff3..00000000
--- a/_modules/mammoth/decoders/decoder.html
+++ /dev/null
@@ -1,241 +0,0 @@
-
-
-<!DOCTYPE html>
-<!--[if IE 8]><html class="no-js lt-ie9" lang="en" > <![endif]-->
-<!--[if gt IE 8]><!--> <html class="no-js" lang="en" > <!--<![endif]-->
-<head>
-  <meta charset="utf-8">
-  
-  <meta name="viewport" content="width=device-width, initial-scale=1.0">
-  
-  <title>mammoth.decoders.decoder &mdash; MAMMOTH  documentation</title>
-  
-
-  
-  
-  
-  
-
-  
-  <script type="text/javascript" src="../../../_static/js/modernizr.min.js"></script>
-  
-    
-      <script type="text/javascript" id="documentation_options" data-url_root="../../../" src="../../../_static/documentation_options.js"></script>
-        <script src="../../../_static/jquery.js"></script>
-        <script src="../../../_static/underscore.js"></script>
-        <script src="../../../_static/doctools.js"></script>
-        <script src="../../../_static/language_data.js"></script>
-        <script async="async" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.5/latest.js?config=TeX-AMS-MML_HTMLorMML"></script>
-        <script type="text/x-mathjax-config">MathJax.Hub.Config({"tex2jax": {"inlineMath": [["\\(", "\\)"]], "displayMath": [["\\[", "\\]"]]}})</script>
-        <script src="https://unpkg.com/mermaid@8.4.8/dist/mermaid.min.js"></script>
-    
-    <script type="text/javascript" src="../../../_static/js/theme.js"></script>
-
-    
-
-  
-  <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
-  <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" />
-  <link rel="stylesheet" href="../../../_static/theme_overrides.css" type="text/css" />
-    <link rel="index" title="Index" href="../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav">
-
-   
-  <div class="wy-grid-for-nav">
-    
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-          
-
-          
-            <a href="../../../index.html" class="icon icon-home"> MAMMOTH
-          
-
-          
-          </a>
-
-          
-            
-            
-          
-
-          
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-
-          
-        </div>
-
-        <div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="main navigation">
-          
-            
-            
-              
-            
-            
-              <p class="caption"><span class="caption-text">Getting Started</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../main.html">Overview</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../quickstart.html">Quickstart</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../CONTRIBUTING.html">Contributors</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../ref.html">References</a></li>
-</ul>
-<p class="caption"><span class="caption-text">MAMMOTH features</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../config_config.html">Config-config tool</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../attention_bridges.html">Attention Bridge</a></li>
-</ul>
-<p class="caption"><span class="caption-text">Tutorials</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../prepare_data.html">Prepare Data</a></li>
-</ul>
-<p class="caption"><span class="caption-text">Scripts</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../options/build_vocab.html">Build Vocab</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../options/train.html">Train</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../options/translate.html">Translate</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../options/server.html">Server</a></li>
-</ul>
-<p class="caption"><span class="caption-text">API</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../mammoth.html">Framework</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../mammoth.modules.html">Modules</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../mammoth.translation.html">Translation</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../mammoth.translate.translation_server.html">Server</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../mammoth.inputters.html">Data Loaders</a></li>
-</ul>
-
-            
-          
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap">
-
-      
-      <nav class="wy-nav-top" aria-label="top navigation">
-        
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../index.html">MAMMOTH</a>
-        
-      </nav>
-
-
-      <div class="wy-nav-content">
-        
-        <div class="rst-content">
-        
-          
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-<div role="navigation" aria-label="breadcrumbs navigation">
-
-  <ul class="wy-breadcrumbs">
-    
-      <li><a href="../../../index.html">Docs</a> &raquo;</li>
-        
-          <li><a href="../../index.html">Module code</a> &raquo;</li>
-        
-      <li>mammoth.decoders.decoder</li>
-    
-    
-      <li class="wy-breadcrumbs-aside">
-        
-      </li>
-    
-  </ul>
-
-  
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-            
-  <h1>Source code for mammoth.decoders.decoder</h1><div class="highlight"><pre>
-<span></span><span class="kn">import</span> <span class="nn">torch.nn</span> <span class="k">as</span> <span class="nn">nn</span>
-
-
-<div class="viewcode-block" id="DecoderBase"><a class="viewcode-back" href="../../../mammoth.modules.html#mammoth.decoders.DecoderBase">[docs]</a><span class="k">class</span> <span class="nc">DecoderBase</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;Abstract class for decoders.</span>
-
-<span class="sd">    Args:</span>
-<span class="sd">        attentional (bool): The decoder returns non-empty attention.</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">attentional</span><span class="o">=</span><span class="kc">True</span><span class="p">):</span>
-        <span class="nb">super</span><span class="p">(</span><span class="n">DecoderBase</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">attentional</span> <span class="o">=</span> <span class="n">attentional</span>
-
-<div class="viewcode-block" id="DecoderBase.from_opt"><a class="viewcode-back" href="../../../mammoth.modules.html#mammoth.decoders.DecoderBase.from_opt">[docs]</a>    <span class="nd">@classmethod</span>
-    <span class="k">def</span> <span class="nf">from_opt</span><span class="p">(</span><span class="bp">cls</span><span class="p">,</span> <span class="n">opt</span><span class="p">,</span> <span class="n">embeddings</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;Alternate constructor.</span>
-
-<span class="sd">        Subclasses should override this method.</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-
-        <span class="k">raise</span> <span class="ne">NotImplementedError</span></div></div>
-</pre></div>
-
-           </div>
-           
-          </div>
-          <footer>
-  
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>
-        &copy; Copyright 2023, HelsinkiNLP
-
-    </p>
-  </div>
-  Built with <a href="http://sphinx-doc.org/">Sphinx</a> using a <a href="https://github.com/rtfd/sphinx_rtd_theme">theme</a> provided by <a href="https://readthedocs.org">Read the Docs</a>. 
-
-</footer>
-
-        </div>
-      </div>
-
-    </section>
-
-  </div>
-  
-
-
-  <script type="text/javascript">
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script>
-
-  
-  
-    
-   
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/mammoth/decoders/transformer_decoder.html b/_modules/mammoth/decoders/transformer_decoder.html
deleted file mode 100644
index 8fb33d50..00000000
--- a/_modules/mammoth/decoders/transformer_decoder.html
+++ /dev/null
@@ -1,741 +0,0 @@
-
-
-<!DOCTYPE html>
-<!--[if IE 8]><html class="no-js lt-ie9" lang="en" > <![endif]-->
-<!--[if gt IE 8]><!--> <html class="no-js" lang="en" > <!--<![endif]-->
-<head>
-  <meta charset="utf-8">
-  
-  <meta name="viewport" content="width=device-width, initial-scale=1.0">
-  
-  <title>mammoth.decoders.transformer_decoder &mdash; MAMMOTH  documentation</title>
-  
-
-  
-  
-  
-  
-
-  
-  <script type="text/javascript" src="../../../_static/js/modernizr.min.js"></script>
-  
-    
-      <script type="text/javascript" id="documentation_options" data-url_root="../../../" src="../../../_static/documentation_options.js"></script>
-        <script src="../../../_static/jquery.js"></script>
-        <script src="../../../_static/underscore.js"></script>
-        <script src="../../../_static/doctools.js"></script>
-        <script src="../../../_static/language_data.js"></script>
-        <script async="async" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.5/latest.js?config=TeX-AMS-MML_HTMLorMML"></script>
-        <script type="text/x-mathjax-config">MathJax.Hub.Config({"tex2jax": {"inlineMath": [["\\(", "\\)"]], "displayMath": [["\\[", "\\]"]]}})</script>
-        <script src="https://unpkg.com/mermaid@8.4.8/dist/mermaid.min.js"></script>
-    
-    <script type="text/javascript" src="../../../_static/js/theme.js"></script>
-
-    
-
-  
-  <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
-  <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" />
-  <link rel="stylesheet" href="../../../_static/theme_overrides.css" type="text/css" />
-    <link rel="index" title="Index" href="../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav">
-
-   
-  <div class="wy-grid-for-nav">
-    
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-          
-
-          
-            <a href="../../../index.html" class="icon icon-home"> MAMMOTH
-          
-
-          
-          </a>
-
-          
-            
-            
-          
-
-          
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-
-          
-        </div>
-
-        <div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="main navigation">
-          
-            
-            
-              
-            
-            
-              <p class="caption"><span class="caption-text">Getting Started</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../main.html">Overview</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../quickstart.html">Quickstart</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../CONTRIBUTING.html">Contributors</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../ref.html">References</a></li>
-</ul>
-<p class="caption"><span class="caption-text">MAMMOTH features</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../config_config.html">Config-config tool</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../attention_bridges.html">Attention Bridge</a></li>
-</ul>
-<p class="caption"><span class="caption-text">Tutorials</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../prepare_data.html">Prepare Data</a></li>
-</ul>
-<p class="caption"><span class="caption-text">Scripts</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../options/build_vocab.html">Build Vocab</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../options/train.html">Train</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../options/translate.html">Translate</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../options/server.html">Server</a></li>
-</ul>
-<p class="caption"><span class="caption-text">API</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../mammoth.html">Framework</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../mammoth.modules.html">Modules</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../mammoth.translation.html">Translation</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../mammoth.translate.translation_server.html">Server</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../mammoth.inputters.html">Data Loaders</a></li>
-</ul>
-
-            
-          
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap">
-
-      
-      <nav class="wy-nav-top" aria-label="top navigation">
-        
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../index.html">MAMMOTH</a>
-        
-      </nav>
-
-
-      <div class="wy-nav-content">
-        
-        <div class="rst-content">
-        
-          
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-<div role="navigation" aria-label="breadcrumbs navigation">
-
-  <ul class="wy-breadcrumbs">
-    
-      <li><a href="../../../index.html">Docs</a> &raquo;</li>
-        
-          <li><a href="../../index.html">Module code</a> &raquo;</li>
-        
-      <li>mammoth.decoders.transformer_decoder</li>
-    
-    
-      <li class="wy-breadcrumbs-aside">
-        
-      </li>
-    
-  </ul>
-
-  
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-            
-  <h1>Source code for mammoth.decoders.transformer_decoder</h1><div class="highlight"><pre>
-<span></span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">Implementation of &quot;Attention is All You Need&quot; and of</span>
-<span class="sd">subsequent transformer based architectures</span>
-<span class="sd">&quot;&quot;&quot;</span>
-
-<span class="kn">import</span> <span class="nn">torch</span>
-<span class="kn">import</span> <span class="nn">torch.nn</span> <span class="k">as</span> <span class="nn">nn</span>
-
-<span class="kn">from</span> <span class="nn">mammoth.decoders.decoder</span> <span class="kn">import</span> <span class="n">DecoderBase</span>
-<span class="kn">from</span> <span class="nn">mammoth.modules</span> <span class="kn">import</span> <span class="n">MultiHeadedAttention</span><span class="p">,</span> <span class="n">AverageAttention</span>
-<span class="kn">from</span> <span class="nn">mammoth.modules.position_ffn</span> <span class="kn">import</span> <span class="n">PositionwiseFeedForward</span>
-<span class="kn">from</span> <span class="nn">mammoth.modules.position_ffn</span> <span class="kn">import</span> <span class="n">ActivationFunction</span>
-<span class="kn">from</span> <span class="nn">mammoth.utils.misc</span> <span class="kn">import</span> <span class="n">sequence_mask</span>
-
-
-<span class="k">class</span> <span class="nc">TransformerDecoderLayerBase</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
-        <span class="bp">self</span><span class="p">,</span>
-        <span class="n">d_model</span><span class="p">,</span>
-        <span class="n">heads</span><span class="p">,</span>
-        <span class="n">d_ff</span><span class="p">,</span>
-        <span class="n">dropout</span><span class="p">,</span>
-        <span class="n">attention_dropout</span><span class="p">,</span>
-        <span class="n">self_attn_type</span><span class="o">=</span><span class="s2">&quot;scaled-dot&quot;</span><span class="p">,</span>
-        <span class="n">max_relative_positions</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
-        <span class="n">aan_useffn</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
-        <span class="n">full_context_alignment</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
-        <span class="n">alignment_heads</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
-        <span class="n">pos_ffn_activation_fn</span><span class="o">=</span><span class="n">ActivationFunction</span><span class="o">.</span><span class="n">relu</span><span class="p">,</span>
-    <span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Args:</span>
-<span class="sd">            d_model (int): the dimension of keys/values/queries in</span>
-<span class="sd">                :class:`MultiHeadedAttention`, also the input size of</span>
-<span class="sd">                the first-layer of the :class:`PositionwiseFeedForward`.</span>
-<span class="sd">            heads (int): the number of heads for MultiHeadedAttention.</span>
-<span class="sd">            d_ff (int): the second-layer of the</span>
-<span class="sd">                :class:`PositionwiseFeedForward`.</span>
-<span class="sd">            dropout (float): dropout in residual, self-attn(dot) and</span>
-<span class="sd">                feed-forward</span>
-<span class="sd">            attention_dropout (float): dropout in context_attn  (and</span>
-<span class="sd">                self-attn(avg))</span>
-<span class="sd">            self_attn_type (string): type of self-attention scaled-dot,</span>
-<span class="sd">                average</span>
-<span class="sd">            max_relative_positions (int):</span>
-<span class="sd">                Max distance between inputs in relative positions</span>
-<span class="sd">                representations</span>
-<span class="sd">            aan_useffn (bool): Turn on the FFN layer in the AAN decoder</span>
-<span class="sd">            full_context_alignment (bool):</span>
-<span class="sd">                whether enable an extra full context decoder forward for</span>
-<span class="sd">                alignment</span>
-<span class="sd">            alignment_heads (int):</span>
-<span class="sd">                N. of cross attention heads to use for alignment guiding</span>
-<span class="sd">            pos_ffn_activation_fn (ActivationFunction):</span>
-<span class="sd">                activation function choice for PositionwiseFeedForward layer</span>
-
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="nb">super</span><span class="p">(</span><span class="n">TransformerDecoderLayerBase</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
-
-        <span class="k">if</span> <span class="n">self_attn_type</span> <span class="o">==</span> <span class="s2">&quot;scaled-dot&quot;</span><span class="p">:</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">self_attn</span> <span class="o">=</span> <span class="n">MultiHeadedAttention</span><span class="p">(</span>
-                <span class="n">heads</span><span class="p">,</span>
-                <span class="n">d_model</span><span class="p">,</span>
-                <span class="n">dropout</span><span class="o">=</span><span class="n">attention_dropout</span><span class="p">,</span>
-                <span class="n">max_relative_positions</span><span class="o">=</span><span class="n">max_relative_positions</span><span class="p">,</span>
-            <span class="p">)</span>
-        <span class="k">elif</span> <span class="n">self_attn_type</span> <span class="o">==</span> <span class="s2">&quot;average&quot;</span><span class="p">:</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">self_attn</span> <span class="o">=</span> <span class="n">AverageAttention</span><span class="p">(</span><span class="n">d_model</span><span class="p">,</span> <span class="n">dropout</span><span class="o">=</span><span class="n">attention_dropout</span><span class="p">,</span> <span class="n">aan_useffn</span><span class="o">=</span><span class="n">aan_useffn</span><span class="p">)</span>
-
-        <span class="bp">self</span><span class="o">.</span><span class="n">feed_forward</span> <span class="o">=</span> <span class="n">PositionwiseFeedForward</span><span class="p">(</span><span class="n">d_model</span><span class="p">,</span> <span class="n">d_ff</span><span class="p">,</span> <span class="n">dropout</span><span class="p">,</span> <span class="n">pos_ffn_activation_fn</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">layer_norm_1</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">LayerNorm</span><span class="p">(</span><span class="n">d_model</span><span class="p">,</span> <span class="n">eps</span><span class="o">=</span><span class="mf">1e-6</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">drop</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Dropout</span><span class="p">(</span><span class="n">dropout</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">full_context_alignment</span> <span class="o">=</span> <span class="n">full_context_alignment</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">alignment_heads</span> <span class="o">=</span> <span class="n">alignment_heads</span>
-
-    <span class="k">def</span> <span class="nf">forward</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;Extend `_forward` for (possibly) multiple decoder pass:</span>
-<span class="sd">        Always a default (future masked) decoder forward pass,</span>
-<span class="sd">        Possibly a second future aware decoder pass for joint learn</span>
-<span class="sd">        full context alignement, :cite:`garg2019jointly`.</span>
-
-<span class="sd">        Args:</span>
-<span class="sd">            * All arguments of _forward.</span>
-<span class="sd">            with_align (bool): whether return alignment attention.</span>
-
-<span class="sd">        Returns:</span>
-<span class="sd">            (FloatTensor, FloatTensor, FloatTensor or None):</span>
-
-<span class="sd">            * output ``(batch_size, T, model_dim)``</span>
-<span class="sd">            * top_attn ``(batch_size, T, src_len)``</span>
-<span class="sd">            * attn_align ``(batch_size, T, src_len)`` or None</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="n">with_align</span> <span class="o">=</span> <span class="n">kwargs</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="s2">&quot;with_align&quot;</span><span class="p">,</span> <span class="kc">False</span><span class="p">)</span>
-        <span class="n">output</span><span class="p">,</span> <span class="n">attns</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_forward</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
-        <span class="n">top_attn</span> <span class="o">=</span> <span class="n">attns</span><span class="p">[:,</span> <span class="mi">0</span><span class="p">,</span> <span class="p">:,</span> <span class="p">:]</span><span class="o">.</span><span class="n">contiguous</span><span class="p">()</span>
-        <span class="n">attn_align</span> <span class="o">=</span> <span class="kc">None</span>
-        <span class="k">if</span> <span class="n">with_align</span><span class="p">:</span>
-            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">full_context_alignment</span><span class="p">:</span>
-                <span class="c1"># return _, (B, Q_len, K_len)</span>
-                <span class="n">_</span><span class="p">,</span> <span class="n">attns</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_forward</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span> <span class="n">future</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
-
-            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">alignment_heads</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
-                <span class="n">attns</span> <span class="o">=</span> <span class="n">attns</span><span class="p">[:,</span> <span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">alignment_heads</span><span class="p">,</span> <span class="p">:,</span> <span class="p">:]</span><span class="o">.</span><span class="n">contiguous</span><span class="p">()</span>
-            <span class="c1"># layer average attention across heads, get ``(B, Q, K)``</span>
-            <span class="c1"># Case 1: no full_context, no align heads -&gt; layer avg baseline</span>
-            <span class="c1"># Case 2: no full_context, 1 align heads -&gt; guided align</span>
-            <span class="c1"># Case 3: full_context, 1 align heads -&gt; full cte guided align</span>
-            <span class="n">attn_align</span> <span class="o">=</span> <span class="n">attns</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">dim</span><span class="o">=</span><span class="mi">1</span><span class="p">)</span>
-        <span class="k">return</span> <span class="n">output</span><span class="p">,</span> <span class="n">top_attn</span><span class="p">,</span> <span class="n">attn_align</span>
-
-    <span class="k">def</span> <span class="nf">update_dropout</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dropout</span><span class="p">,</span> <span class="n">attention_dropout</span><span class="p">):</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">self_attn</span><span class="o">.</span><span class="n">update_dropout</span><span class="p">(</span><span class="n">attention_dropout</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">feed_forward</span><span class="o">.</span><span class="n">update_dropout</span><span class="p">(</span><span class="n">dropout</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">drop</span><span class="o">.</span><span class="n">p</span> <span class="o">=</span> <span class="n">dropout</span>
-
-    <span class="k">def</span> <span class="nf">_forward</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
-        <span class="k">raise</span> <span class="ne">NotImplementedError</span>
-
-    <span class="k">def</span> <span class="nf">_compute_dec_mask</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">tgt_pad_mask</span><span class="p">,</span> <span class="n">future</span><span class="p">):</span>
-        <span class="n">tgt_len</span> <span class="o">=</span> <span class="n">tgt_pad_mask</span><span class="o">.</span><span class="n">size</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">)</span>
-        <span class="k">if</span> <span class="ow">not</span> <span class="n">future</span><span class="p">:</span>  <span class="c1"># apply future_mask, result mask in (B, T, T)</span>
-            <span class="n">future_mask</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">ones</span><span class="p">(</span>
-                <span class="p">[</span><span class="n">tgt_len</span><span class="p">,</span> <span class="n">tgt_len</span><span class="p">],</span>
-                <span class="n">device</span><span class="o">=</span><span class="n">tgt_pad_mask</span><span class="o">.</span><span class="n">device</span><span class="p">,</span>
-                <span class="n">dtype</span><span class="o">=</span><span class="n">torch</span><span class="o">.</span><span class="n">uint8</span><span class="p">,</span>
-            <span class="p">)</span>
-            <span class="n">future_mask</span> <span class="o">=</span> <span class="n">future_mask</span><span class="o">.</span><span class="n">triu_</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span><span class="o">.</span><span class="n">view</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="n">tgt_len</span><span class="p">,</span> <span class="n">tgt_len</span><span class="p">)</span>
-            <span class="c1"># BoolTensor was introduced in pytorch 1.2</span>
-            <span class="k">try</span><span class="p">:</span>
-                <span class="n">future_mask</span> <span class="o">=</span> <span class="n">future_mask</span><span class="o">.</span><span class="n">bool</span><span class="p">()</span>
-            <span class="k">except</span> <span class="ne">AttributeError</span><span class="p">:</span>
-                <span class="k">pass</span>
-            <span class="n">dec_mask</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">gt</span><span class="p">(</span><span class="n">tgt_pad_mask</span> <span class="o">+</span> <span class="n">future_mask</span><span class="p">,</span> <span class="mi">0</span><span class="p">)</span>
-        <span class="k">else</span><span class="p">:</span>  <span class="c1"># only mask padding, result mask in (B, 1, T)</span>
-            <span class="n">dec_mask</span> <span class="o">=</span> <span class="n">tgt_pad_mask</span>
-        <span class="k">return</span> <span class="n">dec_mask</span>
-
-    <span class="k">def</span> <span class="nf">_forward_self_attn</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">inputs_norm</span><span class="p">,</span> <span class="n">dec_mask</span><span class="p">,</span> <span class="n">layer_cache</span><span class="p">,</span> <span class="n">step</span><span class="p">):</span>
-        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">self_attn</span><span class="p">,</span> <span class="n">MultiHeadedAttention</span><span class="p">):</span>
-            <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">self_attn</span><span class="p">(</span>
-                <span class="n">inputs_norm</span><span class="p">,</span>
-                <span class="n">inputs_norm</span><span class="p">,</span>
-                <span class="n">inputs_norm</span><span class="p">,</span>
-                <span class="n">mask</span><span class="o">=</span><span class="n">dec_mask</span><span class="p">,</span>
-                <span class="n">layer_cache</span><span class="o">=</span><span class="n">layer_cache</span><span class="p">,</span>
-                <span class="n">attn_type</span><span class="o">=</span><span class="s2">&quot;self&quot;</span><span class="p">,</span>
-            <span class="p">)</span>
-        <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">self_attn</span><span class="p">,</span> <span class="n">AverageAttention</span><span class="p">):</span>
-            <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">self_attn</span><span class="p">(</span><span class="n">inputs_norm</span><span class="p">,</span> <span class="n">mask</span><span class="o">=</span><span class="n">dec_mask</span><span class="p">,</span> <span class="n">layer_cache</span><span class="o">=</span><span class="n">layer_cache</span><span class="p">,</span> <span class="n">step</span><span class="o">=</span><span class="n">step</span><span class="p">)</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;self attention </span><span class="si">{</span><span class="nb">type</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">self_attn</span><span class="p">)</span><span class="si">}</span><span class="s2"> not supported&quot;</span><span class="p">)</span>
-
-
-<span class="k">class</span> <span class="nc">TransformerDecoderLayer</span><span class="p">(</span><span class="n">TransformerDecoderLayerBase</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;Transformer Decoder layer block in Pre-Norm style.</span>
-<span class="sd">    Pre-Norm style is an improvement w.r.t. Original paper&#39;s Post-Norm style,</span>
-<span class="sd">    providing better converge speed and performance. This is also the actual</span>
-<span class="sd">    implementation in tensor2tensor and also avalable in fairseq.</span>
-<span class="sd">    See https://tunz.kr/post/4 and :cite:`DeeperTransformer`.</span>
-
-<span class="sd">    .. mermaid::</span>
-
-<span class="sd">        graph LR</span>
-<span class="sd">        %% &quot;*SubLayer&quot; can be self-attn, src-attn or feed forward block</span>
-<span class="sd">            A(input) --&gt; B[Norm]</span>
-<span class="sd">            B --&gt; C[&quot;*SubLayer&quot;]</span>
-<span class="sd">            C --&gt; D[Drop]</span>
-<span class="sd">            D --&gt; E((+))</span>
-<span class="sd">            A --&gt; E</span>
-<span class="sd">            E --&gt; F(out)</span>
-
-<span class="sd">    &quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
-        <span class="bp">self</span><span class="p">,</span>
-        <span class="n">d_model</span><span class="p">,</span>
-        <span class="n">heads</span><span class="p">,</span>
-        <span class="n">d_ff</span><span class="p">,</span>
-        <span class="n">dropout</span><span class="p">,</span>
-        <span class="n">attention_dropout</span><span class="p">,</span>
-        <span class="n">self_attn_type</span><span class="o">=</span><span class="s2">&quot;scaled-dot&quot;</span><span class="p">,</span>
-        <span class="n">max_relative_positions</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
-        <span class="n">aan_useffn</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
-        <span class="n">full_context_alignment</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
-        <span class="n">alignment_heads</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
-        <span class="n">pos_ffn_activation_fn</span><span class="o">=</span><span class="n">ActivationFunction</span><span class="o">.</span><span class="n">relu</span><span class="p">,</span>
-    <span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Args:</span>
-<span class="sd">            See TransformerDecoderLayerBase</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="nb">super</span><span class="p">(</span><span class="n">TransformerDecoderLayer</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
-            <span class="n">d_model</span><span class="p">,</span>
-            <span class="n">heads</span><span class="p">,</span>
-            <span class="n">d_ff</span><span class="p">,</span>
-            <span class="n">dropout</span><span class="p">,</span>
-            <span class="n">attention_dropout</span><span class="p">,</span>
-            <span class="n">self_attn_type</span><span class="p">,</span>
-            <span class="n">max_relative_positions</span><span class="p">,</span>
-            <span class="n">aan_useffn</span><span class="p">,</span>
-            <span class="n">full_context_alignment</span><span class="p">,</span>
-            <span class="n">alignment_heads</span><span class="p">,</span>
-            <span class="n">pos_ffn_activation_fn</span><span class="o">=</span><span class="n">pos_ffn_activation_fn</span><span class="p">,</span>
-        <span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">context_attn</span> <span class="o">=</span> <span class="n">MultiHeadedAttention</span><span class="p">(</span><span class="n">heads</span><span class="p">,</span> <span class="n">d_model</span><span class="p">,</span> <span class="n">dropout</span><span class="o">=</span><span class="n">attention_dropout</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">layer_norm_2</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">LayerNorm</span><span class="p">(</span><span class="n">d_model</span><span class="p">,</span> <span class="n">eps</span><span class="o">=</span><span class="mf">1e-6</span><span class="p">)</span>
-
-    <span class="k">def</span> <span class="nf">update_dropout</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dropout</span><span class="p">,</span> <span class="n">attention_dropout</span><span class="p">):</span>
-        <span class="nb">super</span><span class="p">(</span><span class="n">TransformerDecoderLayer</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">update_dropout</span><span class="p">(</span><span class="n">dropout</span><span class="p">,</span> <span class="n">attention_dropout</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">context_attn</span><span class="o">.</span><span class="n">update_dropout</span><span class="p">(</span><span class="n">attention_dropout</span><span class="p">)</span>
-
-    <span class="k">def</span> <span class="nf">_forward</span><span class="p">(</span>
-        <span class="bp">self</span><span class="p">,</span>
-        <span class="n">inputs</span><span class="p">,</span>
-        <span class="n">memory_bank</span><span class="p">,</span>
-        <span class="n">src_pad_mask</span><span class="p">,</span>
-        <span class="n">tgt_pad_mask</span><span class="p">,</span>
-        <span class="n">layer_cache</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
-        <span class="n">step</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
-        <span class="n">future</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
-    <span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;A naive forward pass for transformer decoder.</span>
-
-<span class="sd">        # T: could be 1 in the case of stepwise decoding or tgt_len</span>
-
-<span class="sd">        Args:</span>
-<span class="sd">            inputs (FloatTensor): ``(batch_size, T, model_dim)``</span>
-<span class="sd">            memory_bank (FloatTensor): ``(batch_size, src_len, model_dim)``</span>
-<span class="sd">            src_pad_mask (bool): ``(batch_size, 1, src_len)``</span>
-<span class="sd">            tgt_pad_mask (bool): ``(batch_size, 1, T)``</span>
-<span class="sd">            layer_cache (dict or None): cached layer info when stepwise decode</span>
-<span class="sd">            step (int or None): stepwise decoding counter</span>
-<span class="sd">            future (bool): If set True, do not apply future_mask.</span>
-
-<span class="sd">        Returns:</span>
-<span class="sd">            (FloatTensor, FloatTensor):</span>
-
-<span class="sd">            * output ``(batch_size, T, model_dim)``</span>
-<span class="sd">            * attns ``(batch_size, head, T, src_len)``</span>
-
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="n">dec_mask</span> <span class="o">=</span> <span class="kc">None</span>
-
-        <span class="k">if</span> <span class="n">inputs</span><span class="o">.</span><span class="n">size</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">1</span><span class="p">:</span>
-            <span class="c1"># masking is necessary when sequence length is greater than one</span>
-            <span class="n">dec_mask</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_compute_dec_mask</span><span class="p">(</span><span class="n">tgt_pad_mask</span><span class="p">,</span> <span class="n">future</span><span class="p">)</span>
-
-        <span class="n">inputs_norm</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">layer_norm_1</span><span class="p">(</span><span class="n">inputs</span><span class="p">)</span>
-
-        <span class="n">query</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_forward_self_attn</span><span class="p">(</span><span class="n">inputs_norm</span><span class="p">,</span> <span class="n">dec_mask</span><span class="p">,</span> <span class="n">layer_cache</span><span class="p">,</span> <span class="n">step</span><span class="p">)</span>
-
-        <span class="n">query</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">drop</span><span class="p">(</span><span class="n">query</span><span class="p">)</span> <span class="o">+</span> <span class="n">inputs</span>
-
-        <span class="n">query_norm</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">layer_norm_2</span><span class="p">(</span><span class="n">query</span><span class="p">)</span>
-        <span class="n">mid</span><span class="p">,</span> <span class="n">attns</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">context_attn</span><span class="p">(</span>
-            <span class="n">memory_bank</span><span class="p">,</span>
-            <span class="n">memory_bank</span><span class="p">,</span>
-            <span class="n">query_norm</span><span class="p">,</span>
-            <span class="n">mask</span><span class="o">=</span><span class="n">src_pad_mask</span><span class="p">,</span>
-            <span class="n">layer_cache</span><span class="o">=</span><span class="n">layer_cache</span><span class="p">,</span>
-            <span class="n">attn_type</span><span class="o">=</span><span class="s2">&quot;context&quot;</span><span class="p">,</span>
-        <span class="p">)</span>
-        <span class="n">output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">feed_forward</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">drop</span><span class="p">(</span><span class="n">mid</span><span class="p">)</span> <span class="o">+</span> <span class="n">query</span><span class="p">)</span>
-
-        <span class="k">return</span> <span class="n">output</span><span class="p">,</span> <span class="n">attns</span>
-
-
-<span class="k">class</span> <span class="nc">TransformerDecoderBase</span><span class="p">(</span><span class="n">DecoderBase</span><span class="p">):</span>
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">d_model</span><span class="p">,</span> <span class="n">copy_attn</span><span class="p">,</span> <span class="n">embeddings</span><span class="p">,</span> <span class="n">alignment_layer</span><span class="p">,</span> <span class="n">layer_norm_module</span><span class="p">):</span>
-        <span class="nb">super</span><span class="p">(</span><span class="n">TransformerDecoderBase</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
-
-        <span class="bp">self</span><span class="o">.</span><span class="n">embeddings</span> <span class="o">=</span> <span class="n">embeddings</span>
-
-        <span class="c1"># Decoder State</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">state</span> <span class="o">=</span> <span class="p">{}</span>
-
-        <span class="c1"># previously, there was a GlobalAttention module here for copy</span>
-        <span class="c1"># attention. But it was never actually used -- the &quot;copy&quot; attention</span>
-        <span class="c1"># just reuses the context attention.</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">_copy</span> <span class="o">=</span> <span class="n">copy_attn</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">layer_norm</span> <span class="o">=</span> <span class="n">layer_norm_module</span>
-
-        <span class="bp">self</span><span class="o">.</span><span class="n">alignment_layer</span> <span class="o">=</span> <span class="n">alignment_layer</span>
-
-    <span class="nd">@classmethod</span>
-    <span class="k">def</span> <span class="nf">from_opt</span><span class="p">(</span><span class="bp">cls</span><span class="p">,</span> <span class="n">opt</span><span class="p">,</span> <span class="n">embeddings</span><span class="p">,</span> <span class="n">is_on_top</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;Alternate constructor.&quot;&quot;&quot;</span>
-        <span class="k">return</span> <span class="bp">cls</span><span class="p">(</span>
-            <span class="n">opt</span><span class="o">.</span><span class="n">dec_layers</span><span class="p">,</span>
-            <span class="n">opt</span><span class="o">.</span><span class="n">rnn_size</span><span class="p">,</span>
-            <span class="n">opt</span><span class="o">.</span><span class="n">heads</span><span class="p">,</span>
-            <span class="n">opt</span><span class="o">.</span><span class="n">transformer_ff</span><span class="p">,</span>
-            <span class="n">opt</span><span class="o">.</span><span class="n">copy_attn</span><span class="p">,</span>
-            <span class="n">opt</span><span class="o">.</span><span class="n">self_attn_type</span><span class="p">,</span>
-            <span class="n">opt</span><span class="o">.</span><span class="n">dropout</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="k">if</span> <span class="nb">type</span><span class="p">(</span><span class="n">opt</span><span class="o">.</span><span class="n">dropout</span><span class="p">)</span> <span class="ow">is</span> <span class="nb">list</span> <span class="k">else</span> <span class="n">opt</span><span class="o">.</span><span class="n">dropout</span><span class="p">,</span>
-            <span class="n">opt</span><span class="o">.</span><span class="n">attention_dropout</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="k">if</span> <span class="nb">type</span><span class="p">(</span><span class="n">opt</span><span class="o">.</span><span class="n">attention_dropout</span><span class="p">)</span> <span class="ow">is</span> <span class="nb">list</span> <span class="k">else</span> <span class="n">opt</span><span class="o">.</span><span class="n">attention_dropout</span><span class="p">,</span>
-            <span class="n">embeddings</span><span class="p">,</span>
-            <span class="n">opt</span><span class="o">.</span><span class="n">max_relative_positions</span><span class="p">,</span>
-            <span class="n">opt</span><span class="o">.</span><span class="n">aan_useffn</span><span class="p">,</span>
-            <span class="n">opt</span><span class="o">.</span><span class="n">full_context_alignment</span><span class="p">,</span>
-            <span class="n">opt</span><span class="o">.</span><span class="n">alignment_layer</span><span class="p">,</span>
-            <span class="n">alignment_heads</span><span class="o">=</span><span class="n">opt</span><span class="o">.</span><span class="n">alignment_heads</span><span class="p">,</span>
-            <span class="n">pos_ffn_activation_fn</span><span class="o">=</span><span class="n">opt</span><span class="o">.</span><span class="n">pos_ffn_activation_fn</span><span class="p">,</span>
-            <span class="n">layer_norm_module</span><span class="o">=</span><span class="p">(</span>
-                <span class="n">nn</span><span class="o">.</span><span class="n">LayerNorm</span><span class="p">(</span><span class="n">opt</span><span class="o">.</span><span class="n">rnn_size</span><span class="p">,</span> <span class="n">eps</span><span class="o">=</span><span class="mf">1e-6</span><span class="p">)</span> <span class="k">if</span> <span class="n">is_on_top</span>
-                <span class="k">else</span> <span class="n">nn</span><span class="o">.</span><span class="n">Identity</span><span class="p">()</span>
-            <span class="p">),</span>
-        <span class="p">)</span>
-
-    <span class="k">def</span> <span class="nf">init_state</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">src</span><span class="p">,</span> <span class="n">memory_bank</span><span class="p">,</span> <span class="n">enc_hidden</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;Initialize decoder state.&quot;&quot;&quot;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">state</span><span class="p">[</span><span class="s2">&quot;src&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">src</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">state</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span>
-
-    <span class="k">def</span> <span class="nf">map_state</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">fn</span><span class="p">):</span>
-        <span class="k">def</span> <span class="nf">_recursive_map</span><span class="p">(</span><span class="n">struct</span><span class="p">,</span> <span class="n">batch_dim</span><span class="o">=</span><span class="mi">0</span><span class="p">):</span>
-            <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">struct</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
-                <span class="k">if</span> <span class="n">v</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
-                    <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">v</span><span class="p">,</span> <span class="nb">dict</span><span class="p">):</span>
-                        <span class="n">_recursive_map</span><span class="p">(</span><span class="n">v</span><span class="p">)</span>
-                    <span class="k">else</span><span class="p">:</span>
-                        <span class="n">struct</span><span class="p">[</span><span class="n">k</span><span class="p">]</span> <span class="o">=</span> <span class="n">fn</span><span class="p">(</span><span class="n">v</span><span class="p">,</span> <span class="n">batch_dim</span><span class="p">)</span>
-
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">state</span><span class="p">[</span><span class="s2">&quot;src&quot;</span><span class="p">]</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">state</span><span class="p">[</span><span class="s2">&quot;src&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">fn</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">state</span><span class="p">[</span><span class="s2">&quot;src&quot;</span><span class="p">],</span> <span class="mi">1</span><span class="p">)</span>
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">state</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="n">_recursive_map</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">state</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">])</span>
-
-    <span class="k">def</span> <span class="nf">detach_state</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
-        <span class="k">raise</span> <span class="ne">NotImplementedError</span>
-
-    <span class="k">def</span> <span class="nf">forward</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
-        <span class="k">raise</span> <span class="ne">NotImplementedError</span>
-
-    <span class="k">def</span> <span class="nf">update_dropout</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dropout</span><span class="p">,</span> <span class="n">attention_dropout</span><span class="p">):</span>
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">embeddings</span><span class="p">:</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">embeddings</span><span class="o">.</span><span class="n">update_dropout</span><span class="p">(</span><span class="n">dropout</span><span class="p">)</span>
-        <span class="k">for</span> <span class="n">layer</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">transformer_layers</span><span class="p">:</span>
-            <span class="n">layer</span><span class="o">.</span><span class="n">update_dropout</span><span class="p">(</span><span class="n">dropout</span><span class="p">,</span> <span class="n">attention_dropout</span><span class="p">)</span>
-
-
-<div class="viewcode-block" id="TransformerDecoder"><a class="viewcode-back" href="../../../mammoth.modules.html#mammoth.decoders.TransformerDecoder">[docs]</a><span class="k">class</span> <span class="nc">TransformerDecoder</span><span class="p">(</span><span class="n">TransformerDecoderBase</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;The Transformer decoder from &quot;Attention is All You Need&quot;.</span>
-<span class="sd">    :cite:`DBLP:journals/corr/VaswaniSPUJGKP17`</span>
-
-<span class="sd">    .. mermaid::</span>
-
-<span class="sd">       graph BT</span>
-<span class="sd">          A[input]</span>
-<span class="sd">          B[multi-head self-attn]</span>
-<span class="sd">          BB[multi-head src-attn]</span>
-<span class="sd">          C[feed forward]</span>
-<span class="sd">          O[output]</span>
-<span class="sd">          A --&gt; B</span>
-<span class="sd">          B --&gt; BB</span>
-<span class="sd">          BB --&gt; C</span>
-<span class="sd">          C --&gt; O</span>
-
-
-<span class="sd">    Args:</span>
-<span class="sd">        num_layers (int): number of decoder layers.</span>
-<span class="sd">        d_model (int): size of the model</span>
-<span class="sd">        heads (int): number of heads</span>
-<span class="sd">        d_ff (int): size of the inner FF layer</span>
-<span class="sd">        copy_attn (bool): if using a separate copy attention</span>
-<span class="sd">        self_attn_type (str): type of self-attention scaled-dot, average</span>
-<span class="sd">        dropout (float): dropout in residual, self-attn(dot) and feed-forward</span>
-<span class="sd">        attention_dropout (float): dropout in context_attn (and self-attn(avg))</span>
-<span class="sd">        embeddings (mammoth.modules.Embeddings):</span>
-<span class="sd">            embeddings to use, should have positional encodings</span>
-<span class="sd">        max_relative_positions (int):</span>
-<span class="sd">            Max distance between inputs in relative positions representations</span>
-<span class="sd">        aan_useffn (bool): Turn on the FFN layer in the AAN decoder</span>
-<span class="sd">        full_context_alignment (bool):</span>
-<span class="sd">            whether enable an extra full context decoder forward for alignment</span>
-<span class="sd">        alignment_layer (int): N° Layer to supervise with for alignment guiding</span>
-<span class="sd">        alignment_heads (int):</span>
-<span class="sd">            N. of cross attention heads to use for alignment guiding</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
-        <span class="bp">self</span><span class="p">,</span>
-        <span class="n">num_layers</span><span class="p">,</span>
-        <span class="n">d_model</span><span class="p">,</span>
-        <span class="n">heads</span><span class="p">,</span>
-        <span class="n">d_ff</span><span class="p">,</span>
-        <span class="n">copy_attn</span><span class="p">,</span>
-        <span class="n">self_attn_type</span><span class="p">,</span>
-        <span class="n">dropout</span><span class="p">,</span>
-        <span class="n">attention_dropout</span><span class="p">,</span>
-        <span class="n">embeddings</span><span class="p">,</span>
-        <span class="n">max_relative_positions</span><span class="p">,</span>
-        <span class="n">aan_useffn</span><span class="p">,</span>
-        <span class="n">full_context_alignment</span><span class="p">,</span>
-        <span class="n">alignment_layer</span><span class="p">,</span>
-        <span class="n">alignment_heads</span><span class="p">,</span>
-        <span class="n">pos_ffn_activation_fn</span><span class="o">=</span><span class="n">ActivationFunction</span><span class="o">.</span><span class="n">relu</span><span class="p">,</span>
-        <span class="n">layer_norm_module</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
-    <span class="p">):</span>
-        <span class="nb">super</span><span class="p">(</span><span class="n">TransformerDecoder</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="n">d_model</span><span class="p">,</span> <span class="n">copy_attn</span><span class="p">,</span> <span class="n">embeddings</span><span class="p">,</span> <span class="n">alignment_layer</span><span class="p">,</span> <span class="n">layer_norm_module</span><span class="p">)</span>
-
-        <span class="bp">self</span><span class="o">.</span><span class="n">transformer_layers</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">ModuleList</span><span class="p">(</span>
-            <span class="p">[</span>
-                <span class="n">TransformerDecoderLayer</span><span class="p">(</span>
-                    <span class="n">d_model</span><span class="p">,</span>
-                    <span class="n">heads</span><span class="p">,</span>
-                    <span class="n">d_ff</span><span class="p">,</span>
-                    <span class="n">dropout</span><span class="p">,</span>
-                    <span class="n">attention_dropout</span><span class="p">,</span>
-                    <span class="n">self_attn_type</span><span class="o">=</span><span class="n">self_attn_type</span><span class="p">,</span>
-                    <span class="n">max_relative_positions</span><span class="o">=</span><span class="n">max_relative_positions</span><span class="p">,</span>
-                    <span class="n">aan_useffn</span><span class="o">=</span><span class="n">aan_useffn</span><span class="p">,</span>
-                    <span class="n">full_context_alignment</span><span class="o">=</span><span class="n">full_context_alignment</span><span class="p">,</span>
-                    <span class="n">alignment_heads</span><span class="o">=</span><span class="n">alignment_heads</span><span class="p">,</span>
-                    <span class="n">pos_ffn_activation_fn</span><span class="o">=</span><span class="n">pos_ffn_activation_fn</span><span class="p">,</span>
-                <span class="p">)</span>
-                <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">num_layers</span><span class="p">)</span>
-            <span class="p">]</span>
-        <span class="p">)</span>
-
-    <span class="k">def</span> <span class="nf">detach_state</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">state</span><span class="p">[</span><span class="s2">&quot;src&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">state</span><span class="p">[</span><span class="s2">&quot;src&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span>
-
-    <span class="k">def</span> <span class="nf">_get_layers</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot; Allow subclasses to modify layer stack on-the-fly &quot;&quot;&quot;</span>
-        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">transformer_layers</span>
-
-<div class="viewcode-block" id="TransformerDecoder.forward"><a class="viewcode-back" href="../../../mammoth.modules.html#mammoth.decoders.TransformerDecoder.forward">[docs]</a>    <span class="k">def</span> <span class="nf">forward</span><span class="p">(</span>
-        <span class="bp">self</span><span class="p">,</span>
-        <span class="n">tgt</span><span class="p">,</span>
-        <span class="n">memory_bank</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
-        <span class="n">step</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
-        <span class="n">memory_lengths</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
-        <span class="n">tgt_pad_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
-        <span class="n">skip_embedding</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
-        <span class="o">**</span><span class="n">kwargs</span>
-    <span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;Decode, possibly stepwise.&quot;&quot;&quot;</span>
-        <span class="k">if</span> <span class="n">memory_bank</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="n">memory_bank</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">embeddings</span><span class="p">(</span><span class="n">tgt</span><span class="p">)</span>
-            <span class="n">src_memory_bank</span> <span class="o">=</span> <span class="n">memory_bank</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span><span class="o">.</span><span class="n">contiguous</span><span class="p">()</span>
-        <span class="k">if</span> <span class="n">step</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">_init_cache</span><span class="p">(</span><span class="n">memory_bank</span><span class="p">)</span>
-
-        <span class="k">if</span> <span class="n">skip_embedding</span><span class="p">:</span>
-            <span class="c1"># tgt and memory_bank are already in batch-first order</span>
-            <span class="n">output</span> <span class="o">=</span> <span class="n">tgt</span>
-            <span class="n">src_memory_bank</span> <span class="o">=</span> <span class="n">memory_bank</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="n">tgt_words</span> <span class="o">=</span> <span class="n">tgt</span><span class="p">[:,</span> <span class="p">:,</span> <span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>
-
-            <span class="n">pad_idx</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">embeddings</span><span class="o">.</span><span class="n">word_padding_idx</span>
-            <span class="n">tgt_pad_mask</span> <span class="o">=</span> <span class="n">tgt_words</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">eq</span><span class="p">(</span><span class="n">pad_idx</span><span class="p">)</span><span class="o">.</span><span class="n">unsqueeze</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span>  <span class="c1"># [B, 1, T_tgt]</span>
-
-            <span class="n">emb</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">embeddings</span><span class="p">(</span><span class="n">tgt</span><span class="p">,</span> <span class="n">step</span><span class="o">=</span><span class="n">step</span><span class="p">)</span>
-            <span class="k">assert</span> <span class="n">emb</span><span class="o">.</span><span class="n">dim</span><span class="p">()</span> <span class="o">==</span> <span class="mi">3</span>  <span class="c1"># len x batch x embedding_dim</span>
-
-            <span class="n">output</span> <span class="o">=</span> <span class="n">emb</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span><span class="o">.</span><span class="n">contiguous</span><span class="p">()</span>
-
-        <span class="n">src_pad_mask</span> <span class="o">=</span> <span class="kc">None</span>
-        <span class="k">if</span> <span class="n">memory_lengths</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="c1"># either if the attention bridge contains no fixed-length component</span>
-            <span class="c1"># or lengths were provided for a DecodeStrategy in translation</span>
-            <span class="n">src_max_len</span> <span class="o">=</span> <span class="n">memory_bank</span><span class="o">.</span><span class="n">size</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span>
-            <span class="n">src_pad_mask</span> <span class="o">=</span> <span class="o">~</span><span class="n">sequence_mask</span><span class="p">(</span><span class="n">memory_lengths</span><span class="p">,</span> <span class="n">src_max_len</span><span class="p">)</span><span class="o">.</span><span class="n">unsqueeze</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span>
-
-        <span class="n">with_align</span> <span class="o">=</span> <span class="n">kwargs</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="s2">&quot;with_align&quot;</span><span class="p">,</span> <span class="kc">False</span><span class="p">)</span>
-        <span class="n">attn_aligns</span> <span class="o">=</span> <span class="p">[]</span>
-
-        <span class="k">for</span> <span class="n">i</span><span class="p">,</span> <span class="n">layer</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">_get_layers</span><span class="p">()):</span>
-            <span class="n">layer_cache</span> <span class="o">=</span> <span class="p">(</span>
-                <span class="bp">self</span><span class="o">.</span><span class="n">state</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;layer_</span><span class="si">{}</span><span class="s2">&quot;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">i</span><span class="p">)]</span>
-                <span class="k">if</span> <span class="n">step</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
-                <span class="k">else</span> <span class="kc">None</span>
-            <span class="p">)</span>
-            <span class="n">output</span><span class="p">,</span> <span class="n">attn</span><span class="p">,</span> <span class="n">attn_align</span> <span class="o">=</span> <span class="n">layer</span><span class="p">(</span>
-                <span class="n">output</span><span class="p">,</span>
-                <span class="n">src_memory_bank</span><span class="p">,</span>
-                <span class="n">src_pad_mask</span><span class="p">,</span>
-                <span class="n">tgt_pad_mask</span><span class="p">,</span>
-                <span class="n">layer_cache</span><span class="o">=</span><span class="n">layer_cache</span><span class="p">,</span>
-                <span class="n">step</span><span class="o">=</span><span class="n">step</span><span class="p">,</span>
-                <span class="n">with_align</span><span class="o">=</span><span class="n">with_align</span><span class="p">,</span>
-            <span class="p">)</span>
-            <span class="k">if</span> <span class="n">attn_align</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
-                <span class="n">attn_aligns</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">attn_align</span><span class="p">)</span>
-
-        <span class="n">output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">layer_norm</span><span class="p">(</span><span class="n">output</span><span class="p">)</span>
-        <span class="c1"># caller should call transpose and contiguous if they need it</span>
-        <span class="n">dec_outs</span> <span class="o">=</span> <span class="n">output</span>
-
-        <span class="n">attns</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;std&quot;</span><span class="p">:</span> <span class="n">attn</span><span class="p">}</span>
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">_copy</span><span class="p">:</span>
-            <span class="n">attns</span><span class="p">[</span><span class="s2">&quot;copy&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">attn</span>
-        <span class="k">if</span> <span class="n">with_align</span><span class="p">:</span>
-            <span class="n">attns</span><span class="p">[</span><span class="s2">&quot;align&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">attn_aligns</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">alignment_layer</span><span class="p">]</span>  <span class="c1"># `(B, Q, K)`</span>
-            <span class="c1"># attns[&quot;align&quot;] = torch.stack(attn_aligns, 0).mean(0)  # All avg</span>
-
-        <span class="c1"># TODO change the way attns is returned dict =&gt; list or tuple (onnx)</span>
-        <span class="k">return</span> <span class="n">dec_outs</span><span class="p">,</span> <span class="n">attns</span></div>
-
-    <span class="k">def</span> <span class="nf">_init_cache</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">memory_bank</span><span class="p">):</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">state</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="p">{}</span>
-        <span class="c1"># memory_bank is now batch-first</span>
-        <span class="n">batch_size</span> <span class="o">=</span> <span class="n">memory_bank</span><span class="o">.</span><span class="n">size</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
-        <span class="n">depth</span> <span class="o">=</span> <span class="n">memory_bank</span><span class="o">.</span><span class="n">size</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">)</span>
-
-        <span class="k">for</span> <span class="n">i</span><span class="p">,</span> <span class="n">layer</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">_get_layers</span><span class="p">()):</span>
-            <span class="k">try</span><span class="p">:</span>
-                <span class="k">if</span> <span class="n">layer</span><span class="o">.</span><span class="n">_does_not_need_cache</span><span class="p">:</span>
-                    <span class="bp">self</span><span class="o">.</span><span class="n">state</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;layer_</span><span class="si">{}</span><span class="s2">&quot;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">i</span><span class="p">)]</span> <span class="o">=</span> <span class="kc">None</span>
-                    <span class="k">continue</span>
-            <span class="k">except</span> <span class="ne">AttributeError</span><span class="p">:</span>
-                <span class="c1"># needs the cache</span>
-                <span class="k">pass</span>
-            <span class="n">layer_cache</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;memory_keys&quot;</span><span class="p">:</span> <span class="kc">None</span><span class="p">,</span> <span class="s2">&quot;memory_values&quot;</span><span class="p">:</span> <span class="kc">None</span><span class="p">}</span>
-            <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">layer</span><span class="o">.</span><span class="n">self_attn</span><span class="p">,</span> <span class="n">AverageAttention</span><span class="p">):</span>
-                <span class="n">layer_cache</span><span class="p">[</span><span class="s2">&quot;prev_g&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">zeros</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="n">depth</span><span class="p">),</span> <span class="n">device</span><span class="o">=</span><span class="n">memory_bank</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
-            <span class="k">else</span><span class="p">:</span>
-                <span class="n">layer_cache</span><span class="p">[</span><span class="s2">&quot;self_keys&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span>
-                <span class="n">layer_cache</span><span class="p">[</span><span class="s2">&quot;self_values&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">state</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;layer_</span><span class="si">{}</span><span class="s2">&quot;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">i</span><span class="p">)]</span> <span class="o">=</span> <span class="n">layer_cache</span></div>
-</pre></div>
-
-           </div>
-           
-          </div>
-          <footer>
-  
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>
-        &copy; Copyright 2023, HelsinkiNLP
-
-    </p>
-  </div>
-  Built with <a href="http://sphinx-doc.org/">Sphinx</a> using a <a href="https://github.com/rtfd/sphinx_rtd_theme">theme</a> provided by <a href="https://readthedocs.org">Read the Docs</a>. 
-
-</footer>
-
-        </div>
-      </div>
-
-    </section>
-
-  </div>
-  
-
-
-  <script type="text/javascript">
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script>
-
-  
-  
-    
-   
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/mammoth/encoders/encoder.html b/_modules/mammoth/encoders/encoder.html
deleted file mode 100644
index 2ee4a3ff..00000000
--- a/_modules/mammoth/encoders/encoder.html
+++ /dev/null
@@ -1,278 +0,0 @@
-
-
-<!DOCTYPE html>
-<!--[if IE 8]><html class="no-js lt-ie9" lang="en" > <![endif]-->
-<!--[if gt IE 8]><!--> <html class="no-js" lang="en" > <!--<![endif]-->
-<head>
-  <meta charset="utf-8">
-  
-  <meta name="viewport" content="width=device-width, initial-scale=1.0">
-  
-  <title>mammoth.encoders.encoder &mdash; MAMMOTH  documentation</title>
-  
-
-  
-  
-  
-  
-
-  
-  <script type="text/javascript" src="../../../_static/js/modernizr.min.js"></script>
-  
-    
-      <script type="text/javascript" id="documentation_options" data-url_root="../../../" src="../../../_static/documentation_options.js"></script>
-        <script src="../../../_static/jquery.js"></script>
-        <script src="../../../_static/underscore.js"></script>
-        <script src="../../../_static/doctools.js"></script>
-        <script src="../../../_static/language_data.js"></script>
-        <script async="async" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.5/latest.js?config=TeX-AMS-MML_HTMLorMML"></script>
-        <script type="text/x-mathjax-config">MathJax.Hub.Config({"tex2jax": {"inlineMath": [["\\(", "\\)"]], "displayMath": [["\\[", "\\]"]]}})</script>
-        <script src="https://unpkg.com/mermaid@8.4.8/dist/mermaid.min.js"></script>
-    
-    <script type="text/javascript" src="../../../_static/js/theme.js"></script>
-
-    
-
-  
-  <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
-  <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" />
-  <link rel="stylesheet" href="../../../_static/theme_overrides.css" type="text/css" />
-    <link rel="index" title="Index" href="../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav">
-
-   
-  <div class="wy-grid-for-nav">
-    
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-          
-
-          
-            <a href="../../../index.html" class="icon icon-home"> MAMMOTH
-          
-
-          
-          </a>
-
-          
-            
-            
-          
-
-          
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-
-          
-        </div>
-
-        <div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="main navigation">
-          
-            
-            
-              
-            
-            
-              <p class="caption"><span class="caption-text">Getting Started</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../main.html">Overview</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../quickstart.html">Quickstart</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../CONTRIBUTING.html">Contributors</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../ref.html">References</a></li>
-</ul>
-<p class="caption"><span class="caption-text">MAMMOTH features</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../config_config.html">Config-config tool</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../attention_bridges.html">Attention Bridge</a></li>
-</ul>
-<p class="caption"><span class="caption-text">Tutorials</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../prepare_data.html">Prepare Data</a></li>
-</ul>
-<p class="caption"><span class="caption-text">Scripts</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../options/build_vocab.html">Build Vocab</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../options/train.html">Train</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../options/translate.html">Translate</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../options/server.html">Server</a></li>
-</ul>
-<p class="caption"><span class="caption-text">API</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../mammoth.html">Framework</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../mammoth.modules.html">Modules</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../mammoth.translation.html">Translation</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../mammoth.translate.translation_server.html">Server</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../mammoth.inputters.html">Data Loaders</a></li>
-</ul>
-
-            
-          
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap">
-
-      
-      <nav class="wy-nav-top" aria-label="top navigation">
-        
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../index.html">MAMMOTH</a>
-        
-      </nav>
-
-
-      <div class="wy-nav-content">
-        
-        <div class="rst-content">
-        
-          
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-<div role="navigation" aria-label="breadcrumbs navigation">
-
-  <ul class="wy-breadcrumbs">
-    
-      <li><a href="../../../index.html">Docs</a> &raquo;</li>
-        
-          <li><a href="../../index.html">Module code</a> &raquo;</li>
-        
-      <li>mammoth.encoders.encoder</li>
-    
-    
-      <li class="wy-breadcrumbs-aside">
-        
-      </li>
-    
-  </ul>
-
-  
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-            
-  <h1>Source code for mammoth.encoders.encoder</h1><div class="highlight"><pre>
-<span></span><span class="sd">&quot;&quot;&quot;Base class for encoders and generic multi encoders.&quot;&quot;&quot;</span>
-
-<span class="kn">import</span> <span class="nn">torch.nn</span> <span class="k">as</span> <span class="nn">nn</span>
-
-<span class="kn">from</span> <span class="nn">mammoth.utils.misc</span> <span class="kn">import</span> <span class="n">aeq</span>
-
-
-<div class="viewcode-block" id="EncoderBase"><a class="viewcode-back" href="../../../mammoth.modules.html#mammoth.encoders.EncoderBase">[docs]</a><span class="k">class</span> <span class="nc">EncoderBase</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Base encoder class. Specifies the interface used by different encoder types</span>
-<span class="sd">    and required by :class:`mammoth.Models.NMTModel`.</span>
-
-<span class="sd">    .. mermaid::</span>
-
-<span class="sd">       graph BT</span>
-<span class="sd">          A[Input]</span>
-<span class="sd">          subgraph RNN</span>
-<span class="sd">            C[Pos 1]</span>
-<span class="sd">            D[Pos 2]</span>
-<span class="sd">            E[Pos N]</span>
-<span class="sd">          end</span>
-<span class="sd">          F[Memory_Bank]</span>
-<span class="sd">          G[Final]</span>
-<span class="sd">          A--&gt;C</span>
-<span class="sd">          A--&gt;D</span>
-<span class="sd">          A--&gt;E</span>
-<span class="sd">          C--&gt;F</span>
-<span class="sd">          D--&gt;F</span>
-<span class="sd">          E--&gt;F</span>
-<span class="sd">          E--&gt;G</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-
-    <span class="nd">@classmethod</span>
-    <span class="k">def</span> <span class="nf">from_opt</span><span class="p">(</span><span class="bp">cls</span><span class="p">,</span> <span class="n">opt</span><span class="p">,</span> <span class="n">embeddings</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
-        <span class="k">raise</span> <span class="ne">NotImplementedError</span>
-
-    <span class="k">def</span> <span class="nf">_check_args</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">src</span><span class="p">,</span> <span class="n">lengths</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">hidden</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
-        <span class="n">n_batch</span> <span class="o">=</span> <span class="n">src</span><span class="o">.</span><span class="n">size</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span>
-        <span class="k">if</span> <span class="n">lengths</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="p">(</span><span class="n">n_batch_</span><span class="p">,)</span> <span class="o">=</span> <span class="n">lengths</span><span class="o">.</span><span class="n">size</span><span class="p">()</span>
-            <span class="n">aeq</span><span class="p">(</span><span class="n">n_batch</span><span class="p">,</span> <span class="n">n_batch_</span><span class="p">)</span>
-
-<div class="viewcode-block" id="EncoderBase.forward"><a class="viewcode-back" href="../../../mammoth.modules.html#mammoth.encoders.EncoderBase.forward">[docs]</a>    <span class="k">def</span> <span class="nf">forward</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">src</span><span class="p">,</span> <span class="n">lengths</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Args:</span>
-<span class="sd">            src (LongTensor):</span>
-<span class="sd">               padded sequences of sparse indices ``(src_len, batch, nfeat)``</span>
-<span class="sd">            lengths (LongTensor): length of each sequence ``(batch,)``</span>
-
-
-<span class="sd">        Returns:</span>
-<span class="sd">            (FloatTensor, FloatTensor, FloatTensor):</span>
-
-<span class="sd">            * final encoder state, used to initialize decoder</span>
-<span class="sd">            * memory bank for attention, ``(src_len, batch, hidden)``</span>
-<span class="sd">            * lengths</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-
-        <span class="k">raise</span> <span class="ne">NotImplementedError</span></div></div>
-</pre></div>
-
-           </div>
-           
-          </div>
-          <footer>
-  
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>
-        &copy; Copyright 2023, HelsinkiNLP
-
-    </p>
-  </div>
-  Built with <a href="http://sphinx-doc.org/">Sphinx</a> using a <a href="https://github.com/rtfd/sphinx_rtd_theme">theme</a> provided by <a href="https://readthedocs.org">Read the Docs</a>. 
-
-</footer>
-
-        </div>
-      </div>
-
-    </section>
-
-  </div>
-  
-
-
-  <script type="text/javascript">
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script>
-
-  
-  
-    
-   
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/mammoth/encoders/mean_encoder.html b/_modules/mammoth/encoders/mean_encoder.html
deleted file mode 100644
index c36c4d2c..00000000
--- a/_modules/mammoth/encoders/mean_encoder.html
+++ /dev/null
@@ -1,262 +0,0 @@
-
-
-<!DOCTYPE html>
-<!--[if IE 8]><html class="no-js lt-ie9" lang="en" > <![endif]-->
-<!--[if gt IE 8]><!--> <html class="no-js" lang="en" > <!--<![endif]-->
-<head>
-  <meta charset="utf-8">
-  
-  <meta name="viewport" content="width=device-width, initial-scale=1.0">
-  
-  <title>mammoth.encoders.mean_encoder &mdash; MAMMOTH  documentation</title>
-  
-
-  
-  
-  
-  
-
-  
-  <script type="text/javascript" src="../../../_static/js/modernizr.min.js"></script>
-  
-    
-      <script type="text/javascript" id="documentation_options" data-url_root="../../../" src="../../../_static/documentation_options.js"></script>
-        <script src="../../../_static/jquery.js"></script>
-        <script src="../../../_static/underscore.js"></script>
-        <script src="../../../_static/doctools.js"></script>
-        <script src="../../../_static/language_data.js"></script>
-        <script async="async" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.5/latest.js?config=TeX-AMS-MML_HTMLorMML"></script>
-        <script type="text/x-mathjax-config">MathJax.Hub.Config({"tex2jax": {"inlineMath": [["\\(", "\\)"]], "displayMath": [["\\[", "\\]"]]}})</script>
-        <script src="https://unpkg.com/mermaid@8.4.8/dist/mermaid.min.js"></script>
-    
-    <script type="text/javascript" src="../../../_static/js/theme.js"></script>
-
-    
-
-  
-  <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
-  <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" />
-  <link rel="stylesheet" href="../../../_static/theme_overrides.css" type="text/css" />
-    <link rel="index" title="Index" href="../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav">
-
-   
-  <div class="wy-grid-for-nav">
-    
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-          
-
-          
-            <a href="../../../index.html" class="icon icon-home"> MAMMOTH
-          
-
-          
-          </a>
-
-          
-            
-            
-          
-
-          
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-
-          
-        </div>
-
-        <div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="main navigation">
-          
-            
-            
-              
-            
-            
-              <p class="caption"><span class="caption-text">Getting Started</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../main.html">Overview</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../quickstart.html">Quickstart</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../CONTRIBUTING.html">Contributors</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../ref.html">References</a></li>
-</ul>
-<p class="caption"><span class="caption-text">MAMMOTH features</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../config_config.html">Config-config tool</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../attention_bridges.html">Attention Bridge</a></li>
-</ul>
-<p class="caption"><span class="caption-text">Tutorials</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../prepare_data.html">Prepare Data</a></li>
-</ul>
-<p class="caption"><span class="caption-text">Scripts</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../options/build_vocab.html">Build Vocab</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../options/train.html">Train</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../options/translate.html">Translate</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../options/server.html">Server</a></li>
-</ul>
-<p class="caption"><span class="caption-text">API</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../mammoth.html">Framework</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../mammoth.modules.html">Modules</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../mammoth.translation.html">Translation</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../mammoth.translate.translation_server.html">Server</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../mammoth.inputters.html">Data Loaders</a></li>
-</ul>
-
-            
-          
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap">
-
-      
-      <nav class="wy-nav-top" aria-label="top navigation">
-        
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../index.html">MAMMOTH</a>
-        
-      </nav>
-
-
-      <div class="wy-nav-content">
-        
-        <div class="rst-content">
-        
-          
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-<div role="navigation" aria-label="breadcrumbs navigation">
-
-  <ul class="wy-breadcrumbs">
-    
-      <li><a href="../../../index.html">Docs</a> &raquo;</li>
-        
-          <li><a href="../../index.html">Module code</a> &raquo;</li>
-        
-      <li>mammoth.encoders.mean_encoder</li>
-    
-    
-      <li class="wy-breadcrumbs-aside">
-        
-      </li>
-    
-  </ul>
-
-  
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-            
-  <h1>Source code for mammoth.encoders.mean_encoder</h1><div class="highlight"><pre>
-<span></span><span class="sd">&quot;&quot;&quot;Define a minimal encoder.&quot;&quot;&quot;</span>
-<span class="kn">from</span> <span class="nn">mammoth.encoders.encoder</span> <span class="kn">import</span> <span class="n">EncoderBase</span>
-<span class="kn">from</span> <span class="nn">mammoth.utils.misc</span> <span class="kn">import</span> <span class="n">sequence_mask</span>
-<span class="kn">import</span> <span class="nn">torch</span>
-
-
-<div class="viewcode-block" id="MeanEncoder"><a class="viewcode-back" href="../../../mammoth.modules.html#mammoth.encoders.MeanEncoder">[docs]</a><span class="k">class</span> <span class="nc">MeanEncoder</span><span class="p">(</span><span class="n">EncoderBase</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;A trivial non-recurrent encoder. Simply applies mean pooling.</span>
-
-<span class="sd">    Args:</span>
-<span class="sd">       num_layers (int): number of replicated layers</span>
-<span class="sd">       embeddings (mammoth.modules.Embeddings): embedding module to use</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">num_layers</span><span class="p">,</span> <span class="n">embeddings</span><span class="p">):</span>
-        <span class="nb">super</span><span class="p">(</span><span class="n">MeanEncoder</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">num_layers</span> <span class="o">=</span> <span class="n">num_layers</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">embeddings</span> <span class="o">=</span> <span class="n">embeddings</span>
-
-<div class="viewcode-block" id="MeanEncoder.from_opt"><a class="viewcode-back" href="../../../mammoth.modules.html#mammoth.encoders.MeanEncoder.from_opt">[docs]</a>    <span class="nd">@classmethod</span>
-    <span class="k">def</span> <span class="nf">from_opt</span><span class="p">(</span><span class="bp">cls</span><span class="p">,</span> <span class="n">opt</span><span class="p">,</span> <span class="n">embeddings</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;Alternate constructor.&quot;&quot;&quot;</span>
-        <span class="k">return</span> <span class="bp">cls</span><span class="p">(</span><span class="n">opt</span><span class="o">.</span><span class="n">enc_layers</span><span class="p">,</span> <span class="n">embeddings</span><span class="p">)</span></div>
-
-<div class="viewcode-block" id="MeanEncoder.forward"><a class="viewcode-back" href="../../../mammoth.modules.html#mammoth.encoders.MeanEncoder.forward">[docs]</a>    <span class="k">def</span> <span class="nf">forward</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">src</span><span class="p">,</span> <span class="n">lengths</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;See :func:`EncoderBase.forward()`&quot;&quot;&quot;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">_check_args</span><span class="p">(</span><span class="n">src</span><span class="p">,</span> <span class="n">lengths</span><span class="p">)</span>
-
-        <span class="n">emb</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">embeddings</span><span class="p">(</span><span class="n">src</span><span class="p">)</span>
-        <span class="n">_</span><span class="p">,</span> <span class="n">batch</span><span class="p">,</span> <span class="n">emb_dim</span> <span class="o">=</span> <span class="n">emb</span><span class="o">.</span><span class="n">size</span><span class="p">()</span>
-
-        <span class="k">if</span> <span class="n">lengths</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="c1"># we avoid padding while mean pooling</span>
-            <span class="n">mask</span> <span class="o">=</span> <span class="n">sequence_mask</span><span class="p">(</span><span class="n">lengths</span><span class="p">)</span><span class="o">.</span><span class="n">float</span><span class="p">()</span>
-            <span class="n">mask</span> <span class="o">=</span> <span class="n">mask</span> <span class="o">/</span> <span class="n">lengths</span><span class="o">.</span><span class="n">unsqueeze</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span><span class="o">.</span><span class="n">float</span><span class="p">()</span>
-            <span class="n">mean</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">bmm</span><span class="p">(</span><span class="n">mask</span><span class="o">.</span><span class="n">unsqueeze</span><span class="p">(</span><span class="mi">1</span><span class="p">),</span> <span class="n">emb</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">1</span><span class="p">))</span><span class="o">.</span><span class="n">squeeze</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="n">mean</span> <span class="o">=</span> <span class="n">emb</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
-
-        <span class="n">mean</span> <span class="o">=</span> <span class="n">mean</span><span class="o">.</span><span class="n">expand</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">num_layers</span><span class="p">,</span> <span class="n">batch</span><span class="p">,</span> <span class="n">emb_dim</span><span class="p">)</span>
-        <span class="n">memory_bank</span> <span class="o">=</span> <span class="n">emb</span>
-        <span class="n">encoder_final</span> <span class="o">=</span> <span class="p">(</span><span class="n">mean</span><span class="p">,</span> <span class="n">mean</span><span class="p">)</span>
-        <span class="k">return</span> <span class="n">encoder_final</span><span class="p">,</span> <span class="n">memory_bank</span><span class="p">,</span> <span class="n">lengths</span></div></div>
-</pre></div>
-
-           </div>
-           
-          </div>
-          <footer>
-  
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>
-        &copy; Copyright 2023, HelsinkiNLP
-
-    </p>
-  </div>
-  Built with <a href="http://sphinx-doc.org/">Sphinx</a> using a <a href="https://github.com/rtfd/sphinx_rtd_theme">theme</a> provided by <a href="https://readthedocs.org">Read the Docs</a>. 
-
-</footer>
-
-        </div>
-      </div>
-
-    </section>
-
-  </div>
-  
-
-
-  <script type="text/javascript">
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script>
-
-  
-  
-    
-   
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/mammoth/encoders/transformer_encoder.html b/_modules/mammoth/encoders/transformer_encoder.html
deleted file mode 100644
index 19b447b1..00000000
--- a/_modules/mammoth/encoders/transformer_encoder.html
+++ /dev/null
@@ -1,401 +0,0 @@
-
-
-<!DOCTYPE html>
-<!--[if IE 8]><html class="no-js lt-ie9" lang="en" > <![endif]-->
-<!--[if gt IE 8]><!--> <html class="no-js" lang="en" > <!--<![endif]-->
-<head>
-  <meta charset="utf-8">
-  
-  <meta name="viewport" content="width=device-width, initial-scale=1.0">
-  
-  <title>mammoth.encoders.transformer_encoder &mdash; MAMMOTH  documentation</title>
-  
-
-  
-  
-  
-  
-
-  
-  <script type="text/javascript" src="../../../_static/js/modernizr.min.js"></script>
-  
-    
-      <script type="text/javascript" id="documentation_options" data-url_root="../../../" src="../../../_static/documentation_options.js"></script>
-        <script src="../../../_static/jquery.js"></script>
-        <script src="../../../_static/underscore.js"></script>
-        <script src="../../../_static/doctools.js"></script>
-        <script src="../../../_static/language_data.js"></script>
-        <script async="async" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.5/latest.js?config=TeX-AMS-MML_HTMLorMML"></script>
-        <script type="text/x-mathjax-config">MathJax.Hub.Config({"tex2jax": {"inlineMath": [["\\(", "\\)"]], "displayMath": [["\\[", "\\]"]]}})</script>
-        <script src="https://unpkg.com/mermaid@8.4.8/dist/mermaid.min.js"></script>
-    
-    <script type="text/javascript" src="../../../_static/js/theme.js"></script>
-
-    
-
-  
-  <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
-  <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" />
-  <link rel="stylesheet" href="../../../_static/theme_overrides.css" type="text/css" />
-    <link rel="index" title="Index" href="../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav">
-
-   
-  <div class="wy-grid-for-nav">
-    
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-          
-
-          
-            <a href="../../../index.html" class="icon icon-home"> MAMMOTH
-          
-
-          
-          </a>
-
-          
-            
-            
-          
-
-          
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-
-          
-        </div>
-
-        <div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="main navigation">
-          
-            
-            
-              
-            
-            
-              <p class="caption"><span class="caption-text">Getting Started</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../main.html">Overview</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../quickstart.html">Quickstart</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../CONTRIBUTING.html">Contributors</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../ref.html">References</a></li>
-</ul>
-<p class="caption"><span class="caption-text">MAMMOTH features</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../config_config.html">Config-config tool</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../attention_bridges.html">Attention Bridge</a></li>
-</ul>
-<p class="caption"><span class="caption-text">Tutorials</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../prepare_data.html">Prepare Data</a></li>
-</ul>
-<p class="caption"><span class="caption-text">Scripts</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../options/build_vocab.html">Build Vocab</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../options/train.html">Train</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../options/translate.html">Translate</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../options/server.html">Server</a></li>
-</ul>
-<p class="caption"><span class="caption-text">API</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../mammoth.html">Framework</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../mammoth.modules.html">Modules</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../mammoth.translation.html">Translation</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../mammoth.translate.translation_server.html">Server</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../mammoth.inputters.html">Data Loaders</a></li>
-</ul>
-
-            
-          
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap">
-
-      
-      <nav class="wy-nav-top" aria-label="top navigation">
-        
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../index.html">MAMMOTH</a>
-        
-      </nav>
-
-
-      <div class="wy-nav-content">
-        
-        <div class="rst-content">
-        
-          
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-<div role="navigation" aria-label="breadcrumbs navigation">
-
-  <ul class="wy-breadcrumbs">
-    
-      <li><a href="../../../index.html">Docs</a> &raquo;</li>
-        
-          <li><a href="../../index.html">Module code</a> &raquo;</li>
-        
-      <li>mammoth.encoders.transformer_encoder</li>
-    
-    
-      <li class="wy-breadcrumbs-aside">
-        
-      </li>
-    
-  </ul>
-
-  
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-            
-  <h1>Source code for mammoth.encoders.transformer_encoder</h1><div class="highlight"><pre>
-<span></span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">Implementation of &quot;Attention is All You Need&quot;</span>
-<span class="sd">&quot;&quot;&quot;</span>
-
-<span class="kn">import</span> <span class="nn">torch.nn</span> <span class="k">as</span> <span class="nn">nn</span>
-
-<span class="kn">from</span> <span class="nn">mammoth.encoders.encoder</span> <span class="kn">import</span> <span class="n">EncoderBase</span>
-<span class="kn">from</span> <span class="nn">mammoth.modules</span> <span class="kn">import</span> <span class="n">MultiHeadedAttention</span>
-<span class="kn">from</span> <span class="nn">mammoth.modules.position_ffn</span> <span class="kn">import</span> <span class="n">PositionwiseFeedForward</span>
-<span class="kn">from</span> <span class="nn">mammoth.modules.position_ffn</span> <span class="kn">import</span> <span class="n">ActivationFunction</span>
-<span class="kn">from</span> <span class="nn">mammoth.utils.misc</span> <span class="kn">import</span> <span class="n">sequence_mask</span>
-
-
-<span class="k">class</span> <span class="nc">TransformerEncoderLayer</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    A single layer of the transformer encoder.</span>
-
-<span class="sd">    Args:</span>
-<span class="sd">        d_model (int): the dimension of keys/values/queries in</span>
-<span class="sd">                   MultiHeadedAttention, also the input size of</span>
-<span class="sd">                   the first-layer of the PositionwiseFeedForward.</span>
-<span class="sd">        heads (int): the number of head for MultiHeadedAttention.</span>
-<span class="sd">        d_ff (int): the second-layer of the PositionwiseFeedForward.</span>
-<span class="sd">        dropout (float): dropout probability(0-1.0).</span>
-<span class="sd">        pos_ffn_activation_fn (ActivationFunction):</span>
-<span class="sd">            activation function choice for PositionwiseFeedForward layer</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
-        <span class="bp">self</span><span class="p">,</span>
-        <span class="n">d_model</span><span class="p">,</span>
-        <span class="n">heads</span><span class="p">,</span>
-        <span class="n">d_ff</span><span class="p">,</span>
-        <span class="n">dropout</span><span class="p">,</span>
-        <span class="n">attention_dropout</span><span class="p">,</span>
-        <span class="n">max_relative_positions</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
-        <span class="n">pos_ffn_activation_fn</span><span class="o">=</span><span class="n">ActivationFunction</span><span class="o">.</span><span class="n">relu</span><span class="p">,</span>
-    <span class="p">):</span>
-        <span class="nb">super</span><span class="p">(</span><span class="n">TransformerEncoderLayer</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
-
-        <span class="bp">self</span><span class="o">.</span><span class="n">self_attn</span> <span class="o">=</span> <span class="n">MultiHeadedAttention</span><span class="p">(</span>
-            <span class="n">heads</span><span class="p">,</span> <span class="n">d_model</span><span class="p">,</span> <span class="n">dropout</span><span class="o">=</span><span class="n">attention_dropout</span><span class="p">,</span> <span class="n">max_relative_positions</span><span class="o">=</span><span class="n">max_relative_positions</span>
-        <span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">feed_forward</span> <span class="o">=</span> <span class="n">PositionwiseFeedForward</span><span class="p">(</span><span class="n">d_model</span><span class="p">,</span> <span class="n">d_ff</span><span class="p">,</span> <span class="n">dropout</span><span class="p">,</span> <span class="n">pos_ffn_activation_fn</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">layer_norm</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">LayerNorm</span><span class="p">(</span><span class="n">d_model</span><span class="p">,</span> <span class="n">eps</span><span class="o">=</span><span class="mf">1e-6</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">dropout</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Dropout</span><span class="p">(</span><span class="n">dropout</span><span class="p">)</span>
-
-    <span class="k">def</span> <span class="nf">forward</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">inputs</span><span class="p">,</span> <span class="n">mask</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Args:</span>
-<span class="sd">            inputs (FloatTensor): ``(batch_size, src_len, model_dim)``</span>
-<span class="sd">            mask (LongTensor): ``(batch_size, 1, src_len)``</span>
-
-<span class="sd">        Returns:</span>
-<span class="sd">            (FloatTensor):</span>
-
-<span class="sd">            * outputs ``(batch_size, src_len, model_dim)``</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="n">input_norm</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">layer_norm</span><span class="p">(</span><span class="n">inputs</span><span class="p">)</span>
-        <span class="n">context</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">self_attn</span><span class="p">(</span><span class="n">input_norm</span><span class="p">,</span> <span class="n">input_norm</span><span class="p">,</span> <span class="n">input_norm</span><span class="p">,</span> <span class="n">mask</span><span class="o">=</span><span class="n">mask</span><span class="p">,</span> <span class="n">attn_type</span><span class="o">=</span><span class="s2">&quot;self&quot;</span><span class="p">)</span>
-        <span class="n">out</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">dropout</span><span class="p">(</span><span class="n">context</span><span class="p">)</span> <span class="o">+</span> <span class="n">inputs</span>
-        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">feed_forward</span><span class="p">(</span><span class="n">out</span><span class="p">)</span>
-
-    <span class="k">def</span> <span class="nf">update_dropout</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dropout</span><span class="p">,</span> <span class="n">attention_dropout</span><span class="p">):</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">self_attn</span><span class="o">.</span><span class="n">update_dropout</span><span class="p">(</span><span class="n">attention_dropout</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">feed_forward</span><span class="o">.</span><span class="n">update_dropout</span><span class="p">(</span><span class="n">dropout</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">dropout</span><span class="o">.</span><span class="n">p</span> <span class="o">=</span> <span class="n">dropout</span>
-
-
-<div class="viewcode-block" id="TransformerEncoder"><a class="viewcode-back" href="../../../mammoth.modules.html#mammoth.encoders.TransformerEncoder">[docs]</a><span class="k">class</span> <span class="nc">TransformerEncoder</span><span class="p">(</span><span class="n">EncoderBase</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;The Transformer encoder from &quot;Attention is All You Need&quot;</span>
-<span class="sd">    :cite:`DBLP:journals/corr/VaswaniSPUJGKP17`</span>
-
-<span class="sd">    .. mermaid::</span>
-
-<span class="sd">       graph BT</span>
-<span class="sd">          A[input]</span>
-<span class="sd">          B[multi-head self-attn]</span>
-<span class="sd">          C[feed forward]</span>
-<span class="sd">          O[output]</span>
-<span class="sd">          A --&gt; B</span>
-<span class="sd">          B --&gt; C</span>
-<span class="sd">          C --&gt; O</span>
-
-<span class="sd">    Args:</span>
-<span class="sd">        num_layers (int): number of encoder layers</span>
-<span class="sd">        d_model (int): size of the model</span>
-<span class="sd">        heads (int): number of heads</span>
-<span class="sd">        d_ff (int): size of the inner FF layer</span>
-<span class="sd">        dropout (float): dropout parameters</span>
-<span class="sd">        embeddings (mammoth.modules.Embeddings):</span>
-<span class="sd">          embeddings to use, should have positional encodings</span>
-<span class="sd">        pos_ffn_activation_fn (ActivationFunction):</span>
-<span class="sd">            activation function choice for PositionwiseFeedForward layer</span>
-
-<span class="sd">    Returns:</span>
-<span class="sd">        (torch.FloatTensor, torch.FloatTensor):</span>
-
-<span class="sd">        * embeddings ``(src_len, batch_size, model_dim)``</span>
-<span class="sd">        * memory_bank ``(src_len, batch_size, model_dim)``</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
-        <span class="bp">self</span><span class="p">,</span>
-        <span class="n">num_layers</span><span class="p">,</span>
-        <span class="n">d_model</span><span class="p">,</span>
-        <span class="n">heads</span><span class="p">,</span>
-        <span class="n">d_ff</span><span class="p">,</span>
-        <span class="n">dropout</span><span class="p">,</span>
-        <span class="n">attention_dropout</span><span class="p">,</span>
-        <span class="n">embeddings</span><span class="p">,</span>
-        <span class="n">max_relative_positions</span><span class="p">,</span>
-        <span class="n">pos_ffn_activation_fn</span><span class="o">=</span><span class="n">ActivationFunction</span><span class="o">.</span><span class="n">relu</span><span class="p">,</span>
-        <span class="n">layer_norm_module</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
-    <span class="p">):</span>
-        <span class="nb">super</span><span class="p">(</span><span class="n">TransformerEncoder</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
-
-        <span class="bp">self</span><span class="o">.</span><span class="n">embeddings</span> <span class="o">=</span> <span class="n">embeddings</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">transformer</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">ModuleList</span><span class="p">(</span>
-            <span class="p">[</span>
-                <span class="n">TransformerEncoderLayer</span><span class="p">(</span>
-                    <span class="n">d_model</span><span class="p">,</span>
-                    <span class="n">heads</span><span class="p">,</span>
-                    <span class="n">d_ff</span><span class="p">,</span>
-                    <span class="n">dropout</span><span class="p">,</span>
-                    <span class="n">attention_dropout</span><span class="p">,</span>
-                    <span class="n">max_relative_positions</span><span class="o">=</span><span class="n">max_relative_positions</span><span class="p">,</span>
-                    <span class="n">pos_ffn_activation_fn</span><span class="o">=</span><span class="n">pos_ffn_activation_fn</span><span class="p">,</span>
-                <span class="p">)</span>
-                <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">num_layers</span><span class="p">)</span>
-            <span class="p">]</span>
-        <span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">layer_norm</span> <span class="o">=</span> <span class="n">layer_norm_module</span>
-
-<div class="viewcode-block" id="TransformerEncoder.from_opt"><a class="viewcode-back" href="../../../mammoth.modules.html#mammoth.encoders.TransformerEncoder.from_opt">[docs]</a>    <span class="nd">@classmethod</span>
-    <span class="k">def</span> <span class="nf">from_opt</span><span class="p">(</span><span class="bp">cls</span><span class="p">,</span> <span class="n">opt</span><span class="p">,</span> <span class="n">embeddings</span><span class="p">,</span> <span class="n">is_on_top</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;Alternate constructor.&quot;&quot;&quot;</span>
-        <span class="k">return</span> <span class="bp">cls</span><span class="p">(</span>
-            <span class="n">opt</span><span class="o">.</span><span class="n">enc_layers</span><span class="p">,</span>
-            <span class="n">opt</span><span class="o">.</span><span class="n">rnn_size</span><span class="p">,</span>
-            <span class="n">opt</span><span class="o">.</span><span class="n">heads</span><span class="p">,</span>
-            <span class="n">opt</span><span class="o">.</span><span class="n">transformer_ff</span><span class="p">,</span>
-            <span class="n">opt</span><span class="o">.</span><span class="n">dropout</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="k">if</span> <span class="nb">type</span><span class="p">(</span><span class="n">opt</span><span class="o">.</span><span class="n">dropout</span><span class="p">)</span> <span class="ow">is</span> <span class="nb">list</span> <span class="k">else</span> <span class="n">opt</span><span class="o">.</span><span class="n">dropout</span><span class="p">,</span>
-            <span class="n">opt</span><span class="o">.</span><span class="n">attention_dropout</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="k">if</span> <span class="nb">type</span><span class="p">(</span><span class="n">opt</span><span class="o">.</span><span class="n">attention_dropout</span><span class="p">)</span> <span class="ow">is</span> <span class="nb">list</span> <span class="k">else</span> <span class="n">opt</span><span class="o">.</span><span class="n">attention_dropout</span><span class="p">,</span>
-            <span class="n">embeddings</span><span class="p">,</span>
-            <span class="n">opt</span><span class="o">.</span><span class="n">max_relative_positions</span><span class="p">,</span>
-            <span class="n">pos_ffn_activation_fn</span><span class="o">=</span><span class="n">opt</span><span class="o">.</span><span class="n">pos_ffn_activation_fn</span><span class="p">,</span>
-            <span class="n">layer_norm_module</span><span class="o">=</span><span class="p">(</span>
-                <span class="n">nn</span><span class="o">.</span><span class="n">LayerNorm</span><span class="p">(</span><span class="n">opt</span><span class="o">.</span><span class="n">enc_rnn_size</span><span class="p">,</span> <span class="n">eps</span><span class="o">=</span><span class="mf">1e-6</span><span class="p">)</span> <span class="k">if</span> <span class="n">is_on_top</span>
-                <span class="k">else</span> <span class="n">nn</span><span class="o">.</span><span class="n">Identity</span><span class="p">()</span>
-            <span class="p">)</span>
-        <span class="p">)</span></div>
-
-<div class="viewcode-block" id="TransformerEncoder.forward"><a class="viewcode-back" href="../../../mammoth.modules.html#mammoth.encoders.TransformerEncoder.forward">[docs]</a>    <span class="k">def</span> <span class="nf">forward</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">src</span><span class="p">,</span> <span class="n">lengths</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">skip_embedding</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">mask</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;See :func:`EncoderBase.forward()`&quot;&quot;&quot;</span>
-
-        <span class="k">if</span> <span class="n">skip_embedding</span><span class="p">:</span>
-            <span class="n">out</span> <span class="o">=</span> <span class="n">src</span>
-            <span class="n">emb</span> <span class="o">=</span> <span class="kc">None</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">_check_args</span><span class="p">(</span><span class="n">src</span><span class="p">,</span> <span class="n">lengths</span><span class="p">)</span>
-            <span class="n">emb</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">embeddings</span><span class="p">(</span><span class="n">src</span><span class="p">)</span>
-            <span class="n">out</span> <span class="o">=</span> <span class="n">emb</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span><span class="o">.</span><span class="n">contiguous</span><span class="p">()</span>
-            <span class="k">if</span> <span class="n">mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-                <span class="n">mask</span> <span class="o">=</span> <span class="o">~</span><span class="n">sequence_mask</span><span class="p">(</span><span class="n">lengths</span><span class="p">)</span><span class="o">.</span><span class="n">unsqueeze</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span>
-
-        <span class="c1"># Run the forward pass of every layer of the tranformer.</span>
-        <span class="n">out</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_forward_loop</span><span class="p">(</span><span class="n">out</span><span class="p">,</span> <span class="n">mask</span><span class="p">)</span>
-        <span class="n">out</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">layer_norm</span><span class="p">(</span><span class="n">out</span><span class="p">)</span>
-
-        <span class="c1"># caller should call transpose and contiguous if they need it</span>
-        <span class="k">return</span> <span class="n">emb</span><span class="p">,</span> <span class="n">out</span><span class="p">,</span> <span class="n">lengths</span><span class="p">,</span> <span class="n">mask</span></div>
-
-    <span class="k">def</span> <span class="nf">_forward_loop</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">out</span><span class="p">,</span> <span class="n">mask</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot; Run the forward pass of every layer of the transformer. &quot;&quot;&quot;</span>
-        <span class="k">for</span> <span class="n">layer</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">transformer</span><span class="p">:</span>
-            <span class="n">out</span> <span class="o">=</span> <span class="n">layer</span><span class="p">(</span><span class="n">out</span><span class="p">,</span> <span class="n">mask</span><span class="p">)</span>
-
-    <span class="k">def</span> <span class="nf">update_dropout</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dropout</span><span class="p">,</span> <span class="n">attention_dropout</span><span class="p">):</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">embeddings</span><span class="o">.</span><span class="n">update_dropout</span><span class="p">(</span><span class="n">dropout</span><span class="p">)</span>
-        <span class="k">for</span> <span class="n">layer</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">transformer</span><span class="p">:</span>
-            <span class="n">layer</span><span class="o">.</span><span class="n">update_dropout</span><span class="p">(</span><span class="n">dropout</span><span class="p">,</span> <span class="n">attention_dropout</span><span class="p">)</span></div>
-</pre></div>
-
-           </div>
-           
-          </div>
-          <footer>
-  
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>
-        &copy; Copyright 2023, HelsinkiNLP
-
-    </p>
-  </div>
-  Built with <a href="http://sphinx-doc.org/">Sphinx</a> using a <a href="https://github.com/rtfd/sphinx_rtd_theme">theme</a> provided by <a href="https://readthedocs.org">Read the Docs</a>. 
-
-</footer>
-
-        </div>
-      </div>
-
-    </section>
-
-  </div>
-  
-
-
-  <script type="text/javascript">
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script>
-
-  
-  
-    
-   
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/mammoth/translate/translator.html b/_modules/mammoth/translate/translator.html
index 3c3cb69e..1a320fb6 100644
--- a/_modules/mammoth/translate/translator.html
+++ b/_modules/mammoth/translate/translator.html
@@ -186,7 +186,7 @@ <h1>Source code for mammoth.translate.translator</h1><div class="highlight"><pre
 <span class="kn">import</span> <span class="nn">torch</span>
 
 <span class="kn">import</span> <span class="nn">mammoth.model_builder</span>
-<span class="kn">import</span> <span class="nn">mammoth.decoders.ensemble</span>
+<span class="kn">import</span> <span class="nn">mammoth.modules.decoder_ensemble</span>
 <span class="c1"># from mammoth.inputters.text_dataset import InferenceDataIterator</span>
 <span class="kn">from</span> <span class="nn">mammoth.translate.beam_search</span> <span class="kn">import</span> <span class="n">BeamSearch</span><span class="p">,</span> <span class="n">BeamSearchLM</span>
 <span class="kn">from</span> <span class="nn">mammoth.translate.greedy_search</span> <span class="kn">import</span> <span class="n">GreedySearch</span><span class="p">,</span> <span class="n">GreedySearchLM</span>
@@ -208,7 +208,7 @@ <h1>Source code for mammoth.translate.translator</h1><div class="highlight"><pre
         <span class="n">out_file</span> <span class="o">=</span> <span class="n">codecs</span><span class="o">.</span><span class="n">open</span><span class="p">(</span><span class="n">opt</span><span class="o">.</span><span class="n">output</span><span class="p">,</span> <span class="s2">&quot;w+&quot;</span><span class="p">,</span> <span class="s2">&quot;utf-8&quot;</span><span class="p">)</span>
 
     <span class="n">load_test_model</span> <span class="o">=</span> <span class="p">(</span>
-        <span class="n">mammoth</span><span class="o">.</span><span class="n">decoders</span><span class="o">.</span><span class="n">ensemble</span><span class="o">.</span><span class="n">load_test_model</span> <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">opt</span><span class="o">.</span><span class="n">models</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">3</span>
+        <span class="n">mammoth</span><span class="o">.</span><span class="n">modules</span><span class="o">.</span><span class="n">decoder_ensemble</span><span class="o">.</span><span class="n">load_test_model</span> <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">opt</span><span class="o">.</span><span class="n">models</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">3</span>
         <span class="k">else</span> <span class="n">mammoth</span><span class="o">.</span><span class="n">model_builder</span><span class="o">.</span><span class="n">load_test_multitask_model</span>
     <span class="p">)</span>
     <span class="k">if</span> <span class="n">logger</span><span class="p">:</span>
diff --git a/_sources/attention_bridges.md.txt b/_sources/attention_bridges.md.txt
index 0080a85f..3b014dbd 100644
--- a/_sources/attention_bridges.md.txt
+++ b/_sources/attention_bridges.md.txt
@@ -1,7 +1,7 @@
 
 # Attention Bridge
 
-The embeddings are generated through the self-attention mechanism ([Attention Bridge](./onmt/attention_bridge.py)) of the encoder and establish a connection with language-specific decoders that focus their attention on these embeddings. This is why they are referred to as 'bridges'. This architectural element serves to link the encoded information with the decoding process, enhancing the flow of information between different stages of language processing.
+The embeddings are generated through the self-attention mechanism ([Attention Bridge](./mammoth/modules/attention_bridge.py)) of the encoder and establish a connection with language-specific decoders that focus their attention on these embeddings. This is why they are referred to as 'bridges'. This architectural element serves to link the encoded information with the decoding process, enhancing the flow of information between different stages of language processing.
 
 There are five types of attention mechanism implemented:
 
@@ -61,7 +61,7 @@ The `PerceiverAttentionBridgeLayer` involves a multi-headed dot product self-att
 
 3. **Linear Layer**: After normalization, the data is fed into a linear layer. This linear transformation can be seen as a learned projection of the attention-weighted data into a new space.
 
-4. **ReLU Activation**: The output of the linear layer undergoes the Rectified Linear Unit (ReLU) activation function. 
+4. **ReLU Activation**: The output of the linear layer undergoes the Rectified Linear Unit (ReLU) activation function.
 
 5. **Linear Layer (Second)**: Another linear layer is applied to the ReLU-activated output.
 
@@ -72,11 +72,11 @@ The `PerceiverAttentionBridgeLayer` involves a multi-headed dot product self-att
 The process described involves dot product self-attention. The steps are as follows:
 
 1. **Input Transformation**: Given an input matrix $\mathbf{H} \in \mathbb{R}^{d_h \times n}$, two sets of learned weight matrices are used to transform the input. These weight matrices are $\mathbf{W}_1 \in \mathbb{R}^{d_h \times d_a}$ and $\mathbf{W}_2 \in \mathbb{R}^{d_h \times d_a}$. The multiplication of $\mathbf{H}$ with $\mathbf{W}_1$ and $\mathbf{W}_2$ produces matrices $\mathbf{V}$ and $\mathbf{K}$, respectively:
-   
+
    - $\mathbf{V} = \mathbf{H} \mathbf{W}_1$
    - $\mathbf{K} = \mathbf{H} \mathbf{W}_2$
 
-2. **Attention Calculation**: The core attention calculation involves three matrices: $\mathbf{Q} \in \mathbb{R}^{d_h \times n}$, $\mathbf{K}$ (calculated previously), and $\mathbf{V}$ (calculated previously). The dot product of $\mathbf{Q}$ and $\mathbf{K}^\top$ is divided by the square root of the dimensionality of the input features ($\sqrt{d_h}$). 
+2. **Attention Calculation**: The core attention calculation involves three matrices: $\mathbf{Q} \in \mathbb{R}^{d_h \times n}$, $\mathbf{K}$ (calculated previously), and $\mathbf{V}$ (calculated previously). The dot product of $\mathbf{Q}$ and $\mathbf{K}^\top$ is divided by the square root of the dimensionality of the input features ($\sqrt{d_h}$).
 The final attended output is calculated by multiplying the attention weights with the $\mathbf{V}$ matrix: $\mathbf{H}^\prime = \operatorname{Softmax}(\frac{\mathbf{Q}\mathbf{K}^\top}{\sqrt{d_h}})\mathbf{V}$
 
 
@@ -86,5 +86,4 @@ The TransformerEncoderLayer employs multi-headed dot product self-attention (by
 
 ## FeedForwardAttentionBridgeLayer
 
-The `FeedForwardAttentionBridgeLayer` module applies a sequence of linear transformations and `ReLU` activations to the input data, followed by an attention bridge normalization, enhancing the connectivity between different parts of the model. 
-
+The `FeedForwardAttentionBridgeLayer` module applies a sequence of linear transformations and `ReLU` activations to the input data, followed by an attention bridge normalization, enhancing the connectivity between different parts of the model.
diff --git a/attention_bridges.html b/attention_bridges.html
index 92206f43..328630bd 100644
--- a/attention_bridges.html
+++ b/attention_bridges.html
@@ -186,7 +186,7 @@
             
   <div class="section" id="attention-bridge">
 <h1>Attention Bridge<a class="headerlink" href="#attention-bridge" title="Permalink to this headline">¶</a></h1>
-<p>The embeddings are generated through the self-attention mechanism (<a class="reference external" href="./onmt/attention_bridge.py">Attention Bridge</a>) of the encoder and establish a connection with language-specific decoders that focus their attention on these embeddings. This is why they are referred to as ‘bridges’. This architectural element serves to link the encoded information with the decoding process, enhancing the flow of information between different stages of language processing.</p>
+<p>The embeddings are generated through the self-attention mechanism (<a class="reference external" href="./mammoth/modules/attention_bridge.py">Attention Bridge</a>) of the encoder and establish a connection with language-specific decoders that focus their attention on these embeddings. This is why they are referred to as ‘bridges’. This architectural element serves to link the encoded information with the decoding process, enhancing the flow of information between different stages of language processing.</p>
 <p>There are five types of attention mechanism implemented:</p>
 <div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="n">layer_type_to_cls</span> <span class="o">=</span> <span class="p">{</span>
             <span class="s1">&#39;lin&#39;</span><span class="p">:</span> <span class="n">LinAttentionBridgeLayer</span><span class="p">,</span>
diff --git a/genindex.html b/genindex.html
index 6f92775d..bbf3522f 100644
--- a/genindex.html
+++ b/genindex.html
@@ -273,8 +273,6 @@ <h2 id="C">C</h2>
 <h2 id="D">D</h2>
 <table style="width: 100%" class="indextable genindextable"><tr>
   <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="mammoth.modules.html#mammoth.decoders.DecoderBase">DecoderBase (class in mammoth.decoders)</a>
-</li>
       <li><a href="mammoth.translation.html#mammoth.translate.DecodeStrategy">DecodeStrategy (class in mammoth.translate)</a>
 </li>
   </ul></td>
@@ -290,14 +288,12 @@ <h2 id="E">E</h2>
 <table style="width: 100%" class="indextable genindextable"><tr>
   <td style="width: 33%; vertical-align: top;"><ul>
       <li><a href="mammoth.html#mammoth.utils.Statistics.elapsed_time">elapsed_time() (mammoth.utils.Statistics method)</a>
-</li>
-      <li><a href="mammoth.modules.html#mammoth.modules.Embeddings.emb_luts">emb_luts() (mammoth.modules.Embeddings property)</a>
 </li>
   </ul></td>
   <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="mammoth.modules.html#mammoth.modules.Embeddings">Embeddings (class in mammoth.modules)</a>
+      <li><a href="mammoth.modules.html#mammoth.modules.Embeddings.emb_luts">emb_luts() (mammoth.modules.Embeddings property)</a>
 </li>
-      <li><a href="mammoth.modules.html#mammoth.encoders.EncoderBase">EncoderBase (class in mammoth.encoders)</a>
+      <li><a href="mammoth.modules.html#mammoth.modules.Embeddings">Embeddings (class in mammoth.modules)</a>
 </li>
   </ul></td>
 </tr></table>
@@ -305,17 +301,9 @@ <h2 id="E">E</h2>
 <h2 id="F">F</h2>
 <table style="width: 100%" class="indextable genindextable"><tr>
   <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="mammoth.modules.html#mammoth.decoders.TransformerDecoder.forward">forward() (mammoth.decoders.TransformerDecoder method)</a>
+      <li><a href="mammoth.html#mammoth.models.NMTModel.forward">forward() (mammoth.models.NMTModel method)</a>
 
       <ul>
-        <li><a href="mammoth.modules.html#mammoth.encoders.EncoderBase.forward">(mammoth.encoders.EncoderBase method)</a>
-</li>
-        <li><a href="mammoth.modules.html#mammoth.encoders.MeanEncoder.forward">(mammoth.encoders.MeanEncoder method)</a>
-</li>
-        <li><a href="mammoth.modules.html#mammoth.encoders.TransformerEncoder.forward">(mammoth.encoders.TransformerEncoder method)</a>
-</li>
-        <li><a href="mammoth.html#mammoth.models.NMTModel.forward">(mammoth.models.NMTModel method)</a>
-</li>
         <li><a href="mammoth.modules.html#mammoth.modules.AverageAttention.forward">(mammoth.modules.AverageAttention method)</a>
 </li>
         <li><a href="mammoth.modules.html#mammoth.modules.ConvMultiStepAttention.forward">(mammoth.modules.ConvMultiStepAttention method)</a>
@@ -339,16 +327,8 @@ <h2 id="F">F</h2>
       </ul></li>
   </ul></td>
   <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="mammoth.modules.html#mammoth.decoders.DecoderBase.from_opt">from_opt() (mammoth.decoders.DecoderBase class method)</a>
-
-      <ul>
-        <li><a href="mammoth.modules.html#mammoth.encoders.MeanEncoder.from_opt">(mammoth.encoders.MeanEncoder class method)</a>
-</li>
-        <li><a href="mammoth.modules.html#mammoth.encoders.TransformerEncoder.from_opt">(mammoth.encoders.TransformerEncoder class method)</a>
-</li>
-        <li><a href="mammoth.html#mammoth.utils.Optimizer.from_opt">(mammoth.utils.Optimizer class method)</a>
+      <li><a href="mammoth.html#mammoth.utils.Optimizer.from_opt">from_opt() (mammoth.utils.Optimizer class method)</a>
 </li>
-      </ul></li>
   </ul></td>
 </tr></table>
 
@@ -430,8 +410,6 @@ <h2 id="M">M</h2>
       <li><a href="mammoth.translation.html#mammoth.translate.DecodeStrategy.maybe_update_forbidden_tokens">maybe_update_forbidden_tokens() (mammoth.translate.DecodeStrategy method)</a>
 </li>
       <li><a href="mammoth.translation.html#mammoth.translate.DecodeStrategy.maybe_update_target_prefix">maybe_update_target_prefix() (mammoth.translate.DecodeStrategy method)</a>
-</li>
-      <li><a href="mammoth.modules.html#mammoth.encoders.MeanEncoder">MeanEncoder (class in mammoth.encoders)</a>
 </li>
       <li><a href="mammoth.modules.html#mammoth.modules.MultiHeadedAttention">MultiHeadedAttention (class in mammoth.modules)</a>
 </li>
@@ -532,16 +510,12 @@ <h2 id="T">T</h2>
       <li><a href="mammoth.html#mammoth.Trainer.train">train() (mammoth.Trainer method)</a>
 </li>
       <li><a href="mammoth.html#mammoth.Trainer">Trainer (class in mammoth)</a>
-</li>
-      <li><a href="mammoth.modules.html#mammoth.modules.MultiHeadedAttention.training">training (mammoth.modules.MultiHeadedAttention attribute)</a>
 </li>
   </ul></td>
   <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="mammoth.html#mammoth.utils.Optimizer.training_step">training_step() (mammoth.utils.Optimizer property)</a>
-</li>
-      <li><a href="mammoth.modules.html#mammoth.decoders.TransformerDecoder">TransformerDecoder (class in mammoth.decoders)</a>
+      <li><a href="mammoth.modules.html#mammoth.modules.MultiHeadedAttention.training">training (mammoth.modules.MultiHeadedAttention attribute)</a>
 </li>
-      <li><a href="mammoth.modules.html#mammoth.encoders.TransformerEncoder">TransformerEncoder (class in mammoth.encoders)</a>
+      <li><a href="mammoth.html#mammoth.utils.Optimizer.training_step">training_step() (mammoth.utils.Optimizer property)</a>
 </li>
       <li><a href="mammoth.translation.html#mammoth.translate.Translator.translate_batch">translate_batch() (mammoth.translate.Translator method)</a>
 </li>
diff --git a/mammoth.modules.html b/mammoth.modules.html
index 4d64897e..38bea3b3 100644
--- a/mammoth.modules.html
+++ b/mammoth.modules.html
@@ -280,104 +280,9 @@ <h2>Core Modules<a class="headerlink" href="#core-modules" title="Permalink to t
 </div>
 <div class="section" id="encoders">
 <h2>Encoders<a class="headerlink" href="#encoders" title="Permalink to this headline">¶</a></h2>
-<dl class="class">
-<dt id="mammoth.encoders.EncoderBase">
-<em class="property">class </em><code class="sig-prename descclassname">mammoth.encoders.</code><code class="sig-name descname">EncoderBase</code><span class="sig-paren">(</span><em class="sig-param">*args</em>, <em class="sig-param">**kwargs</em><span class="sig-paren">)</span><a class="reference internal" href="_modules/mammoth/encoders/encoder.html#EncoderBase"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#mammoth.encoders.EncoderBase" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">torch.nn.modules.module.Module</span></code></p>
-<p>Base encoder class. Specifies the interface used by different encoder types
-and required by <code class="xref py py-class docutils literal notranslate"><span class="pre">mammoth.Models.NMTModel</span></code>.</p>
-<div class="mermaid">
-            graph BT
-   A[Input]
-   subgraph RNN
-     C[Pos 1]
-     D[Pos 2]
-     E[Pos N]
-   end
-   F[Memory_Bank]
-   G[Final]
-   A--&gt;C
-   A--&gt;D
-   A--&gt;E
-   C--&gt;F
-   D--&gt;F
-   E--&gt;F
-   E--&gt;G
-        </div><dl class="method">
-<dt id="mammoth.encoders.EncoderBase.forward">
-<code class="sig-name descname">forward</code><span class="sig-paren">(</span><em class="sig-param">src</em>, <em class="sig-param">lengths=None</em><span class="sig-paren">)</span><a class="reference internal" href="_modules/mammoth/encoders/encoder.html#EncoderBase.forward"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#mammoth.encoders.EncoderBase.forward" title="Permalink to this definition">¶</a></dt>
-<dd><dl class="field-list simple">
-<dt class="field-odd">Parameters</dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>src</strong> (<em>LongTensor</em>) – padded sequences of sparse indices <code class="docutils literal notranslate"><span class="pre">(src_len,</span> <span class="pre">batch,</span> <span class="pre">nfeat)</span></code></p></li>
-<li><p><strong>lengths</strong> (<em>LongTensor</em>) – length of each sequence <code class="docutils literal notranslate"><span class="pre">(batch,)</span></code></p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns</dt>
-<dd class="field-even"><p><ul class="simple">
-<li><p>final encoder state, used to initialize decoder</p></li>
-<li><p>memory bank for attention, <code class="docutils literal notranslate"><span class="pre">(src_len,</span> <span class="pre">batch,</span> <span class="pre">hidden)</span></code></p></li>
-<li><p>lengths</p></li>
-</ul>
-</p>
-</dd>
-<dt class="field-odd">Return type</dt>
-<dd class="field-odd"><p>(FloatTensor, FloatTensor, FloatTensor)</p>
-</dd>
-</dl>
-</dd></dl>
-
-</dd></dl>
-
-<dl class="class">
-<dt id="mammoth.encoders.MeanEncoder">
-<em class="property">class </em><code class="sig-prename descclassname">mammoth.encoders.</code><code class="sig-name descname">MeanEncoder</code><span class="sig-paren">(</span><em class="sig-param">num_layers</em>, <em class="sig-param">embeddings</em><span class="sig-paren">)</span><a class="reference internal" href="_modules/mammoth/encoders/mean_encoder.html#MeanEncoder"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#mammoth.encoders.MeanEncoder" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">mammoth.encoders.encoder.EncoderBase</span></code></p>
-<p>A trivial non-recurrent encoder. Simply applies mean pooling.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters</dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>num_layers</strong> (<em>int</em>) – number of replicated layers</p></li>
-<li><p><strong>embeddings</strong> (<a class="reference internal" href="#mammoth.modules.Embeddings" title="mammoth.modules.Embeddings"><em>mammoth.modules.Embeddings</em></a>) – embedding module to use</p></li>
-</ul>
-</dd>
-</dl>
-<dl class="method">
-<dt id="mammoth.encoders.MeanEncoder.forward">
-<code class="sig-name descname">forward</code><span class="sig-paren">(</span><em class="sig-param">src</em>, <em class="sig-param">lengths=None</em><span class="sig-paren">)</span><a class="reference internal" href="_modules/mammoth/encoders/mean_encoder.html#MeanEncoder.forward"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#mammoth.encoders.MeanEncoder.forward" title="Permalink to this definition">¶</a></dt>
-<dd><p>See <a class="reference internal" href="#mammoth.encoders.EncoderBase.forward" title="mammoth.encoders.EncoderBase.forward"><code class="xref py py-func docutils literal notranslate"><span class="pre">EncoderBase.forward()</span></code></a></p>
-</dd></dl>
-
-<dl class="method">
-<dt id="mammoth.encoders.MeanEncoder.from_opt">
-<em class="property">classmethod </em><code class="sig-name descname">from_opt</code><span class="sig-paren">(</span><em class="sig-param">opt</em>, <em class="sig-param">embeddings</em><span class="sig-paren">)</span><a class="reference internal" href="_modules/mammoth/encoders/mean_encoder.html#MeanEncoder.from_opt"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#mammoth.encoders.MeanEncoder.from_opt" title="Permalink to this definition">¶</a></dt>
-<dd><p>Alternate constructor.</p>
-</dd></dl>
-
-</dd></dl>
-
 </div>
 <div class="section" id="decoders">
 <h2>Decoders<a class="headerlink" href="#decoders" title="Permalink to this headline">¶</a></h2>
-<dl class="class">
-<dt id="mammoth.decoders.DecoderBase">
-<em class="property">class </em><code class="sig-prename descclassname">mammoth.decoders.</code><code class="sig-name descname">DecoderBase</code><span class="sig-paren">(</span><em class="sig-param">attentional=True</em><span class="sig-paren">)</span><a class="reference internal" href="_modules/mammoth/decoders/decoder.html#DecoderBase"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#mammoth.decoders.DecoderBase" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">torch.nn.modules.module.Module</span></code></p>
-<p>Abstract class for decoders.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters</dt>
-<dd class="field-odd"><p><strong>attentional</strong> (<em>bool</em>) – The decoder returns non-empty attention.</p>
-</dd>
-</dl>
-<dl class="method">
-<dt id="mammoth.decoders.DecoderBase.from_opt">
-<em class="property">classmethod </em><code class="sig-name descname">from_opt</code><span class="sig-paren">(</span><em class="sig-param">opt</em>, <em class="sig-param">embeddings</em><span class="sig-paren">)</span><a class="reference internal" href="_modules/mammoth/decoders/decoder.html#DecoderBase.from_opt"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#mammoth.decoders.DecoderBase.from_opt" title="Permalink to this definition">¶</a></dt>
-<dd><p>Alternate constructor.</p>
-<p>Subclasses should override this method.</p>
-</dd></dl>
-
-</dd></dl>
-
 </div>
 <div class="section" id="attention">
 <h2>Attention<a class="headerlink" href="#attention" title="Permalink to this headline">¶</a></h2>
@@ -655,112 +560,12 @@ <h2>Architecture: Transformer<a class="headerlink" href="#architecture-transform
 
 </dd></dl>
 
-<dl class="class">
-<dt id="mammoth.encoders.TransformerEncoder">
-<em class="property">class </em><code class="sig-prename descclassname">mammoth.encoders.</code><code class="sig-name descname">TransformerEncoder</code><span class="sig-paren">(</span><em class="sig-param">num_layers</em>, <em class="sig-param">d_model</em>, <em class="sig-param">heads</em>, <em class="sig-param">d_ff</em>, <em class="sig-param">dropout</em>, <em class="sig-param">attention_dropout</em>, <em class="sig-param">embeddings</em>, <em class="sig-param">max_relative_positions</em>, <em class="sig-param">pos_ffn_activation_fn='relu'</em>, <em class="sig-param">layer_norm_module=None</em><span class="sig-paren">)</span><a class="reference internal" href="_modules/mammoth/encoders/transformer_encoder.html#TransformerEncoder"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#mammoth.encoders.TransformerEncoder" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">mammoth.encoders.encoder.EncoderBase</span></code></p>
-<p>The Transformer encoder from “Attention is All You Need”
-<a class="bibtex reference internal" href="ref.html#dblp-journals-corr-vaswanispujgkp17" id="id6">[VSP+17]</a></p>
-<div class="mermaid">
-            graph BT
-   A[input]
-   B[multi-head self-attn]
-   C[feed forward]
-   O[output]
-   A --&gt; B
-   B --&gt; C
-   C --&gt; O
-        </div><dl class="field-list simple">
-<dt class="field-odd">Parameters</dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>num_layers</strong> (<em>int</em>) – number of encoder layers</p></li>
-<li><p><strong>d_model</strong> (<em>int</em>) – size of the model</p></li>
-<li><p><strong>heads</strong> (<em>int</em>) – number of heads</p></li>
-<li><p><strong>d_ff</strong> (<em>int</em>) – size of the inner FF layer</p></li>
-<li><p><strong>dropout</strong> (<em>float</em>) – dropout parameters</p></li>
-<li><p><strong>embeddings</strong> (<a class="reference internal" href="#mammoth.modules.Embeddings" title="mammoth.modules.Embeddings"><em>mammoth.modules.Embeddings</em></a>) – embeddings to use, should have positional encodings</p></li>
-<li><p><strong>pos_ffn_activation_fn</strong> (<em>ActivationFunction</em>) – activation function choice for PositionwiseFeedForward layer</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns</dt>
-<dd class="field-even"><p><ul class="simple">
-<li><p>embeddings <code class="docutils literal notranslate"><span class="pre">(src_len,</span> <span class="pre">batch_size,</span> <span class="pre">model_dim)</span></code></p></li>
-<li><p>memory_bank <code class="docutils literal notranslate"><span class="pre">(src_len,</span> <span class="pre">batch_size,</span> <span class="pre">model_dim)</span></code></p></li>
-</ul>
-</p>
-</dd>
-<dt class="field-odd">Return type</dt>
-<dd class="field-odd"><p>(torch.FloatTensor, torch.FloatTensor)</p>
-</dd>
-</dl>
-<dl class="method">
-<dt id="mammoth.encoders.TransformerEncoder.forward">
-<code class="sig-name descname">forward</code><span class="sig-paren">(</span><em class="sig-param">src</em>, <em class="sig-param">lengths=None</em>, <em class="sig-param">skip_embedding=False</em>, <em class="sig-param">mask=None</em><span class="sig-paren">)</span><a class="reference internal" href="_modules/mammoth/encoders/transformer_encoder.html#TransformerEncoder.forward"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#mammoth.encoders.TransformerEncoder.forward" title="Permalink to this definition">¶</a></dt>
-<dd><p>See <a class="reference internal" href="#mammoth.encoders.EncoderBase.forward" title="mammoth.encoders.EncoderBase.forward"><code class="xref py py-func docutils literal notranslate"><span class="pre">EncoderBase.forward()</span></code></a></p>
-</dd></dl>
-
-<dl class="method">
-<dt id="mammoth.encoders.TransformerEncoder.from_opt">
-<em class="property">classmethod </em><code class="sig-name descname">from_opt</code><span class="sig-paren">(</span><em class="sig-param">opt</em>, <em class="sig-param">embeddings</em>, <em class="sig-param">is_on_top=False</em><span class="sig-paren">)</span><a class="reference internal" href="_modules/mammoth/encoders/transformer_encoder.html#TransformerEncoder.from_opt"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#mammoth.encoders.TransformerEncoder.from_opt" title="Permalink to this definition">¶</a></dt>
-<dd><p>Alternate constructor.</p>
-</dd></dl>
-
-</dd></dl>
-
-<dl class="class">
-<dt id="mammoth.decoders.TransformerDecoder">
-<em class="property">class </em><code class="sig-prename descclassname">mammoth.decoders.</code><code class="sig-name descname">TransformerDecoder</code><span class="sig-paren">(</span><em class="sig-param">num_layers</em>, <em class="sig-param">d_model</em>, <em class="sig-param">heads</em>, <em class="sig-param">d_ff</em>, <em class="sig-param">copy_attn</em>, <em class="sig-param">self_attn_type</em>, <em class="sig-param">dropout</em>, <em class="sig-param">attention_dropout</em>, <em class="sig-param">embeddings</em>, <em class="sig-param">max_relative_positions</em>, <em class="sig-param">aan_useffn</em>, <em class="sig-param">full_context_alignment</em>, <em class="sig-param">alignment_layer</em>, <em class="sig-param">alignment_heads</em>, <em class="sig-param">pos_ffn_activation_fn='relu'</em>, <em class="sig-param">layer_norm_module=None</em><span class="sig-paren">)</span><a class="reference internal" href="_modules/mammoth/decoders/transformer_decoder.html#TransformerDecoder"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#mammoth.decoders.TransformerDecoder" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">mammoth.decoders.transformer_decoder.TransformerDecoderBase</span></code></p>
-<p>The Transformer decoder from “Attention is All You Need”.
-<a class="bibtex reference internal" href="ref.html#dblp-journals-corr-vaswanispujgkp17" id="id7">[VSP+17]</a></p>
-<div class="mermaid">
-            graph BT
-   A[input]
-   B[multi-head self-attn]
-   BB[multi-head src-attn]
-   C[feed forward]
-   O[output]
-   A --&gt; B
-   B --&gt; BB
-   BB --&gt; C
-   C --&gt; O
-        </div><dl class="field-list simple">
-<dt class="field-odd">Parameters</dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>num_layers</strong> (<em>int</em>) – number of decoder layers.</p></li>
-<li><p><strong>d_model</strong> (<em>int</em>) – size of the model</p></li>
-<li><p><strong>heads</strong> (<em>int</em>) – number of heads</p></li>
-<li><p><strong>d_ff</strong> (<em>int</em>) – size of the inner FF layer</p></li>
-<li><p><strong>copy_attn</strong> (<em>bool</em>) – if using a separate copy attention</p></li>
-<li><p><strong>self_attn_type</strong> (<em>str</em>) – type of self-attention scaled-dot, average</p></li>
-<li><p><strong>dropout</strong> (<em>float</em>) – dropout in residual, self-attn(dot) and feed-forward</p></li>
-<li><p><strong>attention_dropout</strong> (<em>float</em>) – dropout in context_attn (and self-attn(avg))</p></li>
-<li><p><strong>embeddings</strong> (<a class="reference internal" href="#mammoth.modules.Embeddings" title="mammoth.modules.Embeddings"><em>mammoth.modules.Embeddings</em></a>) – embeddings to use, should have positional encodings</p></li>
-<li><p><strong>max_relative_positions</strong> (<em>int</em>) – Max distance between inputs in relative positions representations</p></li>
-<li><p><strong>aan_useffn</strong> (<em>bool</em>) – Turn on the FFN layer in the AAN decoder</p></li>
-<li><p><strong>full_context_alignment</strong> (<em>bool</em>) – whether enable an extra full context decoder forward for alignment</p></li>
-<li><p><strong>alignment_layer</strong> (<em>int</em>) – N° Layer to supervise with for alignment guiding</p></li>
-<li><p><strong>alignment_heads</strong> (<em>int</em>) – <ol class="upperalpha simple" start="14">
-<li><p>of cross attention heads to use for alignment guiding</p></li>
-</ol>
-</p></li>
-</ul>
-</dd>
-</dl>
-<dl class="method">
-<dt id="mammoth.decoders.TransformerDecoder.forward">
-<code class="sig-name descname">forward</code><span class="sig-paren">(</span><em class="sig-param">tgt</em>, <em class="sig-param">memory_bank=None</em>, <em class="sig-param">step=None</em>, <em class="sig-param">memory_lengths=None</em>, <em class="sig-param">tgt_pad_mask=None</em>, <em class="sig-param">skip_embedding=False</em>, <em class="sig-param">**kwargs</em><span class="sig-paren">)</span><a class="reference internal" href="_modules/mammoth/decoders/transformer_decoder.html#TransformerDecoder.forward"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#mammoth.decoders.TransformerDecoder.forward" title="Permalink to this definition">¶</a></dt>
-<dd><p>Decode, possibly stepwise.</p>
-</dd></dl>
-
-</dd></dl>
-
 <dl class="class">
 <dt id="mammoth.modules.MultiHeadedAttention">
 <em class="property">class </em><code class="sig-prename descclassname">mammoth.modules.</code><code class="sig-name descname">MultiHeadedAttention</code><span class="sig-paren">(</span><em class="sig-param">head_count</em>, <em class="sig-param">model_dim</em>, <em class="sig-param">dropout=0.1</em>, <em class="sig-param">max_relative_positions=0</em><span class="sig-paren">)</span><a class="reference internal" href="_modules/mammoth/modules/multi_headed_attn.html#MultiHeadedAttention"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#mammoth.modules.MultiHeadedAttention" title="Permalink to this definition">¶</a></dt>
 <dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">torch.nn.modules.module.Module</span></code></p>
 <p>Multi-Head Attention module from “Attention is All You Need”
-<a class="bibtex reference internal" href="ref.html#dblp-journals-corr-vaswanispujgkp17" id="id8">[VSP+17]</a>.</p>
+<a class="bibtex reference internal" href="ref.html#dblp-journals-corr-vaswanispujgkp17" id="id6">[VSP+17]</a>.</p>
 <p>Similar to standard <cite>dot</cite> attention but uses
 multiple attention distributions simulataneously
 to select relevant items.</p>
@@ -907,7 +712,7 @@ <h2>Copy Attention<a class="headerlink" href="#copy-attention" title="Permalink
 <em class="property">class </em><code class="sig-prename descclassname">mammoth.modules.</code><code class="sig-name descname">CopyGenerator</code><span class="sig-paren">(</span><em class="sig-param">input_size</em>, <em class="sig-param">output_size</em>, <em class="sig-param">pad_idx</em><span class="sig-paren">)</span><a class="reference internal" href="_modules/mammoth/modules/copy_generator.html#CopyGenerator"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#mammoth.modules.CopyGenerator" title="Permalink to this definition">¶</a></dt>
 <dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">torch.nn.modules.module.Module</span></code></p>
 <p>An implementation of pointer-generator networks
-<a class="bibtex reference internal" href="ref.html#dblp-journals-corr-seelm17" id="id9">[SLM17]</a>.</p>
+<a class="bibtex reference internal" href="ref.html#dblp-journals-corr-seelm17" id="id7">[SLM17]</a>.</p>
 <p>These networks consider copying words
 directly from the source sequence.</p>
 <p>The copy generator is an extended version of the standard
@@ -978,7 +783,7 @@ <h2>Structured Attention<a class="headerlink" href="#structured-attention" title
 <p>Implementation of the matrix-tree theorem for computing marginals
 of non-projective dependency parsing. This attention layer is used
 in the paper “Learning Structured Text Representations”
-<a class="bibtex reference internal" href="ref.html#dblp-journals-corr-liul17d" id="id10">[LL17]</a>.</p>
+<a class="bibtex reference internal" href="ref.html#dblp-journals-corr-liul17d" id="id8">[LL17]</a>.</p>
 <dl class="method">
 <dt id="mammoth.modules.structured_attention.MatrixTree.forward">
 <code class="sig-name descname">forward</code><span class="sig-paren">(</span><em class="sig-param">input</em><span class="sig-paren">)</span><a class="reference internal" href="_modules/mammoth/modules/structured_attention.html#MatrixTree.forward"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#mammoth.modules.structured_attention.MatrixTree.forward" title="Permalink to this definition">¶</a></dt>
diff --git a/objects.inv b/objects.inv
index 8400203f..5f67f661 100644
Binary files a/objects.inv and b/objects.inv differ
diff --git a/searchindex.js b/searchindex.js
index 474c3986..78ff8c13 100644
--- a/searchindex.js
+++ b/searchindex.js
@@ -1 +1 @@
-Search.setIndex({docnames:["CONTRIBUTING","attention_bridges","config_config","examples/Translation","index","install","main","mammoth","mammoth.inputters","mammoth.modules","mammoth.translate.translation_server","mammoth.translation","options/build_vocab","options/server","options/train","options/translate","prepare_data","quickstart","ref"],envversion:{"sphinx.domains.c":1,"sphinx.domains.changeset":1,"sphinx.domains.citation":1,"sphinx.domains.cpp":1,"sphinx.domains.index":1,"sphinx.domains.javascript":1,"sphinx.domains.math":2,"sphinx.domains.python":1,"sphinx.domains.rst":1,"sphinx.domains.std":1,"sphinx.ext.viewcode":1,sphinx:56},filenames:["CONTRIBUTING.md","attention_bridges.md","config_config.md","examples/Translation.md","index.rst","install.md","main.md","mammoth.rst","mammoth.inputters.rst","mammoth.modules.rst","mammoth.translate.translation_server.rst","mammoth.translation.rst","options/build_vocab.rst","options/server.rst","options/train.rst","options/translate.rst","prepare_data.md","quickstart.md","ref.rst"],objects:{"mammoth.Trainer":{train:[7,1,1,""],validate:[7,1,1,""]},"mammoth.decoders":{DecoderBase:[9,0,1,""],TransformerDecoder:[9,0,1,""]},"mammoth.decoders.DecoderBase":{from_opt:[9,1,1,""]},"mammoth.decoders.TransformerDecoder":{forward:[9,1,1,""]},"mammoth.encoders":{EncoderBase:[9,0,1,""],MeanEncoder:[9,0,1,""],TransformerEncoder:[9,0,1,""]},"mammoth.encoders.EncoderBase":{forward:[9,1,1,""]},"mammoth.encoders.MeanEncoder":{forward:[9,1,1,""],from_opt:[9,1,1,""]},"mammoth.encoders.TransformerEncoder":{forward:[9,1,1,""],from_opt:[9,1,1,""]},"mammoth.models":{NMTModel:[7,0,1,""]},"mammoth.models.NMTModel":{count_parameters:[7,1,1,""],forward:[7,1,1,""]},"mammoth.modules":{AverageAttention:[9,0,1,""],ConvMultiStepAttention:[9,0,1,""],CopyGenerator:[9,0,1,""],Embeddings:[9,0,1,""],GlobalAttention:[9,0,1,""],MultiHeadedAttention:[9,0,1,""],PositionalEncoding:[9,0,1,""],WeightNormConv2d:[9,0,1,""]},"mammoth.modules.AverageAttention":{cumulative_average:[9,1,1,""],cumulative_average_mask:[9,1,1,""],forward:[9,1,1,""]},"mammoth.modules.ConvMultiStepAttention":{apply_mask:[9,1,1,""],forward:[9,1,1,""]},"mammoth.modules.CopyGenerator":{forward:[9,1,1,""]},"mammoth.modules.Embeddings":{emb_luts:[9,1,1,""],forward:[9,1,1,""],load_pretrained_vectors:[9,1,1,""],word_lut:[9,1,1,""]},"mammoth.modules.GlobalAttention":{forward:[9,1,1,""],score:[9,1,1,""]},"mammoth.modules.MultiHeadedAttention":{forward:[9,1,1,""],training:[9,2,1,""],update_dropout:[9,1,1,""]},"mammoth.modules.PositionalEncoding":{forward:[9,1,1,""]},"mammoth.modules.WeightNormConv2d":{forward:[9,1,1,""]},"mammoth.modules.position_ffn":{PositionwiseFeedForward:[9,0,1,""]},"mammoth.modules.position_ffn.PositionwiseFeedForward":{forward:[9,1,1,""]},"mammoth.modules.structured_attention":{MatrixTree:[9,0,1,""]},"mammoth.modules.structured_attention.MatrixTree":{forward:[9,1,1,""]},"mammoth.translate":{BeamSearch:[11,0,1,""],DecodeStrategy:[11,0,1,""],GNMTGlobalScorer:[11,0,1,""],GreedySearch:[11,0,1,""],Translation:[11,0,1,""],TranslationBuilder:[11,0,1,""],Translator:[11,0,1,""]},"mammoth.translate.BeamSearch":{initialize:[11,1,1,""]},"mammoth.translate.DecodeStrategy":{advance:[11,1,1,""],block_ngram_repeats:[11,1,1,""],initialize:[11,1,1,""],maybe_update_forbidden_tokens:[11,1,1,""],maybe_update_target_prefix:[11,1,1,""],target_prefixing:[11,1,1,""],update_finished:[11,1,1,""]},"mammoth.translate.GreedySearch":{advance:[11,1,1,""],initialize:[11,1,1,""],update_finished:[11,1,1,""]},"mammoth.translate.Translation":{log:[11,1,1,""]},"mammoth.translate.Translator":{translate_batch:[11,1,1,""]},"mammoth.translate.greedy_search":{sample_with_temperature:[11,3,1,""]},"mammoth.translate.penalties":{PenaltyBuilder:[11,0,1,""]},"mammoth.translate.penalties.PenaltyBuilder":{coverage_none:[11,1,1,""],coverage_summary:[11,1,1,""],coverage_wu:[11,1,1,""],length_average:[11,1,1,""],length_none:[11,1,1,""],length_wu:[11,1,1,""]},"mammoth.translate.translation_server":{ServerModel:[10,0,1,""],ServerModelError:[10,4,1,""],Timer:[10,0,1,""],TranslationServer:[10,0,1,""]},"mammoth.translate.translation_server.ServerModel":{build_tokenizer:[10,1,1,""],detokenize:[10,1,1,""],do_timeout:[10,1,1,""],maybe_convert_align:[10,1,1,""],maybe_detokenize:[10,1,1,""],maybe_detokenize_with_align:[10,1,1,""],maybe_postprocess:[10,1,1,""],maybe_preprocess:[10,1,1,""],maybe_tokenize:[10,1,1,""],parse_opt:[10,1,1,""],postprocess:[10,1,1,""],preprocess:[10,1,1,""],rebuild_seg_packages:[10,1,1,""],to_gpu:[10,1,1,""],tokenize:[10,1,1,""],tokenizer_marker:[10,1,1,""]},"mammoth.translate.translation_server.TranslationServer":{clone_model:[10,1,1,""],list_models:[10,1,1,""],load_model:[10,1,1,""],preload_model:[10,1,1,""],run:[10,1,1,""],start:[10,1,1,""],unload_model:[10,1,1,""]},"mammoth.utils":{Optimizer:[7,0,1,""],Statistics:[7,0,1,""]},"mammoth.utils.Optimizer":{amp:[7,1,1,""],backward:[7,1,1,""],from_opt:[7,1,1,""],learning_rate:[7,1,1,""],step:[7,1,1,""],training_step:[7,1,1,""],zero_grad:[7,1,1,""]},"mammoth.utils.Statistics":{accuracy:[7,1,1,""],all_gather_stats:[7,1,1,""],all_gather_stats_list:[7,1,1,""],elapsed_time:[7,1,1,""],log_tensorboard:[7,1,1,""],output:[7,1,1,""],ppl:[7,1,1,""],update:[7,1,1,""],xent:[7,1,1,""]},"mammoth.utils.loss":{LossComputeBase:[7,0,1,""]},mammoth:{Trainer:[7,0,1,""]}},objnames:{"0":["py","class","Python class"],"1":["py","method","Python method"],"2":["py","attribute","Python attribute"],"3":["py","function","Python function"],"4":["py","exception","Python exception"]},objtypes:{"0":"py:class","1":"py:method","2":"py:attribute","3":"py:function","4":"py:exception"},terms:{"25g":5,"abstract":9,"boolean":[7,11],"break":16,"class":[0,4,7,9,10],"default":[10,12,13,14,15,16],"export":5,"final":[1,3,9,11],"float":[2,9,11],"function":[0,1,2,7,9,10,11,14],"import":0,"int":[7,9,10,11],"long":0,"new":[0,1,3],"public":5,"return":[0,7,9,10,11],"static":[7,14],"true":[2,3,7,9,11,14,15,16],"try":[0,5],"while":[2,9],And:[0,9],EOS:11,For:[0,2,11,14,17],IDs:11,IFS:16,LPs:2,Not:0,One:2,The:[1,3,7,9,10,11,14,15],Then:[0,3,9],There:[1,2],These:[1,2,9,11],Use:[2,14,15],Used:11,Will:2,__init__:10,_compute_loss:7,a_j:9,aan:[9,14],aan_useffn:[9,14],ab_fixed_length:14,ab_lay:14,ab_layer_norm:14,abbrevi:0,abigail:18,abil:9,about:0,abov:[0,11],abs:[1,14,15,18],acceler:[9,18],accept:[0,2,11],access:[1,2,5],accord:2,account:[2,5],accross:7,accum:7,accum_count:[3,7,14],accum_step:[3,7,14],accumul:[7,14],accuraci:[7,11],achiev:2,achin:18,acl:[6,18],aclweb:14,action:[9,11,14],activ:[1,5,9,14],activation_fn:9,activationfunct:9,actual:11,adadelta:14,adafactor:14,adagrad:14,adagrad_accumulator_init:14,adam:[3,14],adam_beta1:14,adam_beta2:[3,14],adamoptim:14,adamw:14,adapt:[4,6],adapter_nam:2,add:[0,3,9],added:2,adding:0,addit:[0,9,12,14,15],addition:9,address:11,adjust:2,adopt:14,advanc:[11,14],advic:0,after:[0,1,11,14],afterward:9,again:0,aidan:18,alexand:6,algorithm:18,align:[4,7,9,10,11,15],align_debug:15,alignment_head:[9,14],alignment_lay:[9,14],aliv:11,alive_attn:11,alive_seq:11,all:[0,2,7,9,11,12,14,15,18],all_gather_stat:7,all_gather_stats_list:7,all_preprocess:10,allennlp:0,alloc:2,allow:[0,1,2,14],almost:[11,14],alon:0,along:1,alpha:[1,11,15],alphabet:2,alreadi:[12,14,15],also:[0,2,5,7,9,14],altern:9,although:9,alwai:[0,2],amp:[7,14],ani:[0,2,11,12,14],anoth:[0,1,7],antholog:14,apex:14,apex_opt_level:14,api:[0,4],api_doc:14,appear:2,append:[5,16],appli:[1,2,9,11,12,14,15],applic:15,apply_mask:9,appropri:11,approxim:14,architectur:[1,4],arg:[0,9,10],argmax:15,argpars:10,argument:[0,4],arxiv:[0,1,14,15,18],ashish:18,assig:2,assign:[2,15],assing:2,assum:[9,11],att_typ:1,attend:1,attent:[0,4,7,11,15,18],attention_bridg:7,attention_dropout:[3,9,14],attentionbridgenorm:1,attet:9,attn:[9,11,15],attn_debug:[11,15],attn_func:9,attn_typ:9,attr:10,attribut:11,augment:18,author:6,autodoc:0,autogener:14,avail:[7,10,14,15],available_model:13,averag:[9,14,15,18],average_decai:[3,7,14],average_everi:[7,14],average_output:9,averageattent:9,avg:[9,15],avg_raw_prob:15,avoid:[0,2],aws:5,axi:11,back:7,backend:14,backward:7,bahdanau:[9,14],ban_unk_token:[11,15],bank:9,barri:18,bart:[12,14,15],base:[0,1,2,3,5,6,7,9,10,11,12,14,15],base_target_emb:9,baselin:14,basemodel:7,basenam:[3,16],bash:5,batch:[1,3,7,9,11,14,15],batch_siz:[3,9,11,14,15],batch_size_multipl:[3,14],batch_typ:[3,14,15],beam:[4,11],beam_search:11,beam_siz:[3,11,15],beamsearch:11,beamsearchbas:11,becaus:[2,15],becom:2,been:[9,11,12,14,15],befor:[0,3,10,11,14,15],begin:[7,11],below:0,ben:2,bengali:2,best:[11,15],beta1:14,beta2:14,beta:[11,15],better:[0,12,14,15],between:[1,9,12,14,15,18],beyond:7,biao:18,bib:0,bibtex:0,bibtext:0,bidir_edg:14,bidirect:14,bin:[5,14],binari:[3,9],bit:15,blank:0,bleu:3,block:[11,15],block_ngram_repeat:[11,15],booktitl:6,bool:[7,9,10,11],bos:11,both:[2,11,14],both_embed:14,boundari:[12,14,15],bpe:[12,14,15],bptt:[7,14],bridg:[4,18],bridge_extra_nod:14,browser:0,bucket_s:[3,14],buffer:7,build:[0,4,7,9,10,11,15,16],build_token:10,build_vocab:12,built:7,bytetensor:11,cach:9,calcul:[1,7,9,11],call:[9,11],callabl:11,callback:7,can:[1,2,3,5,7,10,11,12,14,15],cancel:10,candid:[2,12,14,15],cao:18,capit:0,captur:1,care:9,cat:16,categor:11,categori:11,challeng:4,chang:[0,2,7,14],channel:1,charact:[0,15],character_coverag:16,check:[0,6,17],checklist:0,checkpoint:[3,7,14],chen:18,chmod:[3,5],choic:[0,9,12,14,15],choos:[0,12,14,15],chosen:11,christoph:18,citat:[0,4],cite:[0,6],classmethod:[7,9],clear:0,clone:[6,10,17],clone_model:10,close:0,cls:7,cluster:[2,6,17],clutter:0,code:[0,2,5,15],code_dir:5,codebas:5,column:2,com:[6,17],combin:[9,15],comma:2,command:[3,4],comment:0,commentari:3,common:[0,4],commoncrawl:3,commun:0,complet:11,complex:[2,11],compon:[1,2],composit:14,comput:[1,2,3,7,9,14,15],concat:[9,14],condit:[11,14,15],conf:[13,15],config:[3,4,10,12,13,14,15],config_fil:10,configur:[2,3,4],connect:1,consid:[2,9,16],consider:14,consist:0,constant:2,construct:9,constructor:[0,9],consum:14,contain:[2,9,10,11],content:[0,15],context:[1,9,14],context_attn:9,context_g:14,continu:0,contribut:[0,1,9],contributor:4,control:[2,7],conv2conv:4,conv2d:9,conv:9,conveni:2,convent:0,convers:11,convert:10,convex:9,convmultistepattent:9,copi:[0,2,4,5,14,15],copy_attn:[9,11,14],copy_attn_forc:14,copy_attn_typ:14,copy_loss_by_seqlength:14,copygener:9,core:[1,4,7],corpora:3,corpu:[2,3,12,14,16],corr:[0,18],correct:2,correspand:10,correspond:[1,15],could:11,count:[2,7,11,12,14,15],count_paramet:7,cov:11,cov_pen:11,coverag:[9,11,14,15],coverage_attn:14,coverage_non:11,coverage_penalti:[11,15],coverage_summari:11,coverage_wu:11,cpu:[10,14,15],crai:5,crayon:14,creat:[2,5,7],creation:2,criteria:14,criterion:7,critic:[14,15],cross:[7,9,14],csc:16,csv:2,ct2_model:10,ct2_translate_batch_arg:10,ct2_translator_arg:10,ctrl:0,cumbersom:2,cumul:[9,11,15],cumulative_averag:9,cumulative_average_mask:9,cur_dir:16,cur_len:11,current:[2,7,9,11,14],curricula:2,curriculum:2,custom:[10,14],custom_opt:10,cut:[0,16],cutoff:11,d_ff:9,d_model:9,dai:18,data:[1,2,4,7,11,18],data_path:16,data_typ:[7,11,14,15],dataset:[3,4,12,14,15,16],datastructur:10,dblp:0,ddress:18,deal:2,debug:[13,14,15],dec:2,dec_lay:[3,14],decai:14,decay_method:[3,14],decay_step:14,decod:[1,2,4,7],decode_strategi:11,decoder_typ:[3,14],decoderbas:[7,9],decodestrategi:11,def:0,defin:[2,3,9,12,14,15],definit:9,delai:2,delet:[12,14,15],delimit:15,deng:6,denois:[2,4],denoising_object:[12,14,15],denot:1,depend:[0,2,5,7,9,10],deprec:[14,15],describ:[1,9,10,14],descript:0,desir:[2,3],detail:[6,12,14],determin:2,detoken:[3,10],dev:[5,16],develop:0,devic:[2,9,11,15],device_context:7,deyi:18,diagon:2,dict:[2,7,10,11,12,14,15],dict_kei:14,dictionari:[7,9,11,14],differ:[0,1,2,9,10,15],dilat:9,dim:9,dimens:[1,9,11,14],dimension:[1,9],dir:16,direct:[0,2,11],directli:[0,9,15],directori:[2,5,10,14],disabl:14,discard:14,discourag:14,disk:14,displai:7,dist:7,distanc:[9,14],distribtut:9,distribut:[2,7,9,11,12,14,15],divers:[1,12,14,15],divid:[1,2,14,15],divis:9,do_timeout:10,doc:0,document:[0,6],doe:[2,15],doesn:16,doi:6,doing:[2,15],don:0,done:[3,11,16],dot:[1,9,14],dotprod:14,down:[11,12],download:5,dropout:[3,7,9,12,14,15],dropout_step:[3,7,14],due:14,dump:[12,14,15],dump_beam:[11,15],dump_sampl:12,dump_transform:14,dure:[10,14,15],dynam:[4,9,15],each:[1,2,9,11,12,14,15],earli:14,earlier:[1,12,14,15],early_stop:14,early_stopping_criteria:14,earlystopp:7,eas:2,easi:0,easili:2,echo:[3,16],edg:14,effect:[1,10,12],effici:[4,7,18],either:[11,14],elaps:7,elapsed_tim:7,element:[1,2],els:16,emb:9,emb_fil:9,emb_lut:9,embed:[1,4,9,12],embedding_s:9,embeddings_typ:14,emerg:1,emploi:[1,7],empti:[3,9,11,12,14],enabl:[9,15],enc:2,enc_lay:[3,14],encapsul:1,encod:[1,2,4,7,11],encoder_out_combin:9,encoder_out_top:9,encoder_typ:[3,14],encoderbas:[7,9],encordec:[12,14],encount:[12,14],encout:[12,14],end:11,eng:2,english:[2,3,16],enhanc:1,ensembl:15,ensur:1,entir:16,entri:0,entropi:7,env_dir:5,environ:5,eos:11,epoch:14,eps:9,epsilon:14,equal:[11,14],equat:9,equival:14,error:[0,12,14,15],especi:2,essenti:11,establish:1,eural:18,europarl:3,evalu:7,even:2,event:11,everi:[7,9,14,15],exactli:0,exampl:[0,2,3,12,14,17],exce:14,except:[0,10,12,14,15],exclusion_token:11,execut:[3,12,14],exist:[12,14,15,16],exp:14,exp_host:14,expect:[2,11],experi:[12,14,15],experiment:14,exponenti:14,extend:[0,9],extern:0,extra:[5,9,14],extra_word:9,extract:16,facilit:1,fail:11,fairseq:0,fals:[7,9,10,11,12,13,14,15],familiar:6,faster:14,feat_0:15,feat_1:15,feat_dim_expon:9,feat_merg:[9,14],feat_merge_s:14,feat_padding_idx:9,feat_vec_expon:[9,14],feat_vec_s:[9,14],feat_vocab_s:9,feats0:15,feats1:15,featur:[1,4,7,9,12,15,18],fed:1,feed:[2,9,14],feedforward:[1,14],feedforwardattentionbridgelay:4,feel:0,few:0,ffn:[9,14],figur:9,file:[0,2,10,12,14,15,16],filenam:14,filter:[3,4,16],filterfeat:[12,14,15],filtertoolong:[2,3,12,14,15],find:0,firefox:0,first:[0,2,9,11,14],five:1,fix:[0,11,14],flag:7,flake8:0,floattensor:[7,9,11],flow:1,fly:3,fnn:9,focu:[0,1],folder:0,follow:[0,1,2,3,15,17],foo:0,forbidden:11,forbidden_token:11,forc:[11,15],format:[0,10,12,14,15,16],former:9,forward:[2,7,9,14],fotran:2,found:16,foundat:1,fp16:[14,15],fp32:[3,7,14,15],frac:1,fraction:[12,14,15],framework:[4,14],free:[0,10],freez:[9,14],freeze_word_vec:9,freeze_word_vecs_dec:14,freeze_word_vecs_enc:14,frequenc:[12,14,15],from:[1,2,7,9,11,14,15,16],from_opt:[7,9],frozenset:11,full:[0,2,9,10,12,14,15,16],full_context_align:[9,14],fulli:2,further:[12,14],fusedadam:14,gao:18,gap:18,garg:14,gate:14,gather:7,gating_output:9,gelu:14,gener:[0,1,2,3,4,7,9,11,15,18],generator_funct:14,german:3,get:[4,5,18],git:[6,17],github:[6,14,17],give:[2,14,15],given:[1,2,10],global:9,global_attent:14,global_attention_funct:14,global_scor:11,globalattent:9,glove:14,gnmt:11,gnmtglobalscor:11,going:11,gold:11,gold_scor:11,gold_sent:11,gomez:18,gone:14,good:[0,14],googl:[0,11,15,18],gpu:[2,3,5,10,11,14,15],gpu_backend:14,gpu_rank:[3,14],gpu_verbose_level:[7,14],gpuid:14,grad:7,gradient:[7,14],graham:18,gram:11,graph:14,gre:5,greater:11,greedy_search:11,greedysearch:11,group:[9,14,15],groupwis:2,grow:11,gtx1080:15,guid:[6,9,17],guidelin:4,guillaum:6,h_j:9,h_s:9,h_t:9,had:15,haddow:18,hand:2,handl:[0,7],happen:11,has:[1,2,11,12,14,15],has_cov_pen:11,has_len_pen:11,has_tgt:11,have:[0,2,3,9,11,14,15],head:[1,3,9,14],head_count:9,help:[0,1,15],helsinki:[6,17],here:[1,11,16],hidden:[7,9,14],hidden_ab_s:14,hidden_dim:1,hieu:18,high:2,higher:[11,14,15],highest:15,hold:11,hook:9,hop:1,host:5,how:[0,9],howev:[0,7,9],html:[0,14],http:[1,5,6,14,15,16,17,18],huge:14,human:[2,18],hyp_:3,hyperbol:1,hyphen:2,hypothesi:3,identifi:15,idl:2,ids:2,ignor:[3,9,12,14,15],ignore_when_block:[11,15],illia:18,ilya:18,imag:7,impact:14,implement:[1,7,9,14],impli:[1,9],improv:[9,11,14,18],in_channel:9,in_config:2,includ:[0,2,9,12,14,15],incompat:[12,14,15],incorpor:14,increas:2,index:[5,9,14],indic:[1,7,9,11,12,14,15],individu:2,inf:11,infer:11,inferfeat:4,info:[14,15],inform:[1,2,14,15],ingredi:11,init:[9,14],init_scal:9,init_st:7,initi:[4,7,9,10,11],initial_accumulator_valu:14,inner:9,inp:11,inp_seq_len:11,inproceed:6,input:[1,4,7,9,10,11,12,14,15,16,18],input_format:3,input_from_dec:9,input_len:9,input_s:9,input_sentence_s:16,inputs_len:9,inputt:11,insert:[12,14,15],insert_ratio:[12,14,15],instal:[0,3,4],instanc:[7,9,11],instanti:7,instead:[0,2,5,9,12,14,15],instruct:14,int8:15,integ:11,integr:0,interact:5,interfac:[7,9],intermedi:1,intermediate_output:1,intern:10,interv:14,introduc:[1,2],introduct:2,invalid:[12,14,15],involv:1,is_finish:11,is_on_top:9,isn:11,item:9,iter:7,its:[0,2,9],itself:2,jakob:18,jean:6,jinsong:18,job:5,joiner:[12,14,15],jone:18,journal:0,json:13,kaiser:18,keep:[10,11,14],keep_checkpoint:[3,14],keep_stat:14,keep_topk:11,keep_topp:11,kei:9,kera:14,kernel_s:9,key_len:9,kim:6,klau:18,klein:6,krikun:18,kwarg:9,label:14,label_smooth:[3,14],lambda:[12,14,15],lambda_align:14,lambda_coverag:14,lang:2,lang_a:2,lang_b:2,lang_pair:[2,15],languag:[1,4,12,14,16],language_pair:16,lapata:18,last:[2,14,15],latter:9,layer:[1,9,14,15],layer_cach:9,layer_norm_modul:9,layer_type_to_cl:1,layernorm:14,layerstack:2,lead:11,learn:[1,7,9,14,18],learning_r:[3,7,14],learning_rate_decai:14,learning_rate_decay_fn:7,least:0,leav:[2,14],left:1,len:[7,9,11],length:[2,7,9,11,12,14,15,16],length_averag:11,length_non:11,length_pen:11,length_penalti:[11,15],length_wu:11,less:2,let:[2,3],level:[12,14],lib:5,librari:14,like:[0,11,15],limit:15,lin:[1,14],linattentionbridgelay:4,line:[0,3,12,14,15],linear:1,linear_warmup:14,linguist:[9,18],link:[0,1,5],list:[0,2,7,9,10,11,12,14,15],list_model:10,literatur:14,liu:18,ll17:[9,18],llion:18,load:[5,7,9,10,14],load_model:10,load_pretrained_vector:9,loader:4,local:[0,2],localhost:14,log:[4,7,11],log_fil:[14,15],log_file_level:[14,15],log_prob:11,log_tensorboard:7,logger:11,login:5,logit:[11,15],logsumexp:11,longer:15,longest:11,longtensor:[7,9,11],look:[0,6,9,15],loop:7,loss:[4,14],loss_scal:14,losscomputebas:7,love:0,lower:[2,14],lsl:[11,18],lstm:14,lua:10,lukasz:18,luong:[9,14,18],lustrep1:5,lustrep2:5,macherei:18,machin:[6,9,11,18],made:2,magic:11,mai:[2,7,10,11,12,14],main:[0,6,7,12,14,15],maintain:11,make:[0,5,7,12,14,15],make_shard_st:7,mammoth:[0,4,5,6,7,9,10,11,14],man:18,manag:7,mani:[7,11,14],manipul:7,manual:[10,11],map:[2,7,9],margin:9,marian:14,mark:14,marker:10,mask:[9,12,14,15],mask_length:[12,14,15],mask_or_step:9,mask_ratio:[12,14,15],mass:[12,14,15],massiv:[2,6],master:14,master_ip:14,master_port:14,match:10,mathbb:1,mathbf:1,mathemat:1,matric:1,matrix:[1,9,14],matrixtre:9,max:[7,9,11,16],max_generator_batch:[3,14],max_grad_norm:[3,7,14],max_len:9,max_length:[11,15],max_relative_posit:[9,14],max_sent_length:15,max_sentence_length:16,max_siz:7,maxim:18,maximum:[12,14,15],maybe_convert_align:10,maybe_detoken:10,maybe_detokenize_with_align:10,maybe_postprocess:10,maybe_preprocess:10,maybe_token:10,maybe_update_forbidden_token:11,maybe_update_target_prefix:11,mean:[2,9,10,14,15],meanencod:9,mechan:[1,2],mem:5,memori:[9,10,14],memory_bank:[9,11],memory_length:9,merg:[9,14],meta:2,metadata:7,method:[7,9,14],metric:15,mi250:5,mike:18,min_length:[11,15],minh:18,minimum:15,mirella:18,mirror:14,mix:7,mkdir:[5,16],mlp:[9,14],mode:[2,12,14,15],model:[1,2,4,9,11,12],model_dim:9,model_dtyp:[3,7,14],model_id:10,model_kwarg:10,model_prefix:16,model_root:10,model_sav:7,model_step:3,model_task:14,model_typ:14,modelsaverbas:7,modif:7,modifi:[0,11],modul:[0,1,4,5,7,14,15],modular:6,mohammad:18,monolingu:2,more:[0,2,11,12,14,15],most:[11,15],mostli:7,move:[10,14],moving_averag:[7,14],much:14,multi:[0,1,9],multiheadedattent:[1,9],multilingu:[2,6],multipl:[0,1,2,7,9,14,15],multipli:1,multplic:0,must:[2,9,10,14],mymodul:5,n_batch:7,n_best:[10,11,15],n_bucket:14,n_correct:7,n_edge_typ:14,n_node:14,n_sampl:[3,12,14],n_seg:10,n_src_word:7,n_step:14,n_word:7,name:[0,2,4,11,12,14,16],namespac:10,napoleon:0,nccl:14,necessari:[0,3,5,7,11,14,15],necessit:2,need:[0,2,3,7,9,14,18],neg:[10,14],network:[9,18],neubig:18,neural:[6,9,11,18],never:11,news_commentari:3,next:[2,7,11,15],nfeat:9,ngram:[11,15],nightmar:2,niki:18,nlp:[6,17],nmt:[7,11,14,15],nmtmodel:[7,9],noam:[3,14,18],noamwd:14,node:[2,5,7,14],node_rank:14,nois:2,non:[9,11,14],none:[7,9,10,11,12,14,15],nonetyp:[9,11],norm:[9,14],norm_method:7,normal:[1,3,7,14],normalz:7,norouzi:18,note:[0,2,3,5,11],noth:[0,7],notset:[14,15],ntask:5,nucleu:15,num_lay:9,num_step:7,num_thread:12,number:[1,2,7,9,11,12,14,15],nvidia:14,obj:[0,7],object:[0,7,10,11,12,14,15,16],oder:2,off:14,ofi:5,often:[12,14,15],on_timemout:10,on_timeout:10,onc:[11,14],one:[0,1,2,7,9,12,14,15],onli:[2,7,11,12,14,15],onmt:16,onmt_build_vocab:3,onmt_token:[12,14,15],onmt_transl:3,onmttok:4,open:6,opennmt:[0,2,5,6,7,13],oper:[1,9],operatornam:1,opt:[3,7,9,10,14,15],opt_level:14,optim:[3,4],option:[0,2,3,5,7,9,10,11,12,14,15,16],opu:4,opus100:[16,17],ord:18,order:[2,14],org:[1,5,6,14,15,18],origin:[1,14,16],oriol:18,other:[1,5,7,11,12,14,15,16,18],other_lang:16,otherwis:[2,9,14,15],our:[5,11],our_stat:7,out:[1,2,6,7,17],out_channel:9,out_config:2,out_fil:11,outcom:1,output:[1,2,3,7,9,10,11,12,14,15],output_model:15,output_s:9,over:[0,2,3,7,9,11,14,15,16],overal:1,overrid:[9,11,12,14],overridden:9,overview:4,overwrit:[5,12,14],own:[7,15],ownership:7,p17:6,p18:14,packag:[5,10],pad:[7,9,11],pad_idx:9,pair:[2,7,10,14,15,16],paper:[0,1,9,14],parallel:[9,11,12,14],parallel_path:11,parallelcorpu:11,param:7,param_init:[3,14],param_init_glorot:[3,14],paramet:[3,7,9,10,11,12,14,15],parameter:9,parenthes:0,parmar:18,pars:[9,10],parse_opt:10,part:[1,11],particular:[0,2,9],partit:5,pass:[1,2,7,9,10,14],past:[0,14],path:[2,5,9,10,11,12,14,15],path_src:3,path_tgt:3,patienc:7,pattern:2,pdf:14,pen:11,penalti:[4,11,14],penaltybuild:11,peopl:5,per:[0,2,12,14,15],perceiv:[1,14],perceiverattentionbridgelay:4,percentag:[12,14,15],perfom:14,perform:[1,9,14],permut:[12,14,15],permute_sent_ratio:[12,14,15],perplex:7,peter:18,pfs:5,pham:18,phrase_t:[11,15],piec:3,pip3:[5,6,17],pip:[0,5],pipelin:[12,14,15],pleas:[0,6],plu:14,point:18,pointer:[9,18],poisson:[12,14,15],poisson_lambda:[12,14,15],polosukhin:18,polyak_decai:9,pool:[9,14],port:[13,14],portal:6,pos_ffn_activation_fn:[9,14],posit:[9,14],position_encod:[9,14],position_ffn:9,positionalencod:9,positionwisefeedforward:[9,14],possibl:[2,7,9,10,11,12,14,15],postprocess:10,postprocess_opt:10,potenti:11,pouta:16,ppl:7,pre:[7,10,11],pre_word_vecs_dec:14,pre_word_vecs_enc:14,preced:2,precis:7,pred:15,pred_scor:11,pred_sent:11,predict:[7,11,15],prefer:0,prefix:[2,7,12,14,15],prefix_seq_len:11,preliminari:3,preload:10,preload_model:10,prepar:[4,11],prepare_wmt_data:3,preprint:18,preprocess:10,preprocess_opt:10,presenc:2,presum:11,pretrain:[9,14],prevent:[11,15],previou:[1,2,9,11],previous:1,primari:2,prime:1,print:[7,14,15],prior:3,prior_token:[12,14,15],prob:11,proba:15,probabl:[9,11,12,14,15],probil:9,problem:11,proc:[6,18],procedur:2,process:[1,7,10,12,14],processu:10,produc:[1,11,12,14,15],product:1,projappl:5,project:[0,1,5,6,9],project_2005099:5,project_462000125:5,propag:7,proper:10,properli:5,properti:[7,9],proport:[2,12,14,15],provid:[6,15],prune:4,pty:5,pull_request_chk:0,punctuat:0,put:11,pwd:16,pyonmttok:[12,14,15],python3:[2,5],python:[0,2,5,14],pythonpath:5,pythonuserbas:5,pytorch:[0,5],qin:18,quantiz:15,queri:9,query_len:9,queue:[12,14],queue_siz:[3,14],quickstart:[4,6],quoc:18,quot:0,rais:[12,14],random:[4,12,14],random_ratio:[12,14,15],random_sampling_temp:[11,15],random_sampling_topk:[11,15],random_sampling_topp:[11,15],randomli:11,rang:15,rank:[11,14],ranslat:18,rare:11,rate:[4,7],rather:0,ratio:[11,15],raw:[9,11,15],rccl:5,reach:11,read:[0,2,10,16],readabl:[0,2],reader:4,readm:14,rebuild:10,rebuild_seg_packag:10,receiv:2,recent:14,recip:9,recommend:14,recommonmark:0,rectifi:1,recurr:9,redund:2,ref:0,refer:[0,1,4],regardless:2,regist:9,regular:[12,14,15],rel:[9,14],relat:[3,12,14,15],relationship:1,relev:[9,11],relu:[1,9,14],rememb:0,remov:2,renorm:14,reorder:11,repeat:[11,15],repetit:15,replac:[11,12,14,15],replace_length:[12,14,15],replace_unk:[11,15],replic:9,report:[6,7,14,15],report_align:[11,15],report_everi:[3,14],report_manag:7,report_scor:11,report_stats_from_paramet:[7,14],report_tim:[11,15],reportmgrbas:7,repres:[1,7],represent:[1,9,14,18],reproduc:4,requir:[0,7,9,14],research:6,reset:7,reset_optim:14,resett:14,residu:9,resourc:2,respect:[1,2],respons:7,rest:13,restrict:[12,14,15],result:[1,10,14],return_attent:11,reus:14,reuse_copy_attn:14,revers:[12,14,15],reversible_token:[12,14,15],rico:18,right:[0,1],rmsnorm:14,rnn:[7,14],rnn_size:[3,14],roblem:18,rocm5:5,rocm:5,root:[1,2],rotat:[12,14,15],rotate_ratio:[12,14,15],roundrobin:14,row:2,rsqrt:14,rst:0,run:[0,2,3,7,9,10,14,15],rush:6,sacrebleu:[3,5,6,17],sai:2,samantao:5,same:[0,2,3,9,10,14],sampl:[4,11,12,14,16],sample_with_temperatur:11,sampling_temp:11,saniti:15,save:[7,12,14,15,16],save_all_gpu:14,save_checkpoint_step:[3,7,14],save_config:[12,14,15],save_data:[3,12,14],save_model:[3,14],saver:7,scale:[9,11,14],schedul:[7,14],schuster:18,score:[4,9,10,15],scorer:11,scratch:5,script:[0,3,4,5],search:[0,2,4,11],second:[1,2,9,10],secur:[12,14],see:[2,9,10,11,12,14,18],seed:[3,11,12,14,15],seemingli:14,seen:1,segment:[2,10,15],select:[9,11,14],select_index:11,self:[1,9,10,11,14],self_attn_typ:[9,14],send:[0,14],senellart:6,sennrich:18,sensibl:0,sent:[7,14,15],sent_numb:11,sentenc:[11,12,14,15,16],sentencepiec:[2,3,5,6,12,14,15,17],separ:[2,9],seper:10,seq2seq:[11,14],seq:11,seq_len:[1,9,11],seqlength:9,sequenc:[1,2,7,9,10,11,12,14,15],serial:9,serv:1,server:[4,14,16],servermodel:10,servermodelerror:10,session:5,set:[1,2,3,5,7,9,10,11,12,14,15],setup:3,sever:[2,9,11],sgd:14,sh16:[9,18],shape:[0,9,11],shard:[7,14,15],shard_siz:[7,15],share:[5,12,14,15],share_decoder_embed:[3,14],share_embed:[3,14],share_vocab:[12,14],shazeer:18,shortest:11,shot:2,should:[2,3,9,11,14],shuf:16,shuffle_input_sent:16,side:[2,7,10,12,14,15],side_a:2,side_b:2,silent:[3,9,12,14],similar:[1,2,9,14],simpl:[1,7,14],simpleattentionbridgelay:4,simpli:9,simulatan:9,sin:14,sinc:9,singl:[0,10,14],single_pass:14,sinusoid:9,site:5,size:[2,7,9,11,12,14,15,16],skip:[2,12,14],skip_embed:9,skip_empty_level:[3,12,14],slen:9,slm17:[9,18],slow:[12,15],slurm:[2,5],smaller:[12,14,15],smooth:[12,14,15],softmax:[1,9,14,15],some:[0,2,7,15],someth:0,sometim:0,sort:[10,16],sorted_pair:2,sourc:[0,2,4,5,6,7,9,10,11,12,14],sp_path:16,space:[0,1,14],spacer:[12,14,15],span:[12,14,15],spars:9,sparseadam:14,sparsemax:[9,14],specif:[1,2,6,11,12,14,17],specifi:[1,9,12,14,15],sphinx:0,sphinx_rtd_them:0,sphinxcontrib:0,spill:0,spm_decod:3,spm_encod:[3,16],spm_train:16,sqrt:1,squar:[1,2],src:[2,3,7,9,10,11,12,14,15,16],src_embed:14,src_feat:15,src_feats_vocab:[12,14],src_file_path:11,src_ggnn_size:14,src_group:2,src_lang:[2,15],src_languag:2,src_len:[7,9],src_length:11,src_map:[9,11],src_onmttok_kwarg:[12,14,15],src_raw:11,src_seq_length:[3,12,14,15],src_seq_length_trunc:14,src_subword_alpha:[3,12,14,15],src_subword_model:[3,12,14,15],src_subword_nbest:[3,12,14,15],src_subword_typ:[12,14,15],src_subword_vocab:[12,14,15],src_vocab:[3,11,12,14],src_vocab_s:14,src_vocab_threshold:[12,14,15],src_word_vec_s:14,src_words_min_frequ:14,sru:4,srun:5,stabl:1,stack:[14,15],stage:1,stand:0,standard:[9,14,15],start:[2,4,5,7,10,14,16],start_decay_step:14,stat:[7,14],stat_list:7,state:[7,9,11,14],state_dict:14,state_dim:14,statist:[7,14],stdout:7,step:[1,2,4,7,9,11,14,15],stepwis:9,stepwise_penalti:[11,15],still:0,stop:[12,14,15],store:14,str:[0,7,9,10,11],strategi:[4,7,14],stride:9,string:[7,9,12,14,15],structur:[1,4,18],structured_attent:9,style:[0,12,14,15],styleguid:0,subclass:[7,9,11],subcompon:2,subdirectori:5,subsequ:1,subset:16,substitut:2,subword:[2,4],suggest:14,sum:[7,9,11,14],sum_:9,sume:7,summar:18,summari:[0,11,15],superclass:0,supervis:[2,9,14],support:[0,2,9,14],suppos:16,sure:[5,11],sutskev:18,switchout:[4,18],switchout_temperatur:[12,14,15],symmetr:2,system:[11,14,18],tab:[12,14],tabl:[9,15],take:[1,2,6,9,12,14,15],taken:9,tangent:1,tanh:[1,9],tar:16,target:[2,4,7,9,10,11,12,14],target_prefix:11,task:[2,3,4,7,11],task_distribution_strategi:14,task_queue_manag:7,tatoeba:[2,4],tau:[12,14,15],technic:6,temperatur:[2,11,12,14,15],templat:2,tensor:[0,7,9,11],tensorboard:[7,14],tensorboard_log_dir:14,tensorflow:14,term:[1,9],test:[0,3,5,9],testset:3,text:[7,9,11,14,15,18],tgt:[2,3,7,9,10,12,14,15],tgt_dict:9,tgt_embed:14,tgt_file_path:11,tgt_group:2,tgt_lang:[2,15],tgt_languag:2,tgt_len:[7,9],tgt_onmttok_kwarg:[12,14,15],tgt_pad_mask:9,tgt_prefix:[11,15],tgt_sent:11,tgt_seq_length:[3,12,14,15],tgt_seq_length_trunc:14,tgt_subword_alpha:[3,12,14,15],tgt_subword_model:[3,12,14,15],tgt_subword_nbest:[3,12,14,15],tgt_subword_typ:[12,14,15],tgt_subword_vocab:[12,14,15],tgt_vocab:[3,7,12,14],tgt_vocab_s:14,tgt_vocab_threshold:[12,14,15],tgt_word_vec_s:14,tgt_words_min_frequ:14,than:[0,11,14,16],thang:18,thant:11,thei:[1,9,11],them:[2,9],theorem:9,thi:[0,1,2,3,5,6,7,9,11,12,14,15],thin:7,thing:[0,2],thoroughli:9,thread:12,three:[1,9],through:[1,2,7],thu:7,tic:0,tick:0,time:[1,2,5,7,11,14,15],timeout:10,timer:10,titl:6,tlen:9,to_cpu:10,to_gpu:10,todo:[5,16],tok:10,token:[3,7,10,11,12,14,15],token_drop:4,token_mask:4,tokendrop:[12,14,15],tokendrop_temperatur:[12,14,15],tokenizer_mark:10,tokenizer_opt:10,tokenmask:[12,14,15],tokenmask_temperatur:[12,14,15],too:11,tool:4,toolkit:6,top:[1,9,11,15],topk_id:11,topk_scor:11,torch:[0,5,7,9,14],torchtext:7,total:[2,7,14],trail:0,train:[2,4,5,6,7,9],train_extremely_large_corpu:16,train_from:14,train_it:7,train_loss:7,train_loss_md:7,train_step:[3,7,14],trainabl:7,trainer:4,training_step:7,transform:[1,3,4,7,18],transformer_decod:9,transformer_ff:[3,14],transformerattentionbridgelay:4,transformerdecod:9,transformerdecoderbas:9,transformerencod:9,transformerencoderlay:1,translat:[2,4,6,7,9,10,13,18],translate_batch:11,translation_serv:10,translationbuild:11,translationserv:10,travi:0,tree:9,trg:2,triang:2,trick:[4,9],trivial:9,trunc_siz:7,truncat:[7,14],truncated_decod:14,trust:16,turn:[9,14],tutori:[4,17],two:[1,2,9],txt:[0,15,16],type:[0,1,2,4,7,9,10,11,12,15],typic:[7,14],u_a:9,under:[2,14,15],undergo:1,undergon:1,underli:11,uniform:14,unigram:[12,14,15],union:0,unit:[1,9],unittest:0,unk:[11,15],unknown:11,unless:2,unload:10,unload_model:10,unmodifi:11,unnecessari:[0,2],unnorm:9,unset:2,until:[11,15],unwieldli:2,updat:[5,7,10,11,14],update_dropout:9,update_finish:11,update_learning_r:14,update_n_src_word:7,update_vocab:14,upgrad:5,upper:2,url:[5,6,18],url_root:13,usag:[4,12,13,14,15],use:[0,1,2,3,5,7,9,10,11,12,14,15,16],used:[1,2,3,7,9,10,11,12,14,15],useful:7,user:[5,7,9,10],uses:[0,2,9,11,14],using:[0,1,2,6,9,10,11,12,14,15],uszkoreit:18,util:[1,7],v11:3,v_a:9,valid:[3,7,12,14,15],valid_batch_s:[3,14],valid_it:7,valid_loss:7,valid_loss_md:7,valid_step:[3,7,14],valu:[1,2,7,9,10,11,12,14,15],variabl:[2,5,11],variat:0,vaswani:18,vaswanispujgkp17:0,vector:[9,14],venv:5,verbos:[11,14,15],veri:[0,15],version:[9,10,11],via:[9,18],vinyal:18,virtual:5,visit:0,visual:14,vocab:[3,4,7,9,11],vocab_path:[12,14],vocab_s:[11,14,16],vocab_sample_queue_s:12,vocab_size_multipl:14,vocabulari:[2,7,9,12,14,15,16],vsp:[9,18],w_a:9,wai:[2,11],wait:2,wang:18,want:[2,15],warmup:14,warmup_step:[3,14],warn:[12,14,15],weight:[1,2,3,9,14,15],weight_decai:14,weighted_sampl:14,weightnormconv2d:9,well:[0,14],wget:16,what:[2,7,10],when:[0,2,6,9,11,12,14,15,16],where:[1,3,5,9,11,12,14,15],wherea:[11,14],whether:[7,9,10,11,12,14,15],which:[2,9,11,14],whl:5,whole:[3,11],whose:15,why:1,wiki:14,wikipedia:14,window:[12,14,15],wise:1,with_align:7,within:[1,9,10],without:[0,14],wmt14_en_d:3,wmt:3,wmtend:3,wojciech:18,wolfgang:18,word2vec:14,word:[1,9,11,12,14,15],word_align:11,word_lut:9,word_padding_idx:9,word_vec_s:[3,9,14],word_vocab_s:9,work:[0,2,11,14],workflow:6,world_siz:[3,14],would:[2,11,14],wpdn18:[12,14,15,18],wrap:10,wrapper:7,writabl:2,write:[2,7],writer:7,written:3,wsc:[11,18],www:14,xavier_uniform:14,xent:7,xinyi:18,xiong:18,xzvf:16,yaml:[3,12,14,15],yang:18,year:6,yet:[9,11],yml:0,yonghui:18,yoon:6,you:[0,2,3,5,9,14,15,18],your:[0,2,5,15,16],your_venv_nam:5,your_vevn_nam:5,yourself:6,yuan:18,yuntian:6,zaremba:18,zero:[2,7,9,11,14,15],zero_grad:7,zhang:18,zhifeng:18,zihang:18,zxs18:[9,18]},titles:["Contributors","Attention Bridge","Config-config tool","Translation","Contents","Installation","Overview","Framework","Data Loaders","Modules","Server","Translation","Build Vocab","Server","Train","Translate","Prepare Data","Quickstart","References"],titleterms:{"class":11,The:2,actual:2,adapt:[2,14],adapter_config:2,ae_path:2,ae_transform:2,align:14,allocate_devic:2,altern:2,architectur:9,argument:13,attent:[1,9,14],autoencod:2,beam:15,bridg:[1,14],build:[3,12],challeng:16,citat:6,cluster_languag:2,command:2,common:[12,14,15],complete_language_pair:2,config:2,config_al:2,config_config:2,configur:[12,14,15],content:4,contributor:0,conv2conv:9,copi:9,core:[9,10],corpora:2,corpora_schedul:2,data:[3,8,12,14,15,16,17],dataset:8,dec_sharing_group:2,decod:[9,11,14,15],denois:[12,14,15],direct:16,distanc:2,distance_matrix:2,docstr:0,download:[3,16],dynam:14,effici:15,embed:14,enc_sharing_group:2,encod:[9,14],evalu:3,featur:14,feedforwardattentionbridgelay:1,filter:[12,14,15],framework:7,gener:14,get:16,group:2,guidelin:0,inferfeat:[12,14,15],initi:14,input:2,instal:[5,6,17],kei:2,languag:[2,15],level:2,linattentionbridgelay:1,line:2,loader:8,log:[14,15],loss:7,lumi:5,mahti:5,mammoth:17,manual:2,matrix:2,model:[3,7,10,14,15,16],modul:9,n_gpus_per_nod:2,n_group:2,n_node:2,name:13,onmttok:[12,14,15],optim:[7,14],opu:16,other:2,overrid:2,overview:6,paramet:2,pars:16,path:16,penalti:15,perceiverattentionbridgelay:1,prepar:[3,16,17],prune:14,puhti:5,quickstart:17,random:15,rate:14,reader:8,refer:18,relev:16,remove_temporary_kei:2,reproduc:[12,14,15],run:5,sampl:15,score:11,search:15,sentencepiec:16,server:[10,13],set:16,set_transform:2,share:2,sharing_group:2,shot:16,simpleattentionbridgelay:1,sourc:15,specifi:2,src_path:2,sru:9,stage:2,step:[3,16,17],strategi:11,structur:9,subword:[3,12,14,15],supervis:16,switchout:[12,14,15],target:15,task:14,tatoeba:16,test:16,tgt_path:2,than:2,token_drop:[12,14,15],token_mask:[12,14,15],tool:2,top:2,train:[3,14,16],trainer:7,transform:[2,9,12,14,15],transformerattentionbridgelay:1,translat:[3,11,15,16],translation_config:2,translation_config_dir:2,trick:15,type:14,usag:2,use_introduce_at_training_step:2,use_weight:2,valid:16,variabl:16,vocab:[12,14,16],vocabulari:3,yaml:2,zero:16,zero_shot:2}})
\ No newline at end of file
+Search.setIndex({docnames:["CONTRIBUTING","attention_bridges","config_config","examples/Translation","index","install","main","mammoth","mammoth.inputters","mammoth.modules","mammoth.translate.translation_server","mammoth.translation","options/build_vocab","options/server","options/train","options/translate","prepare_data","quickstart","ref"],envversion:{"sphinx.domains.c":1,"sphinx.domains.changeset":1,"sphinx.domains.citation":1,"sphinx.domains.cpp":1,"sphinx.domains.index":1,"sphinx.domains.javascript":1,"sphinx.domains.math":2,"sphinx.domains.python":1,"sphinx.domains.rst":1,"sphinx.domains.std":1,"sphinx.ext.viewcode":1,sphinx:56},filenames:["CONTRIBUTING.md","attention_bridges.md","config_config.md","examples/Translation.md","index.rst","install.md","main.md","mammoth.rst","mammoth.inputters.rst","mammoth.modules.rst","mammoth.translate.translation_server.rst","mammoth.translation.rst","options/build_vocab.rst","options/server.rst","options/train.rst","options/translate.rst","prepare_data.md","quickstart.md","ref.rst"],objects:{"mammoth.Trainer":{train:[7,1,1,""],validate:[7,1,1,""]},"mammoth.models":{NMTModel:[7,0,1,""]},"mammoth.models.NMTModel":{count_parameters:[7,1,1,""],forward:[7,1,1,""]},"mammoth.modules":{AverageAttention:[9,0,1,""],ConvMultiStepAttention:[9,0,1,""],CopyGenerator:[9,0,1,""],Embeddings:[9,0,1,""],GlobalAttention:[9,0,1,""],MultiHeadedAttention:[9,0,1,""],PositionalEncoding:[9,0,1,""],WeightNormConv2d:[9,0,1,""]},"mammoth.modules.AverageAttention":{cumulative_average:[9,1,1,""],cumulative_average_mask:[9,1,1,""],forward:[9,1,1,""]},"mammoth.modules.ConvMultiStepAttention":{apply_mask:[9,1,1,""],forward:[9,1,1,""]},"mammoth.modules.CopyGenerator":{forward:[9,1,1,""]},"mammoth.modules.Embeddings":{emb_luts:[9,1,1,""],forward:[9,1,1,""],load_pretrained_vectors:[9,1,1,""],word_lut:[9,1,1,""]},"mammoth.modules.GlobalAttention":{forward:[9,1,1,""],score:[9,1,1,""]},"mammoth.modules.MultiHeadedAttention":{forward:[9,1,1,""],training:[9,2,1,""],update_dropout:[9,1,1,""]},"mammoth.modules.PositionalEncoding":{forward:[9,1,1,""]},"mammoth.modules.WeightNormConv2d":{forward:[9,1,1,""]},"mammoth.modules.position_ffn":{PositionwiseFeedForward:[9,0,1,""]},"mammoth.modules.position_ffn.PositionwiseFeedForward":{forward:[9,1,1,""]},"mammoth.modules.structured_attention":{MatrixTree:[9,0,1,""]},"mammoth.modules.structured_attention.MatrixTree":{forward:[9,1,1,""]},"mammoth.translate":{BeamSearch:[11,0,1,""],DecodeStrategy:[11,0,1,""],GNMTGlobalScorer:[11,0,1,""],GreedySearch:[11,0,1,""],Translation:[11,0,1,""],TranslationBuilder:[11,0,1,""],Translator:[11,0,1,""]},"mammoth.translate.BeamSearch":{initialize:[11,1,1,""]},"mammoth.translate.DecodeStrategy":{advance:[11,1,1,""],block_ngram_repeats:[11,1,1,""],initialize:[11,1,1,""],maybe_update_forbidden_tokens:[11,1,1,""],maybe_update_target_prefix:[11,1,1,""],target_prefixing:[11,1,1,""],update_finished:[11,1,1,""]},"mammoth.translate.GreedySearch":{advance:[11,1,1,""],initialize:[11,1,1,""],update_finished:[11,1,1,""]},"mammoth.translate.Translation":{log:[11,1,1,""]},"mammoth.translate.Translator":{translate_batch:[11,1,1,""]},"mammoth.translate.greedy_search":{sample_with_temperature:[11,3,1,""]},"mammoth.translate.penalties":{PenaltyBuilder:[11,0,1,""]},"mammoth.translate.penalties.PenaltyBuilder":{coverage_none:[11,1,1,""],coverage_summary:[11,1,1,""],coverage_wu:[11,1,1,""],length_average:[11,1,1,""],length_none:[11,1,1,""],length_wu:[11,1,1,""]},"mammoth.translate.translation_server":{ServerModel:[10,0,1,""],ServerModelError:[10,4,1,""],Timer:[10,0,1,""],TranslationServer:[10,0,1,""]},"mammoth.translate.translation_server.ServerModel":{build_tokenizer:[10,1,1,""],detokenize:[10,1,1,""],do_timeout:[10,1,1,""],maybe_convert_align:[10,1,1,""],maybe_detokenize:[10,1,1,""],maybe_detokenize_with_align:[10,1,1,""],maybe_postprocess:[10,1,1,""],maybe_preprocess:[10,1,1,""],maybe_tokenize:[10,1,1,""],parse_opt:[10,1,1,""],postprocess:[10,1,1,""],preprocess:[10,1,1,""],rebuild_seg_packages:[10,1,1,""],to_gpu:[10,1,1,""],tokenize:[10,1,1,""],tokenizer_marker:[10,1,1,""]},"mammoth.translate.translation_server.TranslationServer":{clone_model:[10,1,1,""],list_models:[10,1,1,""],load_model:[10,1,1,""],preload_model:[10,1,1,""],run:[10,1,1,""],start:[10,1,1,""],unload_model:[10,1,1,""]},"mammoth.utils":{Optimizer:[7,0,1,""],Statistics:[7,0,1,""]},"mammoth.utils.Optimizer":{amp:[7,1,1,""],backward:[7,1,1,""],from_opt:[7,1,1,""],learning_rate:[7,1,1,""],step:[7,1,1,""],training_step:[7,1,1,""],zero_grad:[7,1,1,""]},"mammoth.utils.Statistics":{accuracy:[7,1,1,""],all_gather_stats:[7,1,1,""],all_gather_stats_list:[7,1,1,""],elapsed_time:[7,1,1,""],log_tensorboard:[7,1,1,""],output:[7,1,1,""],ppl:[7,1,1,""],update:[7,1,1,""],xent:[7,1,1,""]},"mammoth.utils.loss":{LossComputeBase:[7,0,1,""]},mammoth:{Trainer:[7,0,1,""]}},objnames:{"0":["py","class","Python class"],"1":["py","method","Python method"],"2":["py","attribute","Python attribute"],"3":["py","function","Python function"],"4":["py","exception","Python exception"]},objtypes:{"0":"py:class","1":"py:method","2":"py:attribute","3":"py:function","4":"py:exception"},terms:{"25g":5,"boolean":[7,11],"break":16,"class":[0,4,7,9,10],"default":[10,12,13,14,15,16],"export":5,"final":[1,3,11],"float":[2,9,11],"function":[0,1,2,7,9,10,11,14],"import":0,"int":[7,9,10,11],"long":0,"new":[0,1,3],"public":5,"return":[0,7,9,10,11],"static":[7,14],"true":[2,3,7,11,14,15,16],"try":[0,5],"while":[2,9],And:[0,9],EOS:11,For:[0,2,11,14,17],IDs:11,IFS:16,LPs:2,Not:0,One:2,The:[1,3,7,9,10,11,14,15],Then:[0,3,9],There:[1,2],These:[1,2,9,11],Use:[2,14,15],Used:11,Will:2,__init__:10,_compute_loss:7,a_j:9,aan:14,aan_useffn:[9,14],ab_fixed_length:14,ab_lay:14,ab_layer_norm:14,abbrevi:0,abigail:18,abil:9,about:0,abov:[0,11],abs:[1,14,15,18],acceler:[9,18],accept:[0,2,11],access:[1,2,5],accord:2,account:[2,5],accross:7,accum:7,accum_count:[3,7,14],accum_step:[3,7,14],accumul:[7,14],accuraci:[7,11],achiev:2,achin:18,acl:[6,18],aclweb:14,action:[9,11,14],activ:[1,5,9,14],activation_fn:9,activationfunct:9,actual:11,adadelta:14,adafactor:14,adagrad:14,adagrad_accumulator_init:14,adam:[3,14],adam_beta1:14,adam_beta2:[3,14],adamoptim:14,adamw:14,adapt:[4,6],adapter_nam:2,add:[0,3,9],added:2,adding:0,addit:[0,9,12,14,15],addition:9,address:11,adjust:2,adopt:14,advanc:[11,14],advic:0,after:[0,1,11,14],afterward:9,again:0,aidan:18,alexand:6,algorithm:18,align:[4,7,10,11,15],align_debug:15,alignment_head:14,alignment_lay:14,aliv:11,alive_attn:11,alive_seq:11,all:[0,2,7,9,11,12,14,15,18],all_gather_stat:7,all_gather_stats_list:7,all_preprocess:10,allennlp:0,alloc:2,allow:[0,1,2,14],almost:[11,14],alon:0,along:1,alpha:[1,11,15],alphabet:2,alreadi:[12,14,15],also:[0,2,5,7,9,14],although:9,alwai:[0,2],amp:[7,14],ani:[0,2,11,12,14],anoth:[0,1,7],antholog:14,apex:14,apex_opt_level:14,api:[0,4],api_doc:14,appear:2,append:[5,16],appli:[1,2,9,11,12,14,15],applic:15,apply_mask:9,appropri:11,approxim:14,architectur:[1,4],arg:[0,10],argmax:15,argpars:10,argument:[0,4],arxiv:[0,1,14,15,18],ashish:18,assig:2,assign:[2,15],assing:2,assum:[9,11],att_typ:1,attend:1,attent:[0,4,7,11,15,18],attention_bridg:7,attention_dropout:[3,14],attentionbridgenorm:1,attet:9,attn:[9,11,15],attn_debug:[11,15],attn_func:9,attn_typ:9,attr:10,attribut:11,augment:18,author:6,autodoc:0,autogener:14,avail:[7,10,14,15],available_model:13,averag:[9,14,15,18],average_decai:[3,7,14],average_everi:[7,14],average_output:9,averageattent:9,avg:15,avg_raw_prob:15,avoid:[0,2],aws:5,axi:11,back:7,backend:14,backward:7,bahdanau:[9,14],ban_unk_token:[11,15],barri:18,bart:[12,14,15],base:[0,1,2,3,5,6,7,9,10,11,12,14,15],base_target_emb:9,baselin:14,basemodel:7,basenam:[3,16],bash:5,batch:[1,3,7,9,11,14,15],batch_siz:[3,9,11,14,15],batch_size_multipl:[3,14],batch_typ:[3,14,15],beam:[4,11],beam_search:11,beam_siz:[3,11,15],beamsearch:11,beamsearchbas:11,becaus:[2,15],becom:2,been:[9,11,12,14,15],befor:[0,3,10,11,14,15],begin:[7,11],below:0,ben:2,bengali:2,best:[11,15],beta1:14,beta2:14,beta:[11,15],better:[0,12,14,15],between:[1,12,14,15,18],beyond:7,biao:18,bib:0,bibtex:0,bibtext:0,bidir_edg:14,bidirect:14,bin:[5,14],binari:[3,9],bit:15,blank:0,bleu:3,block:[11,15],block_ngram_repeat:[11,15],booktitl:6,bool:[7,9,10,11],bos:11,both:[2,11,14],both_embed:14,boundari:[12,14,15],bpe:[12,14,15],bptt:[7,14],bridg:[4,18],bridge_extra_nod:14,browser:0,bucket_s:[3,14],buffer:7,build:[0,4,7,9,10,11,15,16],build_token:10,build_vocab:12,built:7,bytetensor:11,cach:9,calcul:[1,7,9,11],call:[9,11],callabl:11,callback:7,can:[1,2,3,5,7,10,11,12,14,15],cancel:10,candid:[2,12,14,15],cao:18,capit:0,captur:1,care:9,cat:16,categor:11,categori:11,challeng:4,chang:[0,2,7,14],channel:1,charact:[0,15],character_coverag:16,check:[0,6,17],checklist:0,checkpoint:[3,7,14],chen:18,chmod:[3,5],choic:[0,9,12,14,15],choos:[0,12,14,15],chosen:11,christoph:18,citat:[0,4],cite:[0,6],classmethod:7,clear:0,clone:[6,10,17],clone_model:10,close:0,cls:7,cluster:[2,6,17],clutter:0,code:[0,2,5,15],code_dir:5,codebas:5,column:2,com:[6,17],combin:[9,15],comma:2,command:[3,4],comment:0,commentari:3,common:[0,4],commoncrawl:3,commun:0,complet:11,complex:[2,11],compon:[1,2],composit:14,comput:[1,2,3,7,9,14,15],concat:[9,14],condit:[11,14,15],conf:[13,15],config:[3,4,10,12,13,14,15],config_fil:10,configur:[2,3,4],connect:1,consid:[2,9,16],consider:14,consist:0,constant:2,construct:9,constructor:0,consum:14,contain:[2,9,10,11],content:[0,15],context:[1,9,14],context_g:14,continu:0,contribut:[0,1,9],contributor:4,control:[2,7],conv2conv:4,conv2d:9,conv:9,conveni:2,convent:0,convers:11,convert:10,convex:9,convmultistepattent:9,copi:[0,2,4,5,14,15],copy_attn:[11,14],copy_attn_forc:14,copy_attn_typ:14,copy_loss_by_seqlength:14,copygener:9,core:[1,4,7],corpora:3,corpu:[2,3,12,14,16],corr:[0,18],correct:2,correspand:10,correspond:[1,15],could:11,count:[2,7,11,12,14,15],count_paramet:7,cov:11,cov_pen:11,coverag:[9,11,14,15],coverage_attn:14,coverage_non:11,coverage_penalti:[11,15],coverage_summari:11,coverage_wu:11,cpu:[10,14,15],crai:5,crayon:14,creat:[2,5,7],creation:2,criteria:14,criterion:7,critic:[14,15],cross:[7,14],csc:16,csv:2,ct2_model:10,ct2_translate_batch_arg:10,ct2_translator_arg:10,ctrl:0,cumbersom:2,cumul:[9,11,15],cumulative_averag:9,cumulative_average_mask:9,cur_dir:16,cur_len:11,current:[2,7,9,11,14],curricula:2,curriculum:2,custom:[10,14],custom_opt:10,cut:[0,16],cutoff:11,d_ff:9,d_model:9,dai:18,data:[1,2,4,7,11,18],data_path:16,data_typ:[7,11,14,15],dataset:[3,4,12,14,15,16],datastructur:10,dblp:0,ddress:18,deal:2,debug:[13,14,15],dec:2,dec_lay:[3,14],decai:14,decay_method:[3,14],decay_step:14,decod:[1,2,4,7],decode_strategi:11,decoder_typ:[3,14],decoderbas:7,decodestrategi:11,def:0,defin:[2,3,9,12,14,15],definit:9,delai:2,delet:[12,14,15],delimit:15,deng:6,denois:[2,4],denoising_object:[12,14,15],denot:1,depend:[0,2,5,7,9,10],deprec:[14,15],describ:[1,9,10,14],descript:0,desir:[2,3],detail:[6,12,14],determin:2,detoken:[3,10],dev:[5,16],develop:0,devic:[2,9,11,15],device_context:7,deyi:18,diagon:2,dict:[2,7,10,11,12,14,15],dict_kei:14,dictionari:[7,9,11,14],differ:[0,1,2,9,10,15],dilat:9,dim:9,dimens:[1,9,11,14],dimension:[1,9],dir:16,direct:[0,2,11],directli:[0,9,15],directori:[2,5,10,14],disabl:14,discard:14,discourag:14,disk:14,displai:7,dist:7,distanc:14,distribtut:9,distribut:[2,7,9,11,12,14,15],divers:[1,12,14,15],divid:[1,2,14,15],divis:9,do_timeout:10,doc:0,document:[0,6],doe:[2,15],doesn:16,doi:6,doing:[2,15],don:0,done:[3,11,16],dot:[1,9,14],dotprod:14,down:[11,12],download:5,dropout:[3,7,9,12,14,15],dropout_step:[3,7,14],due:14,dump:[12,14,15],dump_beam:[11,15],dump_sampl:12,dump_transform:14,dure:[10,14,15],dynam:[4,9,15],each:[1,2,9,11,12,14,15],earli:14,earlier:[1,12,14,15],early_stop:14,early_stopping_criteria:14,earlystopp:7,eas:2,easi:0,easili:2,echo:[3,16],edg:14,effect:[1,10,12],effici:[4,7,18],either:[11,14],elaps:7,elapsed_tim:7,element:[1,2],els:16,emb:9,emb_fil:9,emb_lut:9,embed:[1,4,9,12],embedding_s:9,embeddings_typ:14,emerg:1,emploi:[1,7],empti:[3,11,12,14],enabl:15,enc:2,enc_lay:[3,14],encapsul:1,encod:[1,2,4,7,11],encoder_out_combin:9,encoder_out_top:9,encoder_typ:[3,14],encoderbas:7,encordec:[12,14],encount:[12,14],encout:[12,14],end:11,eng:2,english:[2,3,16],enhanc:1,ensembl:15,ensur:1,entir:16,entri:0,entropi:7,env_dir:5,environ:5,eos:11,epoch:14,eps:9,epsilon:14,equal:[11,14],equat:9,equival:14,error:[0,12,14,15],especi:2,essenti:11,establish:1,eural:18,europarl:3,evalu:7,even:2,event:11,everi:[7,9,14,15],exactli:0,exampl:[0,2,3,12,14,17],exce:14,except:[0,10,12,14,15],exclusion_token:11,execut:[3,12,14],exist:[12,14,15,16],exp:14,exp_host:14,expect:[2,11],experi:[12,14,15],experiment:14,exponenti:14,extend:[0,9],extern:0,extra:[5,14],extra_word:9,extract:16,facilit:1,fail:11,fairseq:0,fals:[7,9,10,11,12,13,14,15],familiar:6,faster:14,feat_0:15,feat_1:15,feat_dim_expon:9,feat_merg:[9,14],feat_merge_s:14,feat_padding_idx:9,feat_vec_expon:[9,14],feat_vec_s:[9,14],feat_vocab_s:9,feats0:15,feats1:15,featur:[1,4,7,9,12,15,18],fed:1,feed:[2,9,14],feedforward:[1,14],feedforwardattentionbridgelay:4,feel:0,few:0,ffn:[9,14],figur:9,file:[0,2,10,12,14,15,16],filenam:14,filter:[3,4,16],filterfeat:[12,14,15],filtertoolong:[2,3,12,14,15],find:0,firefox:0,first:[0,2,9,11,14],five:1,fix:[0,11,14],flag:7,flake8:0,floattensor:[7,9,11],flow:1,fly:3,fnn:9,focu:[0,1],folder:0,follow:[0,1,2,3,15,17],foo:0,forbidden:11,forbidden_token:11,forc:[11,15],format:[0,10,12,14,15,16],former:9,forward:[2,7,9,14],fotran:2,found:16,foundat:1,fp16:[14,15],fp32:[3,7,14,15],frac:1,fraction:[12,14,15],framework:[4,14],free:[0,10],freez:[9,14],freeze_word_vec:9,freeze_word_vecs_dec:14,freeze_word_vecs_enc:14,frequenc:[12,14,15],from:[1,2,7,9,11,14,15,16],from_opt:7,frozenset:11,full:[0,2,10,12,14,15,16],full_context_align:14,fulli:2,further:[12,14],fusedadam:14,gao:18,gap:18,garg:14,gate:14,gather:7,gating_output:9,gelu:14,gener:[0,1,2,3,4,7,9,11,15,18],generator_funct:14,german:3,get:[4,5,18],git:[6,17],github:[6,14,17],give:[2,14,15],given:[1,2,10],global:9,global_attent:14,global_attention_funct:14,global_scor:11,globalattent:9,glove:14,gnmt:11,gnmtglobalscor:11,going:11,gold:11,gold_scor:11,gold_sent:11,gomez:18,gone:14,good:[0,14],googl:[0,11,15,18],gpu:[2,3,5,10,11,14,15],gpu_backend:14,gpu_rank:[3,14],gpu_verbose_level:[7,14],gpuid:14,grad:7,gradient:[7,14],graham:18,gram:11,graph:14,gre:5,greater:11,greedy_search:11,greedysearch:11,group:[9,14,15],groupwis:2,grow:11,gtx1080:15,guid:[6,17],guidelin:4,guillaum:6,h_j:9,h_s:9,h_t:9,had:15,haddow:18,hand:2,handl:[0,7],happen:11,has:[1,2,11,12,14,15],has_cov_pen:11,has_len_pen:11,has_tgt:11,have:[0,2,3,9,11,14,15],head:[1,3,9,14],head_count:9,help:[0,1,15],helsinki:[6,17],here:[1,11,16],hidden:[7,9,14],hidden_ab_s:14,hidden_dim:1,hieu:18,high:2,higher:[11,14,15],highest:15,hold:11,hook:9,hop:1,host:5,how:[0,9],howev:[0,7,9],html:[0,14],http:[1,5,6,14,15,16,17,18],huge:14,human:[2,18],hyp_:3,hyperbol:1,hyphen:2,hypothesi:3,identifi:15,idl:2,ids:2,ignor:[3,9,12,14,15],ignore_when_block:[11,15],illia:18,ilya:18,imag:7,impact:14,implement:[1,7,9,14],impli:[1,9],improv:[9,11,14,18],in_channel:9,in_config:2,includ:[0,2,9,12,14,15],incompat:[12,14,15],incorpor:14,increas:2,index:[5,9,14],indic:[1,7,9,11,12,14,15],individu:2,inf:11,infer:11,inferfeat:4,info:[14,15],inform:[1,2,14,15],ingredi:11,init:[9,14],init_scal:9,init_st:7,initi:[4,7,10,11],initial_accumulator_valu:14,inp:11,inp_seq_len:11,inproceed:6,input:[1,4,7,9,10,11,12,14,15,16,18],input_format:3,input_from_dec:9,input_len:9,input_s:9,input_sentence_s:16,inputs_len:9,inputt:11,insert:[12,14,15],insert_ratio:[12,14,15],instal:[0,3,4],instanc:[7,9,11],instanti:7,instead:[0,2,5,9,12,14,15],instruct:14,int8:15,integ:11,integr:0,interact:5,interfac:7,intermedi:1,intermediate_output:1,intern:10,interv:14,introduc:[1,2],introduct:2,invalid:[12,14,15],involv:1,is_finish:11,isn:11,item:9,iter:7,its:[0,2,9],itself:2,jakob:18,jean:6,jinsong:18,job:5,joiner:[12,14,15],jone:18,journal:0,json:13,kaiser:18,keep:[10,11,14],keep_checkpoint:[3,14],keep_stat:14,keep_topk:11,keep_topp:11,kei:9,kera:14,kernel_s:9,key_len:9,kim:6,klau:18,klein:6,krikun:18,label:14,label_smooth:[3,14],lambda:[12,14,15],lambda_align:14,lambda_coverag:14,lang:2,lang_a:2,lang_b:2,lang_pair:[2,15],languag:[1,4,12,14,16],language_pair:16,lapata:18,last:[2,14,15],latter:9,layer:[1,9,14,15],layer_cach:9,layer_type_to_cl:1,layernorm:14,layerstack:2,lead:11,learn:[1,7,9,14,18],learning_r:[3,7,14],learning_rate_decai:14,learning_rate_decay_fn:7,least:0,leav:[2,14],left:1,len:[7,9,11],length:[2,7,9,11,12,14,15,16],length_averag:11,length_non:11,length_pen:11,length_penalti:[11,15],length_wu:11,less:2,let:[2,3],level:[12,14],lib:5,librari:14,like:[0,11,15],limit:15,lin:[1,14],linattentionbridgelay:4,line:[0,3,12,14,15],linear:1,linear_warmup:14,linguist:[9,18],link:[0,1,5],list:[0,2,7,9,10,11,12,14,15],list_model:10,literatur:14,liu:18,ll17:[9,18],llion:18,load:[5,7,9,10,14],load_model:10,load_pretrained_vector:9,loader:4,local:[0,2],localhost:14,log:[4,7,11],log_fil:[14,15],log_file_level:[14,15],log_prob:11,log_tensorboard:7,logger:11,login:5,logit:[11,15],logsumexp:11,longer:15,longest:11,longtensor:[7,9,11],look:[0,6,9,15],loop:7,loss:[4,14],loss_scal:14,losscomputebas:7,love:0,lower:[2,14],lsl:[11,18],lstm:14,lua:10,lukasz:18,luong:[9,14,18],lustrep1:5,lustrep2:5,macherei:18,machin:[6,9,11,18],made:2,magic:11,mai:[2,7,10,11,12,14],main:[0,6,7,12,14,15],maintain:11,make:[0,5,7,12,14,15],make_shard_st:7,mammoth:[0,4,5,6,7,9,10,11,14],man:18,manag:7,mani:[7,11,14],manipul:7,manual:[10,11],map:[2,7,9],margin:9,marian:14,mark:14,marker:10,mask:[9,12,14,15],mask_length:[12,14,15],mask_or_step:9,mask_ratio:[12,14,15],mass:[12,14,15],massiv:[2,6],master:14,master_ip:14,master_port:14,match:10,mathbb:1,mathbf:1,mathemat:1,matric:1,matrix:[1,9,14],matrixtre:9,max:[7,11,16],max_generator_batch:[3,14],max_grad_norm:[3,7,14],max_len:9,max_length:[11,15],max_relative_posit:[9,14],max_sent_length:15,max_sentence_length:16,max_siz:7,maxim:18,maximum:[12,14,15],maybe_convert_align:10,maybe_detoken:10,maybe_detokenize_with_align:10,maybe_postprocess:10,maybe_preprocess:10,maybe_token:10,maybe_update_forbidden_token:11,maybe_update_target_prefix:11,mean:[2,10,14,15],mechan:[1,2],mem:5,memori:[10,14],memory_bank:[9,11],memory_length:9,merg:[9,14],meta:2,metadata:7,method:[7,9,14],metric:15,mi250:5,mike:18,min_length:[11,15],minh:18,minimum:15,mirella:18,mirror:14,mix:7,mkdir:[5,16],mlp:[9,14],mode:[2,12,14,15],model:[1,2,4,9,11,12],model_dim:9,model_dtyp:[3,7,14],model_id:10,model_kwarg:10,model_prefix:16,model_root:10,model_sav:7,model_step:3,model_task:14,model_typ:14,modelsaverbas:7,modif:7,modifi:[0,11],modul:[0,1,4,5,7,14,15],modular:6,mohammad:18,monolingu:2,more:[0,2,11,12,14,15],most:[11,15],mostli:7,move:[10,14],moving_averag:[7,14],much:14,multi:[0,1,9],multiheadedattent:[1,9],multilingu:[2,6],multipl:[0,1,2,7,9,14,15],multipli:1,multplic:0,must:[2,9,10,14],mymodul:5,n_batch:7,n_best:[10,11,15],n_bucket:14,n_correct:7,n_edge_typ:14,n_node:14,n_sampl:[3,12,14],n_seg:10,n_src_word:7,n_step:14,n_word:7,name:[0,2,4,11,12,14,16],namespac:10,napoleon:0,nccl:14,necessari:[0,3,5,7,11,14,15],necessit:2,need:[0,2,3,7,9,14,18],neg:[10,14],network:[9,18],neubig:18,neural:[6,9,11,18],never:11,news_commentari:3,next:[2,7,11,15],nfeat:9,ngram:[11,15],nightmar:2,niki:18,nlp:[6,17],nmt:[7,11,14,15],nmtmodel:7,noam:[3,14,18],noamwd:14,node:[2,5,7,14],node_rank:14,nois:2,non:[9,11,14],none:[7,9,10,11,12,14,15],nonetyp:[9,11],norm:[9,14],norm_method:7,normal:[1,3,7,14],normalz:7,norouzi:18,note:[0,2,3,5,11],noth:[0,7],notset:[14,15],ntask:5,nucleu:15,num_step:7,num_thread:12,number:[1,2,7,9,11,12,14,15],nvidia:14,obj:[0,7],object:[0,7,10,11,12,14,15,16],oder:2,off:14,ofi:5,often:[12,14,15],on_timemout:10,on_timeout:10,onc:[11,14],one:[0,1,2,7,9,12,14,15],onli:[2,7,11,12,14,15],onmt:16,onmt_build_vocab:3,onmt_token:[12,14,15],onmt_transl:3,onmttok:4,open:6,opennmt:[0,2,5,6,7,13],oper:[1,9],operatornam:1,opt:[3,7,10,14,15],opt_level:14,optim:[3,4],option:[0,2,3,5,7,9,10,11,12,14,15,16],opu:4,opus100:[16,17],ord:18,order:[2,14],org:[1,5,6,14,15,18],origin:[1,14,16],oriol:18,other:[1,5,7,11,12,14,15,16,18],other_lang:16,otherwis:[2,9,14,15],our:[5,11],our_stat:7,out:[1,2,6,7,17],out_channel:9,out_config:2,out_fil:11,outcom:1,output:[1,2,3,7,9,10,11,12,14,15],output_model:15,output_s:9,over:[0,2,3,7,9,11,14,15,16],overal:1,overrid:[11,12,14],overridden:9,overview:4,overwrit:[5,12,14],own:[7,15],ownership:7,p17:6,p18:14,packag:[5,10],pad:[7,9,11],pad_idx:9,pair:[2,7,10,14,15,16],paper:[0,1,9,14],parallel:[9,11,12,14],parallel_path:11,parallelcorpu:11,param:7,param_init:[3,14],param_init_glorot:[3,14],paramet:[3,7,9,10,11,12,14,15],parameter:9,parenthes:0,parmar:18,pars:[9,10],parse_opt:10,part:[1,11],particular:[0,2,9],partit:5,pass:[1,2,7,9,10,14],past:[0,14],path:[2,5,9,10,11,12,14,15],path_src:3,path_tgt:3,patienc:7,pattern:2,pdf:14,pen:11,penalti:[4,11,14],penaltybuild:11,peopl:5,per:[0,2,12,14,15],perceiv:[1,14],perceiverattentionbridgelay:4,percentag:[12,14,15],perfom:14,perform:[1,9,14],permut:[12,14,15],permute_sent_ratio:[12,14,15],perplex:7,peter:18,pfs:5,pham:18,phrase_t:[11,15],piec:3,pip3:[5,6,17],pip:[0,5],pipelin:[12,14,15],pleas:[0,6],plu:14,point:18,pointer:[9,18],poisson:[12,14,15],poisson_lambda:[12,14,15],polosukhin:18,polyak_decai:9,pool:14,port:[13,14],portal:6,pos_ffn_activation_fn:[9,14],posit:[9,14],position_encod:[9,14],position_ffn:9,positionalencod:9,positionwisefeedforward:[9,14],possibl:[2,7,10,11,12,14,15],postprocess:10,postprocess_opt:10,potenti:11,pouta:16,ppl:7,pre:[7,10,11],pre_word_vecs_dec:14,pre_word_vecs_enc:14,preced:2,precis:7,pred:15,pred_scor:11,pred_sent:11,predict:[7,11,15],prefer:0,prefix:[2,7,12,14,15],prefix_seq_len:11,preliminari:3,preload:10,preload_model:10,prepar:[4,11],prepare_wmt_data:3,preprint:18,preprocess:10,preprocess_opt:10,presenc:2,presum:11,pretrain:[9,14],prevent:[11,15],previou:[1,2,9,11],previous:1,primari:2,prime:1,print:[7,14,15],prior:3,prior_token:[12,14,15],prob:11,proba:15,probabl:[9,11,12,14,15],probil:9,problem:11,proc:[6,18],procedur:2,process:[1,7,10,12,14],processu:10,produc:[1,11,12,14,15],product:1,projappl:5,project:[0,1,5,6,9],project_2005099:5,project_462000125:5,propag:7,proper:10,properli:5,properti:[7,9],proport:[2,12,14,15],provid:[6,15],prune:4,pty:5,pull_request_chk:0,punctuat:0,put:11,pwd:16,pyonmttok:[12,14,15],python3:[2,5],python:[0,2,5,14],pythonpath:5,pythonuserbas:5,pytorch:[0,5],qin:18,quantiz:15,queri:9,query_len:9,queue:[12,14],queue_siz:[3,14],quickstart:[4,6],quoc:18,quot:0,rais:[12,14],random:[4,12,14],random_ratio:[12,14,15],random_sampling_temp:[11,15],random_sampling_topk:[11,15],random_sampling_topp:[11,15],randomli:11,rang:15,rank:[11,14],ranslat:18,rare:11,rate:[4,7],rather:0,ratio:[11,15],raw:[9,11,15],rccl:5,reach:11,read:[0,2,10,16],readabl:[0,2],reader:4,readm:14,rebuild:10,rebuild_seg_packag:10,receiv:2,recent:14,recip:9,recommend:14,recommonmark:0,rectifi:1,recurr:9,redund:2,ref:0,refer:[0,1,4],regardless:2,regist:9,regular:[12,14,15],rel:14,relat:[3,12,14,15],relationship:1,relev:[9,11],relu:[1,9,14],rememb:0,remov:2,renorm:14,reorder:11,repeat:[11,15],repetit:15,replac:[11,12,14,15],replace_length:[12,14,15],replace_unk:[11,15],report:[6,7,14,15],report_align:[11,15],report_everi:[3,14],report_manag:7,report_scor:11,report_stats_from_paramet:[7,14],report_tim:[11,15],reportmgrbas:7,repres:[1,7],represent:[1,9,14,18],reproduc:4,requir:[0,7,14],research:6,reset:7,reset_optim:14,resett:14,residu:9,resourc:2,respect:[1,2],respons:7,rest:13,restrict:[12,14,15],result:[1,10,14],return_attent:11,reus:14,reuse_copy_attn:14,revers:[12,14,15],reversible_token:[12,14,15],rico:18,right:[0,1],rmsnorm:14,rnn:[7,14],rnn_size:[3,14],roblem:18,rocm5:5,rocm:5,root:[1,2],rotat:[12,14,15],rotate_ratio:[12,14,15],roundrobin:14,row:2,rsqrt:14,rst:0,run:[0,2,3,7,9,10,14,15],rush:6,sacrebleu:[3,5,6,17],sai:2,samantao:5,same:[0,2,3,9,10,14],sampl:[4,11,12,14,16],sample_with_temperatur:11,sampling_temp:11,saniti:15,save:[7,12,14,15,16],save_all_gpu:14,save_checkpoint_step:[3,7,14],save_config:[12,14,15],save_data:[3,12,14],save_model:[3,14],saver:7,scale:[11,14],schedul:[7,14],schuster:18,score:[4,9,10,15],scorer:11,scratch:5,script:[0,3,4,5],search:[0,2,4,11],second:[1,2,9,10],secur:[12,14],see:[2,9,10,11,12,14,18],seed:[3,11,12,14,15],seemingli:14,seen:1,segment:[2,10,15],select:[9,11,14],select_index:11,self:[1,9,10,11,14],self_attn_typ:14,send:[0,14],senellart:6,sennrich:18,sensibl:0,sent:[7,14,15],sent_numb:11,sentenc:[11,12,14,15,16],sentencepiec:[2,3,5,6,12,14,15,17],separ:2,seper:10,seq2seq:[11,14],seq:11,seq_len:[1,9,11],seqlength:9,sequenc:[1,2,7,9,10,11,12,14,15],serial:9,serv:1,server:[4,14,16],servermodel:10,servermodelerror:10,session:5,set:[1,2,3,5,7,9,10,11,12,14,15],setup:3,sever:[2,9,11],sgd:14,sh16:[9,18],shape:[0,9,11],shard:[7,14,15],shard_siz:[7,15],share:[5,12,14,15],share_decoder_embed:[3,14],share_embed:[3,14],share_vocab:[12,14],shazeer:18,shortest:11,shot:2,should:[2,3,9,11,14],shuf:16,shuffle_input_sent:16,side:[2,7,10,12,14,15],side_a:2,side_b:2,silent:[3,9,12,14],similar:[1,2,9,14],simpl:[1,7,14],simpleattentionbridgelay:4,simulatan:9,sin:14,sinc:9,singl:[0,10,14],single_pass:14,sinusoid:9,site:5,size:[2,7,9,11,12,14,15,16],skip:[2,12,14],skip_empty_level:[3,12,14],slen:9,slm17:[9,18],slow:[12,15],slurm:[2,5],smaller:[12,14,15],smooth:[12,14,15],softmax:[1,9,14,15],some:[0,2,7,15],someth:0,sometim:0,sort:[10,16],sorted_pair:2,sourc:[0,2,4,5,6,7,9,10,11,12,14],sp_path:16,space:[0,1,14],spacer:[12,14,15],span:[12,14,15],spars:9,sparseadam:14,sparsemax:[9,14],specif:[1,2,6,11,12,14,17],specifi:[1,12,14,15],sphinx:0,sphinx_rtd_them:0,sphinxcontrib:0,spill:0,spm_decod:3,spm_encod:[3,16],spm_train:16,sqrt:1,squar:[1,2],src:[2,3,7,9,10,11,12,14,15,16],src_embed:14,src_feat:15,src_feats_vocab:[12,14],src_file_path:11,src_ggnn_size:14,src_group:2,src_lang:[2,15],src_languag:2,src_len:[7,9],src_length:11,src_map:[9,11],src_onmttok_kwarg:[12,14,15],src_raw:11,src_seq_length:[3,12,14,15],src_seq_length_trunc:14,src_subword_alpha:[3,12,14,15],src_subword_model:[3,12,14,15],src_subword_nbest:[3,12,14,15],src_subword_typ:[12,14,15],src_subword_vocab:[12,14,15],src_vocab:[3,11,12,14],src_vocab_s:14,src_vocab_threshold:[12,14,15],src_word_vec_s:14,src_words_min_frequ:14,sru:4,srun:5,stabl:1,stack:[14,15],stage:1,stand:0,standard:[9,14,15],start:[2,4,5,7,10,14,16],start_decay_step:14,stat:[7,14],stat_list:7,state:[7,11,14],state_dict:14,state_dim:14,statist:[7,14],stdout:7,step:[1,2,4,7,9,11,14,15],stepwis:9,stepwise_penalti:[11,15],still:0,stop:[12,14,15],store:14,str:[0,7,9,10,11],strategi:[4,7,14],stride:9,string:[7,9,12,14,15],structur:[1,4,18],structured_attent:9,style:[0,12,14,15],styleguid:0,subclass:[7,9,11],subcompon:2,subdirectori:5,subsequ:1,subset:16,substitut:2,subword:[2,4],suggest:14,sum:[7,9,11,14],sum_:9,sume:7,summar:18,summari:[0,11,15],superclass:0,supervis:[2,14],support:[0,2,9,14],suppos:16,sure:[5,11],sutskev:18,switchout:[4,18],switchout_temperatur:[12,14,15],symmetr:2,system:[11,14,18],tab:[12,14],tabl:[9,15],take:[1,2,6,9,12,14,15],taken:9,tangent:1,tanh:[1,9],tar:16,target:[2,4,7,9,10,11,12,14],target_prefix:11,task:[2,3,4,7,11],task_distribution_strategi:14,task_queue_manag:7,tatoeba:[2,4],tau:[12,14,15],technic:6,temperatur:[2,11,12,14,15],templat:2,tensor:[0,7,9,11],tensorboard:[7,14],tensorboard_log_dir:14,tensorflow:14,term:[1,9],test:[0,3,5,9],testset:3,text:[7,9,11,14,15,18],tgt:[2,3,7,10,12,14,15],tgt_dict:9,tgt_embed:14,tgt_file_path:11,tgt_group:2,tgt_lang:[2,15],tgt_languag:2,tgt_len:[7,9],tgt_onmttok_kwarg:[12,14,15],tgt_prefix:[11,15],tgt_sent:11,tgt_seq_length:[3,12,14,15],tgt_seq_length_trunc:14,tgt_subword_alpha:[3,12,14,15],tgt_subword_model:[3,12,14,15],tgt_subword_nbest:[3,12,14,15],tgt_subword_typ:[12,14,15],tgt_subword_vocab:[12,14,15],tgt_vocab:[3,7,12,14],tgt_vocab_s:14,tgt_vocab_threshold:[12,14,15],tgt_word_vec_s:14,tgt_words_min_frequ:14,than:[0,11,14,16],thang:18,thant:11,thei:[1,9,11],them:[2,9],theorem:9,thi:[0,1,2,3,5,6,7,9,11,12,14,15],thin:7,thing:[0,2],thoroughli:9,thread:12,three:[1,9],through:[1,2,7],thu:7,tic:0,tick:0,time:[1,2,5,7,11,14,15],timeout:10,timer:10,titl:6,tlen:9,to_cpu:10,to_gpu:10,todo:[5,16],tok:10,token:[3,7,10,11,12,14,15],token_drop:4,token_mask:4,tokendrop:[12,14,15],tokendrop_temperatur:[12,14,15],tokenizer_mark:10,tokenizer_opt:10,tokenmask:[12,14,15],tokenmask_temperatur:[12,14,15],too:11,tool:4,toolkit:6,top:[1,9,11,15],topk_id:11,topk_scor:11,torch:[0,5,7,9,14],torchtext:7,total:[2,7,14],trail:0,train:[2,4,5,6,7,9],train_extremely_large_corpu:16,train_from:14,train_it:7,train_loss:7,train_loss_md:7,train_step:[3,7,14],trainabl:7,trainer:4,training_step:7,transform:[1,3,4,7,18],transformer_ff:[3,14],transformerattentionbridgelay:4,transformerencoderlay:1,translat:[2,4,6,7,9,10,13,18],translate_batch:11,translation_serv:10,translationbuild:11,translationserv:10,travi:0,tree:9,trg:2,triang:2,trick:[4,9],trunc_siz:7,truncat:[7,14],truncated_decod:14,trust:16,turn:14,tutori:[4,17],two:[1,2,9],txt:[0,15,16],type:[0,1,2,4,7,9,10,11,12,15],typic:[7,14],u_a:9,under:[2,14,15],undergo:1,undergon:1,underli:11,uniform:14,unigram:[12,14,15],union:0,unit:[1,9],unittest:0,unk:[11,15],unknown:11,unless:2,unload:10,unload_model:10,unmodifi:11,unnecessari:[0,2],unnorm:9,unset:2,until:[11,15],unwieldli:2,updat:[5,7,10,11,14],update_dropout:9,update_finish:11,update_learning_r:14,update_n_src_word:7,update_vocab:14,upgrad:5,upper:2,url:[5,6,18],url_root:13,usag:[4,12,13,14,15],use:[0,1,2,3,5,7,9,10,11,12,14,15,16],used:[1,2,3,7,9,10,11,12,14,15],useful:7,user:[5,7,9,10],uses:[0,2,9,11,14],using:[0,1,2,6,9,10,11,12,14,15],uszkoreit:18,util:[1,7],v11:3,v_a:9,valid:[3,7,12,14,15],valid_batch_s:[3,14],valid_it:7,valid_loss:7,valid_loss_md:7,valid_step:[3,7,14],valu:[1,2,7,9,10,11,12,14,15],variabl:[2,5,11],variat:0,vaswani:18,vaswanispujgkp17:0,vector:[9,14],venv:5,verbos:[11,14,15],veri:[0,15],version:[9,10,11],via:[9,18],vinyal:18,virtual:5,visit:0,visual:14,vocab:[3,4,7,9,11],vocab_path:[12,14],vocab_s:[11,14,16],vocab_sample_queue_s:12,vocab_size_multipl:14,vocabulari:[2,7,9,12,14,15,16],vsp:[9,18],w_a:9,wai:[2,11],wait:2,wang:18,want:[2,15],warmup:14,warmup_step:[3,14],warn:[12,14,15],weight:[1,2,3,9,14,15],weight_decai:14,weighted_sampl:14,weightnormconv2d:9,well:[0,14],wget:16,what:[2,7,10],when:[0,2,6,9,11,12,14,15,16],where:[1,3,5,9,11,12,14,15],wherea:[11,14],whether:[7,10,11,12,14,15],which:[2,9,11,14],whl:5,whole:[3,11],whose:15,why:1,wiki:14,wikipedia:14,window:[12,14,15],wise:1,with_align:7,within:[1,9,10],without:[0,14],wmt14_en_d:3,wmt:3,wmtend:3,wojciech:18,wolfgang:18,word2vec:14,word:[1,9,11,12,14,15],word_align:11,word_lut:9,word_padding_idx:9,word_vec_s:[3,9,14],word_vocab_s:9,work:[0,2,11,14],workflow:6,world_siz:[3,14],would:[2,11,14],wpdn18:[12,14,15,18],wrap:10,wrapper:7,writabl:2,write:[2,7],writer:7,written:3,wsc:[11,18],www:14,xavier_uniform:14,xent:7,xinyi:18,xiong:18,xzvf:16,yaml:[3,12,14,15],yang:18,year:6,yet:[9,11],yml:0,yonghui:18,yoon:6,you:[0,2,3,5,9,14,15,18],your:[0,2,5,15,16],your_venv_nam:5,your_vevn_nam:5,yourself:6,yuan:18,yuntian:6,zaremba:18,zero:[2,7,9,11,14,15],zero_grad:7,zhang:18,zhifeng:18,zihang:18,zxs18:[9,18]},titles:["Contributors","Attention Bridge","Config-config tool","Translation","Contents","Installation","Overview","Framework","Data Loaders","Modules","Server","Translation","Build Vocab","Server","Train","Translate","Prepare Data","Quickstart","References"],titleterms:{"class":11,The:2,actual:2,adapt:[2,14],adapter_config:2,ae_path:2,ae_transform:2,align:14,allocate_devic:2,altern:2,architectur:9,argument:13,attent:[1,9,14],autoencod:2,beam:15,bridg:[1,14],build:[3,12],challeng:16,citat:6,cluster_languag:2,command:2,common:[12,14,15],complete_language_pair:2,config:2,config_al:2,config_config:2,configur:[12,14,15],content:4,contributor:0,conv2conv:9,copi:9,core:[9,10],corpora:2,corpora_schedul:2,data:[3,8,12,14,15,16,17],dataset:8,dec_sharing_group:2,decod:[9,11,14,15],denois:[12,14,15],direct:16,distanc:2,distance_matrix:2,docstr:0,download:[3,16],dynam:14,effici:15,embed:14,enc_sharing_group:2,encod:[9,14],evalu:3,featur:14,feedforwardattentionbridgelay:1,filter:[12,14,15],framework:7,gener:14,get:16,group:2,guidelin:0,inferfeat:[12,14,15],initi:14,input:2,instal:[5,6,17],kei:2,languag:[2,15],level:2,linattentionbridgelay:1,line:2,loader:8,log:[14,15],loss:7,lumi:5,mahti:5,mammoth:17,manual:2,matrix:2,model:[3,7,10,14,15,16],modul:9,n_gpus_per_nod:2,n_group:2,n_node:2,name:13,onmttok:[12,14,15],optim:[7,14],opu:16,other:2,overrid:2,overview:6,paramet:2,pars:16,path:16,penalti:15,perceiverattentionbridgelay:1,prepar:[3,16,17],prune:14,puhti:5,quickstart:17,random:15,rate:14,reader:8,refer:18,relev:16,remove_temporary_kei:2,reproduc:[12,14,15],run:5,sampl:15,score:11,search:15,sentencepiec:16,server:[10,13],set:16,set_transform:2,share:2,sharing_group:2,shot:16,simpleattentionbridgelay:1,sourc:15,specifi:2,src_path:2,sru:9,stage:2,step:[3,16,17],strategi:11,structur:9,subword:[3,12,14,15],supervis:16,switchout:[12,14,15],target:15,task:14,tatoeba:16,test:16,tgt_path:2,than:2,token_drop:[12,14,15],token_mask:[12,14,15],tool:2,top:2,train:[3,14,16],trainer:7,transform:[2,9,12,14,15],transformerattentionbridgelay:1,translat:[3,11,15,16],translation_config:2,translation_config_dir:2,trick:15,type:14,usag:2,use_introduce_at_training_step:2,use_weight:2,valid:16,variabl:16,vocab:[12,14,16],vocabulari:3,yaml:2,zero:16,zero_shot:2}})
\ No newline at end of file