pytorch
diff --git a/‎docs/master/_images/RReLU.png
-525 Bytes b/‎docs/master/_images/RReLU.png
-525 Bytes
diff --git a/‎docs/master/_modules/torch/_jit_internal.html
+3 b/‎docs/master/_modules/torch/_jit_internal.html
+3
diff --git a/‎docs/master/_modules/torch/ao/quantization/quantize.html
+22-22 b/‎docs/master/_modules/torch/ao/quantization/quantize.html
+22-22
diff --git a/‎docs/master/_modules/torch/autograd/grad_mode.html
+4-4 b/‎docs/master/_modules/torch/autograd/grad_mode.html
+4-4
diff --git a/‎docs/master/_modules/torch/distributed/fsdp/fully_sharded_data_parallel.html
+31-7 b/‎docs/master/_modules/torch/distributed/fsdp/fully_sharded_data_parallel.html
+31-7
@@ -422,6 +422,7 @@ <h1>Source code for torch._jit_internal</h1><div class="highlight"><pre>
 <span class="kn">import</span> <span class="nn">typing</span>
 <span class="kn">import</span> <span class="nn">io</span>
 <span class="kn">import</span> <span class="nn">pickle</span>
+<span class="kn">import</span> <span class="nn">threading</span>
 <span class="c1"># This is needed. `torch._jit_internal` is imported before `torch.distributed.__init__`.</span>
 <span class="c1"># Explicitly ask to import `torch.distributed.__init__` first.</span>
 <span class="c1"># Otherwise, &quot;AttributeError: module &#39;torch&#39; has no attribute &#39;distributed&#39;&quot; is raised.</span>
@@ -1655,6 +1656,8 @@ <h1>Source code for torch._jit_internal</h1><div class="highlight"><pre>
             <span class="k">return</span> <span class="s2">&quot;&quot;</span>
         <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">obj</span><span class="p">,</span> <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">Event</span><span class="p">):</span>
             <span class="k">return</span> <span class="s2">&quot;&quot;</span>
+        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">obj</span><span class="p">,</span> <span class="n">threading</span><span class="o">.</span><span class="n">Thread</span><span class="p">):</span>
+            <span class="k">return</span> <span class="s2">&quot;&quot;</span>
         <span class="k">return</span> <span class="kc">None</span>
 
 
 
@@ -490,7 +490,7 @@ <h1>Source code for torch.autograd.grad_mode</h1><div class="highlight"><pre>
         <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="vm">__class__</span><span class="p">()</span>
 
 
-<span class="k">class</span> <span class="nc">no_grad</span><span class="p">(</span><span class="n">_DecoratorContextManager</span><span class="p">):</span>
+<div class="viewcode-block" id="no_grad"><a class="viewcode-back" href="../../../generated/torch.no_grad.html#torch.no_grad">[docs]</a><span class="k">class</span> <span class="nc">no_grad</span><span class="p">(</span><span class="n">_DecoratorContextManager</span><span class="p">):</span>
     <span class="sa">r</span><span class="sd">&quot;&quot;&quot;Context-manager that disabled gradient calculation.</span>
 
 <span class="sd">    Disabling gradient calculation is useful for inference, when you are sure</span>
@@ -539,7 +539,7 @@ <h1>Source code for torch.autograd.grad_mode</h1><div class="highlight"><pre>
         <span class="n">torch</span><span class="o">.</span><span class="n">set_grad_enabled</span><span class="p">(</span><span class="kc">False</span><span class="p">)</span>
 
     <span class="k">def</span> <span class="fm">__exit__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">exc_type</span><span class="p">:</span> <span class="n">Any</span><span class="p">,</span> <span class="n">exc_value</span><span class="p">:</span> <span class="n">Any</span><span class="p">,</span> <span class="n">traceback</span><span class="p">:</span> <span class="n">Any</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
-        <span class="n">torch</span><span class="o">.</span><span class="n">set_grad_enabled</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">prev</span><span class="p">)</span>
+        <span class="n">torch</span><span class="o">.</span><span class="n">set_grad_enabled</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">prev</span><span class="p">)</span></div>
 
 
 <span class="k">class</span> <span class="nc">enable_grad</span><span class="p">(</span><span class="n">_DecoratorContextManager</span><span class="p">):</span>
@@ -588,7 +588,7 @@ <h1>Source code for torch.autograd.grad_mode</h1><div class="highlight"><pre>
         <span class="n">torch</span><span class="o">.</span><span class="n">_C</span><span class="o">.</span><span class="n">_set_grad_enabled</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">prev</span><span class="p">)</span>
 
 
-<div class="viewcode-block" id="set_grad_enabled"><a class="viewcode-back" href="../../../generated/torch.set_grad_enabled.html#torch.set_grad_enabled">[docs]</a><span class="k">class</span> <span class="nc">set_grad_enabled</span><span class="p">(</span><span class="n">_DecoratorContextManager</span><span class="p">):</span>
+<span class="k">class</span> <span class="nc">set_grad_enabled</span><span class="p">(</span><span class="n">_DecoratorContextManager</span><span class="p">):</span>
     <span class="sa">r</span><span class="sd">&quot;&quot;&quot;Context-manager that sets gradient calculation to on or off.</span>
 
 <span class="sd">    ``set_grad_enabled`` will enable or disable grads based on its argument :attr:`mode`.</span>
@@ -641,7 +641,7 @@ <h1>Source code for torch.autograd.grad_mode</h1><div class="highlight"><pre>
         <span class="n">torch</span><span class="o">.</span><span class="n">_C</span><span class="o">.</span><span class="n">_set_grad_enabled</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">prev</span><span class="p">)</span>
 
     <span class="k">def</span> <span class="nf">clone</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
-        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="vm">__class__</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">mode</span><span class="p">)</span></div>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="vm">__class__</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">mode</span><span class="p">)</span>
 
 
 <div class="viewcode-block" id="inference_mode"><a class="viewcode-back" href="../../../generated/torch.inference_mode.html#torch.inference_mode">[docs]</a><span class="k">class</span> <span class="nc">inference_mode</span><span class="p">(</span><span class="n">_DecoratorContextManager</span><span class="p">):</span>
 
@@ -416,10 +416,11 @@ <h1>Source code for torch.distributed.fsdp.fully_sharded_data_parallel</h1><div
     <span class="n">Any</span><span class="p">,</span>
     <span class="n">Callable</span><span class="p">,</span>
     <span class="n">Dict</span><span class="p">,</span>
-    <span class="n">List</span><span class="p">,</span>
-    <span class="n">Optional</span><span class="p">,</span>
     <span class="n">Generator</span><span class="p">,</span>
+    <span class="n">Iterator</span><span class="p">,</span>
+    <span class="n">List</span><span class="p">,</span>
     <span class="n">NamedTuple</span><span class="p">,</span>
+    <span class="n">Optional</span><span class="p">,</span>
     <span class="n">Set</span><span class="p">,</span>
     <span class="n">Tuple</span><span class="p">,</span>
     <span class="n">Union</span><span class="p">,</span>
@@ -434,25 +435,28 @@ <h1>Source code for torch.distributed.fsdp.fully_sharded_data_parallel</h1><div
 <span class="kn">from</span> <span class="nn">torch.autograd</span> <span class="kn">import</span> <span class="n">Variable</span>
 <span class="kn">from</span> <span class="nn">torch.distributed</span> <span class="kn">import</span> <span class="n">ProcessGroup</span>
 <span class="kn">from</span> <span class="nn">torch.distributed._sharded_tensor</span> <span class="kn">import</span> <span class="p">(</span>
-    <span class="n">init_from_local_shards</span><span class="p">,</span>
     <span class="n">Shard</span><span class="p">,</span>
     <span class="n">ShardedTensor</span><span class="p">,</span>
+    <span class="n">init_from_local_shards</span><span class="p">,</span>
 <span class="p">)</span>
 <span class="kn">from</span> <span class="nn">torch.distributed.distributed_c10d</span> <span class="kn">import</span> <span class="n">_get_default_group</span>
 <span class="kn">from</span> <span class="nn">torch.nn.parameter</span> <span class="kn">import</span> <span class="n">Parameter</span>
 
-<span class="kn">from</span> <span class="nn">.flatten_params_wrapper</span> <span class="kn">import</span> <span class="n">FlatParameter</span><span class="p">,</span> <span class="n">FlattenParamsWrapper</span><span class="p">,</span> <span class="n">FLAT_PARAM</span>
-<span class="kn">from</span> <span class="nn">.utils</span> <span class="kn">import</span> <span class="p">(</span>
-    <span class="n">_apply_to_tensors</span><span class="p">,</span>
-    <span class="n">_replace_by_prefix</span><span class="p">,</span>
+<span class="kn">from</span> <span class="nn">.flatten_params_wrapper</span> <span class="kn">import</span> <span class="p">(</span>
+    <span class="n">FLAT_PARAM</span><span class="p">,</span>
+    <span class="n">FPW_MODULE</span><span class="p">,</span>
+    <span class="n">FlatParameter</span><span class="p">,</span>
+    <span class="n">FlattenParamsWrapper</span><span class="p">,</span>
 <span class="p">)</span>
+<span class="kn">from</span> <span class="nn">.utils</span> <span class="kn">import</span> <span class="n">_apply_to_tensors</span><span class="p">,</span> <span class="n">_replace_by_prefix</span>
 <span class="kn">from</span> <span class="nn">.wrap</span> <span class="kn">import</span> <span class="n">_recursive_wrap</span>
 
 <span class="k">if</span> <span class="n">TYPE_CHECKING</span><span class="p">:</span>
     <span class="kn">from</span> <span class="nn">collections</span> <span class="kn">import</span> <span class="n">OrderedDict</span>  <span class="c1"># noqa: F401</span>
 
 
 <span class="n">FSDP_WRAPPED_MODULE</span> <span class="o">=</span> <span class="s2">&quot;_fsdp_wrapped_module&quot;</span>
+<span class="n">FSDP_PREFIX</span> <span class="o">=</span> <span class="n">FSDP_WRAPPED_MODULE</span> <span class="o">+</span> <span class="s2">&quot;.&quot;</span> <span class="o">+</span> <span class="n">FPW_MODULE</span> <span class="o">+</span> <span class="s2">&quot;.&quot;</span>
 
 
 <span class="k">class</span> <span class="nc">ShardingStrategy</span><span class="p">(</span><span class="n">Enum</span><span class="p">):</span>
@@ -1762,6 +1766,26 @@ <h1>Source code for torch.distributed.fsdp.fully_sharded_data_parallel</h1><div
                         <span class="n">_free_full_params_and_use_local_shard</span><span class="p">(</span><span class="n">currently_local_params</span><span class="p">)</span>
                         <span class="bp">self</span><span class="o">.</span><span class="n">training_state</span> <span class="o">=</span> <span class="n">TrainingState_</span><span class="o">.</span><span class="n">IDLE</span></div>
 
+<div class="viewcode-block" id="FullyShardedDataParallel.named_parameters"><a class="viewcode-back" href="../../../../fsdp.html#torch.distributed.fsdp.FullyShardedDataParallel.named_parameters">[docs]</a>    <span class="k">def</span> <span class="nf">named_parameters</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Iterator</span><span class="p">[</span><span class="n">Tuple</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">Parameter</span><span class="p">]]:</span>
+        <span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overrides :meth:`named_parameters()` to intercept parameter names and</span>
+<span class="sd">        remove all occurrences of the FSDP-specific flattened parameter prefix</span>
+<span class="sd">        when inside the :meth:`summon_full_params` context manager.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="c1"># Determine which logic to use based on the context at call time</span>
+        <span class="n">in_summon_full_params</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;training_state&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span> <span class="o">==</span> \
+            <span class="n">TrainingState_</span><span class="o">.</span><span class="n">SUMMON_FULL_PARAMS</span>
+        <span class="k">for</span> <span class="n">param_name</span><span class="p">,</span> <span class="n">param</span> <span class="ow">in</span> <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="n">named_parameters</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+            <span class="k">if</span> <span class="n">in_summon_full_params</span><span class="p">:</span>
+                <span class="c1"># Remove any instances of the FSDP-specific prefix; there can</span>
+                <span class="c1"># be multiple in the case of nested FSDP modules</span>
+                <span class="n">param_name</span> <span class="o">=</span> <span class="n">param_name</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="n">FSDP_PREFIX</span><span class="p">,</span> <span class="s2">&quot;&quot;</span><span class="p">)</span>
+            <span class="k">yield</span> <span class="p">(</span><span class="n">param_name</span><span class="p">,</span> <span class="n">param</span><span class="p">)</span></div>
+
     <span class="k">def</span> <span class="nf">_register_pre_backward_hooks</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">outputs</span><span class="p">:</span> <span class="n">Any</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Any</span><span class="p">:</span>
         <span class="sd">&quot;&quot;&quot;Register pre-backward hook to run before the wrapped module&#39;s</span>
 <span class="sd">        backward. Hooks should be attached to all outputs from the forward.</span>