atom.xml

<?xml version="1.0" encoding="utf-8"?>
<feed xmlns="http://www.w3.org/2005/Atom">
    <id>https://FuNian788.github.io</id>
    <title>Zexian Li</title>
    <updated>2021-07-20T07:48:24.372Z</updated>
    <generator>https://github.com/jpmonette/feed</generator>
    <link rel="alternate" href="https://FuNian788.github.io"/>
    <link rel="self" href="https://FuNian788.github.io/atom.xml"/>
    <subtitle>Colorful life.</subtitle>
    <logo>https://FuNian788.github.io/images/avatar.png</logo>
    <icon>https://FuNian788.github.io/favicon.ico</icon>
    <rights>All rights reserved 2021, Zexian Li</rights>
    <entry>
        <title type="html"><![CDATA[目标检测(object detection)论文小记]]></title>
        <id>https://FuNian788.github.io/post/detection/</id>
        <link href="https://FuNian788.github.io/post/detection/">
        </link>
        <updated>2021-06-26T03:23:13.000Z</updated>
        <content type="html"><![CDATA[<p>简单记录最近阅读的几篇有趣的目标检测论文🎅<br>
<ul class="markdownIt-TOC">
<li>
<ul>
<li><a href="#%E6%96%B9%E6%B3%95%E7%BB%BC%E8%BF%B0">方法综述</a></li>
<li><a href="#%E8%AF%84%E4%BB%B7%E6%8C%87%E6%A0%87">评价指标</a></li>
<li><a href="#%E5%B8%B8%E7%94%A8%E6%95%B0%E6%8D%AE%E9%9B%86">常用数据集</a></li>
<li><a href="#%E8%AE%BA%E6%96%87%E7%AC%94%E8%AE%B0">论文笔记</a>
<ul>
<li><a href="#1-2021-cvpryolof-you-only-look-one-level-feature">(1) (2021 CVPR)YOLOF: You Only Look One-level Feature</a></li>
<li><a href="#2-fairretinanet-focal-loss-for-dense-object-detection">(2) (FAIR)RetinaNet: Focal Loss for Dense Object Detection</a></li>
<li><a href="#3-2019-iccvfcos-fully-convolutional-one-stage-object-detection">(3) (2019 ICCV)FCOS: Fully Convolutional One-Stage Object Detection</a></li>
<li><a href="#4-2020-cvpr-oralatss-bridging-the-gap-between-anchor-based-and-anchor-free-detection-via-adaptive-training-sample-selection">(4) (2020 CVPR oral)ATSS: Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selection</a></li>
<li><a href="#5-2019-cvprhr-net-deep-high-resolution-representation-learning-for-visual-recognition">(5) (2019 CVPR)HR-Net: Deep High-Resolution Representation Learning for Visual Recognition</a></li>
<li><a href="#6-2018-eccvcornernet-detecting-objects-as-paired-keypoints">(6) (2018 ECCV)CornerNet: Detecting Objects as Paired Keypoints</a></li>
</ul>
</li>
<li><a href="#%E5%9F%BA%E6%9C%AC%E5%B8%B8%E8%AF%86">基本常识</a></li>
</ul>
</li>
</ul>
</p>
<h2 id="方法综述">方法综述</h2>
<p>目标检测的主流方法是anchor-based，也存在一些anchor-free的尝试。<br>
<strong>anchor-based</strong>：在图片上铺海量的预设anchor，随后对anchor进行种类预测和n次边界回归。通常来说，双阶段方法对边界修正的次数会多于单阶段方法，所以二阶段方法通常有较高的精度，单阶段方法常有较高的计算效率。</p>
<ul>
<li>one-stage<br>
均匀且密集地采样以获得海量候选框，随后进行分类(eg SSD)</li>
<li>two-stage<br>
在筛选过的、稀疏的候选框(滤掉了绝大多数背景/负样本)上进行分类(eg Faster R-CNN)</li>
</ul>
<p><strong>anchor-free</strong>：不使用预设anchor，直接检测物体。</p>
<ul>
<li>keypoint-based<br>
先定位一些预设的/自学习得到的关键点，再依此生成候选框以检测物体(eg Cornernet预测候选框的左上角和右下角点，再进行组合)</li>
<li>center-based<br>
将物体正中心点/中心区域视为正样本，再基于此预测该位置到目标四条边框的距离(eg FCOS将前景框的所有像素点均视为正样本，随后对每个点回归其到框边界的距离)</li>
</ul>
<h2 id="评价指标">评价指标</h2>
<p>mAP</p>
<h2 id="常用数据集">常用数据集</h2>
<p>MS COCO：包含80类物体。数据集划分如下：train有80k图片，val有40k图片。<br>
MSCOCO 2017： training118k validation5k(val) testing about20k无标注(test-dev)<br>
trainval35k部分的115K图片(train的80k图片+)用于训练，minival部分的5k图片用于validation。</p>
<!--

## 指标比对
以COCO数据集AP作为基准指标，比较各方法如下：
| ID  | paper | AP |  AP50 | AP75 | APs | APm | APl | 
| :--: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | 
| 1 | YOLOF |  37.7 | 56.9 | 40.6 | 19.1 | 42.5 | 53.2 |

-->
<h2 id="论文笔记">论文笔记</h2>
<h3 id="1-2021-cvpryolof-you-only-look-one-level-feature">(1) <a href="https://arxiv.org/abs/2103.09460">(2021 CVPR)YOLOF: You Only Look One-level Feature</a></h3>
<ul>
<li>Motivation</li>
</ul>
<p>对RetinaNet的FPN结构做消解实验发现：SiMo仅轻微掉点，故C5特征可能就已涵盖了检测所需要的足够信息；SiMo明显优于MiSo，故分治策略(即多检测头)的重要性远大于融合输入特征的重要性。由上述两点，决定将输入从多输入砍到单输入。<br>
通常认为FPN的核心优势在于多特征融合(multi-scale feature fusion)和分治策略(divide-and-conquer)。本文提出，FPN最大的优势是在密集目标检测时使用分治策略(逐级检测)来进行优化。<br>
<img src="https://FuNian788.github.io/post-images/object_detection/yolof_1.png" alt="RetinaNet-FPN-单多输入-单多输出" loading="lazy"></p>
<p>分治策略可以视为一种优化的方法：将大问题拆分成小问题来解决。但其多头结构降低检测速度，使结构更复杂，带来了更大的空间负担。决定将多输出砍到单输出。</p>
<ul>
<li>主要贡献</li>
</ul>
<p>将FPN简化成单输入(32倍下采样的C5特征)单输出的结构，同时为了弥补SiSo到MiMo的性能差距：</p>
<ol>
<li>
<p>C5特征的感受野大小受限<br>
提出了空洞编码器(Dilated Encoder)来获取多尺度特征</p>
</li>
<li>
<p>Positive anchor对应的GT大小不均衡<br>
提出均衡匹配策略(Uniform Matching)来解决单特征图中稀疏anchor引起的positive anchor不平衡问题。</p>
</li>
</ol>
<p>COCO数据集上，在效果相当的同时，YOLOF可以：<br>
比FPN版本速度快了2.5倍；比DETR的训练轮次少了7倍；比YOLOv4快了13%。</p>
<ul>
<li>
<p>overall<br>
<img src="https://FuNian788.github.io/post-images/object_detection/yolof_2.png" alt="YOLOF结构" loading="lazy"></p>
</li>
<li>
<p>实现细节</p>
</li>
</ul>
<ol>
<li>
<p>空洞编码器<br>
C5特征的感受野很小，只能cover小物体；使用连续的dilated conv疯狂扩展感受野后，只能捕获大物体。故使用残差结构+空洞卷积，使模型既可以捕获小物体，也能捕获大物体。<br>
<img src="https://FuNian788.github.io/post-images/object_detection/yolof_3.png" alt="dilated encoder" loading="lazy"><br>
模型的Projector部分，使用1*1卷积减少通道数，使用3*3卷积修复语义信息；残差块部分使用四个不同dilated rate，不共享参数的block，每个block中，第一个conv降通道数，第二个dilated conv扩大感受野，第三个conv恢复通道数。</p>
</li>
<li>
<p>均衡匹配策略<br>
MiMo模型可以在不同的输出层级上定义不同大小的anchor，然而SiSo模型只有单层输出，对应的anchor数量自然变少。anchor本就容易和大尺度样本有较大的overlap，假设将与任GT bbox的IoU&gt;0.5的anchor定义为positive anchor，那单输入特征图&amp;少anchor时，anchor的不均衡就更为明显：positive anchor主要由大样本占据；模型的重心在大样本上，检出小样本的数量变少。<br>
<img src="https://FuNian788.github.io/post-images/object_detection/yolof_4.png" alt="positive anchor均衡性" loading="lazy"><br>
Uniform Matching：对于每个GT bbox，选取距其最近的K=4个anchor作为positive anchor。<br>
YOLOF在C5 feature的每个位置上构建5个anchor，尺度分别为{32, 64, 128, 256, 512}。</p>
</li>
</ol>
<ul>
<li>改进/Challenge/idea/Que</li>
</ul>
<hr>
<h3 id="2-fairretinanet-focal-loss-for-dense-object-detection">(2) <a href="https://arxiv.org/abs/1708.02002">(FAIR)RetinaNet: Focal Loss for Dense Object Detection</a></h3>
<ul>
<li>Motication<br>
one-stage方法和two-stage方法的核心区别在于：two-stage送去分类器的候选框是稀疏的(过滤了绝大多数背景样本)，而为了实现检测任务，one-stage必须在图片内进行密集的均匀采样，得到未经过滤的候选框并依此去cover所有空间位置。自然地，one-stage这种采样方法得到的候选框中以容易被分类的背景框居多。two-stage方法的候选框大概在1~2k个，one-stage方法的候选框却可达到100k个左右。</li>
</ul>
<p>为什么two-stage方法常常更准呢？本文认为其核心问题在于<strong>训练检测器时样本所属前景-背景类别的不均衡性</strong>(the extreme foreground-background class imbalance encountered during training of dense detectors)。基于此，作者在交叉熵损失函数的基础上提出了Focal Loss，有效阻止海量的、易被分类的背景样本主导训练过程，在对其进行降权的同时，让网络更加关注难样本(更多是正样本)的分类过程。总体来说，当网络对一个样本的预测越准确，该样本对loss的贡献程度越低。</p>
<ul>
<li>
<p>主要贡献<br>
提出Focal Loss来解决正负样本不均衡的问题；基于此提出one-stage的RetinaNet，在保持优良速度的同时具有大幅超过two-stage方法的精度，达到SOTA。</p>
</li>
<li>
<p>overall<br>
对于交叉熵损失函数，在真值类别时，<span class="katex"><span class="katex-mathml"><math><semantics><mrow><mi>L</mi><mi>o</mi><mi>s</mi><mi>s</mi><mo>=</mo><mo>−</mo><mi>l</mi><mi>o</mi><mi>g</mi><mo>(</mo><mi>P</mi><mo>)</mo></mrow><annotation encoding="application/x-tex">Loss = -log(P)</annotation></semantics></math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.68333em;vertical-align:0em;"></span><span class="mord mathdefault">L</span><span class="mord mathdefault">o</span><span class="mord mathdefault">s</span><span class="mord mathdefault">s</span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">=</span><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:1em;vertical-align:-0.25em;"></span><span class="mord">−</span><span class="mord mathdefault" style="margin-right:0.01968em;">l</span><span class="mord mathdefault">o</span><span class="mord mathdefault" style="margin-right:0.03588em;">g</span><span class="mopen">(</span><span class="mord mathdefault" style="margin-right:0.13889em;">P</span><span class="mclose">)</span></span></span></span>，在其他类别时，<span class="katex"><span class="katex-mathml"><math><semantics><mrow><mi>L</mi><mi>o</mi><mi>s</mi><mi>s</mi><mo>=</mo><mo>−</mo><mi>l</mi><mi>o</mi><mi>g</mi><mo>(</mo><mn>1</mn><mo>−</mo><mi>P</mi><mo>)</mo></mrow><annotation encoding="application/x-tex">Loss = -log(1 - P)</annotation></semantics></math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.68333em;vertical-align:0em;"></span><span class="mord mathdefault">L</span><span class="mord mathdefault">o</span><span class="mord mathdefault">s</span><span class="mord mathdefault">s</span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">=</span><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:1em;vertical-align:-0.25em;"></span><span class="mord">−</span><span class="mord mathdefault" style="margin-right:0.01968em;">l</span><span class="mord mathdefault">o</span><span class="mord mathdefault" style="margin-right:0.03588em;">g</span><span class="mopen">(</span><span class="mord">1</span><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mbin">−</span><span class="mspace" style="margin-right:0.2222222222222222em;"></span></span><span class="base"><span class="strut" style="height:1em;vertical-align:-0.25em;"></span><span class="mord mathdefault" style="margin-right:0.13889em;">P</span><span class="mclose">)</span></span></span></span>。作者认为在此中，简单样本带来的loss不足够小，当简单的背景样本过于多的时候还是可以主宰整个训练过程。为了将训练的注意力集中在难样本上，作者提出了如下图的focal loss。<br>
<img src="https://FuNian788.github.io/post-images/object_detection/retinanet_1.png" alt="positive anchor均衡性" loading="lazy"><br>
假设模型输出概率<span class="katex"><span class="katex-mathml"><math><semantics><mrow><mi>P</mi></mrow><annotation encoding="application/x-tex">P</annotation></semantics></math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.68333em;vertical-align:0em;"></span><span class="mord mathdefault" style="margin-right:0.13889em;">P</span></span></span></span>。对应地，在两种情况下分析模型处理简单样本的过程：在真值类别下，<span class="katex"><span class="katex-mathml"><math><semantics><mrow><mi>P</mi></mrow><annotation encoding="application/x-tex">P</annotation></semantics></math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.68333em;vertical-align:0em;"></span><span class="mord mathdefault" style="margin-right:0.13889em;">P</span></span></span></span>很大，接近于1，<span class="katex"><span class="katex-mathml"><math><semantics><mrow><msub><mi>P</mi><mi>t</mi></msub><mo>=</mo><mi>P</mi></mrow><annotation encoding="application/x-tex">P_{t} = P</annotation></semantics></math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.83333em;vertical-align:-0.15em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.13889em;">P</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.2805559999999999em;"><span style="top:-2.5500000000000003em;margin-left:-0.13889em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">t</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">=</span><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:0.68333em;vertical-align:0em;"></span><span class="mord mathdefault" style="margin-right:0.13889em;">P</span></span></span></span>，这时损失函数的值就超小；在其他类别下，预测得很准时<span class="katex"><span class="katex-mathml"><math><semantics><mrow><mi>P</mi></mrow><annotation encoding="application/x-tex">P</annotation></semantics></math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.68333em;vertical-align:0em;"></span><span class="mord mathdefault" style="margin-right:0.13889em;">P</span></span></span></span>应该很小，接近于0，此时的<span class="katex"><span class="katex-mathml"><math><semantics><mrow><msub><mi>P</mi><mi>t</mi></msub><mo>=</mo><mn>1</mn><mo>−</mo><mi>P</mi></mrow><annotation encoding="application/x-tex">P_{t} = 1 - P</annotation></semantics></math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.83333em;vertical-align:-0.15em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.13889em;">P</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.2805559999999999em;"><span style="top:-2.5500000000000003em;margin-left:-0.13889em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">t</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">=</span><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:0.72777em;vertical-align:-0.08333em;"></span><span class="mord">1</span><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mbin">−</span><span class="mspace" style="margin-right:0.2222222222222222em;"></span></span><span class="base"><span class="strut" style="height:0.68333em;vertical-align:0em;"></span><span class="mord mathdefault" style="margin-right:0.13889em;">P</span></span></span></span>还是很大，损失函数仍然很小。反之，处理难样本时的损失函数没有被削减。</p>
</li>
</ul>
<figure data-type="image" tabindex="1"><img src="https://FuNian788.github.io/post-images/object_detection/retinanet_2.png" alt="RetinaNet结构图" loading="lazy"></figure>
<!--
* 实现细节
1. anchor
在每个位置上，


在不同的输出特征图上限制检出物体的大小。
* 改进/Challenge/idea/Que
-->
<hr>
<h3 id="3-2019-iccvfcos-fully-convolutional-one-stage-object-detection">(3) <a href="https://arxiv.org/abs/1904.01355">(2019 ICCV)FCOS: Fully Convolutional One-Stage Object Detection</a></h3>
<ul>
<li>针对痛点：</li>
</ul>
<ol>
<li>anchor-based方法需要人为设计框的尺寸及超参数，这些参数的优劣会造成显著地性能差异，且人为设计的候选框很难匹配尺度多变的目标；</li>
<li>anchor-based方法常需要海量的候选框(eg FPN在800见方的图片中需要180K个anchor)，过多的负样本框会造成训练时的样本不平衡；训练时对IoU的不断计算也会导致较大的计算开销；</li>
<li>传统的anchor-free &amp; one-stage方法有<strong>两大弊端</strong>，一是只将anchor中心点所在的网格试做正样本，这种样本不平衡对recall有较大负面影响；一是很难处理重叠物体(anchor方法可很好的解决重叠问题)。</li>
</ol>
<ul>
<li>主要贡献：</li>
</ul>
<ol>
<li>FCN(fully convolutional networks)已其他领域开展得如火如荼，eg语义分割，首在object detection领域基于FCN方法实现的FCOS有助于复用其他领域经验。</li>
<li>anchor-free的FCOS省去了调参的负担，在计算更轻量、训练更容易的同时有着不亚于two-stage/anchor-based方法的精度，启发了对anchor必要性的思考。</li>
<li>提出one-stage的FCN-based网络，提出基于FPN的多尺度预测和center-ness方法，有效解决了当下存在的两大弊端。</li>
</ol>
<ul>
<li>实现流程：<br>
网络的流程图如下所示：<br>
<img src="https://FuNian788.github.io/post-images/TAD/FCOS_1.png" alt="流程图" loading="lazy"><br>
对于单个候选框，每层网络输出一个K维分类label、一个4维距离坐标和一个center-ness得分。该网络较常用的anchor-based方法减少了近9倍的参数量。</li>
<li>实现细节：</li>
</ul>
<ol>
<li>one-stage FCN网络<br>
针对弊端一，FCOS不再只将中心点所在的网格视为正样本，而是将GT bbox所覆盖的所有网格均视为正样本。因此，FCOS舍弃了anchor-based方法中先确定候选框中心位置，再以依此对anchor进行回归的做法，具体地，如下左图所示，对每个前景框的每个点(location)，都预测其到GT bbox的上下左右四条边的距离[t, b, l, r]，该做法与FCN-based方法在语义分割领域的实现思路一致，且值得注意的是，与anchor-based方法仅将与GT bbox有较高IoU的anchor作为正样本相比，FCOS将GT内的所有像素均作为正样本进行训练，无形中获取了更多更准的信息。<br>
<img src="https://FuNian788.github.io/post-images/TAD/FCOS_2.png" alt="示例图" loading="lazy"><br>
对于某层feature map上的location点(x, y)，基于当前层的步长s，先将其映射到原始输入图上的点<span class="katex"><span class="katex-mathml"><math><semantics><mrow><mo>(</mo><mo>⌊</mo><mfrac><mi>s</mi><mn>2</mn></mfrac><mo>⌋</mo><mo>+</mo><mi>x</mi><mi>s</mi><mo separator="true">,</mo><mo>⌊</mo><mfrac><mi>s</mi><mn>2</mn></mfrac><mo>⌋</mo><mo>+</mo><mi>y</mi><mi>s</mi><mo>)</mo></mrow><annotation encoding="application/x-tex">(\lfloor \frac s2 \rfloor + xs, \lfloor \frac s2 \rfloor + ys)</annotation></semantics></math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.095em;vertical-align:-0.345em;"></span><span class="mopen">(</span><span class="mopen">⌊</span><span class="mord"><span class="mopen nulldelimiter"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.695392em;"><span style="top:-2.6550000000000002em;"><span class="pstrut" style="height:3em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight">2</span></span></span><span style="top:-3.23em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line" style="border-bottom-width:0.04em;"></span></span><span style="top:-3.394em;"><span class="pstrut" style="height:3em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">s</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.345em;"><span></span></span></span></span></span><span class="mclose nulldelimiter"></span></span><span class="mclose">⌋</span><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mbin">+</span><span class="mspace" style="margin-right:0.2222222222222222em;"></span></span><span class="base"><span class="strut" style="height:1.095em;vertical-align:-0.345em;"></span><span class="mord mathdefault">x</span><span class="mord mathdefault">s</span><span class="mpunct">,</span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mopen">⌊</span><span class="mord"><span class="mopen nulldelimiter"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.695392em;"><span style="top:-2.6550000000000002em;"><span class="pstrut" style="height:3em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight">2</span></span></span><span style="top:-3.23em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line" style="border-bottom-width:0.04em;"></span></span><span style="top:-3.394em;"><span class="pstrut" style="height:3em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">s</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.345em;"><span></span></span></span></span></span><span class="mclose nulldelimiter"></span></span><span class="mclose">⌋</span><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mbin">+</span><span class="mspace" style="margin-right:0.2222222222222222em;"></span></span><span class="base"><span class="strut" style="height:1em;vertical-align:-0.25em;"></span><span class="mord mathdefault" style="margin-right:0.03588em;">y</span><span class="mord mathdefault">s</span><span class="mclose">)</span></span></span></span>，用映射后的坐标再进行到框边距离的预测，使用指数函数输出四个非负距离量，考虑到不同尺度feature map预测物体大小不同，单纯的指数函数得到距离有失偏颇，FCOS在指数函数中加入可学习参数s(distance = exp(s * x))来适应各个尺度的预测。<br>
损失函数方面，分类方面使用focal loss，坐标回归方面使用IOU loss。</li>
<li>基于FPN的多尺度预测<br>
为解决重叠候选框时的分类问题(如上图右)，anchor-based方法在不同特征尺度设计不同尺寸的候选框，FCOS则遵循FPN的思路，在不同的feature map层检测不同尺度的目标，且<strong>通过阈值直接限制了每一层检出框的尺寸大小</strong>。在FCOS的五个回归branch中，若预测得到的边长长度不符合当前层的长度限制，直接将其视为负样本，这样便粗暴地解决了不同层内目标含有重叠区域的问题。对于同一层内的重叠区域，FCOS直接使用最小的区域作为回归目标(即使同一层内两个同类物体有重叠，小物体会马上被检出，而大物体也定会在未重叠的区域被检出；但不得不说该方法存在理论缺陷，就是同一层内两个不同类物体有重叠，在重叠部分的location可能会返回A物体的种类和B物体的候选框)。依此，FCOS在多尺度预测的同时很好地解决了物体重叠的问题。<br>
如流程图所示，C3、C4、C5是backbone的feature map，通过1*1的卷积层得到P3、P4、P5，而P6和P7则是由P5、P6经过stride为2的卷积层得到的，不同层之间的heads共享权重。<br>
直觉上可能会认为FCOS的BPR(best possible recall，检测器能实现的recall上限，只要有一个anchor涉及到GT框便将其纳入BPR计算范畴内)会受到FCN-based方法中大步长的制约，但实际上FCOS的BPR甚至优于传统的anchor-based方法，所以recall不是FCOS需要着重解决的问题，或者说FPN解决了这一问题。</li>
<li>center-ness分支<br>
在前两步之后，FCOS的性能较anchor-based方法仍有一定的gap，这主要是由一些距物体中心较远的location产生的低质量候选框导致的，FCOS在不引入更多超参数的情况下提出了center-ness分支直接而有效地减少了低质量候选框。<br>
<img src="https://FuNian788.github.io/post-images/TAD/FCOS_3.png" alt="center-ness" loading="lazy"><br>
center-ness的核心思想是，一个GT bbox内的点很多，但它们对目标的贡献是不同的。偏图像中心的点包含了更多的目标信息，理应得到重视；偏图像边界的点包含的信息相对较少，甚至点可能就不在目标上，这些location提出的候选框的质量常较低，理应设置更小的权重。center-ness表征了一个点到其预测候选框中心的距离，其表达式如下所示：</li>
</ol>
<p class='katex-block'><span class="katex-display"><span class="katex"><span class="katex-mathml"><math><semantics><mrow><mi>c</mi><mi>e</mi><mi>n</mi><mi>t</mi><mi>e</mi><mi>r</mi><mo>−</mo><mi>n</mi><mi>e</mi><mi>s</mi><mi>s</mi><mo>=</mo><msqrt><mrow><mfrac><mrow><mi>m</mi><mi>i</mi><mi>n</mi><mo>(</mo><mi>l</mi><mo separator="true">,</mo><mi>r</mi><mo>)</mo></mrow><mrow><mi>m</mi><mi>a</mi><mi>x</mi><mo>(</mo><mi>l</mi><mo separator="true">,</mo><mi>r</mi><mo>)</mo></mrow></mfrac><mo>∗</mo><mfrac><mrow><mi>m</mi><mi>i</mi><mi>n</mi><mo>(</mo><mi>t</mi><mo separator="true">,</mo><mi>b</mi><mo>)</mo></mrow><mrow><mi>m</mi><mi>a</mi><mi>x</mi><mo>(</mo><mi>t</mi><mo separator="true">,</mo><mi>b</mi><mo>)</mo></mrow></mfrac></mrow></msqrt></mrow><annotation encoding="application/x-tex">center-ness = \sqrt{ \frac {min(l, r)}{max(l, r)} *  \frac {min(t, b)}{max(t, b)} }
</annotation></semantics></math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.69841em;vertical-align:-0.08333em;"></span><span class="mord mathdefault">c</span><span class="mord mathdefault">e</span><span class="mord mathdefault">n</span><span class="mord mathdefault">t</span><span class="mord mathdefault">e</span><span class="mord mathdefault" style="margin-right:0.02778em;">r</span><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mbin">−</span><span class="mspace" style="margin-right:0.2222222222222222em;"></span></span><span class="base"><span class="strut" style="height:0.43056em;vertical-align:0em;"></span><span class="mord mathdefault">n</span><span class="mord mathdefault">e</span><span class="mord mathdefault">s</span><span class="mord mathdefault">s</span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">=</span><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:3.04em;vertical-align:-1.160625em;"></span><span class="mord sqrt"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.879375em;"><span class="svg-align" style="top:-5em;"><span class="pstrut" style="height:5em;"></span><span class="mord" style="padding-left:1em;"><span class="mord"><span class="mopen nulldelimiter"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.427em;"><span style="top:-2.314em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord mathdefault">m</span><span class="mord mathdefault">a</span><span class="mord mathdefault">x</span><span class="mopen">(</span><span class="mord mathdefault" style="margin-right:0.01968em;">l</span><span class="mpunct">,</span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord mathdefault" style="margin-right:0.02778em;">r</span><span class="mclose">)</span></span></span><span style="top:-3.23em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line" style="border-bottom-width:0.04em;"></span></span><span style="top:-3.677em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord mathdefault">m</span><span class="mord mathdefault">i</span><span class="mord mathdefault">n</span><span class="mopen">(</span><span class="mord mathdefault" style="margin-right:0.01968em;">l</span><span class="mpunct">,</span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord mathdefault" style="margin-right:0.02778em;">r</span><span class="mclose">)</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.936em;"><span></span></span></span></span></span><span class="mclose nulldelimiter"></span></span><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mbin">∗</span><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mord"><span class="mopen nulldelimiter"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:1.427em;"><span style="top:-2.314em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord mathdefault">m</span><span class="mord mathdefault">a</span><span class="mord mathdefault">x</span><span class="mopen">(</span><span class="mord mathdefault">t</span><span class="mpunct">,</span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord mathdefault">b</span><span class="mclose">)</span></span></span><span style="top:-3.23em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line" style="border-bottom-width:0.04em;"></span></span><span style="top:-3.677em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord mathdefault">m</span><span class="mord mathdefault">i</span><span class="mord mathdefault">n</span><span class="mopen">(</span><span class="mord mathdefault">t</span><span class="mpunct">,</span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord mathdefault">b</span><span class="mclose">)</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.936em;"><span></span></span></span></span></span><span class="mclose nulldelimiter"></span></span></span></span><span style="top:-3.839375em;"><span class="pstrut" style="height:5em;"></span><span class="hide-tail" style="min-width:1.02em;height:3.08em;"><svg width='400em' height='3.08em' viewBox='0 0 400000 3240' preserveAspectRatio='xMinYMin slice'><path d='M473,2793c339.3,-1799.3,509.3,-2700,510,-2702
c3.3,-7.3,9.3,-11,18,-11H400000v40H1017.7s-90.5,478,-276.2,1466c-185.7,988,
-279.5,1483,-281.5,1485c-2,6,-10,9,-24,9c-8,0,-12,-0.7,-12,-2c0,-1.3,-5.3,-32,
-16,-92c-50.7,-293.3,-119.7,-693.3,-207,-1200c0,-1.3,-5.3,8.7,-16,30c-10.7,
21.3,-21.3,42.7,-32,64s-16,33,-16,33s-26,-26,-26,-26s76,-153,76,-153s77,-151,
77,-151c0.7,0.7,35.7,202,105,604c67.3,400.7,102,602.7,104,606z
M1001 80H400000v40H1017z'/></svg></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:1.160625em;"><span></span></span></span></span></span></span></span></span></span></p>
<p>当该点为候选框中心时，center-ness的值为1，该点离中心越远，其值越接近0，使用交叉熵损失函数进行训练。center-ness仅在测试时使用，将其与分类得分(classification score)相乘，共同作为候选框的得分，随后进行NMS筛选。</p>
<!--
* 对动作检测的启发
1. FCN网络结构
2. 动作框预测方式：遍历视频的每一个时刻，返回其到所属动作开始/结束时刻的时间距离
3. 基于FPN的多尺度预测：如果出现了动作套娃(eg运动里套打篮球)，可以考虑使用这种方法来一起检出；其他情况下则不合适，eg峰谷峰时如何只取两个峰。但多尺度思路可以应用于尺度不同的任务。
4. 如果一个候选框和GT的IoU较低，其就是一个低质量候选框，这时如果其confidence得分很高，就是Fasle Positive了。center-ness的应用，可以有效解决当前实践中**置信度最高的候选框可能不是最好的**这一问题。
FCOS认为中心lcoation预测的框是高质量的，边缘location预测的框是低质量的，通过表征location位置的center-ness指标来衡量框的质量，利用其削减低质量候选框得分，从而在NMS阶段保留下真正好的候选框。
在动作检测中，center-ness可以IoU的形式出现，拓展地，可以参考IoUNet新建一个独立的网络去预测候选框和GT的IoU以参与得分评价(FCOS的center-ness计算更为简洁，只是在原有预测基础上进行简单比例计算，并没有涉及神经网络架构)；而如果搭建FCOS-based的动作检测框架，可以直接利用center-ness思路，但要考虑动作并没有明确中心点这一问题。
-->
<hr>
<h3 id="4-2020-cvpr-oralatss-bridging-the-gap-between-anchor-based-and-anchor-free-detection-via-adaptive-training-sample-selection">(4) <a href="https://arxiv.org/abs/1912.02424">(2020 CVPR oral)ATSS: Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selection</a></h3>
<ul>
<li>Motivation<br>
对比anchor-based one-stage RetinaNet和anchor-free center-based FCOS，二者有以下三个明显的区别：</li>
</ul>
<ol>
<li>每个像素点(location)处铺设anchor的数量<br>
RetinaNet以每个location为中心位置铺设多个anchor；FCOS视每个location为一个点，再回归该点到该点所在候选框的边界的距离。</li>
<li><strong>定义正负训练样本的方法</strong><br>
RetinaNet将与GT bbox的IoU大于阈值的anchor视为正样本；FCOS将GT bbox内的所有像素点视为正样本。</li>
<li>在何种载体上回归<br>
RetinaNet在铺设的anchor上回归；FCOS在像素点上进行物体定位。<br>
实验表明，性能gap的核心在于第二点。</li>
</ol>
<ul>
<li>主要贡献<br>
首先指出：anchor-based方法和anchor-free方法的本质区别在于<strong>如何定义正负训练样本</strong>，也正是这带来了性能上的差距。如果在训练中使用相同的定义正负样本的方法，那无论是基于box还是point进行回归，最后都不会有显著的性能差异。</li>
</ul>
<p>提出了一种自适应的训练样本筛选策略(ATSS, adaptive training sample selection)来依据目标的统计特征自动地筛选样本。</p>
<ul>
<li>实验过程</li>
</ul>
<ol>
<li>
<p>补齐性能差距<br>
对于mAP，RetinaNet为32.5，FCOS为37.8。为探究anchor-based和anchor-free方法的真正区别，需消除FCOS各种trick对于性能gap的影响：RetinaNet每个像素点处仅许产生一个候选框，再将FCOS的各种trick添加到RetinaNet上(In GT box代表限制GT的正样本数量)：<br>
<img src="https://FuNian788.github.io/post-images/object_detection/ATSS_1.png" alt="RetinaNet FCOS实验结果对比" loading="lazy"><br>
这时的性能：RetinaNet 37.0 vs FCOS 37.8，仍存在0.8个点的差距。此时anchor-based和anchor-free方法仅有两点不同：检测器分类头对于正负样本的定义、检测器回归头是从anchor回归还是从中心点回归。下面对这两点进行进一步实验，探寻到底哪一个才是问题的关键。</p>
</li>
<li>
<p>分类part<br>
RetinaNet在不同的FPN层级使用IoU来定义样本：将每个目标对应的best anchor和IoU大于阈值的anchor标为正样本，将IoU小于阈值的anchor标为负样本，舍弃剩余anchor。<br>
FCOS在不同的FPN层级基于空间位置和目标尺度来定义样本：中心点在GT bbox内的为候选正样本，再基于目标尺度和FPN层级的匹配性从中筛选得到真正的正样本，剩余为负样本。<br>
<img src="https://FuNian788.github.io/post-images/object_detection/ATSS_2.png" alt="RetinaNet FCOS定义正负样本方法" loading="lazy"></p>
</li>
<li>
<p>回归part<br>
RetinaNet回归4个offset(x, y, w, h)，FCOS回归到边界的四个距离(l, r, t, b)。<br>
<img src="https://FuNian788.github.io/post-images/object_detection/ATSS_4.png" alt="RetinaNet FCOS回归方法对比" loading="lazy"></p>
</li>
<li>
<p>性能对比<br>
实验中，只改变了定义样本的方式，但数据可以从多个角度进行分析：<br>
看每一列，回归的方法确定后，RetinaNet和FCOS均会因定义样本的方式而产生较大的性能gap。<br>
<img src="https://FuNian788.github.io/post-images/object_detection/ATSS_3.png" alt="RetinaNet FCOS性能对比" loading="lazy"><br>
以上实验说明，anchor-based和anchor-free方法性能差距的核心在于<strong>训练时定义正负样本的方式不同</strong>。<br>
PS 看每一行，分类时定义正负样本的方法对齐后，尽管回归方式不同，RetinaNet和FCOS(更进一步地，anchor-based和anchor-free)性能却基本相同。</p>
</li>
</ol>
<ul>
<li>
<p>提出改进<br>
FCOS提出的定义正负样本的方法优于之前基于IoU的方法，但这些方法都很依赖超参的设置。本文更进一步地，提出了无超参、鲁棒的、依赖数据特征的定义正负样本新方法ATSS(Adaptive Training Sample Selection)。<br>
<img src="https://FuNian788.github.io/post-images/object_detection/ATSS_5.png" alt="ATSS" loading="lazy"><br>
简要概括：对于GT G，在每一层找k个距其L2距离最近的anchor，组成候选positive anchor的集合P'。随后计算G和P'的IoU，统计其IoU的均值方差并修正，最后保留IoU大于修正值且中心在G内的所有positive anchor，将其组成正样本集合P；剩余的anchor作为负样本。<br>
补充优点：这种方法不会像IoU方法，对大物体表现出明显的青睐，在一定程度上保证了尺度的均衡性。<br>
实验表明，ATSS对于k的大小不敏感，对于anchor的scale和ratio不敏感，具有很好的鲁棒性。</p>
</li>
<li>
<p>实验结果<br>
<img src="https://FuNian788.github.io/post-images/object_detection/ATSS_6.png" alt="ATSS实验结果" loading="lazy"><br>
实验结果表现出了有趣的insight。第一行是原始RetinaNet(每个位置9个anchor)，后几行都是每个位置1个anchor。实验结果表明，对于传统的IoU筛选策略，在每个位置多设置一些anchor是有涨点的(37.0 -&gt; 38.4)。然而在优秀的筛选策略ATSS下，每个位置有一个anchor就够了，设置很多不同scale和ratio的anchor反倒没有什么用。</p>
</li>
<li>
<p>改进/Challenge/idea/Que</p>
</li>
</ul>
<hr>
<h3 id="5-2019-cvprhr-net-deep-high-resolution-representation-learning-for-visual-recognition">(5) <a href="https://arxiv.org/abs/1908.07919">(2019 CVPR)HR-Net: Deep High-Resolution Representation Learning for Visual Recognition</a></h3>
<ul>
<li>
<p>Motivation<br>
现有方法常先使用卷积层将输入编码至low-resolution representation，再从中恢复出high-resolution representation(全流程eg U-Net)。然而高分辨率信息对于position-sensitive的任务十分重要。</p>
</li>
<li>
<p>主要贡献<br>
HR-Net在全阶段都维持了高分辨率表示，从而获取更丰富的语义信息和更准确的空间位置。<br>
核心部件：<br>
(1) <strong>并行</strong>的高分辨率到低分辨率的卷积流(connect the high-to-low resolution convolution streams in parallel)<br>
(2) 重复融合多分辨率流的信息(repreatedly exchange the information across resolutions)</p>
</li>
<li>
<p>overall<br>
如下图所示，第一行一直保持高分辨率信息。四个阶段中，每阶段都在增加稍低分辨率的并行卷积流(一行行增加)，同时通过不同分辨率卷积流的信息交换实现多分辨率融合。<br>
<img src="https://FuNian788.github.io/post-images/object_detection/HR-Net_1.png" alt="overall" loading="lazy"><br>
如下图所示，融合不同分辨率特征的方法是有区别的：高分辨率到低分辨率使用n个stride为2的3*3卷积进行下采样；同分辨率直接相加；低分辨率到高分辨率使用n个(双线性差值+1*1卷积层)实现上采样和通道对齐。<br>
<img src="https://FuNian788.github.io/post-images/object_detection/HR-Net_2.png" alt="信息融合" loading="lazy"></p>
</li>
</ul>
<p>HRNetV1，HRNetV2和HRNetV2p的结构图如下所示。HRNetV1只输出高分辨率流，用于人体姿态估计；HRNetV2将低分辨率流上采样后将四个流的特征叠加起来，用于语义分割；HRNetV2p在HRNetV2的基础上多了下采样的过程，用于目标检测。<br>
<img src="https://FuNian788.github.io/post-images/object_detection/HR-Net_3.png" alt="backbone" loading="lazy"></p>
<ul>
<li>改进/Challenge/idea/Que<br>
Related Work中包含了很多文章，eg如何从低分辨率信息中学习，如何重建高分辨率信息，如何维持高分辨率信息，可以好好学习一下。</li>
</ul>
<hr>
<h3 id="6-2018-eccvcornernet-detecting-objects-as-paired-keypoints">(6) <a href="https://arxiv.org/abs/180.01244">(2018 ECCV)CornerNet: Detecting Objects as Paired Keypoints</a></h3>
<p>该论文为anchor-free的目标检测论文。</p>
<ul>
<li>针对痛点<br>
为覆盖真值，需要大量的anchor，这会造成正负样本的不平衡并降低训练速度；同时anchor的设计需要大量人为设计的超参数和结构，与DL的核心思路不符。</li>
<li>主要贡献<br>
CornerNet使用候选框左上角和右下角的点来表示bounding box，在摒弃anchor复杂设计的基础上大幅精简了网络的输出；同时论文提出了corner pooling方法以进行更好的角点定位。</li>
<li>实现流程<br>
如下图所示，卷积层输出一个包含所有左上角点的热图(heatmap)，输出一个包含所有右下角点的热图(heatmap)，为每个检出角点输出一个嵌入向量(embedding vector)。网络通过训练，为同一目标的角点输出尽可能相似的嵌入向量。<br>
<img src="https://FuNian788.github.io/post-images/TAD/Corner_1.png" alt="流程图" loading="lazy"><br>
更详细的细节如下图，两个预测模块(prediction module)是独立的，每个模块都有独有的corner pooling层，并基于此输出heatmap，embedding和offset。<br>
<img src="https://FuNian788.github.io/post-images/TAD/Corner_2.png" alt="详细流程图" loading="lazy"><br>
这种寻找左上/右下点并将其聚合起来的bottom-up方法是受到skeleton-detection的相关研究启发的。</li>
<li>实现细节</li>
</ul>
<ol>
<li>角点检测<br>
对于输出，以左上角点对应的heatmap为例，heatmap的尺寸为K*H*W，其中K个通道分别代表K个类别，每个通道均为二值mask，表示某一像素点是不是该类别下的角点。<br>
对于每一个角点，都有其对应的唯一真值点，但训练时并不采用简单的0-1损失函数，而是基于2D高斯核，对以真值为圆心，以特定值为半径的的圆内的预测值给予相对较小的惩罚(半径大小与目标尺寸有关，需保证以圆内点作为角点的候选框与GT的IoU大于0.3)，具体损失函数采用focal loss的变种。<br>
很多网络采用降采样层来获得全局信息、减少存储空间，此时输出的尺寸常小于输入的尺寸，目标边界的定位准确性不免受像素点对齐的影响。为避免此问题，网络在将heatmap中的点映射回原输入图像前先行预测offset以对角点坐标进行微调，对应的offset为<span class="katex"><span class="katex-mathml"><math><semantics><mrow><mi>O</mi><mo>=</mo><mo>(</mo><mfrac><mi>x</mi><mi>n</mi></mfrac><mo>−</mo><mo>⌊</mo><mfrac><mi>x</mi><mi>n</mi></mfrac><mo>⌋</mo><mo separator="true">,</mo><mfrac><mi>y</mi><mi>n</mi></mfrac><mo>−</mo><mo>⌊</mo><mfrac><mi>y</mi><mi>n</mi></mfrac><mo>⌋</mo><mo>)</mo></mrow><annotation encoding="application/x-tex">O = (\frac {x}{n} - \lfloor \frac {x}{n} \rfloor,  \frac {y}{n} - \lfloor \frac {y}{n} \rfloor)</annotation></semantics></math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.68333em;vertical-align:0em;"></span><span class="mord mathdefault" style="margin-right:0.02778em;">O</span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">=</span><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:1.095em;vertical-align:-0.345em;"></span><span class="mopen">(</span><span class="mord"><span class="mopen nulldelimiter"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.695392em;"><span style="top:-2.6550000000000002em;"><span class="pstrut" style="height:3em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">n</span></span></span></span><span style="top:-3.23em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line" style="border-bottom-width:0.04em;"></span></span><span style="top:-3.394em;"><span class="pstrut" style="height:3em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">x</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.345em;"><span></span></span></span></span></span><span class="mclose nulldelimiter"></span></span><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mbin">−</span><span class="mspace" style="margin-right:0.2222222222222222em;"></span></span><span class="base"><span class="strut" style="height:1.095em;vertical-align:-0.345em;"></span><span class="mopen">⌊</span><span class="mord"><span class="mopen nulldelimiter"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.695392em;"><span style="top:-2.6550000000000002em;"><span class="pstrut" style="height:3em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">n</span></span></span></span><span style="top:-3.23em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line" style="border-bottom-width:0.04em;"></span></span><span style="top:-3.394em;"><span class="pstrut" style="height:3em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">x</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.345em;"><span></span></span></span></span></span><span class="mclose nulldelimiter"></span></span><span class="mclose">⌋</span><span class="mpunct">,</span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord"><span class="mopen nulldelimiter"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.7475em;"><span style="top:-2.6550000000000002em;"><span class="pstrut" style="height:3em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">n</span></span></span></span><span style="top:-3.23em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line" style="border-bottom-width:0.04em;"></span></span><span style="top:-3.446108em;"><span class="pstrut" style="height:3em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03588em;">y</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.345em;"><span></span></span></span></span></span><span class="mclose nulldelimiter"></span></span><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mbin">−</span><span class="mspace" style="margin-right:0.2222222222222222em;"></span></span><span class="base"><span class="strut" style="height:1.095em;vertical-align:-0.345em;"></span><span class="mopen">⌊</span><span class="mord"><span class="mopen nulldelimiter"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.7475em;"><span style="top:-2.6550000000000002em;"><span class="pstrut" style="height:3em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">n</span></span></span></span><span style="top:-3.23em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line" style="border-bottom-width:0.04em;"></span></span><span style="top:-3.446108em;"><span class="pstrut" style="height:3em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03588em;">y</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.345em;"><span></span></span></span></span></span><span class="mclose nulldelimiter"></span></span><span class="mclose">⌋</span><span class="mclose">)</span></span></span></span>，具体回归时采用Smooth L1损失函数。</li>
<li>角点合并<br>
模型为所有检测到的角点输出一维embedding，并基于embedding间的距离进行聚类。采用pull-push损失函数。<br>
在对corner heatmap进行max pooling+NMS操作后，得到100个最有可能的左上角点和100个最有可能的右下角点，在用offset进行校正后，比较左上/右下角点embedding间的L1距离，舍弃距离大于阈值和非同一类别的角点对，保留下来的角点对为初步结果，角点对中两角点的平均值作为检测得分。</li>
<li>角点池化(Corner Pooling)<br>
对于目标检测来讲，角点处可能不存在目标信息，且目标信息都处于角点的同一方向。基于此先验信息，将局部max-pooling转变成corner pooling，其核心思想为对于左上角点，目标在其右下方，故只对角点右侧和下侧的特征进行池化(而非右下侧)，具体示意如下图所示：<br>
<img src="https://FuNian788.github.io/post-images/TAD/Corner_3.png" alt="corner pooling" loading="lazy"><br>
且实验表明，corner pooling在尺度大小不同的区域上表现近似相同，展现了一定的稳定性。</li>
<li>详细的网络结构如下图所示：<br>
<img src="https://FuNian788.github.io/post-images/TAD/Corner_4.png" alt="网络结构" loading="lazy"><br>
其中backbone采用了在人体骨架检测中广泛应用的沙漏网络(Hourglass network)的变种。</li>
</ol>
<hr>
<!--


## 基础模型
###  (1) [(2017 CVPR)ResNeXt: Aggregated Residual Transformations for Deep Neural Networks](https://arxiv.org/abs/1611.05431)
[^_^]: Read in 2021/04/29

* Motivation
VGG & ResNet这类网络通过堆叠相同形状的block来构建深网络，且这种简洁的策略在不同数据集上表现出了优秀的鲁棒性；尽管Inception类网络可以在特定数据上以较低的运算开销展现卓越的性能，但其手工设计痕迹明显，任务迁移时需重新精调网络结构和超参数，成本较高。如何合并这两者？

Inception结构通常遵循split->transform->merge范式，这是否是Inception成功的关键？(split: 使用许多1\*1卷积将输入拆成多个低通道embedding；transform: 使用一些3\*3和5\*5的卷积来转换信息；merge: 使用通过concate将上述输出综合)

* 主要贡献
提出ResNeXt，既使用了repeat layer策略(from VGG & ResNet)，又以一种简单、可扩展的方式利用split-transform-merge策略(from Inception)。


* overall
![backbone](https://FuNian788.github.io/post-images/object_detection/ResNeXt_1.png)

* 实现细节

* 改进/Challenge/idea/Que


---
###  (n) [(2021 CVPR)PAPER NAME](https://arxiv.org/abs/2103.09460)
[^_^]: Read in 2021/04/26

* Motivation

* 主要贡献

* overall

* 实现细节

* 改进/Challenge/idea/Que
-->
<h2 id="基本常识">基本常识</h2>
<ol>
<li>论文中的<code>1x</code>代表以batch size为16，在COCO数据集上训练90k个iter，约为118287张图片上的12.17个epoch。2x等以此类推。</li>
<li>anchor：所有的anchor都参与classification分支的反向传播，此时的损失函数是在K+1类上的交叉熵损失函数，但只有positive anchor才参与regression分支的反向传播。positive的常用定义是IoU阈值，当然也存在一些根据近邻程度的匹配算法。</li>
<li>Anchor的设计存在很多定义方式，但都是在初始anchor(eg 16*16的正方形)上进行变换。<br>
在单feature map上(eg Faster RCNN)，可设定areas和aspect ratio；在多feature map上(eg FPN)，可在aspect ratio和areas之外设定scale。<br>
areas指面积，对应的是边长扩大比例(eg2的3、4、5次幂)，这样可得到原图像上对应的anchor大小eg 128*128，256*256，512*512。aspect ratio是在面积不变的情况下改变长宽比(eg 1:2，1:1，2:1)，以128*128为例可得到eg 184*96，128*128，96*184。这样就有三种面积，每种面积下三种比例，故RPN在每个点处生成9个候选框。<br>
scale指anchor的缩放比例，eg<span class="katex"><span class="katex-mathml"><math><semantics><mrow><msup><mn>2</mn><mn>0</mn></msup><mi mathvariant="normal">，</mi><msup><mn>2</mn><mrow><mn>1</mn><mi mathvariant="normal">/</mi><mn>3</mn></mrow></msup><mo>=</mo><mn>1.26</mn><mi mathvariant="normal">，</mi><msup><mn>2</mn><mrow><mn>2</mn><mi mathvariant="normal">/</mi><mn>3</mn></mrow></msup><mo>=</mo><mn>1.59</mn></mrow><annotation encoding="application/x-tex">2^{0}，2^{1/3}=1.26，2^{2/3}=1.59</annotation></semantics></math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.8879999999999999em;vertical-align:0em;"></span><span class="mord"><span class="mord">2</span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.8141079999999999em;"><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">0</span></span></span></span></span></span></span></span></span><span class="mord cjk_fallback">，</span><span class="mord"><span class="mord">2</span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.8879999999999999em;"><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">1</span><span class="mord mtight">/</span><span class="mord mtight">3</span></span></span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">=</span><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:0.8879999999999999em;vertical-align:0em;"></span><span class="mord">1</span><span class="mord">.</span><span class="mord">2</span><span class="mord">6</span><span class="mord cjk_fallback">，</span><span class="mord"><span class="mord">2</span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.8879999999999999em;"><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">2</span><span class="mord mtight">/</span><span class="mord mtight">3</span></span></span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">=</span><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:0.64444em;vertical-align:0em;"></span><span class="mord">1</span><span class="mord">.</span><span class="mord">5</span><span class="mord">9</span></span></span></span>。当然这也和FPN中有多种尺度的特征图输出有关。</li>
</ol>
]]></content>
    </entry>
    <entry>
        <title type="html"><![CDATA[脚本切换conda环境踩坑记录]]></title>
        <id>https://FuNian788.github.io/post/anaconda-sh/</id>
        <link href="https://FuNian788.github.io/post/anaconda-sh/">
        </link>
        <updated>2021-05-29T02:50:23.000Z</updated>
        <content type="html"><![CDATA[<p><ul class="markdownIt-TOC">
<li>
<ul>
<li>
<ul>
<li><a href="#1-%E4%BF%AE%E6%94%B9%E5%90%AF%E5%8A%A8%E9%A1%B9%E4%BB%A5%E5%AE%9E%E7%8E%B0docker%E5%90%AF%E5%8A%A8%E5%90%8E%E8%87%AA%E5%8A%A8%E5%88%87%E6%8D%A2conda%E7%8E%AF%E5%A2%83">1. 修改启动项以实现Docker启动后自动切换conda环境</a></li>
<li><a href="#2-%E5%9C%A8cron%E5%AE%9A%E6%97%B6%E6%89%A7%E8%A1%8C%E7%9A%84shell%E8%84%9A%E6%9C%AC%E5%86%85%E5%AE%9E%E7%8E%B0conda%E7%9A%84%E7%8E%AF%E5%A2%83%E5%88%87%E6%8D%A2">2. 在cron定时执行的Shell脚本内实现conda的环境切换</a></li>
</ul>
</li>
</ul>
</li>
</ul>
</p>
<h3 id="1-修改启动项以实现docker启动后自动切换conda环境">1. 修改启动项以实现Docker启动后自动切换conda环境</h3>
<p>第一次踩坑是在项目中，甲方要求以封装启动脚本的形式实现Docker启动便运行程序的功能，而我的生产环境是在Docker内Anaconda下进行配置的。尽管Docker启动后conda会直接接管，但如何利用脚本切换到自己配置的环境，是亟待解决的问题。<br>
最核心的问题是：与终端不同，Shell脚本中无法使用conda关键字。<br>
最后的解决方法十分简单粗暴，通过<code>conda init</code>找到conda对应的<code>.bashrc</code>路径，修改其内容，加入如下指令：</p>
<pre><code class="language-shell">source activate
conda deactivate
conda activate lzx
</code></pre>
<p>其原理是conda在启动时会执行conda对应的<code>./bashrc</code>的内容以进行初始化(我们平时打开终端其实也进行了执行<code>.bashrc</code>的过程，之所以conda会自动替代原生Python也是因为安装conda时其在<code>.bashrc</code>中注入了<code>conda activate base</code>命令)。<br>
这种方法的确能实现项目需求，但明显不够优雅，迁移性也不高，如本文第二部分记录所示，有更好的方法。<br>
吸取的教训主要有二，一是都用Docker了还加什么Anaconda，直接pip不香么；二是直接在conda主环境配置不好么，自己单开环境哪里香了？</p>
<h3 id="2-在cron定时执行的shell脚本内实现conda的环境切换">2. 在cron定时执行的Shell脚本内实现conda的环境切换</h3>
<p>第二次踩坑是在ubuntu下设置cron定时执行脚本但未执行，使用<code>tail -f /var/log/cron.log</code>实时查看日志缺发现对应文件不存在，通过<a href="https://blog.csdn.net/ningningjj/article/details/104532157">blog</a>解决问题。<br>
后续遇到如下错误日志：</p>
<pre><code>(CRON) info (No MTA installed, discarding output)
</code></pre>
<p>参照<a href="https://blog.csdn.net/win_turn/article/details/53000899?fps=1&amp;locationNum=2">win_turn的博客</a>，通过注释输出语句和安装邮件服务器解决了该问题。<br>
此时我的脚本是这个样子的：</p>
<pre><code class="language-Shell">#!/usr/bin/env bash
source activate
conda deactivate
conda activate lzx
python /home1/lizexian/clock_in/clock_in.py  
</code></pre>
<p>通过不断查看<code>/var/spool/mail</code>文件夹下cron报错的邮件，最终的问题来到了老生常谈的shell不认conda关键字以及无法切换conda环境上。<br>
绝境中发现<a href="https://www.zhihu.com/question/322406344/answer/742158645">以默的知乎解答</a>，亲测使用此可以利用shell脚本激活及切换conda虚拟环境，原博实现如下：</p>
<pre><code class="language-shell">#!/bin/bash
source /YOUR_CONDA_PATH/bin/activate your_env
python --version
</code></pre>
<p>对应到我个人的实现如下：</p>
<pre><code class="language-shell">#!/bin/bash
source /home/user/anaconda3/bin/activate lzx
python /home1/lizexian/clock_in/clock_in.py
</code></pre>
<p>当然，在调试过程中还遇到了一些小麻烦，例如用<code>chmod u+x a.sh</code>赋予执行权限、将所有路径更改为绝对路径等(事实证明并非定要输入Python的绝对路径)，此处不再赘述。</p>
<p>至此，妈妈再也不用担心我的conda环境了🎢</p>
]]></content>
    </entry>
    <entry>
        <title type="html"><![CDATA[MEGVII常用命令]]></title>
        <id>https://FuNian788.github.io/post/megvii-chang-yong-ming-ling/</id>
        <link href="https://FuNian788.github.io/post/megvii-chang-yong-ming-ling/">
        </link>
        <updated>2021-05-15T12:46:35.000Z</updated>
        <content type="html"><![CDATA[<p><ul class="markdownIt-TOC">
<li>
<ul>
<li><a href="#%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E6%B5%81%E7%A8%8Bpipeline">目标检测流程pipeline</a>
<ul>
<li><a href="#%E5%88%9B%E5%BB%BAworkspace2">创建workspace2</a></li>
<li><a href="#%E8%84%9A%E6%9C%AC%E4%B8%80%E9%94%AE%E9%85%8D%E7%BD%AE%E5%9F%BA%E7%A1%80%E7%8E%AF%E5%A2%83">脚本一键配置基础环境</a></li>
<li><a href="#%E5%AE%89%E8%A3%85anaconda">安装Anaconda</a></li>
<li><a href="#%E5%88%9B%E5%BB%BA%E5%B9%B6%E6%BF%80%E6%B4%BB%E8%99%9A%E6%8B%9F%E7%8E%AF%E5%A2%83">创建并激活虚拟环境</a></li>
<li><a href="#%E5%AE%89%E8%A3%85rluanch%E5%92%8Crrun">安装rluanch和rrun</a></li>
<li><a href="#%E4%B8%8B%E8%BD%BDcvpack2">下载cvpack2</a>
<ul>
<li><a href="#%E5%BF%AB%E6%8D%B7%E6%96%B9%E6%B3%95">快捷方法</a></li>
<li><a href="#%E9%80%9A%E7%94%A8%E6%96%B9%E6%B3%95">通用方法</a></li>
</ul>
</li>
<li><a href="#%E9%85%8D%E7%BD%AEcvpack2">配置cvpack2</a></li>
<li><a href="#%E5%9C%A8cvpack2_playground%E4%B8%8B%E8%AE%AD%E7%BB%83">在cvpack2_playground下训练</a></li>
<li><a href="#inference">inference</a></li>
<li><a href="#vscode%E6%96%87%E4%BB%B6%E6%A0%8F%E8%B0%83%E6%95%B4">VScode文件栏调整</a></li>
<li><a href="#coco%E6%95%B0%E6%8D%AE%E9%9B%86%E4%B8%8B%E8%BD%BD">coco数据集下载</a></li>
</ul>
</li>
<li><a href="#oss%E5%91%BD%E4%BB%A4">oss命令</a>
<ul>
<li><a href="#rlaunch%E5%91%BD%E4%BB%A4">rlaunch命令</a></li>
<li><a href="#ssh-permission-denied">SSH permission denied</a></li>
<li><a href="#gitlab%E5%B8%B8%E7%94%A8%E5%91%BD%E4%BB%A4">gitlab常用命令</a></li>
</ul>
</li>
</ul>
</li>
</ul>
</p>
<h2 id="目标检测流程pipeline">目标检测流程pipeline</h2>
<h3 id="创建workspace2">创建workspace2</h3>
<ul>
<li>在<a href="https://www.brainpp.cn/hh-b/console/job?type=ws2">计算平台</a>创建一个workspace2。</li>
<li>创建好后复制内网ssh，eg<code>ssh -CAXY minguk.lizexian.ws2@hh-b-internal.brainpp.cn</code>，使用VScode的remote-SSH插件打开。如有问题可直接配置<code>/Users/lizexian/.ssh/config</code>如下：</li>
</ul>
<pre><code class="language-Shell">Host hh-b-internal.brainpp.cn
  HostName hh-b-internal.brainpp.cn
  Compression yes
  ForwardAgent yes
  ForwardX11 yes
  ForwardX11Trusted yes
  User minguk.lizexian.ws2
</code></pre>
<h3 id="脚本一键配置基础环境">脚本一键配置基础环境</h3>
<ul>
<li>下载ntools</li>
</ul>
<pre><code class="language-Shell">git clone git@git-core.megvii-inc.com:research_model/ntools2.git
</code></pre>
<ul>
<li>一键配置</li>
</ul>
<pre><code class="language-Shell">cd ntools2/setup
sudo chown -R $USER ~/.local/    
./setup_ws2.sh &amp;&amp; source ~/.bashrc
cd ..
./configure
./install.sh
</code></pre>
<ul>
<li>配置并测试oss</li>
</ul>
<pre><code class="language-Shell">aws configure
# Get below from 'https://www.brainpp.cn/account/security'
# input E7dv5T2Qm9V1ljMemHY9
# input L4p-snrN5uGMKa86z0QAV4grERktTeef
# input NONE
# input NONE
oss ls
</code></pre>
<h3 id="安装anaconda">安装Anaconda</h3>
<ul>
<li>下载anaconda包</li>
</ul>
<pre><code class="language-shell">cd /home/lizexian
oss cp s3://lizexian/Anaconda3-5.3.1-Linux-x86_64.sh .
</code></pre>
<ul>
<li>安装anaconda</li>
</ul>
<pre><code class="language-Shell">bash Anaconda3-5.3.1-Linux-x86_64.sh
</code></pre>
<p>安装过程一路回车即可，默认刷新bash，不安装vscode</p>
<ul>
<li>刷新bashrc</li>
</ul>
<pre><code class="language-Shell">source ~/.bashrc
</code></pre>
<p>如果没有修改默认bash，可通过如下方法激活conda</p>
<blockquote>
<p><code>vim ~/.bashrc</code><br>
<code>shift + g</code> jump to the last line<br>
<code>export PATH=&quot;/home/lizexian/anaconda3/bin:$PATH&quot;</code><br>
<code>source ~/.bashrc</code></p>
</blockquote>
<p>如果无法使用conda activate激活，可使用如下</p>
<blockquote>
<p><code>source activate cvpack</code></p>
</blockquote>
<h3 id="创建并激活虚拟环境">创建并激活虚拟环境</h3>
<pre><code class="language-shell">conda create -n cvpack python=3.7
conda activate cvpack
</code></pre>
<blockquote>
<p>如在wuhu-a集群遇到HTTPERROR时，可修改conda源：修改~/.condarc如下</p>
</blockquote>
<pre><code class="language-Shell">channels:
  - https://mirrors.ustc.edu.cn/anaconda/pkgs/main/
  - https://mirrors.ustc.edu.cn/anaconda/cloud/conda-forge/
  - https://mirrors.ustc.edu.cn/anaconda/pkgs/free/
show_channel_urls: true
</code></pre>
<h3 id="安装rluanch和rrun">安装rluanch和rrun</h3>
<pre><code class="language-Shell">sudo apt update &amp;&amp; sudo apt install -y brainpp
pip3 install --user rrun
</code></pre>
<h3 id="下载cvpack2">下载cvpack2</h3>
<h4 id="快捷方法">快捷方法</h4>
<ul>
<li>下载预打包的YOLOF_cvpack2</li>
</ul>
<pre><code class="language-Shell">oss cp s3://lizexian/yolof0511.zip .
unzip -qq yolof.zip
# zip -q -r yolof.zip cvpack2/
# oss cp yolof0511.zip s3://lizexian
</code></pre>
<h4 id="通用方法">通用方法</h4>
<ul>
<li>下载cvpack2</li>
</ul>
<pre><code class="language-Shell"># 1. Download without cvpack2_playground
# git clone git@git-core.megvii-inc.com:base-detection/cvpack2.git
# 2. Download with cvpack2_playground
git clone --recursive git@git-core.megvii-inc.com:zhubenjin/cvpack2.git
</code></pre>
<ul>
<li>修改requirement.txt</li>
</ul>
<pre><code class="language-Shell">torch==1.6.0 # torch==1.7.1
torchvision==0.7.0 # torchvision==0.8.2
</code></pre>
<ul>
<li>根据YOLOF修改cvpack2<br>
详见YOLOF的README.txt文档</li>
</ul>
<h3 id="配置cvpack2">配置cvpack2</h3>
<ul>
<li>安装依赖项并下载COCO数据集</li>
</ul>
<pre><code class="language-Shell">pip install 'git+https://github.com/cocodataset/cocoapi.git#subdirectory=PythonAPI'
cd cvpack2
bash tools/setup/install.sh all hhb
# 'all' option will download COCO dataset to '/data/Datasets/COCO' while 'lib' will not.
# datasets/cvpack2_prepare coco
</code></pre>
<p>如果占卡的时候遇到问题，可直接使用如下语句进行手动编译：</p>
<blockquote>
<p><code>rlaunch --cpu=8 --gpu=2 --memory=10240 -- bash</code><br>
<code>python setup.py build develop --user</code></p>
</blockquote>
<p>再手动测试是否安装成功</p>
<blockquote>
<p><code>conda activate cvpack</code><br>
<code>python</code><br>
<code>import cvpack2</code></p>
</blockquote>
<p>单独下载COCO数据集的方法</p>
<blockquote>
<p><code>oss sync --no-progress s3://generalDetection/mscoco_raw_data/coco2017 /data/Datasets/COCO</code><br>
<code># val2017.zip 815585330</code><br>
<code># train2017.zip 19336861798</code><br>
<code>unzip -qq annotations_trainval2017.zip</code><br>
<code>unzip -qq val2017.zip # val2017: 163840</code><br>
<code>unzip -qq train2017.zip # train2017: 3846144</code></p>
</blockquote>
<h3 id="在cvpack2_playground下训练">在cvpack2_playground下训练</h3>
<ul>
<li>建立数据集的软连接</li>
</ul>
<pre><code class="language-Shell"># build. `ln -s source_address target_address`
ln -s /data/Datasets/COCO  /home/lizexian/cvpack2/datasets/coco

# delete. `rm -rf address`
# NOTE not `rm -rf ./test_cjk_in/` which will delete files instead of link.
rm -rf  ./test_chk_ln 
</code></pre>
<ul>
<li>占卡及训练</li>
</ul>
<pre><code class="language-Shell">tmux
rlaunch --cpu=8 --gpu=8 --memory=200000 -- bash
cd /home/lizexian/cvpack2/cvpack2_playground/examples/detection/coco/yolof/yolofv1.res50.1x
conda activate cvpack
cvpack2_train --num-gpus 8
</code></pre>
<blockquote>
<p>YOLOF至少需要4张卡</p>
</blockquote>
<h3 id="inference">inference</h3>
<p>模型会自动进行inference，结果保存在<code>/data/Outputs/model_logs/cvpack2_playground/examples/detection/coco/yolof/yolofv1.res50.1x/inference/coco_instances_results.json</code>路径下。对应地，该路径下的log、pth等文件会自动上传到<code>s3://cvpack2dumps/lizexian/playground/examples/detection/coco/yolof/yolofv1.res50.1x/</code>路径下。</p>
<h3 id="vscode文件栏调整">VScode文件栏调整</h3>
<ul>
<li>Command + , 呼叫设置栏</li>
<li>在Files: exclude中添加忽略模式</li>
</ul>
<pre><code class="language-json">&quot;files.exclude&quot;: {
  &quot;**/.aws&quot;: true,
  &quot;**/.bash_history&quot;: true,
  &quot;**/.bash_logout&quot;: true,
  &quot;**/.bashrc&quot;: true,
  &quot;**/.bashrc-anaconda3.bak&quot;: true,
  &quot;**/.cache&quot;: true,
  &quot;**/.conda&quot;: true,
  &quot;**/.config&quot;: true,
  &quot;**/.gnupg&quot;: true,
  &quot;**/.local&quot;: true,
  &quot;**/.nv&quot;: true,
  &quot;**/.profile&quot;: true,
  &quot;**/.python_history&quot;: true,
  &quot;**/.rlaunch&quot;: true,
  &quot;**/.ssh&quot;: true,
  &quot;**/.sudo_as_admin_successful&quot;: true,
  &quot;**/.tmux.conf&quot;: true,
  &quot;**/.vim&quot;: true,
  &quot;**/.vimrc&quot;: true,
  &quot;**/.wgetrc&quot;: true,
  &quot;**/.Xauthority&quot;: true
}
</code></pre>
<h3 id="coco数据集下载">coco数据集下载</h3>
<p>optionB+d退出<br>
tmux attach<br>
optionB+N切换</p>
<p>s3://cvpack2dump/root/<br>
/data/outputs/、</p>
<p>base config line 46</p>
<p>cvpack2_test --num-gpus 8 <br>
MODEL.WEIGHTS /path/to/your/checkpoint.pth \ # if necessary<br>
OUTPUT_DIR /path/to/save_dir # don't need to specify this in defalut</p>
<h2 id="oss命令">oss命令</h2>
<p>自有路径：<code>lizexian</code> or <code>s3://lizexian</code><br>
oss的常用指令包括：ls、cp、mv、rm、sync。可使用 --exclude 和 --include 选项指定规则来筛选要操作的文件或者目录。</p>
<pre><code class="language-Shell">oss ls lizexian/file
oss cp 1.py s3://lizexian
oss cp yolof s3://lizexian --recursive
oss cp s3://lizexian/1.py ./
oss mv 1.py s3://lizexian
oss rm s3://lizexian/*.py
</code></pre>
<h3 id="rlaunch命令">rlaunch命令</h3>
<p>使用rluanch命令动态申请资源并运行程序</p>
<pre><code class="language-Shell">rlaunch --cpu=4 --gpu=4 --memory=30000 -- python3 train.py
rlaunch --cpu=4 --gpu=4 --memory=30000 --max-wait-time=24h -- bash
rlaunch -P1 --cpu=8 --gpu=8 --memory=200000 -- cvpack2_train --num-gpus 8   # can be killed
rlaunch --predict-only
</code></pre>
<h3 id="ssh-permission-denied">SSH permission denied</h3>
<pre><code class="language-Shell">ssh-add ~/.ssh/id_rsa_megvii
</code></pre>
<h3 id="gitlab常用命令">gitlab常用命令</h3>
<pre><code class="language-Shell">git init
git remote add origin gitLINK
git add .
git checkout -b branchNAME
git commit -m 'INFO'
git push origin branchNAME:branchNAME2

# delete online branch
git push origin --delete NAME
# delete local branch 
git branch -d NAME
</code></pre>
<pre><code class="language-Shell">git pull origin master
git push -u origin master
git push -u origin master -f
</code></pre>
]]></content>
    </entry>
    <entry>
        <title type="html"><![CDATA[一文看懂Python装饰器(Decorators)]]></title>
        <id>https://FuNian788.github.io/post/python-decorators/</id>
        <link href="https://FuNian788.github.io/post/python-decorators/">
        </link>
        <updated>2021-04-12T11:05:23.000Z</updated>
        <content type="html"><![CDATA[<p>在代码中接触了许多有关Python装饰器的内容，简单写一篇博客来记录一下，以作归纳总结。<br>
“装饰器的强大在于它能够在不修改原有业务逻辑的情况下对代码进行扩展，权限校验、用户认证、日志记录、性能测试、事务处理、缓存等都是装饰器的绝佳应用场景，它能够最大程度地对代码进行复用。”<sup class="footnote-ref"><a href="#fn1" id="fnref1">[1]</a></sup><br>
装饰器最简单的功能就是做日志记录和时间统计。下面以日志记录的代码为例引入装饰器的概念，其中在函数定义上一行中的@便是Python对应装饰器的语法糖。</p>
<pre><code class="language-Python">def my_logging(func):

    def wrapper():

        print(&quot;{} begins.&quot;.format(func.__name__))
        return func()

    return wrapper


@my_logging     
def my_func():

    print(&quot;Welcome to my blog.&quot;)


if __name__ == &quot;__main__&quot;:
    # The decaorator replace 'my_func = my_logging(my_func)'
    my_func()

    # --------Result---------
    # my_func begins.
    # Welcome to my blog.
</code></pre>
<p>只要能正确理解Python中函数名的实际内涵、函数名作为参数传递的过程，便能很清晰看懂上述示例。请务必理解清楚再继续阅读，下面深入探讨较复杂情况下装饰器使用的示例都是对上例的扩展：</p>
<h3 id="1被装饰函数涉及多个参数">（1）被装饰函数涉及多个参数</h3>
<p>如果上例中的my_func函数带有参数，我们只需要在wrapper函数中加上对应参数即可正常调用；如果my_func函数涉及若干个参数，我们可以使用*args和**kargs传递参数(可以这样理解，在函数传递参数时使用*args作为形参，在使用参数时直接用args作为实参)。后一种情况的示例代码如下：</p>
<pre><code class="language-Python">def my_logging(func):

    def wrapper(a, *args, **kargs):

        print(&quot;{} begins.&quot;.format(func.__name__))
        return func(a, *args, **kargs)

    return wrapper


@my_logging
def my_func(a, *args, **kargs):

    print(&quot;Welcome to my blog.&quot;)
    print(&quot;a = {}&quot;.format(a))
    print(&quot;I can get 'args': {}.&quot;.format(args))
    print(&quot;I can get 'kargs': {}.&quot;.format(kargs))


if __name__ == &quot;__main__&quot;:
    my_func(1, 2, 3, 4, b=5, c=6, d=7)

    # --------Result---------
    # my_func begins.
    # Welcome to my blog.
    # a = 1
    # I can get 'args': (2, 3, 4). type: tuple
    # ps: *args: 2,3,4
    # I can get 'kargs': {'b': 5, 'c': 6, 'd': 7}. type: dict
    # ps: *kargs: b c d
</code></pre>
<p>可以这样近似地理解，我们在主函数处执行</p>
<pre><code class="language-Python">my_func = my_logging(my_func)
my_func(1, 2, 3, 4, b=5, c=6, d=7)
</code></pre>
<p>而这些最后在my_logging中变成了执行<code>wrapper((a, *args, **kargs))</code>。<br>
上述代码中涉及到了**闭包(Closure)**的概念<sup class="footnote-ref"><a href="#fn2" id="fnref2">[2]</a></sup>。 在函数内部创建一个内嵌函数是合法的，且内嵌函数只有在外部函数的作用域内方可正常调用。如果一个外函数中定义了一个内函数，且内函数体内引用到了内函数体外、外函数内的变量，这时外函数通过return返回内函数的引用时，会把涉及到的内函数体外的变量和内函数打包成一个整体（闭包）返回，内部函数即为闭包函数，闭包函数所引用的外部定义的变量叫做自由变量。可以参照下例了解闭包的概念：</p>
<pre><code class="language-Python">def outer(x):
    a = x

    def inner(y):
        b = y
        print(a+b)

    return inner


f1 = outer(1)            # 返回inner函数对象和外部引用变量a的闭包
f1(10)                   # 相当于inner(10)，输出11
</code></pre>
<p>通常一个函数运行结束的时候，临时变量会被销毁，但闭包是一个特殊情况。当外函数发现自己的临时变量将来会在内函数中用到，则外函数在结束并返回内函数的同时会把外函数的临时变量同内函数绑定在一起，这保证了外函数结束后内函数的正常使用。<br>
示例中的my_logging函数和wrapper函数正是同样的闭包形式。</p>
<h3 id="2装饰器带参数">（2）装饰器带参数</h3>
<p>此处的high_level_logging函数便是带参数的装饰器，该装饰器的返回值是最初示例中那个基本的装饰器。high_level_logging可以被理解为对最基本装饰器的函数封装，或一个含有参数的闭包，其内部执行过程就像套娃一样<s>禁止套娃🤐</s>。</p>
<pre><code class="language-Python">import logging

def high_level_logging(level='info'):

    def my_logging(func):

        def wrapper():

            print(&quot;{} begins.&quot;.format(func.__name__))
            if level == 'warn':
                logging.warning(&quot;Attention!&quot;)
            return func()

        return wrapper

    return my_logging


@high_level_logging(level='warn')
def my_func():

    print(&quot;Welcome to my blog.&quot;)


if __name__ == &quot;__main__&quot;:
    my_func()

    # --------Result---------
    # my_func begins.
    # WARNING:root:Attention!
    # Welcome to my blog.
</code></pre>
<p>当执行<code>@high_level_logging(level='warn')</code>时，Python发现该封装并将参数传递到装饰器的环境中。</p>
<h3 id="3类装饰器">（3）类装饰器</h3>
<p>装饰器可以是类，使用类装饰器主要依靠类的__call__方法。简要示例如下：</p>
<pre><code class="language-Python">class my_logging():

    def __init__(self, func):
        
        self._func = func

    def __call__(self):
        
        print(&quot;{} begins.&quot;.format(self._func.__name__))
        self._func()


@my_logging     
def my_func():

    print(&quot;Welcome to my blog.&quot;)


if __name__ == &quot;__main__&quot;:

    my_func()
    
    # --------Result---------
    # my_func begins.
    # Welcome to my blog.
</code></pre>
<p>当然，类装饰器也可以带参数。<br>
为了更直观显示属性，有时需要调用functools.wraps模块以完成原函数(eg: my_func)的元信息(eg: __name__)到装饰器内函数的拷贝。使用方法即在内函数前加上新的装饰器<code>@wraps(inner)</code>。可参考如下示例：</p>
<pre><code class="language-Python">from functools import wraps

def my_logging(func):
    
    @wraps(func)
    def wrapper():

        print(&quot;{} begins.&quot;.format(func.__name__))
        return func()

    return wrapper


@my_logging     
def my_func():

    print(&quot;Welcome to my blog.&quot;)


if __name__ == &quot;__main__&quot;:

    my_func()
    print(my_func.__name__)     # my_func
</code></pre>
<p>同样地，存储状态的装饰器可以大幅缩减程序的运行时间：</p>
<pre><code class="language-Python">class MyCahe(object):
    
    def __init__(self, func):
        
        self.func = func
        self.cache = {}
    

    def __call__(self, *args):
        
        if not args in self.cache:
            self.cache[args] = self.func(*args)
        return self.cache[args]

@MyCahe
def fib(n):
    
    if n &lt;= 1:
        return 1
    return fib(n - 1) + fib(n - 2)

print(fib(3))
</code></pre>
<p>需要注意的是，一个函数可以同时定义多个装饰器，执行顺序是由近到远：</p>
<pre><code class="language-Python">@a
@b
@c
def f ():
    pass
</code></pre>
<p>等同于<code>f=a(b(c(f)))</code>。</p>
<!--
今后可能再研究研究再补充博客
https://zhuanlan.zhihu.com/p/53837833
https://zhuanlan.zhihu.com/p/88529507
https://zhuanlan.zhihu.com/p/51554168
-->
<hr class="footnotes-sep">
<section class="footnotes">
<ol class="footnotes-list">
<li id="fn1" class="footnote-item"><p>援引自刘志军的博客https://zhuanlan.zhihu.com/p/27449649。 <a href="#fnref1" class="footnote-backref">↩︎</a></p>
</li>
<li id="fn2" class="footnote-item"><p>关于闭包的解释援引自大江狗的博客 https://zhuanlan.zhihu.com/p/51158386，稍作修改。 <a href="#fnref2" class="footnote-backref">↩︎</a></p>
</li>
</ol>
</section>
]]></content>
    </entry>
    <entry>
        <title type="html"><![CDATA[Python实现微信小程序自动打卡]]></title>
        <id>https://FuNian788.github.io/post/python-wechat-clock-in/</id>
        <link href="https://FuNian788.github.io/post/python-wechat-clock-in/">
        </link>
        <updated>2021-03-16T01:12:42.000Z</updated>
        <content type="html"><![CDATA[<p>每天手动打卡实在太繁琐了，作为coder，有没有捷径可走？理论上可以有！<br>
<strong>前边的话：本博客仅讨论技术实现，疫情防控需谨慎，如有异常请及时上报。</strong><br>
<ul class="markdownIt-TOC">
<li>
<ul>
<li>
<ul>
<li><a href="#charles-iphone%E6%8A%93%E5%8C%85">Charles + iPhone抓包</a></li>
<li><a href="#%E6%89%93%E5%8D%A1%E4%BB%A3%E7%A0%81">打卡代码</a></li>
<li><a href="#%E5%AE%9A%E6%97%B6%E5%90%AF%E5%8A%A8">定时启动</a></li>
</ul>
</li>
</ul>
</li>
</ul>
</p>
<h3 id="charles-iphone抓包">Charles + iPhone抓包</h3>
<p>将iPhone和电脑连在同一wifi下，设置手机http代理，安装SSL证书，安装并信任描述文件。<br>
点击手机端打卡界面，在Charles上得到手机端的HTTP请求列表；在手机端填写打卡页面并提交，在对应HTTP使用Charles的compose功能获取手机发送的json文件。<br>
(具体细节可参考<a href="https://blog.csdn.net/y277an/article/details/103573163">y2777an的博客</a>)</p>
<h3 id="打卡代码">打卡代码</h3>
<p>代码思路为，先登录北航sso并验证(<code>login()函数</code>)，获取上次提交的信息并进行修改(<code>get_info()函数</code>)，随后向服务器提交json文件并验证(post()函数)。<code>bark()函数</code>基于ios APP bark，实现了打卡失败时向iPhone自动发送提醒的功能。代码添加了日志功能。<br>
具体代码如下所示：</p>
<pre><code class="language-Python"># -*- coding: utf-8 -*-
# /usr/bin/python

import requests
import json
import time
import sys
import urllib.request

login_url = &quot;https://app.buaa.edu.cn/uc/wap/login?redirect=https%3A%2F%2Fapp.buaa.edu.cn%2Fncov%2Fwap%2Fdefault%2Findex%3Ffrom%3Dhistory&quot;
login_check_url = &quot;https://app.buaa.edu.cn/uc/wap/login/check&quot;
base_url = &quot;https://app.buaa.edu.cn/xisuncov/wap/open-report/index&quot;
save_url = &quot;https://app.buaa.edu.cn/xisuncov/wap/open-report/save&quot;


class ClockIn(object):

    def __init__(self, username, password, bark_id):

        self.username = username
        self.password = password
        self.bark_id = bark_id
        self.log_path = './log.txt'
        self.sess = requests.Session()


    def login(self):

        &quot;&quot;&quot; Login to BUAA platform.&quot;&quot;&quot;

        res = self.sess.get(login_url)
        if res.status_code != 200:
            error_1 = &quot;{} failed to login platform，fail status code is {}.&quot;.format(self.username, res.status_code)
            self.bark(error_1)
            #print(error_1)
            raise Exception(error_1)

        data = {'username': self.username, 'password': self.password, }

        responce = self.sess.post(url=login_check_url, data=data)
        responce_decode = json.loads(responce.content.decode())

        if responce_decode['e'] != 0:
            error_2 = &quot;{} failed in the login process and the reason is {}.&quot;.format(self.username, responce_decode['m'])
            self.bark(error_2)
            #print(error_2)
            raise Exception(error_2)

        return responce_decode


    def bark(self, message):

        &quot;&quot;&quot; Send message to iPhone if fails in clock-in, then log. &quot;&quot;&quot;

        url = 'https://api.day.app/' + self.bark_id + '/ClockInFalse/' + self.username
        p = urllib.request.urlopen(url)

        with open(self.log_path, 'a') as f:
            f.write(self.get_date() + '\n')
            f.write(message + '\n')


    def get_info(self, html=None):

        &quot;&quot;&quot;Get hitcard information, which is the old info with updated new time.&quot;&quot;&quot;

        if not html:
            res = self.sess.get(base_url)
            if res.status_code != 200:
                error_3 = &quot;{} get information failed, status code = {}&quot;.format(self.username, res.status_code)
                self.bark(error_3)
                #print(error_3)
                raise Exception(error_3)
            html = res.content.decode()
            raw_json = json.loads(html)
        
        return_dict = {}
        for data in ('sfzx', 'tw', 'area', 'city', 'province', 'address', 'geo_api_info', 'sfcyglq', 'sfyzz', 'qtqk', 'askforleave'):
            return_dict.update({data: raw_json['d']['info'][data]})
        self.info = return_dict
        return return_dict


    def post(self):

        &quot;&quot;&quot; Post the hitcard information.&quot;&quot;&quot;

        res = self.sess.post(save_url, data=self.info)
        if res.status_code != 200:
            error_4 = &quot;{} post information failed, status code = {}.&quot;.format(self.username, res.status_code)
            self.bark(error_4)
            #print(error_4)
            raise Exception(error_4)
        return json.loads(res.text)


    def main(self):

        self.login()
        time.sleep(0.5)
        self.get_info()
        time.sleep(0.5)
        ret = self.post()
        return ret


def clock_in_one_person(username, password, bark_id):

    op = ClockIn(username, password, bark_id)
    try:
        ret = op.main()
        if ret['e'] != 0:
            error_5 = &quot;fail in the end and the reason is {}.&quot;.format(ret['m'])
            #print(error_5)
            op.bark(error_5)
    except Exception as e:
        op.bark(e)
    finally:
        return 0


if __name__ == &quot;__main__&quot;:

    # username = sys.argv[1]
    # password = sys.argv[2]
    # bark_id = sys.argv[3]

    username = &quot;your username&quot;
    password = &quot;your password&quot;
    bark_id = &quot;your bark id&quot;

    clock_in_one_person(username, password, bark_id)
</code></pre>
<h3 id="定时启动">定时启动</h3>
<p>我们选用cron+shell脚本的方式来实现打卡程序的定时启动。<br>
使用<code>crontab -e</code>指令创建一个以当前用户运行的新cron任务，每个cron任务的格式如下：<br>
<code>&lt;分钟&gt; &lt;小时&gt; &lt;日&gt; &lt;月&gt; &lt;星期&gt; &lt;命令or脚本路径&gt;</code><br>
cron任务中的操作符有<code>*</code>，<code>/</code>，<code>-</code>和<code>,</code>。<code>*</code>代表取值范围内的所有数字，<code>/</code>代表每过多少个数字，<code>-</code>表示从起始到终止，<code>,</code>表示散列数字。例如，每隔两天的上午8点到11点的第3和第15分钟执行任务可以写成<code>3,15 8-11 */2 * * command</code>。<br>
依此方式进行配置，最后使用<code>crontab -l</code>查看已经存在的任务。</p>
<p>至此，实现了微信小程序的自动打卡🥂</p>
]]></content>
    </entry>
    <entry>
        <title type="html"><![CDATA[einops：向量变换神器]]></title>
        <id>https://FuNian788.github.io/post/einops/</id>
        <link href="https://FuNian788.github.io/post/einops/">
        </link>
        <updated>2021-03-11T06:37:19.000Z</updated>
        <content type="html"><![CDATA[<p>最近看大佬的Transformer源码时发现大家都用到了这个库，查看了一下相关API，实现太简洁了，真正的所见即所得，速MARK！</p>
<p><ul class="markdownIt-TOC">
<li>
<ul>
<li>
<ul>
<li><a href="#reshape">RESHAPE</a></li>
<li><a href="#reduce">REDUCE</a></li>
</ul>
</li>
</ul>
</li>
</ul>
</p>
<h3 id="reshape">RESHAPE</h3>
<pre><code class="language-Python">import einops
x = einops.rearrange(x, 'n h w c -&gt; n (h w) c')
x = einops.rearrange(x, 'n (h w) c -&gt; n c h w', h=h1)
x = einops.rearrange(x, '(n1 n2) h w c -&gt; (n1 h) (n2 w) c ', n1=2)
</code></pre>
<pre><code class="language-Python">from einops.layes.torch import Rearrange
self.net = nn.Sequential(
    nn.LayerNorm(dim),
    Rearrange('n h w -&gt; h w n')
)
</code></pre>
<h3 id="reduce">REDUCE</h3>
<pre><code class="language-Python"># str: mean, min, max, sum, prod
x = einops.reduce(x, 'n c h w -&gt; n h w', 'mean')    # average over channel

</code></pre>
]]></content>
    </entry>
    <entry>
        <title type="html"><![CDATA[算法核心思想总结]]></title>
        <id>https://FuNian788.github.io/post/algorithm/</id>
        <link href="https://FuNian788.github.io/post/algorithm/">
        </link>
        <updated>2021-03-05T03:29:59.000Z</updated>
        <content type="html"><![CDATA[<p>迫于打工，开刷算法！<br>
本博客旨在归纳算法题的核心思想并总结对应的模板，从而指导具体的实际问题求解🎺同时感谢labuladong的算法讲解<a href="https://labuladong.gitbook.io/algo">Gitbook</a>访问相关文章。<br>
<ul class="markdownIt-TOC">
<li>
<ul>
<li><a href="#0-%E6%95%B0%E6%8D%AE%E8%AF%BB%E5%8F%96"><s>0. 数据读取</s></a></li>
<li><a href="#1%E5%8A%A8%E6%80%81%E8%A7%84%E5%88%92">1.动态规划</a>
<ul>
<li><a href="#%E9%A2%98%E5%9E%8B%E5%BD%92%E7%BA%B3">题型归纳</a></li>
<li><a href="#%E5%A5%97%E8%B7%AF%E6%80%BB%E7%BB%93">套路总结</a></li>
<li><a href="#%E8%A7%A3%E9%A2%98%E6%80%9D%E8%B7%AF">解题思路</a></li>
<li><a href="#leetcode%E5%AE%9E%E6%88%98">Leetcode实战</a></li>
</ul>
</li>
<li><a href="#2%E6%90%9C%E7%B4%A2%E7%AE%97%E6%B3%95">2.搜索算法</a>
<ul>
<li><a href="#%E6%B7%B1%E5%BA%A6%E4%BC%98%E5%85%88%E6%90%9C%E7%B4%A2deep-first-search-dfs">深度优先搜索(Deep First Search, dfs)</a></li>
<li><a href="#%E5%B9%BF%E5%BA%A6%E4%BC%98%E5%85%88%E6%90%9C%E7%B4%A2breath-first-search-bfs">广度优先搜索(Breath First Search, bfs)</a></li>
<li><a href="#bfsdfs%E6%80%9D%E8%B7%AF%E6%80%BB%E7%BB%93">BFS/DFS思路总结</a></li>
<li><a href="#%E4%BA%8C%E5%88%86%E6%90%9C%E7%B4%A2">二分搜索</a></li>
</ul>
</li>
<li><a href="#3-%E6%A0%91">3. 树</a>
<ul>
<li><a href="#%E6%A0%91%E7%9A%84%E9%81%8D%E5%8E%86">树的遍历</a></li>
<li><a href="#%E6%A0%91%E7%9A%84%E9%80%92%E5%BD%92%E8%A7%A3%E6%B3%95">树的递归解法</a></li>
<li><a href="#%E6%A0%91%E7%9A%84%E5%9F%BA%E6%9C%AC%E7%9F%A5%E8%AF%86">树的基本知识</a></li>
</ul>
</li>
<li><a href="#4%E6%95%B0%E7%BB%84-%E9%93%BE%E8%A1%A8">4.数组、链表</a>
<ul>
<li><a href="#%E9%93%BE%E8%A1%A8">链表</a></li>
</ul>
</li>
<li><a href="#5-%E6%A0%88%E5%92%8C%E9%98%9F%E5%88%97">5. 栈和队列</a>
<ul>
<li><a href="#%E6%A0%88">栈</a></li>
<li><a href="#%E9%98%9F%E5%88%97">队列</a></li>
</ul>
</li>
<li><a href="#6%E8%B4%AA%E5%BF%83%E7%AE%97%E6%B3%95">6.贪心算法</a>
<ul>
<li><a href="#%E5%A5%97%E8%B7%AF%E6%80%BB%E7%BB%93-2">套路总结</a></li>
<li><a href="#%E8%A7%A3%E9%A2%98%E6%80%9D%E8%B7%AF-2">解题思路</a></li>
<li><a href="#leetcode%E5%AE%9E%E6%88%98-2">Leetcode实战</a></li>
</ul>
</li>
<li><a href="#7-%E4%BD%8D%E8%BF%90%E7%AE%97">7. 位运算</a></li>
<li><a href="#nleetcode%E5%88%B7%E9%A2%98%E5%BF%83%E5%BE%97">n.Leetcode刷题心得</a>
<ul>
<li><a href="#%E6%99%AE%E9%81%8D%E8%A7%84%E5%BE%8B">普遍规律</a></li>
</ul>
</li>
</ul>
</li>
</ul>
</p>
<h2 id="0-数据读取"><s>0. 数据读取</s></h2>
<p>简单记录一下ACM模式下Python3的数据读取方法。<br>
举个例子，输入n组数据来实现两数之和，输入如下(第一行代表数据组数n，后n行为数据)：</p>
<pre><code class="language-shell">3
1 2
3 4
5 6
</code></pre>
<p>数据读取方式如下，最后将结果以<code>print</code>形式输出：</p>
<pre><code class="language-Python">import sys

n = int(sys.stdin.readline())
for i in range(n):
    line = sys.stdin.readline().strip()
    data = list(map(int, line.split()))
    a, b = data
    print(a + b)
</code></pre>
<h2 id="1动态规划">1.动态规划</h2>
<p>动态规划问题的一般形式就是求最值，求解动态规划问题的核心是穷举。</p>
<p>动态规划的三要素是重叠子问题、最优子结构、状态转移方程：</p>
<ul>
<li>动态规划问题存在“重叠子问题”(回想斐波那契数列求解过程复杂度)，故需要“备忘录”或者“DP table”来优化求解过程，避免不必要的计算。</li>
<li>动态规划问题一定具备“最优子结构”(回想获取更高分数时对待每一门科目的态度)，故可以通过拆分成子问题求最值得到原问题的最值。这要求子问题间必须相互独立。</li>
<li>动态规划问题需要列写正确的状态转移方程。</li>
</ul>
<p>整体来说，(回想斐波那契数列求解过程)，动态规划的一般流程分三步：暴力的递归解法--&gt;带备忘录的递归解法--&gt;迭代的动态规划解法。<br>
其中带备忘录的递归解法是“自顶向下”的，是将问题不断拆分成子问题的过程；“DP table”的递归解法是“自底向上”的。二者本质相同，都是在以空间换时间的思路进行“聪明的穷举”。</p>
<p>就思考流程来说，分为以下几步：<strong>找到状态和选择</strong>--&gt;<strong>明确dp数组/函数的定义</strong>--&gt;<strong>确定对每个状态可以做出的选择并择优执行</strong>--&gt;<strong>确定base case</strong>。<br>
其中，状态即为原问题和子问题中变化的变量；base case为初始状态和失败/退出条件。</p>
<h3 id="题型归纳">题型归纳</h3>
<p>思路借鉴Leetcode上的一篇英文<a href="https://leetcode.com/discuss/general-discussion/458695/dynamic-programming-patterns">博文</a>。<br>
现将DP主要归纳为以下五个题型：</p>
<ol>
<li>达到目标的最大(最小)路径<br>
题干描述：给出到达目标的最大(最小)花费/路径/数值和。<br>
解题思路：在当前状态之前的所有路径中选择一个最大(最小)的，将当前值加到该路径中。<br>
典型例题：322零钱兑换(以最少的硬币数量凑出特定金额)</li>
</ol>
<pre><code class="language-C++">for (int j = 1; j &lt;= amount; ++j) 
   for (int i = 0; i &lt; coins.size(); ++i) 
       if (coins[i] &lt;= j) 
           dp[j] = min(dp[j], dp[j - coins[i]] + 1);
</code></pre>
<ol start="2">
<li>达到目标的路径总数<br>
题干描述：给出到达目标的不同路径总数。<br>
解题思路：将所有能到达当前状态的路径数目相加。<br>
<code>routes[i] = routes[i-1] + routes[i-2], ... , + routes[i-k]</code><br>
典型例题：62不同路径(左上角的人向右向下移动到右下角的路径数目和)</li>
</ol>
<pre><code class="language-C++">for (int i = 1; i &lt; m; ++i) 
   for (int j = 1; j &lt; n; ++j) 
       dp[i][j] = dp[i][j-1] + dp[i-1][j];
</code></pre>
<ol start="3">
<li>判断所有元素的状态<br>
题干描述：给定数值集合，对所有元素做取/舍（元素的连续取/舍性常被限制）。<br>
解题思路：对当前元素，若“舍”，则需借鉴上一元素被“取”时的状态值；若“取”，则需借鉴上一元素被“舍”时的值。<br>
典型例题：121股票问题/打家劫舍</li>
</ol>
<pre><code class="language-C++">// i - size of values
// j - options/status of certain value
for (int i = 1; i &lt; n; ++i) 
    {
        // j = 0 : sell the stock
        dp[i][0] = max(dp[i-1][0], dp[i-1][1] + prices[i]); 
        // j = 1 : hold the stock
        dp[i][1] = max(dp[i-1][1], dp[i-1][0] - prices[i]); 
    }
</code></pre>
<ol start="4">
<li>区间合并/元素消去<br>
题干描述：给定数值集合，不断消去元素以合并整个集合，求过程最高得分。消去某一元素的得分判定既要考虑当前元素数值，也要考虑当前元素左/右侧的元素数值。<br>
解题思路：对某一区间，遍历区间内的所有元素，返回遍历过程的最优解。</li>
</ol>
<pre><code class="language-C++">for(int l = 1; l&lt;n; l++) {        // l - length 
   for(int i = 0; i&lt;n-l; i++) {   // i - start index
       int j = i+l;               // j - end index
       for(int k = i; k&lt;j; k++) { // k - current index from i to j
           dp[i][j] = max(dp[i][j], dp[i][k] + result[k] + dp[k+1][j]);
       }
   }
}
return dp[0][n-1]
</code></pre>
<ol start="5">
<li>字符串DP<br>
题干描述：给出字符串，返回特定结果。<br>
解题思路：</li>
</ol>
<p>当给定两个字符串，以两个指针从头分别遍历两个字符串：</p>
<pre><code class="language-C++">// i - indexing string s1
// j - indexing string s2
for (int i = 1; i &lt;= n; ++i) {
   for (int j = 1; j &lt;= m; ++j) {
       if (s1[i-1] == s2[j-1]) {
           dp[i][j] = /*code*/; // eg dp[i][j] = dp[i-1][j-1] + 1;
       } else {
           dp[i][j] = /*code*/; // eg dp[i][j] = max(dp[i-1][j], dp[i][j-1]);
       }
   }
}
</code></pre>
<p>当给定一个字符串，方法如下：</p>
<pre><code class="language-C++">// l - length of sub-string
// i - start index of sub-string
// j - end index of sub-string
for (int l = 1; l &lt; n; ++l) {
   for (int i = 0; i &lt; n-l; ++i) {
       int j = i + l;
       if (s[i] == s[j]) {
           dp[i][j] = /*code*/;
       } else {
           dp[i][j] = /*code*/;
       }
   }
}
</code></pre>
<p>注：此类问题常需要给出O(<span class="katex"><span class="katex-mathml"><math><semantics><mrow><msup><mi>n</mi><mn>2</mn></msup></mrow><annotation encoding="application/x-tex">n^2</annotation></semantics></math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.8141079999999999em;vertical-align:0em;"></span><span class="mord"><span class="mord mathdefault">n</span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.8141079999999999em;"><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight">2</span></span></span></span></span></span></span></span></span></span></span>)内的解法。</p>
<h3 id="套路总结">套路总结</h3>
<ol>
<li>最优子结构并不是动态规划独有的一种性质，能求最值的问题大部分都具有这个性质(例如求二叉树最大值)，只是因为很多问题不具有重叠子问题，故不将其归为动态规划问题；但反过来，最优子结构性质作为动态规划问题的必要条件，一定是求最值的。</li>
<li>碰到恶心人的最值/子序列题，思路优先往动态规划想，时间复杂度一般为O(<span class="katex"><span class="katex-mathml"><math><semantics><mrow><msup><mi>n</mi><mn>2</mn></msup></mrow><annotation encoding="application/x-tex">n^2</annotation></semantics></math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.8141079999999999em;vertical-align:0em;"></span><span class="mord"><span class="mord mathdefault">n</span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.8141079999999999em;"><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight">2</span></span></span></span></span></span></span></span></span></span></span>)。</li>
<li>找最优子结构的过程，其实就是证明状态转移方程正确性的过程。方程符合最优子结构就可以写暴力解了，写出暴力解就可以看出有没有重叠子问题了，有则优化，无则 OK。</li>
<li>在优化时，需要判断当前算法是否存在重叠子问题，也就是寻找是否有不同路径可达到同一个问题。</li>
<li>当初始状态确定而末尾状态有多种的时候，可以考虑倒着DP。（平时也可以尝试）</li>
</ol>
<h3 id="解题思路">解题思路</h3>
<ol>
<li>数学归纳法(递归框架)：假设已知f(1)···f(n-1)的情况，尝试求出f(n)，在此过程中总结规律并写出状态转移方程。如果无法完成这一步，通常是dp定义不恰当，需重新定义dp数组的含义；或者是dp数组存储的信息还不够，不足以推出下一步的答案，需要把dp扩大成二维甚至三维数组。</li>
<li>状态转移法(穷举框架)：具体到每一个元素，分析其相应可能的状态，再合并所有的元素。伪代码如下：</li>
</ol>
<pre><code class="language-Python">for 状态1 in 状态1所有取值:
    for 状态2 in 状态2所有取值:
        for ...
            dp[状态1][状态2][...] = 择优(选择1,选择2...)
</code></pre>
<ol start="3">
<li>两个字符串的动态规划问题：一般都是用两个指针分别指向两个字符串的末尾，再一步步往前退以缩小问题的规模。</li>
</ol>
<h3 id="leetcode实战">Leetcode实战</h3>
<ol>
<li>198/213/337打家劫舍(劫匪不能抢相邻的两个房子)<br>
dp[i]表示从第0家到第i家抢劫的总金额。<br>
对于每一家的选择是抢或不抢：<br>
<code>dp[i] = max(dp[i - 1], nums[i] + dp[i - 2])</code>。</li>
<li>983最低票价(一年的第{i}天出行，通行证{j}可保证接下来j天的出行)<br>
dp[i]表示从第0天到第i天花费的总金额。<br>
对于非出行日期：<br>
<code>dp[i] = dp[i + 1]</code>；<br>
对于出行日期在可能的天数中选一个合适的：<br>
<code>dp[i] = min{cost(j) + dp[i + j]}</code> 。</li>
<li>5最长回文子串(返回字符串最长回文子串的字符)<br>
dp[i, j]表示字符i-j是否构成回文串。<br>
如果现在的回文串前后字母相同，则将其拓展：<br>
<code>dp[i - 1, j + 1] = dp[i, j] (if dp[i - 1] == dp[j + 1])</code>。</li>
<li>121/122/123/188/309/714股票买卖(对一支股票在不同条件下买入卖出获得最大利润)<br>
套用状态转移法，dp[i][k][0 or 1]表示第i天结束后的利润，从第0天到第i天最多可交易k次，0表示暂时未持有股票，1表示正在持有股票。第一维度取值大于等于0，第二维度取值大于等于1。取还未开始交易时dp利润值为0，不可能发生的情形为INT_MIN。<br>
今天结束交易后未持有股票：<br>
<code>dp[i][k][0] = max(dp[i - 1][k][0], dp[i - 1][k][1] + prices[i])</code>；<br>
今天结束交易后持有股票(此处默认k在买入时加1)：<br>
<code>dp[i][k][1] = max(dp[i - 1][k][1], dp[i - 1][k - 1][1] - prices[i])</code>。</li>
<li>221最大正方形(找出由0/1构成的矩形中，元素均为1的最大正方形)<br>
dp[i, j]表示(i, j)为右下角时，所构成正方形的最大边长。<br>
<code>dp(i, j) = min(dp(i - 1, j), dp(i, j - 1), dp(i - 1, j - 1)) + 1</code>。</li>
<li>300最长递增子序列的长度(子序列不一定是连续的，子串才是连续的)<br>
dp[i]表示以nums[i]这个数结尾的最长递增子序列的长度。<br>
<code>for (j = 0; j &lt; i; j++) {if (nums[i] &gt; nums[j]) dp[i] = max(dp[i], dp[j] + 1);}</code>。</li>
<li>1143最长公共子序列(返回两个字符串最长公共子序列长度)<br>
dp[i][j]代表对于str1[1..i]和str2[1..j]，其最长公共子序列的长度。<br>
<code>if (text1[i-1] == text2[j-1]) dp[i][j] = dp[i-1][j-1] + 1; else dp[i][j] = max(dp[i-1][j], dp[i][j-1]);</code>。</li>
<li>877/1140/1406石头游戏(两个绝对理智的人从数组两侧/单侧拿n堆石头，分高胜)<br>
dp[i][j][0]代表对于i~j的石头堆，先手可获得的最高分数；dp[i][j][1]代表对于i~j的石头堆，后手可获得的最高分数。注意斜向遍历。<br>
<code>dp[i][j][0] = max(stones[i] + dp[i+1][j][1], stones[j] + dp[i][j-1][1])// left right</code>；<br>
<code>if (first person chooses left) dp[i][j][1] = dp[i+1][j][0];</code>；<br>
<code>if (first person chooses right) dp[i][j][1] = dp[i][j-1][0];</code>。<br>
这里写一个思路清晰的斜向遍历代码：</li>
</ol>
<pre><code class="language-Python">for k in range(1, length):          # k means stride
    for i in range(length - k):     # i means x-coordinate
        j = i + k                   # j means y-coordinate
</code></pre>
<ol start="9">
<li>10正则表达式匹配(.匹配任意单个字符，*匹配零个或多个前一字符)<br>
dp[i][j]表示a串前i个字符能否被b串前j个字符匹配。</li>
<li>139单词拆分(字符串能否拆分成一个或多个在字典中出现的单词)<br>
dp[i]表示字符串0-i能否用字典中的单词表示。<br>
<code>if (s.substr(i, j) in dict &amp;&amp; dp[i]) dp[j] = True;</code>。</li>
<li>1227飞机座位分配概率(第一个人乱座，最后一个人坐自己座位概率)<br>
dp[i]表示第i个人需要找新座位(自己座位被占)的概率。<br>
由<code>dp[i] = dp[1]/n + dp[2]/(n-1) ... + dp[i-2]/(n-i+3) + dp[i-1]/(n-i+2)</code>可推导：<br>
<code>dp[i-1] = dp[1]/n + dp[2]/(n-1) ... + dp[i-2]/(n-i+3)</code>；<br>
<code>dp[i] = dp[i-1] + dp[i-1]/(n-i+2)</code>。</li>
<li>120三角形最小路径和(在仅能移动到下一行相邻节点的情况下找出自顶向下的最小路径和)<br>
dp[i][j]表示以第i行第j个元素为顶点的三角形最小路径和。<br>
<code>dp[i][j] = min(dp[i+1][j], dp[i+1][j+1]) + triangle[i][j];</code>。</li>
<li>174地牢游戏(从左上角向右向下移动到右下角，一路不断加减对应格子的数值，生命值需大于0)<br>
dp[i][j]表示在(i, j)点，未吃(i, j)点血包时为成功抵达右下角需拥有的生命值-1。<br>
<code>dp[i][j] = max(0, min(dp[i+1][j], dp[i][j+1]) - dungeon[i][j])</code>。</li>
<li>312戳气球(戳某个气球的得分为该气球、其左、其右三个数的乘积，求戳光气球得分最高的总分)<br>
dp[i][j]表示戳完第i~j个气球后得到的最高分，以k作为最后一个戳爆的气球编号进行遍历。<br>
<code>for(int k = i; k &lt;= j; k++) {dp[i][j] = max(dp[i][j], dp[i][k-1] + dp[k+1][j] + nums[i-1]*nums[k]*nums[j+1]);}</code>。</li>
<li>1000合并石头的最小代价(给定数组和K，每次合并K个元素直至合并光，代价为K个元素之和)<br>
dp[i][j]表示在第i~j个元素经尽可能多次(<code>(j-i)%(k-1)+1</code>)合并的最小成本。</li>
</ol>
<h2 id="2搜索算法">2.搜索算法</h2>
<h3 id="深度优先搜索deep-first-search-dfs">深度优先搜索(Deep First Search, dfs)</h3>
<p>回溯法的核心思想是将问题分步解决，而在每一步内都尝试所有的可能，当找到解或发现当前路径不可行时，回退到上一步继续尝试其他可能性，dfs则是回溯思想在图(树)上的具体表现形式，在很多情况下可将二者近似等价；由于多数情况下在每一步内的处理方式都是一致的，故递归是dfs的常用实现方式。<br>
dfs可以理解为不撞南墙不回头，即先一条路走到底，不成功则退至最近的、尚有未遍历岔路的路口，选择下一个新岔路再走到底，循环往复。其基本思想是：<strong>当扩展的节点存在且未被遍历时，递归执行该节点</strong>。由于dfs就是简单地遍历所有情况，故其时间和空间复杂度基本均在O(n)。<br>
(注：回溯法可适用于任何穷举法能解决的问题，DP仅能处理具有最优子结构的问题；回溯法无法大幅优化，只能暴力穷举，DP中存在重叠子问题可以优化；部分DP问题可以通过dfs+记忆化解决；DP一定需要存储子问题的解，回溯法/dfs视情况决定是否要记录当前路径。）<br>
dfs最常用来解决树类问题。由于dfs函数常被递归调用，故常以采用helper辅助函数的形式出现。<br>
Python下利用dfs+递归在树中寻找解的模板如下所示，同时需要思考具体的剪枝方式：</p>
<pre><code class="language-Python">def main(root):

    def dfs_helper(root, path): 
        visited.add(root)
        if end condition: # eg:len(path) == target and path not in ans
            operation     # eg: ans.add(path.copy())
            return
        for node in root.adj():
            if node not in visited:
                path.append(node)
                dfs_helper(node, path)
                path.remove(node)

    if not root:
        return None
    visited = {}
    ans = {}
    dfs_helper(root, path=[root])
    return
</code></pre>
<p>在函数的具体写法上，如果path定义在<code>dfs_helper</code>外，则可以直接对其引用，将<code>dfs_helper</code>函数简化成<code>def dfs_helper(root)</code>。<br>
在具体遍历时还需要考虑以下几种情况：图存在重复遍历，树不存在，故<strong>图的遍历时需要visited数组记录访问情况</strong>，而遍历树时不需要；树的叶节点可能为空，图的节点定存在，故<strong>树的遍历时需要判断当前遍历的节点是否为空</strong>，而遍历图时不需要；无向图不需要考虑遍历节点的顺序，而树的遍历需要考虑顺序(先遍历左子树还是右子树)。至于更具体的二叉树的前/中/后序遍历，参照我的另一篇博客<a href="https://funian788.github.io/post/traversal-of-binary-tree/">二叉树的遍历</a>。<br>
在较高的角度审视上述这些代码，DFS的核心思想就是：维护走过的<strong>路径</strong>，探索当前可执行的<strong>选择列表</strong>，当触发<strong>结束条件</strong>时将当前路径记录进集合。而这些加粗的词，在某种程度上分别对应动态规划中的<strong>状态</strong>、<strong>选择</strong>和<strong>结束条件</strong>。可以说，动态规划的暴力求解阶段就是DFS。但因为DP问题具有重叠子问题的性质，通过dp table或备忘录优化，就是对DFS递归树大幅剪枝的过程。<br>
在面对二叉树问题时，我们常常需考虑，能否<strong>使用函数在两个子树上的结果整合出当前问题的解</strong>，不要盲目冲DFS。最经典题目：树的高度<code>height(root) = max(height(root.left), height(root.right)) + 1</code>。<br>
在优化时考虑非递归算法，<strong>dfs是后入先出结构，故采用栈实现</strong>。首先将初始节点压入栈，每个节点出栈时将其标记为已读并将其子节点<strong>由右至左</strong>压入栈，出栈过程即为输出过程。<br>
遍历图的伪代码可见如下，这次只追求效率，不会再写得很像了🤠：</p>
<pre><code class="language-Python">def dfs(start):
    visited = {start}
    stack = [start_node]
    print(start) # other op

    while(stack):
        top_of_stack = stack[-1]
        for i in iter(top_of_stack.adjacent):
            if(!visited[i]):
                print(i) # other op
                visited[i] = True
                stack.append(i)
                continue
        stack.pop(-1)
</code></pre>
<p>遍历二叉树的伪代码如下所示：</p>
<pre><code class="language-Python">def dfs(root):
    stack = [root]
    while(stack):
        top_of_stack = stack.pop(-1)
        print(top_of_stack) # other op
        # for right_side_node in top_of_stack.child:
        #     stack.append(right_side_node)
        if top_of_stack.right: 
            stack.append(top_of_stack.right)
        if top_of_stack.left: 
            stack.append(top_of_stack.left)
</code></pre>
<p>dfs常用于解决可达性的问题。</p>
<h3 id="广度优先搜索breath-first-search-bfs">广度优先搜索(Breath First Search, bfs)</h3>
<p>bfs可以类比树的层序遍历。<br>
<strong>bfs是先入先出结构，采用队列实现。</strong><br>
首先将初始节点压入队列，在节点出队列时进行输出/判断。<strong>由左至右</strong>地扩展出队列节点的子节点，若未遍历过则将其压入队列，同时标记为已读。<br>
BFS问题的本质在于解决<strong>无权图内，起点到终点的的最短路径</strong>问题。当第一次遍历到目标节点时，所经过的路径为最短路径。在实现时，需注意使用队列存储节点，也不要忘记对遍历过的节点做标记。<br>
Python伪代码如下所示：注意其中节点弹出、扩展及step累计的语句位置，背就完了。</p>
<pre><code class="language-Python"># calculate the shortest distance from 'root' to 'target'.
def BFS(root, target):
    queen = [root]
    # use 'visited' to avoid repeat traversal in 'graph', no longer needed in 'tree'.
    visited = {root}  
    step = 0

    while queen:
        size = len(queen)
        for i in range(size):
            node = queen.pop(0)
            if (node == target):
                return step
            # expand current node
            for x in node.adj():
                if x not in visited:
                    queen.append(x)
                    visited.add(x)
        step = step + 1
</code></pre>
<p>C++伪代码如下所示：</p>
<pre><code class="language-C++">// calculate the shortest distance from 'start' to 'target'.
int BFS(Node start, Node target) 
{
    queue&lt;Node&gt; q{start}; 
    unordered_set&lt;Node&gt; visited{start}; 

    int step = 0;
    while(!q.empty())
    {
        int size = q.size();
        for(int i = 0; i &lt; size; i++) 
        {
            Node cur = q.front();
            q.pop();
            
            if(cur == target)
                return step;
            
            while(cur.adj())
            {
                Node x = cur.adj();
                if(!visited.count(x))
                {
                    q.push(x);
                    visited.insert(x);
                }
            }
        }
        step = step + 1;
    }
}
</code></pre>
<p>对于已知终点具体值的题型，有一种同量级复杂度下的优化trick：双向BFS。其核心思想是，从起点和终点同时扩展，当二者各自扩展得到的集合有交集时停止。具体在代码实现时，每次仅扩展一个集合，但在每个while循环的开始时，通过判断大小和集合交换，仅对规模相对较小的集合进行扩展，整体上便实现了双向扩展。需要终止条件的判断位置，由于不会对已遍历过的节点进行扩展，故不可在出栈时进行判断，而应在扩展节点时进行终止判断。<br>
Python伪代码如下所示：</p>
<pre><code class="language-Python"># calculate the shortest distance from 'start' to 'target'.
def BFS(start, target):
    queen1 = [start]
    queen2 = [target]
    # use 'visited' to avoid repeat traversal in 'graph', no longer needed in 'tree'.
    visited = {start, target}  
    step = 0

    while queen1 and queen2:
        if len(queen1) &gt; len(queen2):
            queen1, queen2 = queen2, queen1
        size = len(queen1)
        for i in range(size):
            cur = queen1.pop(0)
            # expand node 'cur'
            for x in cur.adj():
                if x in queen2:
                    return step + 1
                if x not in visited:
                    queen1.append(x)
                    visited.add(x)
        step = step + 1
</code></pre>
<p>相较于DFS，BFS在解决最短路径问题时的时间复杂度会低很多(无须遍历所有情况，第一次遍历到正确解时即可返回)，但空间复杂度会相对较高。</p>
<h3 id="bfsdfs思路总结">BFS/DFS思路总结</h3>
<p>BFS和DFS两个方法主要是对树、图进行遍历，即从某点出发，对所有顶点进行访问且只访问一次。<br>
一般来说在找最短路径时用BFS，其余时候主要采用DFS。</p>
<p>为回溯，采用邻接矩阵（二维数组）和邻接表对遍历过程进行记录。<br>
我们常将解题的过程融入到出/入 栈/队列的过程中。</p>
<h3 id="二分搜索">二分搜索</h3>
<p>二分查找的核心思路就是通过<strong>不断收缩左右边界</strong>在有序元素中进行高效查找。<br>
二分查找的基本思路如下所示：</p>
<pre><code class="language-Python">low, high = 0, len(nums)
# search in [low, high)
while(low &lt; high):
    mid = low + (high - low) // 2
    if nums[mid] == target:
        return mid
    elif nums[mid] &lt; target:
        low = mid + 1 # search in [mid + 1, high)
    else:
        high = mid # search in [low, mid)
return low
</code></pre>
<p>C++中的lower_bound()函数和upper_bound()函数则意欲返回第一个大于等于target和第一个大于target的元素索引。也正是因为target可能不存在于数组中，故代码均进行了微小的调整（以下将两份代码写在一起)：</p>
<pre><code class="language-Python">low, high = 0, len(nums)
# search in [low, high)
while(low &lt; high):
    mid = low + (high - low) / 2
    if nums[mid] &lt; target:  # lower bound
    if nums[mid] &lt;= target: # upper bound
        low = mid + 1 # search in [mid + 1, high)
    else:
        high = mid # search in [low, mid)
return low
</code></pre>
<h2 id="3-树">3. 树</h2>
<p>树是由具有父子关系的节点构成的常见数据结构。算法题中常基于二叉树进行知识点的考察。<br>
二叉树解题的方法主要分两种，一种是<strong>递归</strong>，一种是<strong>迭代</strong>。当题目有较清晰的子结构时可以选择递归。递归调用系统栈，可能占较大空间，但胜在思路清晰；可通过手动维护一个栈/队列的方式将解法优化成迭代方法。当然，部分题目可能会涉及广度/深度优先搜索的知识，需灵活变通。</p>
<h3 id="树的遍历">树的遍历</h3>
<p>参考<a href="https://leetcode-cn.com/problems/binary-tree-preorder-traversal/solution/er-cha-shu-de-qian-xu-bian-li-by-leetcode/">Leetcode官解</a>的一张图：<br>
<img src="https://FuNian788.github.io/post-images/binary_tree/binary-tree-1.png" alt="遍历方式示意图" loading="lazy"><br>
不难得出：前、中、后序遍历的核心思想均是深度优先搜索，基于栈实现；层序遍历的核心思想是广度优先搜索，基于队列实现。<br>
以下给出树的前、中、后序遍历的递归/迭代写法。注意，所有遍历方法都需谨慎考虑空节点情形。</p>
<p><strong>前序遍历(preorder traversal)</strong>：对根节点的处理是在处理子节点之前进行的。以二叉树为例，先遍历根节点，再遍历左节点、右节点。<br>
类比实例：遍历目录。其背后的逻辑可以用代码来解释：</p>
<pre><code class="language-Python">def func(Root Node):
    print(Root Node)
    for each Child Node of Root Node:
        func(Child Node)
</code></pre>
<p>递归：从左至右遍历所有节点。</p>
<pre><code class="language-Python">def dfs(root):
    if root:
        print(root) # other op
        dfs(root.left)
        dfs(root.right) 
</code></pre>
<p>在此过程中需注意边界条件(叶节点/空节点)的判断和扩展节点的顺序(从左到右)。<br>
迭代：<strong>dfs是后入先出结构，故采用栈实现</strong>。首先将初始节点压入栈，每个节点出栈时将其标记为已读并将其子节点<strong>由右至左</strong>压入栈，出栈过程即为输出过程。</p>
<pre><code class="language-Python">def dfs(root):
    stack = [root]
    while(stack):
        node = stack.pop()
        print(node) # other op
        if node.right: 
            stack.append(node.right)
        if node.left: 
            stack.append(node.left)
</code></pre>
<p>还有一种近似于模板的写法，其思路为：先将根节点和所有的左孩子入栈并输出，每次当前节点为空时，弹出栈顶元素并访问其右孩子，循环操作。</p>
<pre><code class="language-Python">def dfs(root):
    cur = root
    stack = []
    while cur or stack:
        if cur:
            print(cur) # other op
            stack.append(cur)
            cur = cur.left
        else:
            tmp = stack.pop()
            cur = tmp.right
</code></pre>
<hr>
<p><strong>中序遍历(inorder traversal)</strong>：对根节点的处理是在处理子节点之间进行的。以二叉树为例，先遍历左节点，再遍历根节点，最后遍历右节点。<br>
类比实例：表达式树的读取。可以尝试将<code>ab+cde+**</code>的输入转换为<code>(a+b) * (c*(d+e))</code>。<br>
递归：</p>
<pre><code class="language-Python">def dfs(root):
    if root:
        dfs(root.left)
        print(root) # other op
        dfs(root.right) 
</code></pre>
<p>迭代：参考上述模板，这次是在出栈时输出：</p>
<pre><code class="language-Python">def dfs(root):
    cur = root
    stack = []
    while cur or stack:
        if cur:
            stack.append(cur)
            cur = cur.left
        else:
            tmp = stack.pop()
            print(tmp) # other op
            cur = tmp.right
</code></pre>
<hr>
<p><strong>后序遍历(postorder traversal)</strong>：对根节点的处理是在处理子节点之后进行的。以二叉树为例，先遍历左节点、右节点，再遍历根节点。<br>
类比实例：统计目录内文件总容量。其背后的逻辑可以用代码来解释：</p>
<pre><code class="language-Python">def size(Root Node):
    for each Child Node of Root Node:
        total_size += size(Child Node)
    total_size += size(Root Node)
</code></pre>
<p>递归：</p>
<pre><code class="language-Python">def dfs(root):
    if root:
        dfs(root.left)
        dfs(root.right)
        print(root) # other op 
</code></pre>
<p>迭代：后序遍历的迭代方法较为复杂，一种方法是将前序遍历的根-左-右代码稍加调整，变成根-右-左形式，再倒序输出结果，此方法不够劲，此处不加赘述。此处介绍一种基于辅助数组记忆已遍历节点的方法：</p>
<pre><code class="language-Python">def bfs(root):
    stack = [(0, root)] # untraversed
    while stack:
        flag, node = stack.pop()
        if not node: 
            continue
        if flag:
            print(node)
        else:
            stack.append((1, node))
            stack.append((0, node.right))
            stack.append((0, node.left))
</code></pre>
<hr>
<p><strong>层序遍历(level-order traversal)</strong>：层序遍历与广度优先搜索方法类似，深度从小到大地逐层处理节点，采用<strong>队列</strong>进行实现。由于遍历时不存在明显的子结构，故放弃递归思路，用迭代法进行实现。<br>
迭代：迭代法的核心思路是将初始节点压入队列后，在出队列输出该节点的同时，<strong>从左到右</strong>遍历并将其子节点压入队列。</p>
<pre><code class="language-Python">def bfs(root):
    queen = [root]
    while queen:
        node = queen.pop(0)
        print(node) # other op
        if node.left:
            queen.append(node.left)
        if node.right:
            queen.append(node.right)
</code></pre>
<p>以上部分代码参考<a href="https://zhuanlan.zhihu.com/p/140909726">博客</a>，在此致谢。</p>
<h3 id="树的递归解法">树的递归解法</h3>
<p>以Leetcode104 二叉树的最大深度为例：</p>
<pre><code class="language-C++">    int maxDepth(TreeNode* root) {
        if (root == nullptr) 
            return 0;
        return max(maxDepth(root-&gt;left), maxDepth(root-&gt;right)) + 1;
    }
</code></pre>
<p>以Leetcode235 二叉搜索树的最近公共祖先为例：</p>
<pre><code class="language-C++">class Solution {
public:
    TreeNode* lowestCommonAncestor(TreeNode* root, TreeNode* p, TreeNode* q) {

        //recursive
        if ((root-&gt;val &gt; p-&gt;val) &amp;&amp; (root-&gt;val &gt; q-&gt;val))
            return lowestCommonAncestor(root-&gt;left, p, q);
        if ((root-&gt;val &lt; p-&gt;val) &amp;&amp; (root-&gt;val &lt; q-&gt;val))
            return lowestCommonAncestor(root-&gt;right, p, q);
        return root;

        //iteratively
        TreeNode* cur = root;
        while(true)
        {
            if((cur-&gt;val &gt; p-&gt;val)&amp;&amp;(cur-&gt;val &gt; q-&gt;val))
                cur = cur-&gt;left;
            else if((cur-&gt;val &lt; p-&gt;val)&amp;&amp;(cur-&gt;val &lt; q-&gt;val))
                cur = cur-&gt;right;
            else
                break;
        }
        return cur;
    }
};
</code></pre>
<!--
## 2. 二叉树祖先问题
## 3. 二叉树高度问题
## 4. 二叉树路径问题
## 5. 二叉树结构问题
## TODO
前序遍历：[莫里斯遍历](https://leetcode-cn.com/problems/binary-tree-preorder-traversal/solution/leetcodesuan-fa-xiu-lian-dong-hua-yan-shi-xbian-2/)
-->
<h3 id="树的基本知识">树的基本知识</h3>
<p><strong>二叉树</strong>：二叉树的平均深度为<span class="katex"><span class="katex-mathml"><math><semantics><mrow><mi>O</mi><mo>(</mo><msqrt><mi>n</mi></msqrt><mo>)</mo></mrow><annotation encoding="application/x-tex">O(\sqrt {n})</annotation></semantics></math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.05028em;vertical-align:-0.25em;"></span><span class="mord mathdefault" style="margin-right:0.02778em;">O</span><span class="mopen">(</span><span class="mord sqrt"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8002800000000001em;"><span class="svg-align" style="top:-3em;"><span class="pstrut" style="height:3em;"></span><span class="mord" style="padding-left:0.833em;"><span class="mord mathdefault">n</span></span></span><span style="top:-2.76028em;"><span class="pstrut" style="height:3em;"></span><span class="hide-tail" style="min-width:0.853em;height:1.08em;"><svg width='400em' height='1.08em' viewBox='0 0 400000 1080' preserveAspectRatio='xMinYMin slice'><path d='M95,702c-2.7,0,-7.17,-2.7,-13.5,-8c-5.8,-5.3,-9.5,
-10,-9.5,-14c0,-2,0.3,-3.3,1,-4c1.3,-2.7,23.83,-20.7,67.5,-54c44.2,-33.3,65.8,
-50.3,66.5,-51c1.3,-1.3,3,-2,5,-2c4.7,0,8.7,3.3,12,10s173,378,173,378c0.7,0,
35.3,-71,104,-213c68.7,-142,137.5,-285,206.5,-429c69,-144,104.5,-217.7,106.5,
-221c5.3,-9.3,12,-14,20,-14H400000v40H845.2724s-225.272,467,-225.272,467
s-235,486,-235,486c-2.7,4.7,-9,7,-19,7c-6,0,-10,-1,-12,-3s-194,-422,-194,-422
s-65,47,-65,47z M834 80H400000v40H845z'/></svg></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.23972em;"><span></span></span></span></span></span><span class="mclose">)</span></span></span></span>。<br>
<strong>二叉查找树(ADT)</strong>：对于二叉树中的任一节点X，X的左子树中所有的值均小于X的值，X的右子树中所有的值均大于X的值。易知二叉查找树的平均深度是O(logn)，增删查改的时间复杂度也为O(logn)。<br>
<strong>AVL树(Adelson-Velskii和Landis)</strong>：由于二叉查找树在多次插入和删除后可能不平衡，故产生了带有平衡条件的二叉查找树--AVL树。AVL树是每个节点的左子树和右子树的高度最多差1的二叉查找树。实践中，若单次插入使AVL树失衡，通过单旋转/双旋转操作来在O(logN)内平衡树。<br>
当然，二叉树还有很多分类，例如斜树、完全二叉树、满二叉树等。<br>
<strong>伸展树(splay tree)</strong>：二叉查找树和伸展树的单次最坏运行时间均为O(N)，但二叉查找树的连续M次最坏运行时间为O(MN)，伸展树的连续M次最坏运行时间为O(MlogN)，即每次操作的摊还代价是O(logN)。<br>
伸展树的基本想法是，当一个节点被访问后，它就要经过一系列AVL树的旋转放到根上。实际操作中，通过对之字形(zig-zag)和一字形(zig-zig)的不同展开，在将访问节点移动到根处的基础上，将访问路径上大部分节点的深度大致减少一半。<br>
<strong>B树</strong>：阶为M的B树有如下结构特性：<br>
1 树的根要么为一片树叶，要么其儿子数在2和M之间；<br>
2 除根外，所有非树叶节点的儿子数在<span class="katex"><span class="katex-mathml"><math><semantics><mrow><mo>⌈</mo><mi>M</mi><mi mathvariant="normal">/</mi><mn>2</mn><mo>⌉</mo></mrow><annotation encoding="application/x-tex">\lceil M/2 \rceil</annotation></semantics></math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1em;vertical-align:-0.25em;"></span><span class="mopen">⌈</span><span class="mord mathdefault" style="margin-right:0.10903em;">M</span><span class="mord">/</span><span class="mord">2</span><span class="mclose">⌉</span></span></span></span>和M之间；<br>
3 所有的树叶都在相同的深度上。<br>
所有数据都存储在树叶上，每个内部节点上皆有指向该节点各儿子的指针P1，P2...，Pm和分别代表在子树P2，P3...，Pm中发现的最小关键字的值k1，k2...，km-1。每次find操作时，都从根开始，依据查找的关键字和存储在节点上值来确定当前层在n个方向中的一个方向，直到在最底层找到对应数据。<br>
在插入时若当前树的平衡被破坏(阶为M的B树的某一个节点的儿子数大于M)，常通过分裂节点来解决，一些情况下也可以将数据迁移到临近的节点中。同理，删除节点时若破坏平衡，可通过与周围节点进行合并来解决。<br>
对于一次find操作，途径的节点个数为<span class="katex"><span class="katex-mathml"><math><semantics><mrow><mi>l</mi><mi>o</mi><msub><mi>g</mi><mi>M</mi></msub><mi>N</mi></mrow><annotation encoding="application/x-tex">log_{M}{N}</annotation></semantics></math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.8888799999999999em;vertical-align:-0.19444em;"></span><span class="mord mathdefault" style="margin-right:0.01968em;">l</span><span class="mord mathdefault">o</span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">g</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.32833099999999993em;"><span style="top:-2.5500000000000003em;margin-left:-0.03588em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.10903em;">M</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.10903em;">N</span></span></span></span></span>，在路径上的每个节点需要花费O(logM)来确认分支的方向，故find操作的时间复杂度为O(logN)。对于一次插入/删除操作，在某个节点处，最坏时需要O(M)来调整该节点所有信息，整体运算的最坏运行时间为<span class="katex"><span class="katex-mathml"><math><semantics><mrow><mi>O</mi><mo>(</mo><mi>M</mi><mi>l</mi><mi>o</mi><msub><mi>g</mi><mi>M</mi></msub><mi>N</mi><mo>)</mo></mrow><annotation encoding="application/x-tex">O(Mlog_{M}{N})</annotation></semantics></math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1em;vertical-align:-0.25em;"></span><span class="mord mathdefault" style="margin-right:0.02778em;">O</span><span class="mopen">(</span><span class="mord mathdefault" style="margin-right:0.10903em;">M</span><span class="mord mathdefault" style="margin-right:0.01968em;">l</span><span class="mord mathdefault">o</span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">g</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.32833099999999993em;"><span style="top:-2.5500000000000003em;margin-left:-0.03588em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.10903em;">M</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.10903em;">N</span></span><span class="mclose">)</span></span></span></span>。<br>
B树的最大深度为<span class="katex"><span class="katex-mathml"><math><semantics><mrow><mo>⌈</mo><mrow><mi>l</mi><mi>o</mi><msub><mi>g</mi><mrow><mo>⌈</mo><mi>M</mi><mi mathvariant="normal">/</mi><mn>2</mn><mo>⌉</mo></mrow></msub><mi>N</mi></mrow><mo>⌉</mo></mrow><annotation encoding="application/x-tex">\lceil{log_{\lceil M/2 \rceil}N}\rceil</annotation></semantics></math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1.1052em;vertical-align:-0.3551999999999999em;"></span><span class="mopen">⌈</span><span class="mord"><span class="mord mathdefault" style="margin-right:0.01968em;">l</span><span class="mord mathdefault">o</span><span class="mord"><span class="mord mathdefault" style="margin-right:0.03588em;">g</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.34480000000000005em;"><span style="top:-2.5198em;margin-left:-0.03588em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mopen mtight">⌈</span><span class="mord mathdefault mtight" style="margin-right:0.10903em;">M</span><span class="mord mtight">/</span><span class="mord mtight">2</span><span class="mclose mtight">⌉</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.3551999999999999em;"><span></span></span></span></span></span></span><span class="mord mathdefault" style="margin-right:0.10903em;">N</span></span><span class="mclose">⌉</span></span></span></span>。从运行时间考虑，M最优选择为3或4；从数据库应用考虑，为了使内部节点装满一个磁盘区块，常有<span class="katex"><span class="katex-mathml"><math><semantics><mrow><mn>32</mn><mo>≤</mo><mi>M</mi><mo>≤</mo><mn>256</mn></mrow><annotation encoding="application/x-tex">{32}\le{M}\le{256}</annotation></semantics></math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.78041em;vertical-align:-0.13597em;"></span><span class="mord"><span class="mord">3</span><span class="mord">2</span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">≤</span><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:0.8193em;vertical-align:-0.13597em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.10903em;">M</span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">≤</span><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:0.64444em;vertical-align:0em;"></span><span class="mord"><span class="mord">2</span><span class="mord">5</span><span class="mord">6</span></span></span></span></span>。</p>
<h2 id="4数组-链表">4.数组、链表</h2>
<h3 id="链表">链表</h3>
<p>数据结构的存储方式只有两种：数组(顺序存储)和链表(链式存储)。数据结构的核心目的是在不同的场景中，尽可能高效地遍历和访问(增删查改)。<br>
二者的特性对比可如下表所示：</p>
<table>
<thead>
<tr>
<th style="text-align:center">实现方法\操作</th>
<th style="text-align:center">Find_Kth</th>
<th style="text-align:center">Find_Key</th>
<th style="text-align:center">插入</th>
<th style="text-align:center">删除</th>
</tr>
</thead>
<tbody>
<tr>
<td style="text-align:center">数组</td>
<td style="text-align:center">常数时间</td>
<td style="text-align:center">线性时间</td>
<td style="text-align:center">线性时间</td>
<td style="text-align:center">线性时间</td>
</tr>
<tr>
<td style="text-align:center">链表</td>
<td style="text-align:center">线性时间</td>
<td style="text-align:center">线性时间</td>
<td style="text-align:center">线性时间</td>
<td style="text-align:center">线性时间</td>
</tr>
</tbody>
</table>
<p>链表在插入和删除元素时的时间主要花在遍历上。若已经拿到了要删除/插入节点及其前驱节点的信息，时间复杂度骤降到O(1)。链表还有其他形式，例如双链表、循环链表、多重表等。<br>
链表类题目的解法主要有<strong>快慢指针法</strong>。</p>
<h2 id="5-栈和队列">5. 栈和队列</h2>
<p>栈和队列都隶属于线性表结构。</p>
<h3 id="栈">栈</h3>
<p>栈是限制插入和删除只能在一个位置上进行的表，该位置是表的末端，叫做栈的顶端。栈可以理解为后进先出表。<br>
栈可以通过单链表或数组实现。在单链表实现中，表的前端作为栈顶，所有操作均花费常数时间，但该方法的缺点在于对malloc和free的开销昂贵的；更流行的方法是采用数组实现，唯一缺点是需要提前声明一个数组的大小，且错误检测(数组越界)可能影响栈的执行效率。</p>
<h3 id="队列">队列</h3>
<p>队列是在末端插入，在开头删除的表。<br>
在采用数组实现队列时，会维护位置变量Front和Rear。为防止队列溢出，只要位置变量达到数组的末端，它就又绕回开头。</p>
<p><strong>优先队列</strong><br>
优先队列是允许至少插入和删除最小者(找出、返回并删除优先队列的最小元素)的数据结构。二叉堆(堆，binary heap)可以在O(logN)内支持以上两种操作。<br>
二叉堆具有结构性和堆序性，每次对堆的操作均需要到堆的所有性质全被满足时方可停止。<br>
结构性：堆满足完全二叉树结构，一个堆数据结构由一个数组、一个代表最大值的整数和当前的堆大小组成。<br>
堆序性：在堆的任意非根节点中，节点的关键字大于其父辈节点的关键字。换而言之，根节点最小。<br>
在插入元素X时，在堆的下一个空闲位置创建一个空穴，若不满足堆结构，将空穴父节点的元素移入空穴，元素上移一层，迭代直至将X合理插入。这种方法称为上滤：新元素在堆中上滤直到找出正确的位置。</p>
<p><strong>散列</strong><br>
散列以常数平均时间进行插入、删除和查找，但不支持任何基于元素间排序的的操作。<br>
散列表数据结构是一个含有关键字的固定大小的数组，通常情况下，关键字是一个带有相关值的字符串(类比Python中的字典结构：关键字key和相关值value)。将每个关键字使用散列函数(Hash function)映射到0至TableSize-1范围中的一个数字，再在数组对应位置存放关键字对应的值。理想情况下，函数在运算简单的同时应尽可能在单元间均匀地分配关键字。<br>
当一个元素准备插入处已存在另一个元素时(二者散列值相同)，为消除冲突，常采用分离链接法和开放定址法。<br>
开放定址法的核心思路是在冲突发生时不断选择另外的单元，直到找到空的单元。此方法要求表稍大，装填因子应小于0.5。常用方法有线性探测法，平方探测法和双散列法。</p>
<h2 id="6贪心算法">6.贪心算法</h2>
<h3 id="套路总结-2">套路总结</h3>
<h3 id="解题思路-2">解题思路</h3>
<h3 id="leetcode实战-2">Leetcode实战</h3>
<ol>
<li>435/452基于贪心的区间调度(计算若干区间中最多有几个互不相交的区间)<br>
依右区间大小对所有区间升序排序，(1)选取当前的第一个区间x(即右区间最小，结束最早的空间)，(2)将所有与x相交的区间从集合内删除，重复步骤(1)(2)直到集合为空，遍历过的x区间并集即为题解。</li>
<li>1029两地调度(给定花费，求一半人去A地另一半人去B地的最小花费)<br>
对所有人以price_A - price_B降序排序，前一半人去B，后一半人去A。可以理解为某个人去B地就是给组织节省price_A - price_B的钱，需求节省钱的最大值。</li>
</ol>
<h2 id="7-位运算">7. 位运算</h2>
<p>先熟悉一下Python3的常用运算符</p>
<table>
<thead>
<tr>
<th style="text-align:center">运算符</th>
<th style="text-align:center">功能</th>
<th style="text-align:center">用例</th>
</tr>
</thead>
<tbody>
<tr>
<td style="text-align:center">/</td>
<td style="text-align:center">除法</td>
<td style="text-align:center">12 / 5 = 2.4</td>
</tr>
<tr>
<td style="text-align:center">//</td>
<td style="text-align:center">向下取整除</td>
<td style="text-align:center">5 // 2 = 2; -10 // 3 = -4</td>
</tr>
<tr>
<td style="text-align:center">%</td>
<td style="text-align:center">取模(返回除法余数)</td>
<td style="text-align:center">10 % 3 = 1; 10 % -3 = -2</td>
</tr>
<tr>
<td style="text-align:center">&amp;</td>
<td style="text-align:center">按位与</td>
<td style="text-align:center">60(0011 1100) &amp; 13(0000 1101) = 12(0000 1100)</td>
</tr>
<tr>
<td style="text-align:center">|</td>
<td style="text-align:center">按位或</td>
<td style="text-align:center">60(0011 1100) | 13(0000 1101) = 61(0011 1101)</td>
</tr>
<tr>
<td style="text-align:center">^</td>
<td style="text-align:center">按位异或</td>
<td style="text-align:center">60(0011 1100) ^ 13(0000 1101) = 49(0011 0001)</td>
</tr>
<tr>
<td style="text-align:center">~</td>
<td style="text-align:center">按位取反</td>
<td style="text-align:center">~60(0011 1100) = -61(1100 0011)</td>
</tr>
<tr>
<td style="text-align:center">&lt;&lt;</td>
<td style="text-align:center">左移若干位(高位丢弃，低位补0)</td>
<td style="text-align:center">60(0011 1100) &lt;&lt; 2 = 240(1111 0000)</td>
</tr>
<tr>
<td style="text-align:center">&gt;&gt;</td>
<td style="text-align:center">右移若干位(高位补0，低位丢弃)</td>
<td style="text-align:center">60(0011 1100) &gt;&gt; 2 = 15(0000 1111)</td>
</tr>
</tbody>
</table>
<h2 id="nleetcode刷题心得">n.Leetcode刷题心得</h2>
<h3 id="普遍规律">普遍规律</h3>
<ol>
<li>进行极端值的判断，eg判断输入数组为空、输入数组仅单元素时程序的合理性；同时需要注意算法的索引是否会超过边界。</li>
<li>具有子结构的题目请优先考虑递归。</li>
</ol>
<!--
TODO:数组，字符串，树，哈希，搜索方法，栈和队列，链表。
跳过很多东西：
第0章
p23 dp数组的遍历方向
p33 二分查找解法
p55 扔鸡蛋-71
-->]]></content>
    </entry>
    <entry>
        <title type="html"><![CDATA[时空动作定位(spatio-temporal action localization)论文小记]]></title>
        <id>https://FuNian788.github.io/post/spatio-temporal-action-localization/</id>
        <link href="https://FuNian788.github.io/post/spatio-temporal-action-localization/">
        </link>
        <updated>2021-02-08T06:24:44.000Z</updated>
        <content type="html"><![CDATA[<!--迫于老板突然改题，匆忙阅读时空动作检测相关论文🤒
-->
<p>发现了一个看起来很有趣的任务：时空动作定位(spatio-temporal action localization)，简要记录几篇论文👨‍💻<br>
<ul class="markdownIt-TOC">
<li>
<ul>
<li><a href="#%E4%BB%BB%E5%8A%A1%E5%AE%9A%E4%B9%89">任务定义</a></li>
<li><a href="#%E5%B8%B8%E7%94%A8%E6%95%B0%E6%8D%AE%E9%9B%86">常用数据集</a></li>
<li><a href="#%E5%BA%94%E7%94%A8%E5%9C%BA%E6%99%AF">应用场景</a></li>
<li><a href="#%E5%AE%9E%E7%8E%B0%E6%80%9D%E8%B7%AF">实现思路</a>
<ul>
<li><a href="#%E6%8C%87%E6%A0%87%E6%AF%94%E5%AF%B9">指标比对</a></li>
</ul>
</li>
<li><a href="#%E8%AE%BA%E6%96%87%E9%98%85%E8%AF%BB">论文阅读</a>
<ul>
<li><a href="#1-2020-eccvmoc-actions-as-moving-points">(1) (2020 ECCV)MOC: Actions as Moving Points</a></li>
<li><a href="#2-yowo-you-only-watch-once-a-unified-cnn-architecture-for-real-time-spatio-temporal-action-localization">(2) YOWO: you only watch once: A unified CNN architecture for real-time spatio-temporal action localization</a></li>
</ul>
</li>
</ul>
</li>
</ul>
</p>
<h2 id="任务定义">任务定义</h2>
<p>检测视频中所有动作的同时，在时序和空间位置上给出定位。</p>
<h2 id="常用数据集">常用数据集</h2>
<p>UCF101-24：由3207段<strong>未裁剪</strong>的视频组成，涵盖24类运动动作，常使用第一split的视频来衡量动作检测的性能；<br>
JHMDB：由928段<strong>裁剪好</strong>的视频组成，涵盖21类运动动作，常使用前三个split的均值来衡量动作检测的性能。数据集包含单帧层面的人体光流、人体mask、骨骼关节点、动作类别、图像性质(相机运动/可见人体部分/相机视角/人数/视频质量)等。<br>
AVA：每3秒片段仅有一个动作类别标签，主要致力于基于单关键帧的动作检测，且该数据集不适合验证动作管道的性能。<br>
实践中，常采用前两个数据集来衡量时空动作检测的指标。</p>
<h2 id="应用场景">应用场景</h2>
<p>视频监控、事件检测、人机交互、智能安防、异常检测、自动驾驶等</p>
<h2 id="实现思路">实现思路</h2>
<ol>
<li>使用动作检测器在每一帧进行独立检测，再组合各帧检测结果以得到动作管路；或对单一目标检测结果进行进行时序跟踪。这种方法既低效又难以利用时序上下文信息。</li>
<li>使用3D anchor和3D卷积，在视频片段层级执行动作分类和边界回归。此anchor-based方法是目前主流做法，eg人体检测(ResNet50-based Faster RCNN pretrained on ImageNet) +动作分类(I3D/S3D-G pretained on Kinetics + ROI pooling)，但会面临超参多、计算开销极大、动作时序/空间边界不够灵活、缺乏时空上下文连结信息等问题。</li>
<li>基于目标跟踪轨迹线的anchor free动作检测方法，例如MOC。</li>
<li>基于融合时序特征的类目标检测算法，例如YOWO。</li>
</ol>
<h3 id="指标比对">指标比对</h3>
<p>以UCF101-24和JHMDB数据集IoU=0.5作为基准指标，比较各方法的mAP如下：</p>
<table>
<thead>
<tr>
<th style="text-align:center">ID</th>
<th style="text-align:center">paper</th>
<th style="text-align:center">JHMDB Frame mAP</th>
<th style="text-align:center">JHMDB Video mAP</th>
<th style="text-align:center">UCF Frame mAP</th>
<th style="text-align:center">UCF Video mAP</th>
<th style="text-align:center">附注</th>
</tr>
</thead>
<tbody>
<tr>
<td style="text-align:center">1</td>
<td style="text-align:center">MOC</td>
<td style="text-align:center">70.8</td>
<td style="text-align:center">77.2</td>
<td style="text-align:center">78.0</td>
<td style="text-align:center">53.8</td>
<td style="text-align:center">JHMDB averaged three split</td>
</tr>
<tr>
<td style="text-align:center">2</td>
<td style="text-align:center">YOWO(LFB)</td>
<td style="text-align:center">75.7</td>
<td style="text-align:center">85.9</td>
<td style="text-align:center">87.3</td>
<td style="text-align:center">53.1</td>
<td style="text-align:center">JHMDB first split</td>
</tr>
<tr>
<td style="text-align:center">3</td>
<td style="text-align:center">TACNet</td>
<td style="text-align:center">65.5</td>
<td style="text-align:center">73.4</td>
<td style="text-align:center">72.1</td>
<td style="text-align:center">52.9</td>
<td style="text-align:center"></td>
</tr>
<tr>
<td style="text-align:center">n</td>
<td style="text-align:center">暴力3D sota</td>
<td style="text-align:center">77.9</td>
<td style="text-align:center">80.1</td>
<td style="text-align:center">76.3</td>
<td style="text-align:center">59.9</td>
<td style="text-align:center"></td>
</tr>
</tbody>
</table>
<h2 id="论文阅读">论文阅读</h2>
<h3 id="1-2020-eccvmoc-actions-as-moving-points">(1) <a href="https://arxiv.org/abs/2001.04608">(2020 ECCV)MOC: Actions as Moving Points</a></h3>
<ul>
<li>针对痛点：</li>
</ul>
<ol>
<li>基于tubelet的检测器很依赖启发式anchor设计，计算开销大，定位不够精准。</li>
</ol>
<ul>
<li>主要贡献：</li>
</ul>
<ol>
<li>通过将动作实例转换成对一个运动点的轨迹的分析与扩展，实现了高效而精准的检测框架MOC detector。</li>
</ol>
<ul>
<li>实现流程：<br>
MOC实现流程图如下所示：<br>
<img src="https://FuNian788.github.io/post-images/STAD/MOC_2.png" alt="MOC实现流程图" loading="lazy"><br>
（左侧feature提取部分，一次输入K张图片，R表示空间尺度下采样，默认为4，B为卷积后通道数，默认为64；右侧feature下的数字代表N、H、W、C，卷积层下的数字代表输入通道、输出通道、卷积核高度、卷积核宽度)。<br>
模型先将图片输入2D特征提取backbone DLA-34(来自CenterNet，在ImageNet/COCO上预训练)，然后将任务分成三个步骤：</li>
</ul>
<ol>
<li>Center分支：仅在关键帧处尝试找到动作实例中心点的可能位置，并进行动作分类；</li>
<li>Movement分支：通过估计当前帧运动实例中心所在位置与管路中心的offset，实现连续帧内动作中心点的运动估计(将连续帧动作实例中心的移动转化为单点的运行轨迹)；</li>
<li>Box分支：在每帧图像的回归中心处预测当前帧动作bbox的尺寸。<br>
以上三分支可以从短视频片段从提取动作管道，在连结方法的基础上可以实现从长的未裁剪视频进行动作检测。<br>
MOC三阶段示意图如下所示：<br>
<img src="https://FuNian788.github.io/post-images/STAD/MOC_1.png" alt="MOC三阶段示意图" loading="lazy"></li>
</ol>
<ul>
<li>实现细节：</li>
</ul>
<ol>
<li>Center分支：构建大小为W'*H'*C，数值为0至1的热力图，表征关键帧处第C类动作中心在各个空间位置发生的几率。具体地，使用高斯核函数扩张动作中心点GT所在范围；使用focal loss来解决正负样本分布不均衡的问题；筛选策略为：在每一动作类别内，若一点处取值大于等于其八近邻，则将其作为候选；对于一段短视频，仅选取得分最高的N=100个视频进行后续操作。</li>
<li>Movement分支：对K帧连续图像，将其作为整体输入3D卷积层，再输出W'*H'*(k*2)的特征图，等同于为每帧输出W'*H'*2的offset数值，表征每一个中心点处的移动方向；通过Center分支和Movement分支即可得到特定动作中心点的运动轨迹；仅GT所涵盖的中心点处的移动参与反向传播，具体损失函数使用L1。</li>
<li>Box分支：实验表明class-agnostic bbox的产生与时序信息无关，故仅采用当前帧的信息输入Box分支，每一帧输出W'*H'*2的数值，表征每一个中心点处的候选框大小；具体损失函数使用L1。</li>
<li>连结策略：对于任连续的K帧图片，选取动作通道(tubelets)并保留top10作为候选(candidate)；<br>
初始化：对于首帧，每个候选通道开启一个link，对于其他帧，每个与现有link无交集的候选开启一个新link。<br>
连结：一个候选需至少满足三个条件中的一个方可添加到现有link中：1候选并未被其他link选取，2link和候选的交集大于阈值，3候选具有最高的得分。在非首帧时，我们基于link得分的降序将当前帧的候选与现有link相连结(link的得分即使管道所有得分的均值)。<br>
结束：当一个link在连续K帧没被扩展时，将link结束。</li>
<li>补充：以上几分支的损失函数进行均衡；采用尺度变换、位置表换、图像转换等视频数据增强方法；可实现实时动作检测，通过用内存保存前K-1帧的特征来实现；连结策略中的一点是会舍弃过低置信度和过短的动作管道。</li>
</ol>
<ul>
<li>改进/Challenge/idea/Que：</li>
</ul>
<ol>
<li>Center分支：仅在核心帧进行动作实例的中心点检测及动作分类，是不是不够好？应该在每一帧都看才对呀</li>
<li>是不是不够anchor free，一次只能输入一部分frame</li>
<li>Movement分支为什么不是针对类别的？</li>
<li>Box分支为啥没类别？</li>
</ol>
<h3 id="2-yowo-you-only-watch-once-a-unified-cnn-architecture-for-real-time-spatio-temporal-action-localization">(2) <a href="https://arxiv.org/abs/1911.06644">YOWO: you only watch once: A unified CNN architecture for real-time spatio-temporal action localization</a></h3>
<ul>
<li>针对痛点：</li>
</ul>
<ol>
<li>two-stage时空检测方法(tubelet+classification)：依赖人为设计的tubelet，计算开销大，边界难调整；双阶段网络难以全局优化；先检测人框再对3D anchor进行动作分类的方法过分关注人所在处的信息，忽略了背景等语义交互信息；计算开销更大，时间更久，更耗空间。</li>
</ol>
<ul>
<li>主要贡献：</li>
</ul>
<ol>
<li>建立one-stage的实时时空动作检测框架YOWO，一分支通过2D卷积提取当前帧的空间信息，一分支通过3D卷积提取前些帧的时空信息，使用注意力机制和通道融合方法，在融合特征的基础上进行检测任务输出动作种类和人体bbox，在达到sota精度的同时有着较快的检测速度。</li>
</ol>
<ul>
<li>
<p>实现流程：<br>
YOWO实现流程图如下所示，核心部分为3D卷积分支，2D卷积分支，CFAM模块，边界回归模块。<br>
<img src="https://FuNian788.github.io/post-images/STAD/YOWO_1.png" alt="YOWO实现流程图" loading="lazy"></p>
</li>
<li>
<p>实现细节：</p>
</li>
</ul>
<ol>
<li>
<p>特征提取<br>
YOWO用于特征提取的2D/3D分支可使用任何形式的CNN替代，可在考量实时性和性能指标的基础上对其进行替换。<br>
具体地，3D卷积分支使用在Kinetics上预训练的3D-ResNext-101作为backbone，输入视频段<span class="katex"><span class="katex-mathml"><math><semantics><mrow><mi>N</mi><mo>∗</mo><mi>C</mi><mo>∗</mo><mi>H</mi><mo>∗</mo><mi>W</mi><mo separator="true">,</mo><mo>(</mo><mi>C</mi><mo>=</mo><mn>3</mn><mo>)</mo></mrow><annotation encoding="application/x-tex">N*C*H*W,(C=3)</annotation></semantics></math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.68333em;vertical-align:0em;"></span><span class="mord mathdefault" style="margin-right:0.10903em;">N</span><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mbin">∗</span><span class="mspace" style="margin-right:0.2222222222222222em;"></span></span><span class="base"><span class="strut" style="height:0.68333em;vertical-align:0em;"></span><span class="mord mathdefault" style="margin-right:0.07153em;">C</span><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mbin">∗</span><span class="mspace" style="margin-right:0.2222222222222222em;"></span></span><span class="base"><span class="strut" style="height:0.68333em;vertical-align:0em;"></span><span class="mord mathdefault" style="margin-right:0.08125em;">H</span><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mbin">∗</span><span class="mspace" style="margin-right:0.2222222222222222em;"></span></span><span class="base"><span class="strut" style="height:1em;vertical-align:-0.25em;"></span><span class="mord mathdefault" style="margin-right:0.13889em;">W</span><span class="mpunct">,</span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mopen">(</span><span class="mord mathdefault" style="margin-right:0.07153em;">C</span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">=</span><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:1em;vertical-align:-0.25em;"></span><span class="mord">3</span><span class="mclose">)</span></span></span></span>，选取网络最后一层卷积层输出的特征<span class="katex"><span class="katex-mathml"><math><semantics><mrow><msup><mi>N</mi><msup><mrow></mrow><mo mathvariant="normal">′</mo></msup></msup><mo>∗</mo><msup><mi>C</mi><msup><mrow></mrow><mo mathvariant="normal">′</mo></msup></msup><mo>∗</mo><msup><mi>H</mi><msup><mrow></mrow><mo mathvariant="normal">′</mo></msup></msup><mo>∗</mo><msup><mi>W</mi><msup><mrow></mrow><mo mathvariant="normal">′</mo></msup></msup><mo separator="true">,</mo><mo>(</mo><msup><mi>N</mi><mo mathvariant="normal">′</mo></msup><mo>=</mo><mn>1</mn><mo separator="true">,</mo><msup><mi>H</mi><mo mathvariant="normal">′</mo></msup><mo>=</mo><mfrac><mi>H</mi><mn>32</mn></mfrac><mo separator="true">,</mo><msup><mi>W</mi><mo mathvariant="normal">′</mo></msup><mo>=</mo><mfrac><mi>W</mi><mn>32</mn></mfrac><mo>)</mo></mrow><annotation encoding="application/x-tex">N^{&#x27;}*C^{&#x27;}*H^{&#x27;}*W^{&#x27;},(N&#x27;=1,H&#x27;=\frac{H}{32}, W&#x27;=\frac{W}{32})</annotation></semantics></math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.94248em;vertical-align:0em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.10903em;">N</span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.94248em;"><span style="top:-2.94248em;margin-right:0.05em;"><span class="pstrut" style="height:2.57948em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight"><span></span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.8278285714285715em;"><span style="top:-2.931em;margin-right:0.07142857142857144em;"><span class="pstrut" style="height:2.5em;"></span><span class="sizing reset-size3 size1 mtight"><span class="mord mtight"><span class="mord mtight">′</span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mbin">∗</span><span class="mspace" style="margin-right:0.2222222222222222em;"></span></span><span class="base"><span class="strut" style="height:0.94248em;vertical-align:0em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.07153em;">C</span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.94248em;"><span style="top:-2.94248em;margin-right:0.05em;"><span class="pstrut" style="height:2.57948em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight"><span></span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.8278285714285715em;"><span style="top:-2.931em;margin-right:0.07142857142857144em;"><span class="pstrut" style="height:2.5em;"></span><span class="sizing reset-size3 size1 mtight"><span class="mord mtight"><span class="mord mtight">′</span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mbin">∗</span><span class="mspace" style="margin-right:0.2222222222222222em;"></span></span><span class="base"><span class="strut" style="height:0.94248em;vertical-align:0em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.08125em;">H</span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.94248em;"><span style="top:-2.94248em;margin-right:0.05em;"><span class="pstrut" style="height:2.57948em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight"><span></span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.8278285714285715em;"><span style="top:-2.931em;margin-right:0.07142857142857144em;"><span class="pstrut" style="height:2.5em;"></span><span class="sizing reset-size3 size1 mtight"><span class="mord mtight"><span class="mord mtight">′</span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mbin">∗</span><span class="mspace" style="margin-right:0.2222222222222222em;"></span></span><span class="base"><span class="strut" style="height:1.19248em;vertical-align:-0.25em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.13889em;">W</span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.94248em;"><span style="top:-2.94248em;margin-right:0.05em;"><span class="pstrut" style="height:2.57948em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight"><span></span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.8278285714285715em;"><span style="top:-2.931em;margin-right:0.07142857142857144em;"><span class="pstrut" style="height:2.5em;"></span><span class="sizing reset-size3 size1 mtight"><span class="mord mtight"><span class="mord mtight">′</span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span><span class="mpunct">,</span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mopen">(</span><span class="mord"><span class="mord mathdefault" style="margin-right:0.10903em;">N</span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.751892em;"><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">′</span></span></span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">=</span><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:0.946332em;vertical-align:-0.19444em;"></span><span class="mord">1</span><span class="mpunct">,</span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.08125em;">H</span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.751892em;"><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">′</span></span></span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">=</span><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:1.217331em;vertical-align:-0.345em;"></span><span class="mord"><span class="mopen nulldelimiter"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.872331em;"><span style="top:-2.6550000000000002em;"><span class="pstrut" style="height:3em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">3</span><span class="mord mtight">2</span></span></span></span><span style="top:-3.23em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line" style="border-bottom-width:0.04em;"></span></span><span style="top:-3.394em;"><span class="pstrut" style="height:3em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.08125em;">H</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.345em;"><span></span></span></span></span></span><span class="mclose nulldelimiter"></span></span><span class="mpunct">,</span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.13889em;">W</span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.751892em;"><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">′</span></span></span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">=</span><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:1.217331em;vertical-align:-0.345em;"></span><span class="mord"><span class="mopen nulldelimiter"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.872331em;"><span style="top:-2.6550000000000002em;"><span class="pstrut" style="height:3em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">3</span><span class="mord mtight">2</span></span></span></span><span style="top:-3.23em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line" style="border-bottom-width:0.04em;"></span></span><span style="top:-3.394em;"><span class="pstrut" style="height:3em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.13889em;">W</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.345em;"><span></span></span></span></span></span><span class="mclose nulldelimiter"></span></span><span class="mclose">)</span></span></span></span>；<br>
2D卷积分支使用在PASCAL VOC上预训练的DarkNet-19作为backbone，输入图片<span class="katex"><span class="katex-mathml"><math><semantics><mrow><mi>C</mi><mo>∗</mo><mi>H</mi><mo>∗</mo><mi>W</mi><mo separator="true">,</mo><mo>(</mo><mi>C</mi><mo>=</mo><mn>3</mn><mo>)</mo></mrow><annotation encoding="application/x-tex">C*H*W,(C=3)</annotation></semantics></math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.68333em;vertical-align:0em;"></span><span class="mord mathdefault" style="margin-right:0.07153em;">C</span><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mbin">∗</span><span class="mspace" style="margin-right:0.2222222222222222em;"></span></span><span class="base"><span class="strut" style="height:0.68333em;vertical-align:0em;"></span><span class="mord mathdefault" style="margin-right:0.08125em;">H</span><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mbin">∗</span><span class="mspace" style="margin-right:0.2222222222222222em;"></span></span><span class="base"><span class="strut" style="height:1em;vertical-align:-0.25em;"></span><span class="mord mathdefault" style="margin-right:0.13889em;">W</span><span class="mpunct">,</span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mopen">(</span><span class="mord mathdefault" style="margin-right:0.07153em;">C</span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">=</span><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:1em;vertical-align:-0.25em;"></span><span class="mord">3</span><span class="mclose">)</span></span></span></span>，输入特征<span class="katex"><span class="katex-mathml"><math><semantics><mrow><msup><mi>C</mi><msup><mrow></mrow><mrow><mo mathvariant="normal">′</mo><mo mathvariant="normal">′</mo></mrow></msup></msup><mo>∗</mo><msup><mi>H</mi><msup><mrow></mrow><mo mathvariant="normal">′</mo></msup></msup><mo>∗</mo><msup><mi>W</mi><msup><mrow></mrow><mo mathvariant="normal">′</mo></msup></msup><mo separator="true">,</mo><mo>(</mo><msup><mi>H</mi><mo mathvariant="normal">′</mo></msup><mo>=</mo><mfrac><mi>H</mi><mn>32</mn></mfrac><mo separator="true">,</mo><msup><mi>W</mi><mo mathvariant="normal">′</mo></msup><mo>=</mo><mfrac><mi>W</mi><mn>32</mn></mfrac><mo>)</mo></mrow><annotation encoding="application/x-tex">C^{&#x27;&#x27;}*H^{&#x27;}*W^{&#x27;},(H&#x27;=\frac{H}{32}, W&#x27;=\frac{W}{32})</annotation></semantics></math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.94248em;vertical-align:0em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.07153em;">C</span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.94248em;"><span style="top:-2.94248em;margin-right:0.05em;"><span class="pstrut" style="height:2.57948em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight"><span></span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.8278285714285715em;"><span style="top:-2.931em;margin-right:0.07142857142857144em;"><span class="pstrut" style="height:2.5em;"></span><span class="sizing reset-size3 size1 mtight"><span class="mord mtight"><span class="mord mtight">′</span><span class="mord mtight">′</span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mbin">∗</span><span class="mspace" style="margin-right:0.2222222222222222em;"></span></span><span class="base"><span class="strut" style="height:0.94248em;vertical-align:0em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.08125em;">H</span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.94248em;"><span style="top:-2.94248em;margin-right:0.05em;"><span class="pstrut" style="height:2.57948em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight"><span></span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.8278285714285715em;"><span style="top:-2.931em;margin-right:0.07142857142857144em;"><span class="pstrut" style="height:2.5em;"></span><span class="sizing reset-size3 size1 mtight"><span class="mord mtight"><span class="mord mtight">′</span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mbin">∗</span><span class="mspace" style="margin-right:0.2222222222222222em;"></span></span><span class="base"><span class="strut" style="height:1.19248em;vertical-align:-0.25em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.13889em;">W</span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.94248em;"><span style="top:-2.94248em;margin-right:0.05em;"><span class="pstrut" style="height:2.57948em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight"><span></span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.8278285714285715em;"><span style="top:-2.931em;margin-right:0.07142857142857144em;"><span class="pstrut" style="height:2.5em;"></span><span class="sizing reset-size3 size1 mtight"><span class="mord mtight"><span class="mord mtight">′</span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span><span class="mpunct">,</span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mopen">(</span><span class="mord"><span class="mord mathdefault" style="margin-right:0.08125em;">H</span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.751892em;"><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">′</span></span></span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">=</span><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:1.217331em;vertical-align:-0.345em;"></span><span class="mord"><span class="mopen nulldelimiter"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.872331em;"><span style="top:-2.6550000000000002em;"><span class="pstrut" style="height:3em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">3</span><span class="mord mtight">2</span></span></span></span><span style="top:-3.23em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line" style="border-bottom-width:0.04em;"></span></span><span style="top:-3.394em;"><span class="pstrut" style="height:3em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.08125em;">H</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.345em;"><span></span></span></span></span></span><span class="mclose nulldelimiter"></span></span><span class="mpunct">,</span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.13889em;">W</span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.751892em;"><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">′</span></span></span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">=</span><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:1.217331em;vertical-align:-0.345em;"></span><span class="mord"><span class="mopen nulldelimiter"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.872331em;"><span style="top:-2.6550000000000002em;"><span class="pstrut" style="height:3em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">3</span><span class="mord mtight">2</span></span></span></span><span style="top:-3.23em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line" style="border-bottom-width:0.04em;"></span></span><span style="top:-3.394em;"><span class="pstrut" style="height:3em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.13889em;">W</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.345em;"><span></span></span></span></span></span><span class="mclose nulldelimiter"></span></span><span class="mclose">)</span></span></span></span>。<br>
两分支联合训练；使用StepLR策略；采用图像增强算法例如水平翻转、随机放缩、随机裁剪；使用阈值筛选bbox得分并通过NMS；鉴于数据集过小，在训练J-HMDB-21数据集时冻结了3D卷积的网络参数以加速收敛、避免过拟合。<br>
从实验结果分析，2D网络更擅长定位任务(localization)，3D网络更擅长分类任务。从activation map角度分析，2D网络关注图像内所有的人，3D网络关注正在进行动作的发生位置。</p>
</li>
<li>
<p>特征融合CFAM(channel fusion and attension mechansim)</p>
</li>
</ol>
<p>补充知识：n维欧式空间中任意k个向量之间两两的内积所组成的矩阵，称为这k个向量的格拉姆矩阵(Gram matrix)，Gram矩阵可反映出一组向量中各个向量之间的关系。</p>
<p class='katex-block'><span class="katex-display"><span class="katex"><span class="katex-mathml"><math><semantics><mrow><mi mathvariant="normal">Δ</mi><mrow><mo fence="true">(</mo><msub><mi>α</mi><mn>1</mn></msub><mo separator="true">,</mo><msub><mi>α</mi><mn>2</mn></msub><mo separator="true">,</mo><mo>…</mo><mo separator="true">,</mo><msub><mi>α</mi><mi>k</mi></msub><mo fence="true">)</mo></mrow><mo>=</mo><mrow><mo fence="true">(</mo><mtable><mtr><mtd><mstyle scriptlevel="0" displaystyle="false"><mrow><mo fence="true">(</mo><msub><mi>α</mi><mn>1</mn></msub><mo separator="true">,</mo><msub><mi>α</mi><mn>1</mn></msub><mo fence="true">)</mo></mrow></mstyle></mtd><mtd><mstyle scriptlevel="0" displaystyle="false"><mrow><mo fence="true">(</mo><msub><mi>α</mi><mn>1</mn></msub><mo separator="true">,</mo><msub><mi>α</mi><mn>2</mn></msub><mo fence="true">)</mo></mrow></mstyle></mtd><mtd><mstyle scriptlevel="0" displaystyle="false"><mo>…</mo></mstyle></mtd><mtd><mstyle scriptlevel="0" displaystyle="false"><mrow><mo fence="true">(</mo><msub><mi>α</mi><mn>1</mn></msub><mo separator="true">,</mo><msub><mi>α</mi><mi>k</mi></msub><mo fence="true">)</mo></mrow></mstyle></mtd></mtr><mtr><mtd><mstyle scriptlevel="0" displaystyle="false"><mrow><mo fence="true">(</mo><msub><mi>α</mi><mn>2</mn></msub><mo separator="true">,</mo><msub><mi>α</mi><mn>1</mn></msub><mo fence="true">)</mo></mrow></mstyle></mtd><mtd><mstyle scriptlevel="0" displaystyle="false"><mrow><mo fence="true">(</mo><msub><mi>α</mi><mn>2</mn></msub><mo separator="true">,</mo><msub><mi>α</mi><mn>2</mn></msub><mo fence="true">)</mo></mrow></mstyle></mtd><mtd><mstyle scriptlevel="0" displaystyle="false"><mo>…</mo></mstyle></mtd><mtd><mstyle scriptlevel="0" displaystyle="false"><mrow><mo fence="true">(</mo><msub><mi>α</mi><mn>2</mn></msub><mo separator="true">,</mo><msub><mi>α</mi><mi>k</mi></msub><mo fence="true">)</mo></mrow></mstyle></mtd></mtr><mtr><mtd><mstyle scriptlevel="0" displaystyle="false"><mo>…</mo></mstyle></mtd><mtd><mstyle scriptlevel="0" displaystyle="false"><mo>…</mo></mstyle></mtd><mtd><mstyle scriptlevel="0" displaystyle="false"><mo>…</mo></mstyle></mtd><mtd><mstyle scriptlevel="0" displaystyle="false"><mo>…</mo></mstyle></mtd></mtr><mtr><mtd><mstyle scriptlevel="0" displaystyle="false"><mrow><mo fence="true">(</mo><msub><mi>α</mi><mi>k</mi></msub><mo separator="true">,</mo><msub><mi>α</mi><mn>1</mn></msub><mo fence="true">)</mo></mrow></mstyle></mtd><mtd><mstyle scriptlevel="0" displaystyle="false"><mrow><mo fence="true">(</mo><msub><mi>α</mi><mi>k</mi></msub><mo separator="true">,</mo><msub><mi>α</mi><mn>2</mn></msub><mo fence="true">)</mo></mrow></mstyle></mtd><mtd><mstyle scriptlevel="0" displaystyle="false"><mo>…</mo></mstyle></mtd><mtd><mstyle scriptlevel="0" displaystyle="false"><mrow><mo fence="true">(</mo><msub><mi>α</mi><mi>k</mi></msub><mo separator="true">,</mo><msub><mi>α</mi><mi>k</mi></msub><mo fence="true">)</mo></mrow></mstyle></mtd></mtr></mtable><mo fence="true">)</mo></mrow></mrow><annotation encoding="application/x-tex">\Delta\left(\alpha_{1}, \alpha_{2}, \ldots, \alpha_{k}\right)=\left(\begin{array}{cccc}
\left(\alpha_{1}, \alpha_{1}\right) &amp; \left(\alpha_{1}, \alpha_{2}\right) &amp; \ldots &amp; \left(\alpha_{1}, \alpha_{k}\right) \\
\left(\alpha_{2}, \alpha_{1}\right) &amp; \left(\alpha_{2}, \alpha_{2}\right) &amp; \ldots &amp; \left(\alpha_{2}, \alpha_{k}\right) \\
\ldots &amp; \ldots &amp; \ldots &amp; \ldots \\
\left(\alpha_{k}, \alpha_{1}\right) &amp; \left(\alpha_{k}, \alpha_{2}\right) &amp; \ldots &amp; \left(\alpha_{k}, \alpha_{k}\right)
\end{array}\right)
</annotation></semantics></math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1em;vertical-align:-0.25em;"></span><span class="mord">Δ</span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="minner"><span class="mopen delimcenter" style="top:0em;">(</span><span class="mord"><span class="mord mathdefault" style="margin-right:0.0037em;">α</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.30110799999999993em;"><span style="top:-2.5500000000000003em;margin-left:-0.0037em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">1</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mpunct">,</span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.0037em;">α</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.30110799999999993em;"><span style="top:-2.5500000000000003em;margin-left:-0.0037em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">2</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mpunct">,</span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="minner">…</span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mpunct">,</span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.0037em;">α</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.33610799999999996em;"><span style="top:-2.5500000000000003em;margin-left:-0.0037em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mclose delimcenter" style="top:0em;">)</span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">=</span><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:4.80006em;vertical-align:-2.15003em;"></span><span class="minner"><span class="mopen"><span class="delimsizing mult"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:2.6500299999999997em;"><span style="top:-1.6499900000000003em;"><span class="pstrut" style="height:3.1550000000000002em;"></span><span class="delimsizinginner delim-size4"><span>⎝</span></span></span><span style="top:-2.805em;"><span class="pstrut" style="height:3.1550000000000002em;"></span><span class="delimsizinginner delim-size4"><span>⎜</span></span></span><span style="top:-3.4050100000000003em;"><span class="pstrut" style="height:3.1550000000000002em;"></span><span class="delimsizinginner delim-size4"><span>⎜</span></span></span><span style="top:-4.65003em;"><span class="pstrut" style="height:3.1550000000000002em;"></span><span class="delimsizinginner delim-size4"><span>⎛</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:2.15003em;"><span></span></span></span></span></span></span><span class="mord"><span class="mtable"><span class="arraycolsep" style="width:0.5em;"></span><span class="col-align-c"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:2.6500000000000004em;"><span style="top:-4.8100000000000005em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="minner"><span class="mopen delimcenter" style="top:0em;">(</span><span class="mord"><span class="mord mathdefault" style="margin-right:0.0037em;">α</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.30110799999999993em;"><span style="top:-2.5500000000000003em;margin-left:-0.0037em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">1</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mpunct">,</span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.0037em;">α</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.30110799999999993em;"><span style="top:-2.5500000000000003em;margin-left:-0.0037em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">1</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mclose delimcenter" style="top:0em;">)</span></span></span></span><span style="top:-3.61em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="minner"><span class="mopen delimcenter" style="top:0em;">(</span><span class="mord"><span class="mord mathdefault" style="margin-right:0.0037em;">α</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.30110799999999993em;"><span style="top:-2.5500000000000003em;margin-left:-0.0037em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">2</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mpunct">,</span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.0037em;">α</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.30110799999999993em;"><span style="top:-2.5500000000000003em;margin-left:-0.0037em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">1</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mclose delimcenter" style="top:0em;">)</span></span></span></span><span style="top:-2.4099999999999997em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="minner">…</span></span></span><span style="top:-1.2099999999999997em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="minner"><span class="mopen delimcenter" style="top:0em;">(</span><span class="mord"><span class="mord mathdefault" style="margin-right:0.0037em;">α</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.33610799999999996em;"><span style="top:-2.5500000000000003em;margin-left:-0.0037em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mpunct">,</span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.0037em;">α</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.30110799999999993em;"><span style="top:-2.5500000000000003em;margin-left:-0.0037em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">1</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mclose delimcenter" style="top:0em;">)</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:2.1500000000000004em;"><span></span></span></span></span></span><span class="arraycolsep" style="width:0.5em;"></span><span class="arraycolsep" style="width:0.5em;"></span><span class="col-align-c"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:2.6500000000000004em;"><span style="top:-4.8100000000000005em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="minner"><span class="mopen delimcenter" style="top:0em;">(</span><span class="mord"><span class="mord mathdefault" style="margin-right:0.0037em;">α</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.30110799999999993em;"><span style="top:-2.5500000000000003em;margin-left:-0.0037em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">1</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mpunct">,</span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.0037em;">α</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.30110799999999993em;"><span style="top:-2.5500000000000003em;margin-left:-0.0037em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">2</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mclose delimcenter" style="top:0em;">)</span></span></span></span><span style="top:-3.61em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="minner"><span class="mopen delimcenter" style="top:0em;">(</span><span class="mord"><span class="mord mathdefault" style="margin-right:0.0037em;">α</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.30110799999999993em;"><span style="top:-2.5500000000000003em;margin-left:-0.0037em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">2</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mpunct">,</span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.0037em;">α</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.30110799999999993em;"><span style="top:-2.5500000000000003em;margin-left:-0.0037em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">2</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mclose delimcenter" style="top:0em;">)</span></span></span></span><span style="top:-2.4099999999999997em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="minner">…</span></span></span><span style="top:-1.2099999999999997em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="minner"><span class="mopen delimcenter" style="top:0em;">(</span><span class="mord"><span class="mord mathdefault" style="margin-right:0.0037em;">α</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.33610799999999996em;"><span style="top:-2.5500000000000003em;margin-left:-0.0037em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mpunct">,</span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.0037em;">α</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.30110799999999993em;"><span style="top:-2.5500000000000003em;margin-left:-0.0037em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">2</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mclose delimcenter" style="top:0em;">)</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:2.1500000000000004em;"><span></span></span></span></span></span><span class="arraycolsep" style="width:0.5em;"></span><span class="arraycolsep" style="width:0.5em;"></span><span class="col-align-c"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:2.6500000000000004em;"><span style="top:-4.8100000000000005em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="minner">…</span></span></span><span style="top:-3.61em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="minner">…</span></span></span><span style="top:-2.4099999999999997em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="minner">…</span></span></span><span style="top:-1.2099999999999997em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="minner">…</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:2.1500000000000004em;"><span></span></span></span></span></span><span class="arraycolsep" style="width:0.5em;"></span><span class="arraycolsep" style="width:0.5em;"></span><span class="col-align-c"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:2.6500000000000004em;"><span style="top:-4.8100000000000005em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="minner"><span class="mopen delimcenter" style="top:0em;">(</span><span class="mord"><span class="mord mathdefault" style="margin-right:0.0037em;">α</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.30110799999999993em;"><span style="top:-2.5500000000000003em;margin-left:-0.0037em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">1</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mpunct">,</span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.0037em;">α</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.33610799999999996em;"><span style="top:-2.5500000000000003em;margin-left:-0.0037em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mclose delimcenter" style="top:0em;">)</span></span></span></span><span style="top:-3.61em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="minner"><span class="mopen delimcenter" style="top:0em;">(</span><span class="mord"><span class="mord mathdefault" style="margin-right:0.0037em;">α</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.30110799999999993em;"><span style="top:-2.5500000000000003em;margin-left:-0.0037em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">2</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mpunct">,</span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.0037em;">α</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.33610799999999996em;"><span style="top:-2.5500000000000003em;margin-left:-0.0037em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mclose delimcenter" style="top:0em;">)</span></span></span></span><span style="top:-2.4099999999999997em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="minner">…</span></span></span><span style="top:-1.2099999999999997em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="minner"><span class="mopen delimcenter" style="top:0em;">(</span><span class="mord"><span class="mord mathdefault" style="margin-right:0.0037em;">α</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.33610799999999996em;"><span style="top:-2.5500000000000003em;margin-left:-0.0037em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mpunct">,</span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.0037em;">α</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.33610799999999996em;"><span style="top:-2.5500000000000003em;margin-left:-0.0037em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right:0.03148em;">k</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mclose delimcenter" style="top:0em;">)</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:2.1500000000000004em;"><span></span></span></span></span></span><span class="arraycolsep" style="width:0.5em;"></span></span></span><span class="mclose"><span class="delimsizing mult"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:2.6500299999999997em;"><span style="top:-1.6499900000000003em;"><span class="pstrut" style="height:3.1550000000000002em;"></span><span class="delimsizinginner delim-size4"><span>⎠</span></span></span><span style="top:-2.805em;"><span class="pstrut" style="height:3.1550000000000002em;"></span><span class="delimsizinginner delim-size4"><span>⎟</span></span></span><span style="top:-3.4050100000000003em;"><span class="pstrut" style="height:3.1550000000000002em;"></span><span class="delimsizinginner delim-size4"><span>⎟</span></span></span><span style="top:-4.65003em;"><span class="pstrut" style="height:3.1550000000000002em;"></span><span class="delimsizinginner delim-size4"><span>⎞</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:2.15003em;"><span></span></span></span></span></span></span></span></span></span></span></span></p>
<p>例如输入图像的特征维度为(C, H, W)，通过flatten可得到(C, H*W)形式的矩阵，对该矩阵做内积，即将其与转置得到的(H*W, C)型矩阵做矩阵乘法，即得到(C, C)形式的Gram矩阵(显然Gram矩阵是一个对称矩阵)。<br>
Gram矩阵可以看作特征之间的偏心协方差矩阵(未减去均值故偏心)。Gram矩阵第(i, j)个元素表示通道i特征和通道j特征的内积，故其可以代表i和j通道特征的相关程度，例如特征同时出现/此消彼长的程度等。<br>
Gram可应用于风格迁移中，例如以原图和风格图像feature map对应的Gram矩阵差异化最小为目标进行优化，最近也有了在分割任务中的应用。<br>
将2D分支和3D分支输出的特征沿通道叠加，流程如下图所示：<br>
<img src="https://FuNian788.github.io/post-images/STAD/YOWO_2.png" alt="CFAM特征融合" loading="lazy"><br>
特征C是由特征B的原始特征加上计算的通道权重得到的。将B至C的四条线分别认为是1~4步，则3、4步即为Gram矩阵计算过程，其中3输出(C, H*W)的矩阵，4输出(H*W, C)的矩阵，但随后进行softmax归一化操作以得到矩阵M(C, C)；M矩阵与2输出的(C, H*W)矩阵点乘，再reshape得到(C, H, W)的矩阵F，最终C矩阵为<span class="katex"><span class="katex-mathml"><math><semantics><mrow><mi>C</mi><mo>=</mo><mi>α</mi><mi>F</mi><mo>+</mo><mi>B</mi></mrow><annotation encoding="application/x-tex">C = \alpha F+B</annotation></semantics></math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.68333em;vertical-align:0em;"></span><span class="mord mathdefault" style="margin-right:0.07153em;">C</span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">=</span><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:0.76666em;vertical-align:-0.08333em;"></span><span class="mord mathdefault" style="margin-right:0.0037em;">α</span><span class="mord mathdefault" style="margin-right:0.13889em;">F</span><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mbin">+</span><span class="mspace" style="margin-right:0.2222222222222222em;"></span></span><span class="base"><span class="strut" style="height:0.68333em;vertical-align:0em;"></span><span class="mord mathdefault" style="margin-right:0.05017em;">B</span></span></span></span>，<span class="katex"><span class="katex-mathml"><math><semantics><mrow><mi>α</mi></mrow><annotation encoding="application/x-tex">\alpha</annotation></semantics></math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.43056em;vertical-align:0em;"></span><span class="mord mathdefault" style="margin-right:0.0037em;">α</span></span></span></span>为从0开始学习的参数。<br>
注意，前后的两层卷积层可以对2D分支、3D分支这样来自不同backbone，可能有分布差异的特征进行融合。CFAM的性能提升是显著的，但如果没有这四层卷积层，性能只有小幅提升。</p>
<ol start="3">
<li>bbox连结策略(linking strategy)<br>
采用通用连结策略：</li>
</ol>
<p class='katex-block'><span class="katex-display"><span class="katex"><span class="katex-mathml"><math><semantics><mrow><msub><mi>s</mi><mi>c</mi></msub><mrow><mo fence="true">(</mo><msub><mi>R</mi><mi>t</mi></msub><mo separator="true">,</mo><msub><mi>R</mi><mrow><mi>t</mi><mo>+</mo><mn>1</mn></mrow></msub><mo fence="true">)</mo></mrow><mo>=</mo><mi>ψ</mi><mo>(</mo><mi>o</mi><mi>v</mi><mo>)</mo><mo>⋅</mo><mrow><mo fence="true">[</mo><msub><mi>s</mi><mi>c</mi></msub><mrow><mo fence="true">(</mo><msub><mi>R</mi><mi>t</mi></msub><mo fence="true">)</mo></mrow><mo>+</mo><msub><mi>s</mi><mi>c</mi></msub><mrow><mo fence="true">(</mo><msub><mi>R</mi><mrow><mi>t</mi><mo>+</mo><mn>1</mn></mrow></msub><mo fence="true">)</mo></mrow></mrow><mo>+</mo><mi>α</mi><mo>⋅</mo><msub><mi>s</mi><mi>c</mi></msub><mrow><mo fence="true">(</mo><msub><mi>R</mi><mi>t</mi></msub><mo fence="true">)</mo></mrow><mo>⋅</mo><msub><mi>s</mi><mi>c</mi></msub><mrow><mo fence="true">(</mo><msub><mi>R</mi><mrow><mi>t</mi><mo>+</mo><mn>1</mn></mrow></msub><mo fence="true">)</mo></mrow><mrow><mo>+</mo><mi>β</mi><mo>⋅</mo><mi>o</mi><mi>v</mi><mrow><mo fence="true">(</mo><msub><mi>R</mi><mi>t</mi></msub><mo separator="true">,</mo><msub><mi>R</mi><mrow><mi>t</mi><mo>+</mo><mn>1</mn></mrow></msub><mo fence="true">)</mo></mrow><mo fence="true">]</mo></mrow></mrow><annotation encoding="application/x-tex">s_{c}\left(R_{t}, R_{t+1}\right)= \psi(o v) \cdot\left[s_{c}\left(R_{t}\right)+s_{c}\left(R_{t+1}\right)\right.
+\alpha \cdot s_{c}\left(R_{t}\right) \cdot s_{c}\left(R_{t+1}\right) 
\left.+\beta \cdot o v\left(R_{t}, R_{t+1}\right)\right]
</annotation></semantics></math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1em;vertical-align:-0.25em;"></span><span class="mord"><span class="mord mathdefault">s</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.151392em;"><span style="top:-2.5500000000000003em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">c</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="minner"><span class="mopen delimcenter" style="top:0em;">(</span><span class="mord"><span class="mord mathdefault" style="margin-right:0.00773em;">R</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.2805559999999999em;"><span style="top:-2.5500000000000003em;margin-left:-0.00773em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">t</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mpunct">,</span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.00773em;">R</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.301108em;"><span style="top:-2.5500000000000003em;margin-left:-0.00773em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">t</span><span class="mbin mtight">+</span><span class="mord mtight">1</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.208331em;"><span></span></span></span></span></span></span><span class="mclose delimcenter" style="top:0em;">)</span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">=</span><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:1em;vertical-align:-0.25em;"></span><span class="mord mathdefault" style="margin-right:0.03588em;">ψ</span><span class="mopen">(</span><span class="mord mathdefault">o</span><span class="mord mathdefault" style="margin-right:0.03588em;">v</span><span class="mclose">)</span><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mbin">⋅</span><span class="mspace" style="margin-right:0.2222222222222222em;"></span></span><span class="base"><span class="strut" style="height:1em;vertical-align:-0.25em;"></span><span class="minner"><span class="mopen delimcenter" style="top:0em;">[</span><span class="mord"><span class="mord mathdefault">s</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.151392em;"><span style="top:-2.5500000000000003em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">c</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="minner"><span class="mopen delimcenter" style="top:0em;">(</span><span class="mord"><span class="mord mathdefault" style="margin-right:0.00773em;">R</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.2805559999999999em;"><span style="top:-2.5500000000000003em;margin-left:-0.00773em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">t</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mclose delimcenter" style="top:0em;">)</span></span><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mbin">+</span><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mord"><span class="mord mathdefault">s</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.151392em;"><span style="top:-2.5500000000000003em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">c</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="minner"><span class="mopen delimcenter" style="top:0em;">(</span><span class="mord"><span class="mord mathdefault" style="margin-right:0.00773em;">R</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.301108em;"><span style="top:-2.5500000000000003em;margin-left:-0.00773em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">t</span><span class="mbin mtight">+</span><span class="mord mtight">1</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.208331em;"><span></span></span></span></span></span></span><span class="mclose delimcenter" style="top:0em;">)</span></span><span class="mclose nulldelimiter"></span></span><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mbin">+</span><span class="mspace" style="margin-right:0.2222222222222222em;"></span></span><span class="base"><span class="strut" style="height:0.44445em;vertical-align:0em;"></span><span class="mord mathdefault" style="margin-right:0.0037em;">α</span><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mbin">⋅</span><span class="mspace" style="margin-right:0.2222222222222222em;"></span></span><span class="base"><span class="strut" style="height:1em;vertical-align:-0.25em;"></span><span class="mord"><span class="mord mathdefault">s</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.151392em;"><span style="top:-2.5500000000000003em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">c</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="minner"><span class="mopen delimcenter" style="top:0em;">(</span><span class="mord"><span class="mord mathdefault" style="margin-right:0.00773em;">R</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.2805559999999999em;"><span style="top:-2.5500000000000003em;margin-left:-0.00773em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">t</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mclose delimcenter" style="top:0em;">)</span></span><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mbin">⋅</span><span class="mspace" style="margin-right:0.2222222222222222em;"></span></span><span class="base"><span class="strut" style="height:1em;vertical-align:-0.25em;"></span><span class="mord"><span class="mord mathdefault">s</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.151392em;"><span style="top:-2.5500000000000003em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">c</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="minner"><span class="mopen delimcenter" style="top:0em;">(</span><span class="mord"><span class="mord mathdefault" style="margin-right:0.00773em;">R</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.301108em;"><span style="top:-2.5500000000000003em;margin-left:-0.00773em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">t</span><span class="mbin mtight">+</span><span class="mord mtight">1</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.208331em;"><span></span></span></span></span></span></span><span class="mclose delimcenter" style="top:0em;">)</span></span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="minner"><span class="mopen nulldelimiter"></span><span class="mord">+</span><span class="mord mathdefault" style="margin-right:0.05278em;">β</span><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mbin">⋅</span><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mord mathdefault">o</span><span class="mord mathdefault" style="margin-right:0.03588em;">v</span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="minner"><span class="mopen delimcenter" style="top:0em;">(</span><span class="mord"><span class="mord mathdefault" style="margin-right:0.00773em;">R</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.2805559999999999em;"><span style="top:-2.5500000000000003em;margin-left:-0.00773em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">t</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mpunct">,</span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.00773em;">R</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.301108em;"><span style="top:-2.5500000000000003em;margin-left:-0.00773em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">t</span><span class="mbin mtight">+</span><span class="mord mtight">1</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.208331em;"><span></span></span></span></span></span></span><span class="mclose delimcenter" style="top:0em;">)</span></span><span class="mclose delimcenter" style="top:0em;">]</span></span></span></span></span></span></p>
<p>其中<span class="katex"><span class="katex-mathml"><math><semantics><mrow><msub><mi>R</mi><mi>t</mi></msub></mrow><annotation encoding="application/x-tex">R_{t}</annotation></semantics></math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.83333em;vertical-align:-0.15em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.00773em;">R</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.2805559999999999em;"><span style="top:-2.5500000000000003em;margin-left:-0.00773em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">t</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span></span></span></span>代表t时刻检测区域；<span class="katex"><span class="katex-mathml"><math><semantics><mrow><msub><mi>R</mi><mrow><mi>t</mi><mo>+</mo><mn>1</mn></mrow></msub></mrow><annotation encoding="application/x-tex">R_{t+1}</annotation></semantics></math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.891661em;vertical-align:-0.208331em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.00773em;">R</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.301108em;"><span style="top:-2.5500000000000003em;margin-left:-0.00773em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">t</span><span class="mbin mtight">+</span><span class="mord mtight">1</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.208331em;"><span></span></span></span></span></span></span></span></span></span>代表t+1时刻检测区域；<span class="katex"><span class="katex-mathml"><math><semantics><mrow><mi>o</mi><mi>v</mi></mrow><annotation encoding="application/x-tex">o v</annotation></semantics></math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.43056em;vertical-align:0em;"></span><span class="mord mathdefault">o</span><span class="mord mathdefault" style="margin-right:0.03588em;">v</span></span></span></span>代表两个区域的IoU值；<span class="katex"><span class="katex-mathml"><math><semantics><mrow><mi>ψ</mi><mo>(</mo><mi>o</mi><mi>v</mi><mo>)</mo></mrow><annotation encoding="application/x-tex">\psi(o v)</annotation></semantics></math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1em;vertical-align:-0.25em;"></span><span class="mord mathdefault" style="margin-right:0.03588em;">ψ</span><span class="mopen">(</span><span class="mord mathdefault">o</span><span class="mord mathdefault" style="margin-right:0.03588em;">v</span><span class="mclose">)</span></span></span></span>为单值函数，<span class="katex"><span class="katex-mathml"><math><semantics><mrow><mi>o</mi><mi>v</mi></mrow><annotation encoding="application/x-tex">o v</annotation></semantics></math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.43056em;vertical-align:0em;"></span><span class="mord mathdefault">o</span><span class="mord mathdefault" style="margin-right:0.03588em;">v</span></span></span></span>为0时为0，其余相交时刻为1；<span class="katex"><span class="katex-mathml"><math><semantics><mrow><msub><mi>s</mi><mi>c</mi></msub></mrow><annotation encoding="application/x-tex">s_{c}</annotation></semantics></math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.58056em;vertical-align:-0.15em;"></span><span class="mord"><span class="mord mathdefault">s</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.151392em;"><span style="top:-2.5500000000000003em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">c</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span></span></span></span>代表c类别动作的得分。<br>
在得到所有两两图像的连结得分后，使用Viterbi算法寻找最优路径以得到动作管道tubelet。</p>
<ol start="4">
<li>
<p>长时特征存储(Long-Term Feature Bank)<br>
YOWO仅输入当前时刻之前的短时频段(8/16帧)以保证实时性，但也可利用较长的前后视频特征以提高性能。在3D分支处，LFB方法使用以当前帧为中心的8个特征平均后的结果作为CFAM模块的输入(每个特征是由8帧图像得到的，相当于共利用了前后共64帧的信息)。该方法在损伤实时性的同时却显著提高了效果。</p>
</li>
<li>
<p>3D网络输入视频帧数及降采样频率<br>
<img src="https://FuNian788.github.io/post-images/STAD/YOWO_3.png" alt="降采样" loading="lazy"><br>
如图，作者做了详细的实验，eg frame-8 &amp; d-3代表从24帧中采样8帧。16帧效果较好因为其包括了更多的时序信息，降采样频率较大效果不好是因为可能没有很好地捕获动作模式，且过长的序列可能破坏时序结构(eg对于较短的动作而言，较长的序列可能包含许多不相干的信息)。</p>
</li>
<li>
<p>bbox回归<br>
沿袭YOLO的结构，在<span class="katex"><span class="katex-mathml"><math><semantics><mrow><msup><mi>H</mi><msup><mrow></mrow><mo mathvariant="normal">′</mo></msup></msup><mo>∗</mo><msup><mi>W</mi><msup><mrow></mrow><mo mathvariant="normal">′</mo></msup></msup></mrow><annotation encoding="application/x-tex">H^{&#x27;}*W^{&#x27;}</annotation></semantics></math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:0.94248em;vertical-align:0em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.08125em;">H</span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.94248em;"><span style="top:-2.94248em;margin-right:0.05em;"><span class="pstrut" style="height:2.57948em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight"><span></span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.8278285714285715em;"><span style="top:-2.931em;margin-right:0.07142857142857144em;"><span class="pstrut" style="height:2.5em;"></span><span class="sizing reset-size3 size1 mtight"><span class="mord mtight"><span class="mord mtight">′</span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mbin">∗</span><span class="mspace" style="margin-right:0.2222222222222222em;"></span></span><span class="base"><span class="strut" style="height:0.94248em;vertical-align:0em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.13889em;">W</span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.94248em;"><span style="top:-2.94248em;margin-right:0.05em;"><span class="pstrut" style="height:2.57948em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight"><span></span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.8278285714285715em;"><span style="top:-2.931em;margin-right:0.07142857142857144em;"><span class="pstrut" style="height:2.5em;"></span><span class="sizing reset-size3 size1 mtight"><span class="mord mtight"><span class="mord mtight">′</span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span>的每个grid处，设计5个先验框，输出<span class="katex"><span class="katex-mathml"><math><semantics><mrow><mo>(</mo><mn>5</mn><mo>+</mo><mi>n</mi><mi>u</mi><msub><mi>m</mi><mi>c</mi></msub><mi>l</mi><mi>a</mi><mi>s</mi><mi>s</mi><mo>)</mo><mo>∗</mo><msup><mi>H</mi><msup><mrow></mrow><mo mathvariant="normal">′</mo></msup></msup><mo>∗</mo><msup><mi>W</mi><msup><mrow></mrow><mo mathvariant="normal">′</mo></msup></msup></mrow><annotation encoding="application/x-tex">(5+num_class)*H^{&#x27;}*W^{&#x27;}</annotation></semantics></math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1em;vertical-align:-0.25em;"></span><span class="mopen">(</span><span class="mord">5</span><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mbin">+</span><span class="mspace" style="margin-right:0.2222222222222222em;"></span></span><span class="base"><span class="strut" style="height:1em;vertical-align:-0.25em;"></span><span class="mord mathdefault">n</span><span class="mord mathdefault">u</span><span class="mord"><span class="mord mathdefault">m</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.151392em;"><span style="top:-2.5500000000000003em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">c</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mord mathdefault" style="margin-right:0.01968em;">l</span><span class="mord mathdefault">a</span><span class="mord mathdefault">s</span><span class="mord mathdefault">s</span><span class="mclose">)</span><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mbin">∗</span><span class="mspace" style="margin-right:0.2222222222222222em;"></span></span><span class="base"><span class="strut" style="height:0.94248em;vertical-align:0em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.08125em;">H</span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.94248em;"><span style="top:-2.94248em;margin-right:0.05em;"><span class="pstrut" style="height:2.57948em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight"><span></span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.8278285714285715em;"><span style="top:-2.931em;margin-right:0.07142857142857144em;"><span class="pstrut" style="height:2.5em;"></span><span class="sizing reset-size3 size1 mtight"><span class="mord mtight"><span class="mord mtight">′</span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mbin">∗</span><span class="mspace" style="margin-right:0.2222222222222222em;"></span></span><span class="base"><span class="strut" style="height:0.94248em;vertical-align:0em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right:0.13889em;">W</span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.94248em;"><span style="top:-2.94248em;margin-right:0.05em;"><span class="pstrut" style="height:2.57948em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight"><span></span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.8278285714285715em;"><span style="top:-2.931em;margin-right:0.07142857142857144em;"><span class="pstrut" style="height:2.5em;"></span><span class="sizing reset-size3 size1 mtight"><span class="mord mtight"><span class="mord mtight">′</span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span>，其中5代表xywh的offset和confidence score。<br>
具体地，使用多尺度训练，测试时将图片压缩至224*224；使用SGD+momentum+weight decay济宁训练；使用smooth L1损失函数以定位(对于坏点较L2更不敏感)；使用focal loss以分类。</p>
</li>
</ol>
<ul>
<li>改进/Challenge/idea/Que：</li>
</ul>
<ol>
<li>光流去哪里了</li>
<li>时序因果卷积可以加载哪里</li>
<li>作者认为，YOWO获取了过多的前置信息以至于有时会在动作开始前便给出高置信度，flase positive，这个是不是可以和我的时序方法综合一下，例如我输出score结果来辅助一下。<br>
同时作者认为，YOWO需要很多前置信息，以至于动作刚开始时容易判断错类别。<br>
我觉得这部分的工作可以很好地和proposal的score思路进行结合。·</li>
</ol>
]]></content>
    </entry>
    <entry>
        <title type="html"><![CDATA[一文详解Pytorch中view()和reshape()的细微区别]]></title>
        <id>https://FuNian788.github.io/post/pytorch-view-reshape/</id>
        <link href="https://FuNian788.github.io/post/pytorch-view-reshape/">
        </link>
        <updated>2020-12-22T11:39:12.000Z</updated>
        <content type="html"><![CDATA[<p><ul class="markdownIt-TOC">
<li>
<ul>
<li>
<ul>
<li><a href="#torchview">torch.view()</a></li>
<li><a href="#torchreshape">torch.reshape()</a></li>
<li><a href="#pytorch%E4%B8%8Etensorflow%E5%AF%B9%E6%AF%94">Pytorch与TensorFlow对比</a></li>
<li><a href="#%E6%80%BB%E7%BB%93">总结</a></li>
</ul>
</li>
</ul>
</li>
</ul>
</p>
<p>Pytorch中主要使用<code>view()</code>与<code>reshape()</code>来改变tensor的shape。</p>
<h3 id="torchview">torch.view()</h3>
<p><code>torch.view()</code>通过<strong>共享内存地址</strong>的方式使用原tensor的基础数据，通过改变数据读取方式来返回一个具有新shape的新tensor；只能使用<code>torch.Tensor.view()</code>方式调用；在使用时要求新shape与原shape的尺寸兼容，即函数只能应用于<strong>内存中连续存储</strong>的tensor，使用<code>transpose</code>、<code>permute</code>等函数改变tensor在内存内连续性后需使用<code>contiguous()</code>方法返回拷贝后的值再调用该函数。<br>
可参照下例辅助理解：</p>
<pre><code class="language-Python">import torch

a = torch.arange(24).view(1,2,3,4)
b = a.view(1,3,2,4)     # b.shape: 1 * 3 * 2 * 4  
c = a.transpose(1,2)    # c.shape: 1 * 3 * 2 * 4
# d = c.view(2, 12)     # raise error because of the uncontinuous data.
d = c.contiguous().view(2, 12)
print(b)
'''
tensor([[[[ 0,  1,  2,  3],
          [ 4,  5,  6,  7]],

         [[ 8,  9, 10, 11],
          [12, 13, 14, 15]],

         [[16, 17, 18, 19],
          [20, 21, 22, 23]]]])
'''
print(c)
'''
tensor([[[[ 0,  1,  2,  3],
          [12, 13, 14, 15]],

         [[ 4,  5,  6,  7],
          [16, 17, 18, 19]],

         [[ 8,  9, 10, 11],
          [20, 21, 22, 23]]]])
'''
print(id(b) == id(c))           # False
print(id(b.data) == id(c.data)) # True

b[0, 0, :, :] = 100
print(a, b) # 'a' will also change its data.
</code></pre>
<h3 id="torchreshape">torch.reshape()</h3>
<p><code>torch.reshape()</code>通过拷贝并使用原tensor的基础数据(而<strong>非共享内存地址</strong>)以返回一个具有新shape的新tensor；可使用<code>torch.reshape()</code>或<code>torch.Tensor.reshape()</code>方法调用。此函数不依赖tensor在内存的连续性，当内存连续时，该函数与<code>torch.view()</code>函数等价，当内存不连续时，会自动复制后再改变形状，相当于<code>contiguous().view()</code>。此函数于Pytorch0.4时加入，解决了之前只有<code>view</code>函数时的部分遗留问题。<br>
可参照下例辅助理解：</p>
<pre><code class="language-Python">import torch
a = torch.zeros(3, 2)
b = a.reshape(6)
c = a.t().reshape(6)
a.fill_(1)
print(b)    # tensor([1., 1., 1., 1., 1., 1.])
print(c)    # tensor([0., 0., 0., 0., 0., 0.])
</code></pre>
<h3 id="pytorch与tensorflow对比">Pytorch与TensorFlow对比</h3>
<p>对Pytorch中view函数和reshape函数的执行方式深入分析：在此过程中内存中数据分布并不发生改变，仅仅是数据读取方式发生了改变，更像是开创了一个特定shape的数组后单纯地将内存中数据逐个填入。<br>
对比一下Pytorch和TensorFlow在更改tensor形状时的要求：假设我们有一个6*8大小的矩阵，希望将其转换成2*8*3的形状，TensorFlow会要求先将其拆成2*3*8再转成2*8*3；而Pytorch中可以直接转换而不报错，但这样的结果显然与我们想要的相去甚远，如果要正确转换格式，还是要先调换维度，再reshape/view。<br>
一言以蔽之，Pytorch中改变矩阵shape的门槛更低，但也正是因此，更容易出错，对coder提出了更高的要求。<br>
参照下例：</p>
<pre><code class="language-Python">import torch

a = torch.zeros(6,5)
for i in range(6):
    a[i,:] = i
print(a)
&quot;&quot;&quot;
tensor([[0., 0., 0., 0., 0.],
        [1., 1., 1., 1., 1.],
        [2., 2., 2., 2., 2.],
        [3., 3., 3., 3., 3.],
        [4., 4., 4., 4., 4.],
        [5., 5., 5., 5., 5.]])
&quot;&quot;&quot;

b = a.view(2,5,3)
c = a.reshape(2,5,3)
print(b, c)
&quot;&quot;&quot;
'b' is same as 'c', which is as below:
tensor([[[0., 0., 0.],
         [0., 0., 1.],
         [1., 1., 1.],
         [1., 2., 2.],
         [2., 2., 2.]],

        [[3., 3., 3.],
         [3., 3., 4.],
         [4., 4., 4.],
         [4., 5., 5.],
         [5., 5., 5.]]])
&quot;&quot;&quot;
d = a.reshape(2,3,5).transpose(1,2)
print(d)
&quot;&quot;&quot;
tensor([[[0., 1., 2.],
         [0., 1., 2.],
         [0., 1., 2.],
         [0., 1., 2.],
         [0., 1., 2.]],

        [[3., 4., 5.],
         [3., 4., 5.],
         [3., 4., 5.],
         [3., 4., 5.],
         [3., 4., 5.]]])
&quot;&quot;&quot;

</code></pre>
<h3 id="总结">总结</h3>
<p>如果需要新tensor，使用<code>copy()</code>；如果需要共享内存，使用<code>view()</code>；无脑<code>reshape()</code>不可取。</p>
]]></content>
    </entry>
    <entry>
        <title type="html"><![CDATA[macOS杂记]]></title>
        <id>https://FuNian788.github.io/post/macos/</id>
        <link href="https://FuNian788.github.io/post/macos/">
        </link>
        <updated>2020-09-17T08:29:16.000Z</updated>
        <content type="html"><![CDATA[<p><ul class="markdownIt-TOC">
<li>
<ul>
<li>
<ul>
<li><a href="#%E5%86%99%E5%85%A5ntfs%E7%A1%AC%E7%9B%98%E7%9A%84%E6%96%B9%E6%B3%95">写入NTFS硬盘的方法</a></li>
</ul>
</li>
</ul>
</li>
</ul>
</p>
<h3 id="写入ntfs硬盘的方法">写入NTFS硬盘的方法</h3>
<blockquote>
<p>感谢Luffy的<a href="https://zhuanlan.zhihu.com/p/82665550">博客</a>🚗</p>
</blockquote>
<p>Mac支持的硬盘格式是HFS+，能与Windows共用的格式是FAT32。但若硬盘在Windows下执行默认格式化(NTFS)后，Mac就只能读取其中的内容，不能写入。但其实这只是苹果和微软的版权纠纷，macOS本质上是支持NTFS读写的，只是需要一点小小的额外操作，具体解决方法记录如下：</p>
<ol>
<li>插入硬盘，在终端查看挂载方式</li>
</ol>
<pre><code class="language-Shell">mount | grep ntfs
# /dev/disk5s1 on /Volumes/Untitled (ntfs, local, nodev, nosuid, read-only, noowners)
</code></pre>
<p>其中/dev/disk5s1是设备的虚拟路径，/Volumes/Untitled是设备挂载后的实际访问路径，记住前者。</p>
<ol start="2">
<li>卸载硬盘</li>
</ol>
<p>手动卸载以read-only方式挂载的硬盘，以备后续重新挂载（不要看到卸载就慌张）</p>
<pre><code class="language-Shell">sudo umount /dev/disk5s1
</code></pre>
<ol start="3">
<li>新建挂载目录</li>
</ol>
<p>新建一个设备挂载的实际访问目录，这里以桌面上的HD文件夹为例</p>
<pre><code class="language-Shell">mkdir ~/Desktop/HD
</code></pre>
<ol start="4">
<li>以读写方式重新挂载分区</li>
</ol>
<pre><code class="language-Shell">sudo mount_ntfs -o rw, nobrowse /dev/disk5s1 ~/Desktop/HD
</code></pre>
<p>将设备虚拟路径以读写方式挂载在新建的目录下，现在即可通过桌面的HD文件夹正常访问硬盘分区。<br>
参数中的rw代表读写，nobrowse代表不在finder中显示。</p>
<ol start="5">
<li>拔出硬盘</li>
</ol>
<p>此时不能以正常方式推出硬盘，但我们可以以取消挂载的方式来实现安全推出。</p>
<pre><code class="language-Shell">sudo umount /dev/disk5s1 
</code></pre>
]]></content>
    </entry>
</feed>