精选目标检测yolo算法138句

2024-01-09

目标检测

1、目标检测和语义分割的区别

(1)、有需要的小伙伴们可以Star收藏一下，以防走丢！

(2)、MaskR-CNN是一个小巧、灵活的通用对象实例分割框架，它不仅可以对图像中的目标进行检测，还可以对每一个目标输出一个高质量的分割结果。另外，MaskR-CNN还易于泛化到其他任务，比如人物关键点检测，如下图所示：

(3)、贪婪选择背后的思想简单直观：对于一组重叠检测结果，选择得分最大的边界框，并根据预定义的重叠阈值(如0.5)删除相邻框。上述处理在以贪婪的方式迭代执行。

(4)、(12)PoissonImageEditing：https://www.cs.virginia.edu/~connelly/class/2014/comp_photo/proj2/poisson.pdf

(5)、201更新：适配MMDetectionv16

(6)、这个问题并不是那么容易解决，由于物体的尺寸变化范围很大、摆放角度多变、姿态不定，而且物体有很多种类别，可以在图片中出现多种物体、出现在任意位置。因此，目标检测是一个比较复杂的问题。最直接的方法便是构建一个深度神经网络，将图像和标注位置作为样本输入，然后经过CNN网络，再通过一个分类头(Classificationhead)的全连接层识别是什么物体，通过一个回归头(Regressionhead)的全连接层回归计算位置，如下图所示：

(7)、从目标检测更进一步，我们不仅仅要找到图片中的对象，更是要发现该检测对象对应的像素码。我们把这个问题称为实例分割，或者是对象分割。

(8)、(1)One-Stage目标检测算法，这类检测算法不需要RegionProposal阶段，可以通过一个Stage直接产生物体的类别概率和位置坐标值，比较典型的算法有YOLO、SSD和CornerNet；

(9)、边界框聚合是针对NMS的另一种技术，其思想是将多个重叠的边界框组合或聚类成一个最终的检测结果。

(10)、(11)Girshick,R.,Donahue,J.,Darrell,T.,Malik,J.:Richfeaturehierarchiesforaccurateobjectdetectionandsemanticsegmentation.InCVPR20

(11)、因此，目标检测也就成为了近年来理论和应用的研究热点，它是图像处理和计算机视觉学科的重要分支，也是智能监控系统的核心部分，同时目标检测也是泛身份识别领域的一个基础性的算法，对后续的人脸识别、步态识别、人群计数、实例分割等任务起着至关重要的作用。

(12)、(1)detectionwithlocalcontext

(13)、一些检测器是专门为无人机捕获的图像设计的，如RRNet、PENet、CenterNet等。但从组件的角度来看，它们通常由2部分组成，一是基于CNN的主干，用于图像特征提取，另一部分是检测头，用于预测目标的类和Box。

(14)、(9)Redmon,Joseph,andA.Farhadi."YOLO9000:Better,Faster,Stronger."(2016):6517-65

(15)、充分考虑了目标关系及其空间分布，VJ检测器和Overfeat使用这种方法。

(16)、数据增强是一种提升小目标检测性能的最简单和有效的方法，通过不同的数据增强策略可以扩充训练数据集的规模，丰富数据集的多样性，从而增强检测模型的鲁棒性和泛化能力。常见的数据增强方法如下图所示：

(17)、第一个是2001年由PaulViola和MichaelJones在论文《RobustReal-timeObjectDetection》里提出的Viola-Jones框架。这个方法快速且相对简单，使得低处理能力的傻瓜相机得以进行实时的面部识别。

(18)、SSD系列算法：如下图所示，SSD系列检测算法在确定正负样本的时候通过交并比大小进行区分，当某一个GroundTruth的目标框与anchor的交并比最大且对应的交并比大于某一个阈值的时候，对应anchor即负责检测该GroundTruth，即每一个anchor最多负责一个物体的检测，同一个物体可能被多个anchor同时检测。

(19)、TPH-YOLOv5的框架如图3所示。修改了原来的YOLOv使其专一于VisDrone2021数据集：

(20)、Transformerencoderblock

2、目标检测yolo算法

(1)、我们在前面提到过对象数量可变，但是并没有解释为什么是个问题。当训练机器学习模型的时候，你经常需要把数据表示成固定长度的向量。如果在训练之前图片中的对象数量是未知的，模型的输出数量也就是未知的了。因此，一些增加模型复杂性的预处理是必要的。

(2)、小目标的定义：在MSCOCO数据集中，面积小于32*32的物体被认为是小物体。

(3)、CornerNet(10)：如下图所示，CornerNet检测算法巧妙的将检测框转换成了关键点，即一个目标框可以由两个点(左上角和右下角)来表示，那么对于一个目标物体在预测的时候就可以直接预测两个类别的关键点，然后对关键点进行组合即可生成对应的目标框。

(4)、接着，ShaoqingRen(依然与Girshick合著，目前在Fackbook研究中心)发表了FasterR-CNN，这是R-CNN的第三次迭代。

(5)、早期的检测模型，如VJ检测器和HOG检测器，都是专门设计用来检测具有“固定宽高比”的目标(如人脸和直立的行人)，只需要简单地构建特征金字塔并在其上滑动固定大小的检测窗口。为了检测PASCALVOC中外观更复杂的物体，R.Girshick等人开始在特征金字塔外寻找更好的解决方案。“混合模型”(mixturemodel)是当时最好的解决方案之它通过训练多个模型来检测不同宽高比的物体。此外，基于实例的检测(exemplar-baseddetection)通过为训练集的每个目标实例训练单独的模型，提供了另一种解决方案。

(6)、我联合多名985大学的导师和互联网大厂的企业导师，共同成立了一个线上实践平台，围绕大数据、人工智能、物联网、前后端开发等方向开展科研实践和项目实践活动，感兴趣的同学可以联系我申请参与，相信会有所收获。

(7)、(3)fromfeaturetoBB(after2013)

(8)、 Info 2012-20检索匹配，已弃赛

(9)、现代的proposal检测方法可以分为三类

(10)、单次检测器模型(SSD)就尝试使用了金字塔特征层级的结构，SSD的“附加特征层(ExtraFeatureLayers)”中的特征图经由多次下采样，形成了不同尺度的4层特征图，而后在正向传播过程中重复使用这四层特征图分别进行预测，因此“金字塔特征层级”不会增加模型运算量，可看作是零计算成本的。但是与此同时，SSD没有重复使用VGG-Base中的特征图，而是再网络中的最高层之后添加几个新层，以此构建金字塔，因此它错过了重复使用特征层级中更高分辨率特征图的机会，但这些更高分辨率的特征图对于检测小目标很重要。

(11)、CamouflagedObjectDetection

(12)、Two-Stage检测算法在一般情况下要慢于One-Stage检测算法，然而随着研究的发展，速度上的差别也在逐渐缩小，Two-Stage算法的开销主要有两部分，一个是Proposal的开销，一个是ROISub-Network的开销，提高RegionProposal的效率和降低ROISub-Network的开销均可以加速Two-Stage检测算法。

(13)、通常在算法中需要对数值进行处理，一般为归一化操作，即：

(14)、项目地址：https://github.com/DengPingFan/SINet/

(15)、https://arxiv.org/abs/19011172v1?source=post_page

(16)、《MTCNN精解》9元优惠码(F8464D01FA8F)

(17)、Multi-referencedetection是目前最流行的多尺度目标检测框架。它的主要思想是在图像的不同位置预先定义一组不同大小和宽高比的参考框(即anchorboxes)，然后根据这些参考框预测检测框。

(18)、推理过程很有意思。分割的模型跑出来之后做一个简单的集合运算就能得到一个Instance-Aware的结果。而这个结果和其他十分复杂的模型设计相比，似乎更简单——二值集合运算能花多少时间？

(19)、打开./configs/_base_/schedules/schedule_1x.py：

(20)、(SIGAI推荐：经典卷积神经网络结构GoogleNet,ResNet,DenseNet，SENet的原理)

3、目标检测和目标识别的区别

(1)、ResNet18网络的原始输入大小是(224x224)，随后经由stride=2的卷积层或池化层，将特征图大小逐步缩放至(112x112)、(56x56)、(28x28)、(14x14)、(7x7)(忽略最后的Averagepool、Fc、Softmax层)，此时的特征图根据分辨率由大到小一次排开，就形成了一个特征金字塔的结构。此时可将这每个bolck的输出按顺序标记为{C1,C2,C3,C4,C5}。

(2)、Top-downpathwayandlateralconnections又可分为“由上至下的通路”以及“侧向连接”两部分，也就是FPN结构图右侧的结构。这部分的运算规则可表示为：

(3)、Point-GNN:GraphNeuralNetworkfor3DObjectDetectioninaPointCloud

(4)、R-CNN：在原图裁剪Proposals对应区域，然后align到同一个尺度，分别通过对每一个alignalign之后的原图区域通过神经网络提取特征；

(5)、(14)CaiZ,VasconcelosN.CascadeR-CNN:DelvingintoHighQualityObjectDetection(J).20

(6)、多任务的融合，比如：组合分割任务(Mask-RCNN)、场景属性预测

(7)、之所以使用两种不同的目标框信息表达格式，是因为两种格式会分别在后续不同场景下更加便于计算。

(8)、还有一个就是尺度变化问题，实际应用中，一般都是类别相对少一点，但是尺度变化范围很大。可能从十几个像素，一直到填满整个图片。算力不愁的话，大不了就是多尺度预测，resize好几个分辨率，都塞模型跑一遍。实际应用，哪有这份闲算力，多尺度预测的条件在应用上不是总能满足。

(9)、AmazonSageMaker是一项完全托管的服务，可以帮助开发人员和数据科学家快速构建、训练和部署机器学习模型。SageMaker完全消除了机器学习过程中每个步骤的繁重工作，让开发高质量模型变得更加轻松。

(10)、2013年由NYU(纽约大学)提出的OverFeat是最早将深度学习用于目标检测的方法之一。他们提出了一个使用卷积神经网络(CNNs)来处理多尺度滑窗的算法。

(11)、现在，让我们开始深入了解目标检测中的主要问题。

(12)、相比较于基于深度学习的图像分类任务，目标检测任务更具难度，具体区别如下图所示。

(13)、效果比较好的方法是：无参估计背景减除法——ViBe.算法优点：思想简单，易于实现；样本衰减最优；运算效率高算法缺点：把阴影当做前景；运动目标不完整。

(14)、优点：算法实现简单，程序设计复杂度低，运行速度快；动态环境自适应性强，对场景光线变化不敏感。

(15)、以上就是连续两帧的图像，用COCO数据的模型。直接把没有处理的裸结果显示出来的话，观感上就非常明显了。

(16)、在2015年FasterRCNN之后，边界框回归不再作为一个单独的后处理模块，而是与检测器集成在一起，以端到端的方式进行训练。同时，边界框回归已经发展到基于CNN特征直接预测边界框。

(17)、在Tryolabs中，我们专注于使用现有的机器学习方法解决商务问题，所以即使我们热衷于机器学习的科研问题，但最终我们还是要回归实际应用中。

(18)、这种方法效率很低，实在太耗时了。那有没有高效的目标检测方法呢？

(19)、首先，要知道为什么被测物体尺度相差过大会造成模型精度降低。物体检测领域中各个模型的骨干网络，无外乎不是使用多层卷积逐步提取图像深层信息，生成多层特征图，并基于深层特征图做定位、分类等进一步处理。

(20)、还经过工业质检、安防巡检、卫星遥感、能源电力等等数十个真实行业场景深度打磨验证，直接加速各产业智能化升级！

4、目标检测常用方法有哪些

(1)、如果本科期间没有过科研经历，同时对于自身的能力特点也没有比较清晰的认知，那么就可以基于自己的兴趣来选择主攻方向，毕竟兴趣是一个很强的驱动力。

(2)、https://arxiv.org/abs/17006870?source=post_page

(3)、但是我们还要解决第三个问题，即是否对芯片友好、是否对通信友好。在任何一个历史时代，计算能力不足和通信能力不足是一直存在的两件事，我们不可能跨越地球科技发展的历史，凭空变出一整套超越时代的计算芯片、通信芯片来，这个是做任何事情的「边界条件」。不明白边界条件对于解决方案的重要性，相当于不明白项目预算对于项目的重要性一样，会让人盲目地好大喜功、事倍功半。

(4)、(2)特征提取：由于目标的形态多样性，光照变化多样性，背景多样性等因素使得设计一个鲁棒的特征并不是那么容易。然而提取特征的好坏直接影响到分类的准确性。其中，这个阶段常用的特征有SIFTHOG(4)等。

(5)、全面支持pip安装，动态图开发，压缩、部署等全流程方案打通，极大程度的提升了用户开发的易用性，加速了算法产业应用落地的速度。

(6)、http://host.robots.ox.ac.uk/pascal/VOC/voc2010/index.html?source=post_page

(7)、Convolutionalblockattentionmodule(CBAM)

(8)、torch.clamp()是将函数限制在最大值和最小值范围内，如果超过就变成那个最大值或者最小值。这里min=0，意思是如果面积小于0,那么面积取0(排除异常)。

(9)、论文：https://arxiv.org/abs/21013534

(10)、采用非最大抑制作为后处理步骤，去除冗余的检测框，得到最终的检测结果。

(11)、用来表达bbox的格式通常有两种，(x1,y1,x2,y2)和(c_x,c_y,w,h)，如图所示：

(12)、基于机器学习的检测经历了多个阶段，包括外观统计模型(thestatisticalmodelsofappearance，before1998),小波特性表示(waveletfeaturerepresentations，1998-2005)和基于梯度的表示(gradient-basedrepresentations，2005-2012).

(13)、论文地址： https://openaccess.thecvf.com/content_CVPR_2020/papers/Cao_D2Det_Towards_High_Quality_Object_Detection_and_Instance_Segmentation_CVPR_2020_paper.pdf

(14)、首先需要添加好IP通道，然后，点击“系统管理—事件配置—smart事件—人脸侦测”，进入人脸侦测配置界面。

(15)、点击“系统管理—事件配置—smart事件—人脸比对”，进入人脸比对配置界面。

(16)、YOLOv5有4种不同的配置，包括YOLOv5s，YOLOv5m,YOLOv5l和YOLOv5x。一般情况下，YOLOv5分别使用CSPDarknet53+SPP为Backbone，PANet为Neck,YOLO检测Head。为了进一步优化整个架构。由于它是最显著和最方便的One-Stage检测器，作者选择它作为Baseline。

(17)、下面进行详细介绍在特征提取阶段，通过CNN(如AlexNet)中的conv、pooling、relu等操作都不需要固定大小尺寸的输入，因此，在原始图片上执行这些操作后，输入图片尺寸不同将会导致得到的featuremap(特征图)尺寸也不同，这样就不能直接接到一个全连接层进行分类。在FastR-CNN中，作者提出了一个叫做ROIPooling的网络层，这个网络层可以把不同大小的输入映射到一个固定尺度的特征向量。ROIPooling层将每个候选区域均匀分成M×N块，对每块进行maxpooling。将特征图上大小不一的候选区域转变为大小统一的数据，送入下一层。这样虽然输入的图片尺寸不同，得到的featuremap(特征图)尺寸也不同，但是可以加入这个神奇的ROIPooling层，对每个region都提取一个固定维度的特征表示，就可再通过正常的softmax进行类型识别。

(18)、SoftNMS(17)：SoftNMS相对于NMS的改进即每次并不是直接排除掉和已选框重叠大于一定阈值的框，而是以一定的策略降低对应框的得分，直到低于某个阈值，从而不至于过多删除拥挤情况下定位正确的框。

(19)、在ROIPooling上做文章，文章SINet:AScale-InsensitiveConvolutionalNeuralNetworkforFastVehicleDetection认为小目标在pooling之后会导致物体结构失真，于是提出了新的Context-AwareRoIPooling方法。

(20)、目前主流的目标检测算法主要是基于深度学习模型，其可以分成两大类：

5、目标检测算法

(1)、目标检测即找出图像中所有感兴趣的物体，包含物体定位和物体分类两个子任务，同时确定物体的类别和位置。

(2)、创新趋势也是决定自己主攻方向时所必须考虑的重要因素，对于很多同学来说，这也是一个困惑点，因为大部分同学对于创新趋势并没有较强的把握能力，此时就需要与导师和专业人士进行沟通了。

(3)、FasterR-CNNvs.Light-HeadR-CNN(16)：Light-HeadR-CNN使用更小的Sub-Network代替FasterR-CNN较为臃肿的Sub-Network，使得第二阶段的网络更小，大大提高了Two-Stage检测算法的速度。

(4)、FPN的全称是FeaturePyramidNetworks，即“特征金字塔网络”，总体结构如上图所示。FPN是一个利用深度卷积神经网络中固有的多尺度特征图，通过加入侧向连接和上采样，来以极小的附加计算量构建不同尺度的具有高级语义信息的特征金字塔的网络结构。

(5)、以上代码位于utils.py脚本的find_intersection和find_jaccard_overlap。

(6)、MaskR-CNN的这两个分支是并行的，因此训练简单，仅比FasterR-CNN多了一点计算开销。

(7)、阿里天池：“数字人体”视觉挑战赛-宫颈癌风险智能检测诊断 (1)

(8)、在无人机捕获的图像中，大覆盖区域总是包含令人困惑的地理元素。使用CBAM可以提取注意区域，以帮助TPH-YOLOv5抵制令人困惑的信息，并关注有用的目标对象。

(9)、成组：成组目标会误导检测框的回归。成组目标非常容易出现检测框不准的问题，比如，漂移、整组一个检测框

(10)、项目地址：https://github.com/WeijingShi/Point-GNN

(11)、对目标进行动态实时跟踪定位在智能化交通系统、智能监控系统、军事目标检测及医学导航手术中手术器械定位等方面具有广泛的应用价值。

(12)、数据增强的意义主要是扩展数据集，使模型对不同环境下获得的图像具有较高的鲁棒性。

(13)、同图像分类类似，目标定位要找到单个目标在图像中的位置。目标定位实例

(14)、DSSD(6)：DSSD检测算法的网络结构如下图所示，DSSD也是使用不同阶段不同分辨率的featuremaps进行预测，在不考虑Backbone网络结构差别的情况下，可以发现DSSD相比于SSD多了一系列的后续上采样操作，SSD是使用下采样过程中的featuremaps进行预测，而DSSD是使用上采样过程中的featuremaps进行预测。显而易见的是，SSD用于检测的featuremaps位于网络的较低层，表征能力较弱，而DSSD用于检测的featuremaps位于网络的较高层，表征能力较强，同时DSSD在反卷积的过程中通过Skip-Connection引入了较低层的featuremaps，实现了一定程度的特征融合。所以DSSD的效果要优于SSD检测算法。

(15)、在读研期间我一直强调要基于自身的能力特点来选择方向，而能力特点往往就体现在自身的科研基础上，所以对于本科期间有一定的科研经历的同学来说，到读研期间会有更明确的方向，也更容易找到与自身能力特点相契合的课题方向。

(16)、针对不同的目标检测模型，有3种不同的ensembleboxes方法:非最大抑制(NMS)、Soft-NMS、WeightedBoxesFusion(WBF)。

(17)、TPH-YOLOv5的框架如图3所示。修改了原来的YOLOv使其专一于VisDrone2021数据集：

(18)、(1)阿里天池大赛项目：“数字人体”视觉挑战赛-宫颈癌风险智能检测诊断：https://mp.weixin.qq.com/s/ZBeSjLa924h4l4MP0vTInQ

(19)、(7)mmdetection目标检测工具箱：https://github.com/open-mmlab/mmdetection

(20)、2前人工作总结1DataAugmentation

(1)、函数find_intersectionfind_intersection(set_1,set_2)是求形状为(n1,4)和(n2,4)的boxes的交集的面积。set_1(:,:2)的形状为(n1,2)，后面加上.unsqueeze形状变为(n1,1,2)。同理set_2(:,:2).unsqueeze(0),形状为(1,n2,2)。

(2)、欢迎关注https://github.com/youansheng

(3)、1)segmentationgroupingapproaches

(4)、(6)KaggleX光肺炎检测比赛第二名方案解析|CVPR2020Workshop：https://mp.weixin.qq.com/s/X3JoTS3JqlT1uxFpChujRA

(5)、计算机视觉是一门研究如何对数字图像或视频进行高层语义理解的交叉学科，它赋予机器“看”的智能，需要实现人的大脑中(主要是视觉皮层区)的视觉能力。

(6)、如果训练数据中同时包含尺度极大和极小的被测物体，那么会发生什么呢？

(7)、用MDP来建模一个物体，主要包括四个成分：

(8)、Self-trainedclassifier

(9)、R-CNN被提出不久后，它又延伸出了一个完全使用深度学习的版本——就在一年后，RossGirshick(目前在微软研究中心)发表了FastR-CNN。

(10)、验证软件产品是否与系统需求用例不相符合或与之矛盾；

(11)、损失函数为分类误差+检测误差+分割误差，分类误差和检测(回归)误差是FasterR-CNN中的，分割误差为MaskR-CNN中新加的。对于每个MxM大小的ROI区域，mask分支有KxMxM维的输出(K是指类别数量)。对于每一个像素，都是用sigmod函数求二值交叉熵，也即对每个像素都进行逻辑回归，得到平均的二值交叉熵误差Lmask。通过引入预测K个输出的机制，允许每个类都生成独立的mask，以避免类间竞争，这样就能解耦mask和种类预测。对于每一个ROI区域，如果检测得到属于哪一个分类，就只使用该类的交叉熵误差进行计算，也即对于一个ROI区域中KxMxM的输出，真正有用的只是某个类别的MxM的输出。如下图所示：

(12)、目标检测是计算机视觉和数字图像处理的一个热门方向，广泛应用于机器人导航、智能视频监控、工业检测、航空航天等诸多领域，通过计算机视觉减少对人力资本的消耗，具有重要的现实意义。因此，目标检测也就成为了近年来理论和应用的研究热点，它是图像处理和计算机视觉学科的重要分支，也是智能监控系统的核心部分，同时目标检测也是泛身份识别领域的一个基础性的算法，对后续的人脸识别、步态识别、人群计数、实例分割等任务起着至关重要的作用。由于深度学习的广泛运用，目标检测算法得到了较为快速的发展，本文广泛调研国内外目标检测方法，主要介绍基于深度学习的两种目标检测算法思路，分别为One-Stage目标检测算法和Two-Stage目标检测算法。

(13)、常用的Backbone包括VGG、ResNet、DenseNet、MobileNet、EfficientNet、CSPDarknetSwin-Transformer等，均不是自己设计的网络。因为这些网络已经证明它们在分类和其他问题上有很强的特征提取能力。但研究人员也将微调Backbone，使其更适合特定的垂直任务。

(14)、该部分anchor内容参考于:https://zhuanlan.zhihu.com/p/55824651

(15)、大家发现，通过合理的构造，神经网络可以用来预测各种各样的实际问题。于是人们开始了基于CNN的目标检测研究,但是随着进一步的探索大家发现，似乎CNN并不善于直接预测坐标信息。并且一幅图像中可能出现的物体个数也是不定的，模型如何构建也比较棘手。

(16)、CascadeR-CNN(14)：类似于FasterR-CNN、FPN等，其Proposal网络对于正样本只设置了一个阈值，只做了一次较为宽松的约束，得到的Proposals结果较为粗糙，当对检测框的定位结果要求更为精确的时候就稍显不足。而CascadeR-CNN在获取Proposals的时候也采用逐步求精的策略，前一步生成的Proposals作为后一步的输入，通过控制正样本的交并比阈值不断提高Proposals的质量，如下图所示。准确来说，CascadeR-CNN应该不能算Two-Stage检测算法，应该是多Stage检测算法，多步求精。

(17)、(5)Liu,Wei,etal."SSD:SingleShotMultiBoxDetector."EuropeanConferenceonComputerVisionSpringerInternationalPublishing,2016:21-

(18)、很可惜，对于目标检测，我们还没有足够的数据集。数据很难产生，而且成本很高，具备优秀数据库的公司一般不愿意公开他们的数据，而学校则无法接触到优质的数据集。

(19)、对于物体检测模型而言，FPN结构并不是模型中独立的一个模块，而是作为原始Backbone的附加项，融合在卷积神经网络之中。FPN结构可分为Bottom-uppathway和Top-downpathwayandlateralconnections两条主线，下面将以ResNet作为原始Backbone，为大家讲解FPN结构是如何运作的。

(20)、 Info 2024-20目标检测，21/2358

(1)、连检测框都不要了？莫慌，PaddleDetection0带你紧跟全球科研动向。SOTA(最先进)的AnchorFree算法：PAFNet(PaddleAnchorFree)&PAFNet-Lite，从理论到直接使用，保证把你安排的明明白白！

(2)、数据增强这一策略虽然在一定程度上解决了小目标信息量少、缺乏外貌特征和纹理等问题，有效提高了网络的泛化能力，在最终检测性能上获得了较好的效果，但同时带来了计算成本的增加。而且在实际应用中，往往需要针对目标特性做出优化，设计不当的数据增强策略可能会引入新的噪声，损害特征提取的性能，这也给算法的设计带来了挑战。

(3)、CBAM是一个简单但有效的注意力模块。它是一个轻量级模块，可以即插即用到CNN架构中，并且可以以端到端方式进行训练。给定一个特征映射，CBAM将沿着通道和空间两个独立维度依次推断出注意力映射，然后将注意力映射与输入特征映射相乘，以执行自适应特征细化。

(4)、最后，我们比较喜欢的一个实例是Pinterest(图片社交平台)的视觉搜索引擎。

(5)、用torch.cat()将两个形状为(n,2)的tensor在第一维度拼接成(n,4)。

(6)、(18)Softer-NMS:RethinkingBoundingBoxRegressionforAccurateObjectDetection.arxivid:18008545

(7)、目标检测：需要在识别出图片中目标类别的基础上，还要精确定位到目标的具体位置，并用外接矩形框标出。

(8)、图像分类：只需要判断输入的图像中是否包含感兴趣物体。

(9)、2)windowscoringapproaches

(10)、(2)Kesci大赛项目：2020年全国水下机器人(湛江)大赛-水下目标检测算法赛：https://mp.weixin.qq.com/s/Mh8HAjIOVZ3KxWNxciq1mw

(11)、减少模型方差的一个成功方法是训练多个模型而不是单一模型，并结合这些模型的预测。

(12)、随着计算机技术的发展和计算机视觉原理的广泛应用，利用计算机图像处理技术对目标进行实时跟踪研究越来越热门；

(13)、目标检测中的Bootstrap是指一组训练技术，训练从一小部分背景样本开始，然后在训练过程中迭代地添加新的错分类背景。在早期的目标检测器中，最初引入bootstrap的目的是减少对数百万个背景样本的训练计算量。后来成为DPM和HOG检测器中解决数据不平衡问题的标准训练技术。

(14)、常用的Neck聚合块有：FPN、PANet、NAS-FPN、BiFPN、ASFF、SAM。这些方法的共性是反复使用各种上下采样、拼接、点和或点积来设计聚合策略。Neck也有一些额外的块，如SPP,ASPP,RFB,CBAM。

(15)、比如车载平台的话，功率都是受限的，然而一份功率一份算力。离线的运算还可以增加batchsize提升利用率，在线的都是一张张图片，实际GPU利用率也是有折扣的。

(16)、FasterR-CNN(12)：FasterR-CNN使用RPN网络代替了SelectiveSearch方法，大大提高了生成Proposals的速度，具体实现策略同One-Stage检测算法，这里不再做过多赘述。网络示意图如下图所示。

(17)、https://arxiv.org/abs/15001497?source=post_page

(18)、(9)ImprovedRegularizationofConvolutionalNeuralNetworkswithCutout：https://arxiv.org/abs/17004552