丢弃Transformer,全卷积网络也可以实现E2E检测
如果对这一时间依然敏感,可以用 topk(k=1)代替 bipartite matching;在 dense prediction 里 top1 实际上是 bipartite matching 的近似解 [8] 。相似地,k>1 的情况对应了 one-to-many 的一种新做法,研究者也对此做了一些工作,后续可能会放出来。 参考 如果有人感兴趣的话,可以在 YOLO 上去掉 NMS 尝试一下,可以接近 30mAP。 注意这里没有使用 DETR 的 CE+GIoU+L1 组合,而是直接采用 loss 本身(Focal+GIoU)。研究者认为这样更符合 DETR 用 loss 做 cost 的原意。 其实这里可以有一个脑洞留给大家,因为 cost 是不需要求导的,所以甚至是可以直接算 AP 当 cost 的。 侧面印证了分类和回归的冲突在检测任务上是显著的。 理由很简单,CrowdHuman 的遮挡问题太严重,center 区域经常完全被遮挡。 事实上加权几何平均数的负对数就是 CE+IoU Loss,加权算术平均数则没有明显的物理含义。 NoisyAnchor 在 assign 中采用了类似的公式,只不过采用的是 anchor IoU。 更具体来讲,top1(即 argmin)是 Hugarian Algorithm 只做第一次迭代的结果;由于在 dense prediction 下冲突会很少,一次迭代就已经逼近了最优匹配,这也是为什么 Hungarian Algorithm 这里实际运行很快。
(编辑:西安站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |