建设纺织原料网站建网站需要注册公司吗-巴中市网站建设公司-Seo优化

建设纺织原料网站建网站需要注册公司吗

2026/6/2 4:47:08 网站建设项目流程

建设纺织原料网站,建网站需要注册公司吗,网站文件夹权限,wordpress转发得红包State-of-the-art review and benchmarking of barcode localization methods Abstract 尽管条形码有着悠久的历史#xff0c;但它仍然是供应链管理中必不可少的技术。此外#xff0c;条形码在工业工程中有着广泛的应用#xff0c;特别是在仓库自动化、组件跟踪和机器人引导…State-of-the-art review and benchmarking of barcode localization methodsAbstract尽管条形码有着悠久的历史但它仍然是供应链管理中必不可少的技术。此外条形码在工业工程中有着广泛的应用特别是在仓库自动化、组件跟踪和机器人引导方面。为了检测图像中的条形码文献中提出了多种算法自深度学习兴起以来人们对该主题的兴趣显著增加。然而该领域的研究受到许多限制包括公共数据集和代码实现的稀缺这阻碍了已发表结果的可重复性和可靠性。为此我们开发了BarBeRBarcode Benchmark Repository这是一个用于测试和比较条形码检测算法的基准。该基准测试包括各种条形码检测算法的代码实现沿着一套有用的度量标准。在支持的定位方法中有多种深度学习检测模型将用于评估人工智能对该领域的最新贡献。此外我们提供了一个包含8 748个条形码图像的大型注释数据集将多个公共条形码数据集与标准化注释格式相结合用于检测和分割任务。最后我们提供了关于条形码本地化的历史和文献的全面总结并分享了在我们的数据集上运行基准测试所获得的结果提供有价值的见解不同算法的性能时应用于现实世界的问题。该论文针对条形码定位研究中数据集稀缺、可复现性差、评估指标不一致的问题提出了BarBeR 基准库与包含8748 张图像、9818 个标注条形码的标准化数据集整合了 1D 和 2D 条形码数据并统一标注格式系统综述了传统计算机视觉如边缘检测、霍夫变换与深度学习如 YOLO、RT-DETR、Faster R-CNN两类定位算法通过单类 / 多类检测、时间性能测试验证发现深度学习方法在精度上显著优于传统算法如 RT-DETR 在 1D 单条形码检测中 F1-score 达 0.993而传统算法如 Gallo 方法更具速度优势单线程 1.632ms / 张同时小型深度学习模型如 YOLO Nano能平衡精度与效率为工业嵌入式场景提供参考。Introduction条形码是一种视觉化的数据表示方式具有易于机器读取的属性是一种自动识别技术大大提高了数据采集和识别的准确性和速度。由于这个原因加上它们的成本效益条形码在各种现实世界的工程应用中得到了广泛的使用。首先它们是供应链管理的基石在管理从制造商到消费者的商品流方面发挥着至关重要的作用。它们有助于跟踪库存管理物流和提高效率.其次条形码广泛用于仓库以自动化货物接收存储和发送过程有助于减少人工错误并提高操作速度。条形码也是自动化中的一种宝贵工具其应用范围从无人零售到机器人导航。其他值得注意的应用是制造业中的组件跟踪和产品识别的零售。尽管他们成立于七十多年前在当今的数字时代条形码继续保持其地位。AIDC 100预测在未来几年内条形码将持续使用这一预测得到了学术文献的证实。这反映在条形码阅读器市场的预计增长中该市场在2022年价值74亿美元预计到2032年将达到133亿美元从2023年到2032年复合年增长率为6.3%。条形码分为两类一维1D或线性和二维2D。线性条形码用不同宽度和间距的线条编码数据但数据存储容量有限。为了解决这个问题2D条形码被引入。它们的结构允许在垂直和水平轴上存储数据与1D条形码相比提供更大的容量。阅读条形码的过程通常可以分为两个宏观步骤定位和解码。一些论文关注这两个步骤。然而大多数出版物都只关注本地化部分。特别是最近使用公共第三方库来处理解码步骤已经成为常态。最常用的两个库是ZXing1和Zbar。2每个软件工具都可以处理1D和2D条形码。因此从现在开始我们的主要重点将是本地化。条形码识别通常用于工业应用中其中精度和速度至关重要。直到最近定位算法的实时速度只能通过从图像中计算手工制作的特征来实现。在这方面线性条形码有两个主要特征它们由高对比度的线构成并且这些线是平行的。为了利用这两个特征大多数条形码定位方法通常包括初始边缘检测阶段和聚集阶段。二维条码是由两组相互旋转90度的平行线组成的。一种常见的策略是使用霍夫变换来找到一组垂直线。随着2012年AlexNet的重大突破深度学习方法已经主导了计算机视觉领域。近年来大型、高质量、公开可用的标记数据集的出现以及GPU计算的巨大进步推动了深度学习重要性的提高。最初神经网络用于处理图像的提取特征因为端到端模型需要更多的处理时间。Zamberletti等人提出的方法就是这种情况该方法使用神经网络来处理图像的Hough变换。然而在接下来的几年里端到端模型的使用变得更加突出。根据Wudhikarn等人的研究在2015年至2021年期间有25篇出版物介绍了一种利用深度学习技术进行条形码定位的方法1D2D或两者兼而有之。在25篇综述的论文中有9篇使用了自定义CNN模型。其余论文采用了公开可用的架构其中YOLO是最受欢迎的其次是Faster R-CNN和SSD。基于深度学习的条形码和QR码检测方法已经被提出了许多许多论文都比较了两种或多种方法。然而一些问题阻碍了对方法有效性的明确结论。数据集可用性。大多数文献主要依赖于1D条形码的两个公共数据集艺术实验室和WWU明斯特分别包含430和1055个图像。对于二维条形码最常用的公共数据集是Dubska QR。这些数据集相对较小并且随着后续出版物继续提高他们在这些数据集上的得分确定这些改进是否转化为现实世界的应用变得具有挑战性。此外这些数据集肯定太小无法训练神经网络进行对象检测。其他一些公共数据集也被使用过但它们也相当小。超过5000个图像的条形码数据集只有两种类型私有或合成。然而依赖合成数据集进行评估可能会导致误导性结果。例如Katona和Nyúl提出的方法在合成数据集上实现了96.8%的准确率但在明斯特数据集上测试时平均准确率下降到19.8%.另一个问题是缺乏跨数据集的标准化。不同的数据集采用不同的格式这使得在没有额外预处理的情况下使用多个数据集变得复杂。重复性。该研究领域的大多数出版物都没有发布用于测试的代码。这使得重复实验更加耗时因为它需要从头开始编写代码。即使在代码可用的罕见情况下也很少发现使用相同算法数据集使用不同的编码语言和框架进一步使不同方法的比较复杂化。一致性。第三个问题是不同的研究使用不同的指标即使使用相同的算法和数据集也会导致矛盾的结果。例如Sörös和Flörkemeier在明斯特数据集上将他提出的方法与Tekin和Coughlan以及Gallo和Manduchi方法进行了比较。Jaccard指数J被用作一个度量良好的检测定义为J0.5。Tekin的方法排名最高其次是Gallo然后是Sörös。使用Dice相似系数DSC比较了相同数据集上的相同算法阈值为0.8。这一次苏罗斯的方法排在第一位其次是加洛和泰金。改变评价指标可以完全改变这些方法的排名。因此在比较不同的实验时使用一致的指标集并使用多个指标进行全面比较至关重要。本文的目标是解决条形码定位研究中的这些挑战。特别是这项工作提供了几个关键贡献首先我们将对现有的条形码定位方法进行详尽的回顾综合文献中的各种方法这将为理解该领域的当前前景提供一个坚实的基础;公开发布了一个包含8748幅图像的注释数据集。该数据集合并了1D和2D条形码的多个公共数据集标准化了注释格式。格式它们可以很容易地转换为COCO或YOLO使用我们提供的转换脚本进行格式。条形码区域用多边形描述允许检测和分割;BarBeRBarcode Benchmark Repository是一个用于条形码检测的公共基准测试。该基准测试包括一组用于比较的默认算法但可以很容易地扩展到包括任何定位算法。此外我们的基准测试还包括一系列可用于评估条形码检测算法性能的指标。该基准测试是开源的以及在拟议数据集上训练深度学习模型的脚本通过允许研究人员在我们的工作基础上建立促进了我们发现的可重复性并促进了该领域的进一步研究。本文的结构如下。第2节描述了我们发现的公开可用的数据集它们的特点以及我们开发统一注释标准的过程。第3节提供了1D和2D条形码检测方法的历史。在第4节和第5节中我们分别详细介绍了我们的基准测试中选择的公开可用的检测算法和深度学习架构。之后第6节探讨了对象检测中使用的评估指标和我们的实现选择。然后在第7节中我们可以找到对基准测试的存储库、结构以及可用测试和方法的描述。第8节第9节第10节介绍了收集的基准测试结果包括单类检测1D或2D、多类检测和定时测量。最后第11节将给出最终结论。条形码应用1D线性数据容量有限与 2D二维码等双向存储数据广泛用于供应链、仓储、自动化等场景市场持续增长。条形码读取分为定位与解码两步现有研究多聚焦定位解码依赖 ZXing、Zbar 等第三方库开源地址GitHubhttps://github.com/Henvezz95/BarBeR5 种传统算法代码、6 种深度学习模型训练脚本、多评估指标工具支持单类检测1D/2D 单独测试、多类检测1D2D、时间性能测试。传统算法5 种依赖手工特征无置信分数。深度学习模型6 种端到端训练输出置信分数。评估指标无置信分数指标IoUJaccard 指数、Precision、Recall、F1-score有置信分数指标AP平均精度、mAP均值平均精度、AP[0.5:0.05:0.95]、AP_S/AP_M/AP_L按目标尺寸分类精度上深度学习模型显著领先1D 单条形码检测 F1-score≥0.9872D≥0.975传统算法最优者Yun et al.F1 仅 0.757速度上传统算法更具优势PC 端 Gallo 算法 1.632ms / 张嵌入式设备 53.45ms / 张深度学习模型需 GPU 加速才能达到实时PC 端 GPU 最快 1.447ms / 张嵌入式设备超 2 秒 / 张。适用场景1深度学习模型对精度要求高、硬件资源充足的场景如仓储自动化、高清图像检测2传统算法资源受限的嵌入式场景如手持扫码设备、低成本工业传感器。BarBeR 基准库的核心价值是解决条形码定位研究中可复现性差、评估标准不统一的行业痛点提供标准化的测试平台。关键组件包括18748 张标准化标注数据集25 种传统算法 6 种深度学习模型的开源代码3多维度评估指标工具IoU、Precision、AP、mAP 等。支持可复现性与对比的方式1公开所有算法代码与数据集统一依赖环境2提供固定的测试流程单类 / 多类 / 时间测试与参数配置3支持自定义算法接入采用统一指标输出结果便于跨研究对比。Datasets对于这个项目我们需要足够大的数据集来可靠地比较不同的算法和训练对象检测神经网络。为此我们回顾了有关条形码检测和解码的现有文献以识别公开可用的数据集。WWU明斯特。发布于2008年是我们发现的最古老的数据集。它包含1055张使用诺基亚N95拍摄的一维条形码图像。所有图像的分辨率为2592 × 1944。Artelab Medium Barcode 1D。于2010年发布由430张线性条形码图像组成。所有图像均显示图像中心附近的单个条形码旋转± 30 °。Szentandrási QR.由Szentandrási等人发布该数据集由115张QR码图像组成。这些图像中的大多数具有15 MegaPixels的分辨率并且包含多个QR码。Dubska QR。Szentandrasi QR数据集的同一组发布了另一个包含810张包含QR码的图像的数据集其中一半是用相机拍摄的另一半是用智能手机拍摄的。Szentandrasi QR和Dubska QR数据集共有25张图像;这些图像被从前者中删除以避免重复。Bodnar-Huawei。于2018年发布由98张用华为智能手机拍摄的QR码图像组成所有图像都包含一个代码分辨率为1 600×1 200。Skku Inyong DB.于2017年发布该数据集包含325张分辨率为1 440×2 560的图像其中包含多个线性条形码实例。ZVZ-Real。另一个有趣的数据集是由Zharkov和Zagaynov以ZVZ-Real的名义发布的。该数据集包含921张各种1D和2D条形码的图像。一些图像描绘了多个条形码。DEAL KAIST。这是我们收集的最大的条形码数据集通常被称为DEAL KAIST Barcode或QuickBrowser数据集。该数据集包含3308个不同分辨率从141×200到3480 × 4640的条形码图像大部分是线性的。InventBar和ParcelBar。最后Kamnardsiri et al致力于开发另外两个线性条形码数据集用于神经网络训练和测试。这两个数据集分别有527和844张图像。特别是ParcelBar是我们发现的最困难的条形码检测数据集之一因为条形码与图像的大小相比非常小。OpenFood Facts。除了文献中使用的这些公共数据集外我们还从Open Food Facts github收集了其他185张线性条形码图像。所收集的数据集共包含8 748张图像其中9 818张带注释的条形码8 062张线性条形码和1 756张二维条形码。数据集中包含的图像示例如图1所示而表1提供了所使用的每个数据集的细分以及有关它们的一些信息。包括的1D条形码的符号是Code 128Code 39EAN-2EAN-8EAN-13GS 1 -128IATA 2 of 5Intelligent Mail BarcodeInterleaved 2 of 5Japan Postal BarcodeKIX-codePostNetRoyalMail Codeand UPC.对于二维条码包括的符号体系有阿兹特克DatamatrixPDF-417and QR Code.图 1. 数据集图像样本。一些图像包含单个线性条形码或单个二维条形码。相反其他图像包含多个代码有时属于多个类别。表 1 为基准收集的公共数据集列表。 # Images 是数据集中的图像数量。最小和最大分辨率分别指数据集中最小和最大像素数的图像的分辨率。 # 1D 和 # 2D 分别表示数据集中线性和二维条形码实例的数量。我们遇到的一个直接挑战是并非所有数据集都有注释并且可用的注释遵循各种不同的格式。一些注释用于对象检测另一些用于分割。此外在用于1D检测的数据集中存在未注释的2D条形码反之亦然。因此我们为数据集中的所有图像创建了新的注释。Datalogic得利捷的专有软件用于自动生成注释。该工具生成4-点多边形并提供有关代码的附加信息例如其类型此外我们还有关于条形码的像素密度的信息通常以每个元素的像素PPE来测量即条形码中最小元素的平均宽度如图2所示。这种测量可以称为每个模块的像素PPM。图2。(a)显示线性条形码的元件(或模块)而(b)显示二维条形码的元件(或模块)。虽然大多数代码都是这样注释的8096但有少数代码1722由于模糊、噪声或不正确的比例而无法解码分辨率太高或太低。这些附加代码已使用VGG注释器手动注释他们缺少一些信息如PPE。缺少的字段已填充符号值-1。如上所述注释使用多边形而不是方框因此适用于检测和分割。Algorithms historyEarly barcode localization efforts约瑟夫伍德兰和伯纳德银发明了线性条形码在1949年和专利于1952年。除了条形码的提议他们还描述了一种阅读它的方法。这个想法是将光直接聚焦在代码上并使用光电管将反射光转换为模拟信号。最后使用模拟电路来解码该信号。激光扫描仪成为70年代的主要解码方法带来了众多光学创新。然而这些系统要求读取器直接对准条形码。20世纪90年代2D图像条形码阅读出现。这种方法的一个显著优点是能够从更宽的视野读取条形码但要做到这一点Viard-Gaudin等人提出了一种使用一组Sobel滤波器和斑点检测的算法。Liao等人使用边缘检测器来找到条形码边缘及其方向以将条形码与背景分离。第二年Jain和Karu探索了使用多层感知器MLP进行纹理分类。在其中一个实验中作者展示了如何将这种方法用于条形码定位和分割。Hough变换在Muniz等人1999的工作中获得了线性条形码定位的牵引力。同年Ottaviani等人提出了第一个基于梯度直方图的QR码定位方法。Evolution and recent approaches多年来许多出版物已经解决了条形码定位的局限性并将其有效性扩展到更一般的应用。基于纹理方向分析定位2D条形码的方法由Hu等人测试。描述了一种定位线性条形码的方法该方法速度足够快可以在当时的移动的手机上使用。但是它缺乏旋转不变的特性。发布了一个名为BLaDE的Android应用程序条形码定位和解码引擎这是方向不变可以在智能手机上实时工作。同年展示了Hough变换在QR码定位中的适用性。提出了一种基于矩阵结构的一维和二维条形码方法而描述了一种基于Hough变换和机器学习的检测算法。The deep learning eraChou et al通过利用小型卷积神经网络CNN进行QR码检测标志着一种转变。基于深度学习的方法从此主导了该领域Yun和Kim是一个值得注意的例外它依赖于方向直方图。同年汉森et al在ArteLab和WWU明斯特数据集上训练和测试了YOLO-v2网络取得了令人印象深刻的成果。第二年Li et al报告了使用 Faster R-CNN在相同数据集上获得更高的准确性分数。Zharkov和Zagaynov提出使用Dilated-Convolution网络来分割各种线性和二维条形码。Do和Kim介绍了一种用于真实的的统一模型-通过将多位识别集成到一级检测模型中对条形码和简单物体进行时间检测和解码。最近Quenum等人通过结合修改的区域建议网络RPN和Y-Net分割网络在速度和性能上都超过了YOLO-v4和Mask R-CNN。近年来人们提出了许多其他关于基于深度学习的条形码检测的论文。Available algorithms线性和二维条码的算法已经提出了很多但很多都缺乏公开的实现。总的来说我们选择了五个用C实现的功能算法它们是比较次数最多的算法并且有一个公开的实现。这些算法是Gallo和ManduchiTekin和CoughlanSörös和FlörkemeierZamberletti等人以及Yun和Kim。由于Tekin的方法生成扫描线而不是检测框因此将其排除在我们的比较之外但是它包含在存储库中用于测试。因为我们的基准测试是用Python编写的所以这些方法已经编译为使用Ctypes在Python中加载。本节的其余部分将详细介绍可用的检测算法是如何工作的。在表2中还报告了这些选定方法的主要特征的总结。表 2 测试的公共算法的特征。Gallo and Manduchi这种定位方法是由Gallo和Manduchi提出的。为了简洁起见我们将使用Gallo等人或Gallo的方法来指代这种算法。这种算法是为了提高速度而设计的使其能够在当代移动的设备上运行。该方法旨在准确识别线性条形码即使是在模糊或噪声影响的图像中。然而它是专门为1D条形码量身定制的并产生单个感兴趣区域使其不适合检测单个图像中的多个条形码。支撑该算法的关键假设是条形码的方向。它假设条形码水平放置其平行线垂直对齐。只有小于±30度的旋转才能进行可靠的检测。第一步是计算一个热图它是水平和垂直导数之间的差I e ( n ) I_e(n)Ie(n)。 ( ) ∣ ( ) ∣ − ∣ ( ) ∣ , ( 1 ) _()|_()|−|_()|,(1)Ie(n)∣Ix(n)∣−∣Iy(n)∣,(1)I e ( n ) I_e(n)Ie(n)在条形码区域中的值应该合理地高于其他区域。对I e ( n ) I_e(n)Ie(n)应用框过滤器以获得平滑的热图I s ( n ) I_s(n)Is(n)。之后使用大津的方法使用单个阈值对I s ( n ) I_s(n)Is(n)进行二值化。二值化的热图可能包含多个斑点但该方法假设图像中仅存在单个条形码。因此仅选择一个斑点并且它是包含像素0的斑点该像素是使n 0 n_0n0最大化的像素I s ( n ) I_s(n)Is(n)。平行于图像边界的垂直线和水平线从0开始跟踪形成一个矩形其边平行于图像的轴并包含这些线与斑点边缘的交点。通过这个矩形中心的水平线被选作扫描线。通常斑点也包括条形码的安静区因为盒子过滤器的尺寸很大。为了去除它扫描线从两侧减少直到找到小于平均值的85%的强度。Soros and FlorkemeierSörös和Flörkemeier提出了一种针对1D和2D条形码设计的条形码检测方法该方法具有方向不变性并且非常抗模糊。为了简洁起见我们将使用Soros等人或Soros方法来引用该算法。然而该方法只能为每种条形码类型输出单个ROI。其想法是计算两个热图一个用于线性码一个用于二维码。第一步是计算图像每个像素的结构矩阵M [ c x x c x y c x y c y y ] M\begin{bmatrix} c_{xx} c_{xy} \\ c_{xy} c_{yy} \end{bmatrix}M[cxxcxycxycyy]其中使用窗口k从图像k和k在像素k周围的图像块k上的水平和垂直导数计算k的k的k项c i j ∑ ( x , y ) ∈ D w ( x , y ) I i ( x , y ) I j ( x , y ) c_{ij}\sum_{(x,y)\in D}w(x,y)I_i(x,y)I_j{(x,y)}cij(x,y)∈D∑w(x,y)Ii(x,y)Ij(x,y)这些值用于计算Ando定义的单向方差检测器和全向方差检测器。这两个测量值分别用E11和E12表示并定义为m 1 ( c x x − c y y ) 2 4 c x y 2 ( c x x c y y ) ϵ m 2 4 ( c x x c y y − c x y 2 ) ( c x x c y y ) ϵ m_1\frac{(c_{xx}-c_{yy})^24c_{xy}^2}{(c_{xx}c_{yy})\epsilon}\\ m_2\frac{4(c_{xx}c_{yy}-c_{xy}^2)}{(c_{xx}c_{yy})\epsilon}m1(cxxcyy)ϵ(cxx−cyy)24cxy2m2(cxxcyy)ϵ4(cxxcyy−cxy2)为每个像素计算值 1 和 2生成两个热图。值 1单向方差检测器在存在边缘结构的地方较强而 2全向方差检测器在拐角处较高。值是一个小常数可以避免平坦区域中的 0∕0 情况。计算 1 和 2 后将盒式过滤器应用于每个热图。将两个盒过滤图线性组合以获得两个条形码显着性图1和2一个用于线性码另一个用于二维码。最后对所得图像进行阈值处理并按照 Gallo 方法通过从具有最大强度的像素跟踪二值图像来找到条形码框。Zamberletti et al该方法由 Zamberletti 等人提出。该算法的第一步是将 Canny 边缘检测器应用于图像获得边缘图。一旦确定了边缘图就在二维霍夫变换空间 H 中计算的霍夫变换。中的一条线表示为中的一个点该点的坐标表示和其中是该线距原点的距离是其角度。用表示的图像的二维霍夫变换被分成大小为 × 的单元由多层感知器 (MLP) 一次处理一个。 MLP 的输出与输入具有相同的维度因此处理每个单元格时我们获得具有相同维度的矩阵。的每个值表示该单元格包含与条形码对应的行的概率。该算法假设所有条形码都以相同的角度定向并且通过采用条形码行数最多的角度即元素总和最高的列来预测该角度。角度预测后算法通过将 Galamhos 等人的相同技术应用于来找到中所有线段的集合。我们将 ⊂ 与角度相差小于 ±5 ° 的所有线段的集合称为 ⊂ 。创建二值图像其中分配给的片段的像素的强度值为 1其他片段的像素分配为 0。然后将旋转 90° - 度使得大部分片段是垂直的。然后定义两个直方图来描述二值图像的行和列的强度分布。这些直方图的每个箱都被计算为二值图像中行/列的元素的总和。平滑滤波器应用于每个直方图。最后条形码的边界框被确定为与直方图中剩余的非零箱相关联的行和列之间的交叉区域。该算法可以生成多个旋转框但所有检测都具有相同的角度。这对于具有多个条形码的单个标签非常有用其中每个代码都具有相同的旋转角度。在线提供的开源代码与OpenCV版本≤2兼容。我们对其进行了修改使其与OpenCV 4兼容。Yun and KimYun 和 Kim 描述了这种检测方法。为了简洁起见我们将该算法称为 Yun 等人或 Yun 的方法。该算法专为检测线性条形码而设计支持每张图像进行多次检测。第一步是使用 Sobel 算子对图像的灰度版本计算图像导数 ∇ 和 ∇并使用它们来计算梯度的模和角度m a g ( p ) ∇ I x ∇ I y a n g ( p ) a r c t a n ( ∇ I y ∇ I x ) mag(p)∇ I_x∇ I_y\\ ang(p)arctan(\frac{∇ I_y}{∇ I_x})mag(p)∇Ix∇Iyang(p)arctan(∇Ix∇Iy)方向直方图h ℎ_hG是通过计算每个方向有多少个幅度大于阈值的像素来计算的。直方图共有 18 个 bin每个 bin 覆盖 10°。映射 h ( ) ^{}_{ℎ_} ()VhGmap(b)将主方向分量与 ℎ 中分析的弱方向分量分开v h G m a p { O s i f h G T h i s t O w o t h e r w i s e T h i s t m a x b ( h G ( b ) ) ∗ a v^{map}_{h_G}\left\{\begin{matrix} O_s if~h_GT_{hist}\\ O_w otherwise \end{matrix}\right.\\ T_{hist}max_b(h_G(b))*avhGmap{OsOwifhGThistotherwiseThistmaxb(hG(b))∗a其中表示主方向分量是弱方向分量ℎ是用于分离主方向分量的阈值。常数是用于计算 ℎ 的比率常数并且 0 1。为了检测显着区域使用熵方案。图像被划分为不重叠的单元。对于每个单元格我们分配一个方向这个方向是局部方向直方图中具有最高值的方向ℎ。我们用表示 ℎ 的最大分量的索引。每个补丁的熵计算如下E ( f ) { J i f V h G m a p ( i m a x ) O s 0 o t h e r w i s e J ∑ i h L ( i ) − h L ( i m a x ) E(f)\left\{\begin{matrix} J if ~V^{map}_{h_G}(i_{max})O_s\\ 0 otherwise \end{matrix}\right.\\ J\sum_ih_L(i)-h_L(i_{max})E(f){J0ifVhGmap(imax)OsotherwiseJi∑hL(i)−hL(imax)如果斑块的主成分比其他成分强得多则 () 很小表明条形码区域的概率很高。对熵图()进行阈值处理以获得显着性图()。设置重要区域后使用盒式滤波器对()进行模糊以消除噪声区域并连接分离的条形码区域。然后使用大津二值化对显着图进行二值化。最后为了确定每个斑点的中心点和边界框使用连接组件标记。Deep-learning models如前所述近年来提出的大多数条形码检测算法都依赖于深度学习检测模型。一些作者发布了他们经过训练的架构。我们决定将其纳入我们的基准测试中但由于我们的测试集和该网络的训练集之间存在重叠我们从头开始重新训练它。此外我们选择了一些在 MS-COCO 数据集上预训练的主流架构。然后使用迁移学习在我们的数据集上对这些网络进行微调。总共测试了六种不同的架构Faster R-CNN、RetinaNet、YOLO Medium 和 Nano以及 RT-DETR。表 3 总结了这些架构的主要特征。表 3 我们测试中使用的深度学习模型的特征。Zharkov and Zagaynov2019 年Zharkov 和 Zagaynov 提出了一种用于检测一维和二维条形码的定制卷积神经网络架构。为了简洁起见我们将参考 Zharkov 等人的架构。他们的架构由三个关键模块组成缩小规模的模块。该模块由三个卷积层和两个缩减层组成。它将输入图像分辨率降低了四倍扩大了网络的感受野以实现更高效的处理上下文模块。受到 Yu 和 Koltun 工作的启发该模块利用扩张卷积来进一步增加网络的感受野。它包含9个具有不同膨胀因子的卷积层分类层。它是一个 1 × 1 卷积层具有 1 _ 输出其中 _ 是不同条形码类型的数量在我们的测试中为两种。该网络以输入分辨率的四分之一生成多通道输出图。第一个通道通过较高的值指示潜在的条形码位置。应用阈值后提取单个斑点并生成边界框。输出的其他通道用于对每个斑点进行分类得分最高的通道确定条形码的类型。最后将基于第一通道中预测像素平均值的置信度得分分配给每个检测到的框。为了训练网络我们使用了其原始论文提出的损失函数。该损失函数旨在优先考虑高召回率而不是高精度。Faster R-CNNFaster R-CNN是第一个开发的近实时深度学习检测器。 Faster R-CNN 是一个两阶段目标检测网络这意味着它在定义候选边界框之前生成感兴趣区域。其架构由两个主要部分组成区域提案网络RPN。提出区域的全卷积网络。卷积主干用于从图像中提取特征。然后对于特征图的每个滑动窗口它提出一组区域。这些提案相对于一组参考锚框进行参数化Faster R-CNN 检测器。给定图像和一组可能的 ROI 的神经网络最多可检测每个 ROI 的对象。对于每个对象都会生成一个边界框和一个分类标签。Faster R-CNN 的主要贡献是 RPN 运行几乎无成本因为它直接在提取的特征上运行。这样特征提取主干网只需要运行一次其输出就可以被 RPN 和 Fast R-CNN 使用。 Faster R-CNN 的后续改进是特征金字塔网络它链接高层和底层特征数据改进小尺寸目标检测。我们选择该神经网络进行测试是因为它是第二大用于条形码检测的神经网络。此外Faster R-CNN 是基于深度学习的目标检测领域被引用最多的论文之一。在我们的实验中我们使用 ResNet-50和 FPN 作为 Faster R-CNN 的骨干网。RetinaNetRetinaNet 模型首先由 Lin 等人描述。RetinaNet 是一个单级网络由一个主干网络和两个特定于任务的子网络组成骨干网络。它由自下而上的路径和具有横向连接的自上而下的路径组成。自下而上的路径用于特征提取计算不同尺度的特征图。自上而下的路径在后续步骤中对空间上较粗糙的特征图进行上采样。然后将来自两条路径的相同尺度的特征合并在一起。用于对象检测的子网络。它进行与类无关的边界框回归。检测是相对于不同尺度的平移不变锚框进行的。用于对象分类的子网络。预测每个锚点和对象类在每个空间位置处存在对象的概率。它不与对象检测子网络共享权重。RetinaNet 引入了一种称为 Focal Loss 的新型损失函数旨在解决训练过程中类别不平衡的问题。尽管 RetinaNet 是一个非常著名的物体检测器但还没有条形码定位论文使用过。在我们的实验中我们使用 ResNet-50 FPN 作为主干与我们为 Faster R-CNN 选择的主干相同。YOLORedmon 等人推出的 YOLO 以其速度彻底改变了目标检测为实时应用铺平了道路。它是一个单阶段网络可预测图像每个区域的边界框和概率。尽管最初的定位精度存在问题特别是对于小物体。网络的以下迭代更加关注这个问题显着提高了其性能Yolo v2合并了批量归一化、锚框和维度集群Yolo v3 增强了主干网并通过在三种不同粒度尺度上进行预测来实现多尺度检测Yolo v4 引入了特征聚合和 SPP 块来增加感受野和特征分离。架构中的其他增量变化例如无锚检测和损失函数的改进已从 YOLO-v5 应用到 YOLO-v7 。2023 年 1 月发布 YOLOv5 的同一团队 Ultralytics 通过推出 YOLO-v8 确认了 YOLO 家族的最新成员。虽然 YOLO-v8 存储库的详细论文和其他功能仍在酝酿中但初步比较表明它超越了其前身为 YOLO 系列建立了新的基准。我们决定将 YOLO 纳入我们的基准测试中因为它是最著名的对象检测架构之一也是条形码检测文献中最常用的架构。此外对性能和效率的关注使 YOLO 成为工业应用的理想候选者。在我们的测试中我们使用了该网络的最新版本即 YOLOv8。特别是我们测试了两种架构YOLO-v8 Medium 和 YOLO-v8 Nano。前者是YOLO-v8的标准架构。后者在保持类似结构的同时是一个更紧凑的网络具有更少的层和通道从而使重量减少了八倍。RT-DETRVaswani 等人提出的 Transformer 彻底改变了自然语言处理 (NLP) 领域。它们基于注意力机制该机制允许模型在生成输出时关注输入序列的不同部分。无论依赖关系在输入中的位置如何Transformer 都能处理依赖关系这使得 Transformer 对于 NLP 任务特别有效。 Transformers 在 NLP 领域取得的令人难以置信的成就促使研究人员探索其在计算机视觉任务中的应用。如今基于变压器的检测器 (DETR); Co-DETR在 MS-COCO 数据集上获得了物体检测的最高 mAP 分数。然而DETR 的高计算成本使得它们很难适合实时应用。为了解决这个问题Lv 等人在 2023 年提出了一种更快的 DETR称为 RT-DETR它可以实时工作。RT-DETR 架构由三个主要组件组成骨干网络。它是一个卷积神经网络可以从图像中提取不同尺度的特征混合编码器。它将主干的多尺度特征转换为图像特征序列Transformer 解码器。首先采用 IoU 感知查询选择从编码器中选择固定数量的图像特征。这些选定的特征用作解码器的初始对象查询。最后配备辅助预测头的解码器迭代地细化这些对象查询以生成边界框和置信度分数。值得注意的是这种架构与其他基于 Transformer 的网络一起消除了非极大值抑制的需要从而加速了后处理阶段。我们选择将 RT-DETR 纳入我们的评估中以确保在我们的测试中包含基于 Transformer 的网络。正如之前指出的这些网络目前在物体检测方面表现出色但现有的论文还没有将 Transformer 应用到条形码检测中。Evaluation metrics我们研究的主要目标之一是引入一套评估测试结果所需的条形码检测和定位指标。特别是到目前为止我们已经描述了两种主要类型的算法非基于深度学习。这些方法利用传统的计算机视觉技术进行对象检测。图像特征通常是手工制作的。虽然它们可能会结合较小的机器学习模型来进行特征处理但它们并没有经过端到端的训练基于深度学习。依靠深度学习模型进行特征提取和处理。主要区别在于非深度学习算法输出框和类但不输出置信度分数。然而深度学习检测模型会为每个预测的边界框生成置信度分数。因此我们将指标分为两类不需要置信度得分的指标和需要置信度得分的指标。Metrics that do not require confidenceIntersection over union为了评估检测的质量我们想要测量检测到的边界框与真实边界框的接近程度。到目前为止最常用的度量是并交交集 (IoU)也称为 Jaccard 指数。此测量是针对每个对象类别独立完成的。IOU 等于预测边界框和真实边界框之间重叠交集的面积除以它们并集的面积理想匹配的 IoU 为 1而没有交集则 IoU 为 0。越接近 1检测效果越好。 IoU 值通常以百分比表示其中 50% 和 75% 是最常用的阈值。Precision and recall精确度衡量模型仅识别相关对象的能力而召回率则评估模型在找到所有现有对象方面的成功程度。要计算精度和召回值每个检测到的边界框必须首先分类为真阳性TP。与 GT 对象匹配的正确检测误报 (FP)。空旷区域的错误检测或现有物体的错误检测假阴性FN。未被检测到的真实物体。给定一个地面实况数据集和一个输出总共检测的模型我们将正确预测的数量定义为 ( ≤ )。精确率和召回率可以计算如下P r e c i s i o n T P T P F P S N R e c a l l T P T P F N S G Precision\frac{TP}{TPFP}\frac SN\\ Recall \frac{TP}{TPFN}\frac SGPrecisionTPFPTPNSRecallTPFNTPGS匹配真实值和预测框可能很复杂因为可能存在 IoU 超过单个真实值框阈值的多个预测或者单个预测可能与多个真实值框重叠。出于本研究的目的我们采用了 COCO API 中使用的相同方法该方法是为了评估 MS-COCO 数据集上的检测而开发的。本质上它采用贪婪算法来单独检查检测框。对于每个检测框该算法会找到具有最高交并集 (IoU) 分数的不匹配的真实框。如果 IoU 超过阈值则建立匹配并从不匹配的池中删除相应的真实框。如果 IoU 低于阈值则被视为误报。最后任何剩余的不匹配的真实框都被视为假阴性。1 score1 分数是精度和召回率的调和平均值并以单个标量值综合预测性能F 1 2 ∗ p r e c i s i o n ∗ R e c a l l P r e c i s i o n R e c a l l F_12*\frac{precision*Recall}{PrecisionRecall}F12∗PrecisionRecallprecision∗RecallCurves到目前为止我们已经考虑了 IoU 的固定阈值。这种方法会导致误报和误报的静态水平限制了我们对不同严格级别的模型性能的理解。特别是精度和召回率是 IoU 阈值的单调递减函数。为了更深入地了解模型的行为可视化精确率、召回率或 F1 分数与变化的 IoU 阈值之间的关系可能非常有益。Metrics that require confidenceAverage precision通过设置置信度阈值置信度大于的检测被视为阳性其余为阴性。这使我们能够将精度、召回率和 1 分数表示为的函数Font metrics not found for font: . () 和 () 均随减少而 () 增加。因此召回率是的递减函数而关于精度则无法先验地说明。事实上在现实场景中 () 与() 的图表经常呈现锯齿形图案。平均精度 (AP) 定义为精度-召回率曲线的曲线下面积 (AUC)。为了处理曲线的锯齿形图案我们使用 COCO API 的 Npoint 插值方法N101来计算 AP。在N点插值中第一步是在区间[0, 1]内等距取点即R e ( n ) N − n N − 1 , n 1 , 2 , . . . , N Re(n)\frac{N-n}{N-1},n1,2,...,NRe(n)N−1N−n,n1,2,...,N其中 () 是第召回值。现在我们希望每个召回值都有一个精度值以计算函数 (()) 的黎曼积分。问题是在给定精确率值的情况下我们并不总是有单一的召回率值。为了解决这个问题我们定义函数()的连续函数如下Font metrics not found for font: .最后我们可以使用以下等式计算 APA P 1 N ∑ n 1 N P r i n t e r p ( R r ( n ) ) AP\frac1N\sum^N_{n1}Pr_{interp}(R_r(n))APN1n1∑NPrinterp(Rr(n))Mean average precision对于具有许多类别的数据集平均精度 (mAP) 定义为所有类别的平均 AP。它用于为所有课程提供单一的 AP 分数m A P 1 C ∑ i 1 C A P i mAP\frac1C\sum^C_{i1}AP_imAPC1i1∑CAPi其中是第类的 AP 值是正在评估的类总数。APU我们用 AP 表示给定 IoU 阈值的平均精度。通常阈值为 0.5。AP[0.5:0.05:0.95]AP[0.5:0.05:0.95] 是所有值的平均值其中在 0.5 到 0.95 范围内步长为 0.05。也可以缩写为 AP[0.5:0.95] 或 AP[.5:.95]。AP across scales跨尺度的 AP 是一组三个指标用、和表示。这些指标等于 AP[.5,.05:.95]但考虑到 GT 对象的面积仅评估小型真实对象面积 32*32 像素仅评估中等地面实况对象32*32 面积 96*96 像素仅评估大型真实对象面积 96*96 像素。当评估给定大小的对象时评估中不考虑其他大小的对象真实值和预测值。Benchmark descriptionRepository content作为该项目的一部分我们开发了 BarBeR这是条形码本地化算法的基准。它的代码是可公开访问的并且可以从 GitHub 下载。我们用于运行测试的数据集可以从同一个 GitHub 存储库下载。该项目包含构建以下公开可用的检测方法所需的文件。此外该项目还包括使用 Ultralytics 或 Detectron2 训练神经网络和其他深度学习模型的脚本并支持早期停止。该存储库包含多个测试脚本每个脚本都支持多种配置。以下是测试脚本及其主要配置参数的细分单类检测。运行所有选定的算法仅考虑具有选定类型条形码的图像。该脚本可以配置为仅允许线性条形码或二维条形码。还可以仅包含具有单个感兴趣区域 (ROI) 的图像或允许每个图像有多个 ROI。此外还可以设置用于重新缩放测试集中图像的目标分辨率。最后我们可以指定在测试中使用哪些算法以及使用哪些参数多类检测。在测试集的所有图像上运行所有选定的算法。对于单类检测我们可以选择测试中包含的大小调整分辨率和算法计时性能。测量运行算法所需的时间。这些时间可以取自所有数据集或其一部分的平均时间。测试脚本采用Python 格式。该存储库还包含用于运行测试管道的 bash 脚本。例如这对于 k 倍交叉验证很有用。Methodology本文将介绍单类和多类模式下的检测精度测试结果。我们使用 k 倍交叉验证k5进行全面的准确性评估将数据集分为五个相等的部分。每个部分都用作测试集其余部分用于训练。深度学习模型使用 75% 的训练集进行训练其余的作为早期停止的验证集耐心 10 轮。使用批量大小 16 和 Adam 优化器对网络进行训练配置学习率为 0.001、1 0.9 和 2 0.999。为了增强训练数据我们应用了水平和垂直翻转以及对亮度、对比度和饱和度的随机调整。 Gallo、Soros 和 Yun 的方法使用整个训练集进行调整选择盒式滤波器窗口的最佳大小。Zamberletti 的方法采用了适用于霍夫变换的预训练 MLP 模型。原始 MLP 网络是在 ArteLab Rotated 数据集上进行训练的该数据集不属于我们的数据集从而防止任何信息泄漏。最后我们将测量每种检测方法的时间。对于每个图像检测运行三次并采用最低的计时值。这样做是为了消除外部因素的影响例如后台进程、CPU 负载、一次性初始化开销、缓存和垃圾收集周期。所有测试均在配备 AMD Ryzen Thread ripper Pro 5965WX CPU24 核、128 GB DDR4 RAM 和 RTX 4090 GPU 的 PC 上进行。为了提供嵌入式系统性能的示例我们还在 Raspberry Pi 3B 上运行了时间性能测试。Single-class benchmarks首先通过仅考虑单类图像、线性条形码或二维条形码来测试可用的检测算法。Single 1D barcode此评估重点关注具有单个线性条形码的图像使我们能够测试所有可用的算法包括输出单个感兴趣区域 (ROI) 的算法。本次测试包含的图像总数为 6811 张。所有图像均使用“按最长边调整大小”方法调整大小。对于此测试我们决定将最长边的值设置为 640 像素。这与 Gallo 等人和 Zamberletti 等人在其原始论文中测试方法所用的尺寸相同。 Soros和Yun的方法使用了更高分辨率分别为960×723和1024×768。这也是 YOLO-v8 和其他对象检测网络的默认分辨率。在此分辨率下我们的数据集包含 42 个小对象面积 32*32 、2 665 个中对象32*32 面积 96*96 和 4 104 个大对象面积 96*96。图 3 提供了有关数据集中对象大小分布的附加信息。图 3。该直方图描绘了将图像大小调整为 640 像素最长边后数据集中对象大小的分布以像素面积的平方根计算。轴显示面积的平方根轴表示对象数量。每个 bin 的范围为 32 像素。大多数物体在选定的分辨率下属于中型和大型类别这表明它们很可能很容易被神经网络检测到。然而我们在公共存储库中找到的所有传统方法都实现了某种形式的纹理检测以进行定位。条形码的纹理无论是线性的还是二维的主要取决于每个元素的像素。具有大模块的条形码具有可识别的边缘和角但如果模块较小则纹理变得更加均匀。理想情况下条形码检测器应始终找到可以解码的条形码。然而定义每个模块的最小像素数以实现可靠解码具有挑战性因为涉及许多其他因素例如对比度和模糊。从数据集的注释中我们可以看到自动贴标机能够解码每个元素 0.88 到 24.33 像素范围内的线性条形码和每个元素 1.21 到 71.1 像素范围内的二维条形码 (PPE)。表4 模块尺寸在指定范围内以像素为单位的一维条码数量。但是通常无法保证以低于 1 PPE 的线性条形码和低于 2 PPE 的二维条形码进行解码。在模糊或低对比度的情况下每个元素所需的像素数量显着增加。调整大小时像素密度与应用的缩放因子成比例。表 4 中可以看到所选调整大小分辨率下各种 PPE 值的更详细细分。可以看出大多数条形码的像素密度在每个模块 1 到 3 个像素之间这通常足以满足线性条形码解码器的要求。还有一些条形码每个模块的像素超过 3 个峰值为每个模块 5.13 像素。然而超过 1000 个条形码的 PPE 1表明以这种分辨率解码它们将非常具有挑战性甚至是不可能的。此外有 1044 个条形码没有 PPE 信息这表明自动贴标机无法解码它们即使在调整图像大小后这种情况也可能仍然存在。我们可以得出结论该数据集将对条形码读取器构成重大挑战。然而拥有一些分辨率低于所需分辨率的条形码对于了解检测器的限制并确定其是否可以应用于缩小图像以实现实时目的非常有用。并非所有测试的方法都会生成置信度分数因此为了公平比较我们决定使用精度、召回率和 F1score 作为指标。在表 5 中我们可以看到考虑 IoU 阈值 0.5 时不同方法的结果。表 5 IoU 阈值为 0.5 时的精度、召回率和 F1 分数。所有图像均包含单个一维条形码并调整大小以使其最长边为 640 像素。向上的箭头意味着指标的值越高表示性能越好。Gallo 和 Soros 的算法每次都会产生一个预测因此它们的精度、召回率和 F1 分数始终相同。然而考虑单个 IoU 阈值不足以进行公平比较。可以通过不同值下的精度、召回率和 F1 分数曲线来显示更完整的评估。图 4 展示了不同方法的精度、召回率和 F1 分数曲线。除了 Zharkov 的架构之外所有其他端到端神经网络在所有三个图中始终优于其他方法。图 4. 不同阈值下检测算法的精度、召回率和 F1 分数曲线。图像包含一个一维条形码并调整大小以使其最长边等于 640 像素。这是预料之中的因为这些方法的计算量更大并且精通复杂的检测问题。在经过测试的经典算法中Yun 和 Kim是迄今为止在每个 IoU 阈值上都表现更好的算法这意味着每当神经网络对于任务来说过于麻烦时这可能是建议的方法。加洛和索罗斯的方法具有相似的性能在低时有利于第二种方法的适度优势。 Zamberletti 的方法总体来说表现最差。Zharkov 的架构达到了非常高的召回率远高于经典算法所达到的水平但精度较低。所有其他基于深度学习的方法都达到了近乎完美的精度和召回率 0.75。尽管是两个最大的模型但与其他网络相比Faster R-CNN 和 RetinaNet 的表现稍差 0.75这意味着生成的框的精确度稍差。总体而言RT-DETR 在排行榜上名列前茅但差距极小。有趣的是YOLO Nano 的性能与 YOLO Medium 和 RT-DETR 非常相似尽管参数少了近 10 倍。这表明该检测任务的简单性允许小型网络表现良好而不会影响准确性。最后我们可以根据条形码的像素密度研究不同算法的性能。我们考虑每个模块 0 到 4 像素的范围并将其划分为每个模块 0.5 像素的箱。作为单一性能指标我们认为 F1 分数为 0.5。对于每个 bin我们都有不同数量的示例如表 4 所示。图 5 显示不基于深度学习的方法具有用于准确检测的最佳每模块像素范围。这是因为它们依赖边缘特征进行定位。我们可以看到每个模块 1.5 到 3.5 像素的范围是 Gallo 和 Soros 检测算法的最佳范围。 Zamberletti 的方法需要每个元素多一点像素而 Yun 提出的方法在每个模块 1.5 到 2.5 个像素时表现更好。该方法也是唯一能够检测一些 PPE 0.5 的条形码的方法并且在不使用深度学习的情况下在 0.5 ppe 1.0 时具有中等可靠性。另一方面我们可以看到基于深度学习的方法在每元素像素数从 0.5 到 4.0 的范围内具有接近恒定的性能。每个模块的性能似乎下降了 0.5 像素以下但仅用 14 个样本很难得出明确的结论。图 5. 所测试的线性条形码检测方法在每个元素不同像素范围下的 F1 分数。左图显示了所有非基于深度学习的方法右图仅显示了基于深度学习的方法。Single 2D barcodes在此测试中我们仅包含具有单个二维条形码的示例。 Sörös 和 Flörkemeier的方法是唯一可用的非基于深度学习的方法也可以检测 2D 条形码并且已经与迄今为止提出的六个神经网络一起进行了测试。该数据集包含 1 164 张图像大小调整为最大边缘长度 640 像素。在此分辨率下我们的数据集包括 19 个小对象面积 32*32 、202 个中对象32*32 面积 96*96 和 943 个大对象面积 96*96 。图 6 显示了区域分布的更详细细分。数据集呈现双峰区域分布具有较大条形码的簇其中一组较大条形码的面积在24 0 2 p x 2 和 38 0 2 p x 2 240^2px^2 和 380^2px^22402px2和3802px2之间另一组较小的条形码的面积在2 0 2 p x 2 和 14 0 2 p x 2 20^2px^2 和 140^2px^2202px2和1402px2之间。最大的条形码主要来自 Dubska 数据集而较小的代码主要包含在 ZVZ-Real 数据集中。大多数代码被归类为“大”。除了对象的面积之外模块密度对于确定数据集的难度仍然至关重要。二维条码的高像素密度有助于检测角落和边缘即使图像有些模糊。相反较低的每元素像素 (PPE) 值会掩盖这些特征从而使检测变得更加困难。如前所述为了可靠解码每个模块至少需要 2 个像素的密度但在模糊和噪声的情况下需要更高的像素密度。然而有时每个模块可以解码 1 到 2 个像素。图 6。该直方图描绘了将图像大小调整为 640 像素最长边后数据集中对象大小的分布以像素面积的平方根计算。轴显示面积的平方根轴表示对象数量。每个 bin 的范围为 32 像素。表 6 详细列出了数据集的 PPE 分布范围从 0.68 到 9.58。大多数代码的密度 2.0px/el表明可能具有可读性但仍有 144 个代码的 PPE 低于 2这将带来解码挑战。此外90 个条形码缺乏 PPE 信息这意味着即使调整大小也不太可能进行可靠的解码。我们可以得出结论数据集的很大一部分可以通过二维条形码阅读器进行解码但仍然存在大量的困难情况使测试更具挑战性。并非所有测试的方法都会生成置信度分数因此为了公平比较我们决定使用精度、召回率和 F1 分数作为指标。在表 7 中我们可以看到考虑 IoU 阈值 0.5 时不同方法的结果。很明显F1 分数为 0.14 的方法并不是可靠的二维条形码检测器。为了更好地理解其他方法在不同 IoU 阈值下的表现我们在图 7 中展示了它们的精度、召回率和 F1 曲线。Zharkov 等人取得了良好的成果尤其是在召回方面但与其他深度学习架构相比还存在差距。在较低的阈值下就 F1 分数而言RetinaNet 是最好的方法。图 7. 不同 IoU 阈值下二维条码检测算法的精度、召回率和 F1 分数曲线。所有图像均包含一个 2D 条形码并调整大小使其最长边为 640 像素。表6 模块尺寸在指定范围内的二维条码数量以像素为单位表 7 IoU 阈值为 0.5 时的精度、召回率和 F1 分数。所有图像均包含单个二维条形码并调整大小以使其最长边等于 640 像素。向上的箭头意味着指标的值越高表示性能越好。另一方面对于 0.75 YOLO Medium 和 RT-DETR 表现最好这意味着它们生成了更精确的边界框。 YOLO Nano 与 YOLO Medium 具有相似的性能但现在相对于 1D 情况差距更大一些。最后我们可以根据二维条码的像素密度来分析不同算法的性能。我们考虑每个模块 1 到 7 个像素的范围并将其划分为每个模块 1 个像素的箱。作为单一性能指标我们认为 F1 分数为 0.5。对于每个 bin我们都有不同数量的示例如表 6 所示。从图 8 中可以看出索罗斯的方法在每个模块 3-5 个像素的范围内达到其峰值性能。然而超出此范围性能会快速下降尤其是对于较低的像素密度。如果 PPE 高于 3Zharkov 等人的表现会更好而其他深度学习架构似乎受像素密度的影响不大。图 8. 所测试的二维条形码检测方法在每个元素不同像素范围下的 F1 分数。Multi-class benchmarks我们将分析扩展到整个数据集包括一维和二维条形码类别。现在的任务不仅是检测还包括分类。多类别和多 ROI 检测的可用方法是基于深度学习的模型。正如之前所观察到的深度学习模型在该领域的表现明显优于经典方法。然而由于计算成本高昂在工业应用中实施它们可能具有挑战性。正如我们将在第 10 节中更好地研究的那样在嵌入式设备上运行这些模型需要大量时间。一个潜在的解决方案是以较低分辨率检测条形码并以全分辨率执行解码阶段。因此我们决定以三种不同的分辨率运行测试以测试该策略的可行性。首先所有图像都将调整大小使其最长边等于 640 像素与之前的测试采用的缩放策略相同。然后我们将图像最长边的大小调整为 480 像素和 320 像素以测量它们在缩小图像上的性能。对于每个尺度我们使用相同尺度的训练集重新训练模型。在表 9 中我们看到实例数量除以类别和大小。正如预期的那样在较低的分辨率下小物体会增多而大物体会减少。总共包含 8 748 张图像其中 8 062 个一维条形码实例和 1 756 个二维条形码实例。为了评估模型性能我们将计算每个类别的 IoU 阈值 0.5 (AP0.5) 下的平均精度以及 IoU 阈值从 0.5 到 0.95 的平均精度步长为 0.05 (AP[.5:.95])。此外我们将考虑每个模型相应的平均精度值mAP0.5 和 mAP[.5:.95]。表 8 以不同比例调整大小的数据集所有图像中测试模型的平均精度得分。向上的箭头意味着指标的值越高表示性能越好。表 9 整个数据集中每个类别和尺寸类别的对象数量其中图像以不同分辨率调整大小。AP0.5 和 AP[.5:.95] 的结果如表 8 所示。所获得结果的总体比较如图 9 中的条形图所示。Zharkov 的方法仍然是测试模型中较弱的模型但在 640 像素尺度上仍然取得了可观的 mAP0.5 分数 0.823。然而我们可以看到其他两个尺度的性能大幅下降。其他型号在所有测试分辨率下均表现良好。对于大多数型号来说从 640 像素到 480 像素的性能下降很小而缩小到 320 像素对性能的影响则更为明显。图 9. 不同模型在三种不同尺度下的 mAP[.5:.95] 值最长边调整为 640 像素最长边调整为 480 像素最长边调整为 320 像素。测试是在考虑数据集中的所有图像的情况下进行的。在 640 像素尺度上Faster R-CNN 和 RetinaNet 的得分低于其他模型而 YOLO Medium 和 RT-DETR 分别提供最高的 mAP0.5 和 mAP[.5:.95]。在其他两个尺度上Faster R-CNN 和 RetinaNet 仍然处于排行榜底部但 Faster R-CNN 似乎表现更好一些。 RT-DETR 是所有考虑指标中最好的模型在最低分辨率下领先率有所增加。令人惊讶的是YOLO Nano 在 320 像素调整大小时在有关 YOLO Medium 的所有类别中都有更好的指标而在 480 像素调整大小时情况并非如此。最后我们测量最低分辨率最长边调整为 320 像素的跨尺度平均精度。结果如表 10 所示。正如预期的那样小物体类别是总体得分最低的类别。大型二维码似乎比大型一维条形码更容易检测。不同模型之间的排名在不同尺度上保持相同。唯一的例外是RetinaNet 在小规模上比 Faster R-CNN 表现更差但在中型和大型类别上得分更好。表 10 跨尺度的平均精度。、、分别是具有小 ( 32*32 )、中 ( 32*32 ∧ 96*96 ) 和大 ( 96*96 ) 地面实况区域的对象的 AP[.5:.95]。测试图像的大小已调整为最大边长为 320 像素。向上的箭头意味着指标的值越高表示性能越好。Time measurements在本节中我们介绍评估中的条形码检测算法的推理时间。这种分析对于条形码检测应用至关重要其中许多应用在计算资源有限的嵌入式设备上运行。为了评估不同用例的性能我们对两种对比硬件设置进行了基准测试深度学习优化的 PCAMD Ryzen Threadripper Pro 5965WX24 核、128 GB DDR4 RAM、RTX 4090 GPU和 Raspberry Pi 3B1.2 GHz 四核 ARMv8 CPU、1 GB DDR2 RAM。我们测试的算法是用 C 实现的并未专门针对多线程进行优化。然而它们确实利用了某些能够在多个线程上运行的 OpenCV 函数。为了清楚地了解它们的性能我们在单个 CPU 线程上运行这些方法。这种方法可确保时序不会因代码的少数部分的有限并行化而出现偏差。为了平衡比较我们还记录了在单个 CPU 线程上运行的深度学习方法的推理时间。此外出于信息目的我们报告了深度学习方法在 GPU 或启用多线程的 CPU 上运行时的时间。最后所有 C 实现均使用 -O3 优化进行编译其中包括自动矢量化以确保最大性能。对于此基准测试我们对数据集的所有图像运行所有检测方法。每次检测重复 3 次并考虑最低时间。这样做是为了最大限度地减少后台进程对测量的影响。最终时间是每张图像记录时间的平均值。由于图像具有不同的长宽比我们还将报告缩放后使用的图像的平均分辨率以百万像素为单位。Time on PC这些是在配备 AMD Ryzen Threadripper Pro 5965WX CPU 和 RTX 4090 GPU 的 PC 上运行时报告的时间。所有测试都是在按照最长边必须为 640 像素的规则缩放图像后进行的。我们总共有 8 748 张图像调整大小后的平均分辨率为 0.284 兆像素相当于 640 × 444 像素图像的分辨率。推理总是一次对单个图像进行。表 11 报告了在 CPU 上的单个线程上运行检测方法所需的时间。对于深度学习方法我们还报告了 24 核和 GPU 上的多线程性能。我们将首先关注 CPU 上的单线程性能因为这是面对所有方法的唯一方法。正如预期的那样所涉及的方法之间存在巨大差异最快的方法比最慢的方法快 780 倍。表 11 PC 和 Raspberry PI 上检测所需的平均时间。所有图像均已调整大小最长边为 640 像素。 ∞ 符号表示没有足够的 RAM 来运行算法。向下箭头表示指标值越低表示性能越好。Gallo 等人是迄今为止最快的在单个线程上每秒可以运行 600 多次。这是预料之中的因为这是最古老的方法并且其主要重点是在有限的硬件上运行。这种令人难以置信的速度是可能的因为该方法不是旋转不变的。 Yun 等人是第二快的方法7.598 ms尽管其检测精度比 Soros 等人更好 Zamberletti et al Soros et al 则稍慢一些性能为 11.25 ms。 Zamberletti 的方法相当慢为 48.20 ms。由于它在霍夫变换空间中使用 MLP因此其性能介于经典 CV 方法和深度学习方法之间。 Zharkov 等人是唯一可以在单核上实时运行的深度学习模型记录时间为 25.85 毫秒。YOLO Nano 也比其他模型快得多平均时间为 64.99 毫秒。 YOLO Medium 比 Nano 版本慢 7 倍多单线程为 478.9 毫秒。正如预期的那样RT-DETR 较慢时间为 985.4 毫秒RetinaNet 和 Faster R-CNN 更慢时间分别为 1 124 毫秒和 1 271 毫秒。使用多线程所有神经网络的速度都提高了 5-10 倍YOLO Nano 除外它的速度仅提高了 4 倍时间为 17.4 毫秒。在 GPU 上排名保持不变但较大的模型比较小的模型获得更大的提升。最快的方法仍然是 Zharkov 等人用时 1.447 毫秒而最慢的方法是 RetinaNet用时 36.00 毫秒。所有条形码检测方法均可用于高端 PC 上的实时应用。然而很难找到一个现实世界的条形码检测应用程序其中使用高端 GPU 具有经济和逻辑意义。之前我们已经看到基于深度学习的检测器即使在较低分辨率下也能很好地工作。为此我们还记录了将最长边调整为480像素和320像素时的单线程性能。所有这些测试都是使用 CPU 上的单线程进行的如表 12 所示。表 12 在不同的最长边分辨率下使用 CPU 上的单线程在 PC 和 Raspberry PI 上进行检测所需的平均时间。 ∞ 符号表示没有足够的 RAM 来运行算法。向下箭头表示指标值越低表示性能越好。我们可以看到时间或多或少与图像的像素数量成线性比例。事实上480 像素时的分辨率比 640 像素时的分辨率低约 1.8而 320 像素时的分辨率则低 4 倍。在最低分辨率下我们可以轻松地实时运行 Zharkov 等人或 YOLO Nano 等小型网络而其他基于深度学习的模型仍然太慢。Time on embedded device正如我们所见PC CPU 通常足以实时运行条形码检测算法。然而许多条形码读取应用都依赖于嵌入式 CPU。一个例子是零售条形码阅读器它应该足够小以适合手持设备。另一个例子是工业中的零件识别标记其中每个组件都标有条形码并且沿管道使用多个读取器。此方法用于对精度和安全性至关重要的行业例如航空航天、汽车、医疗设备和电子产品。零件标识用于交叉引用零件规格确保在装配中使用正确的组件。这有助于避免错误降低有缺陷产品的风险并最大限度地减少代价高昂的召回。使用嵌入式设备代替 PC 进行处理可确保降低成本和空间需求。此外将计算卸载到外部机器会增加延迟。为了测量嵌入式设备的性能我们在 Raspberry PI 3B 系统上运行基准测试该系统使用 1.2 GHz 的四核 ARM Cortex A53 CPU 和 1 GB DDR2 RAM。由于测试的系统现在速度慢得多我们必须对数据集的 500 个随机选择的图像的子集进行测试以使测试在合理的时间内运行。平均面积仍为 0.284 兆像素。我们对所选图像的所有检测算法进行了单核 CPU 测试将其大小调整为最大边缘长度 640 像素。深度学习方法也已使用所有 4 核 CPU 进行了测试。结果如表 11 所示。与 PC 结果相比Raspberry PI 上的执行时间增加了 40-50 倍。RAM (1 GB) 不足导致 Faster RCNN 和 RetinaNet 无法运行。因此目前还没有任何方法能够实现实时性能Gallo 的方法接近。各种方法之间的时间比较保持不变。 Gallo 的方法最快53.45 ms然后是 Yun 的算法146.3 ms和 Soros 的算法397.5 ms最后是 Zamberletti 提出的算法1 360 ms。所有深度学习方法都比这慢需要数秒的时间。 Zharkov 等人仍然是最快的网络速度为 2 120 ms其次是 YOLO Nano速度为 3 034 ms。YOLO Medium 和 RT-DETR 的速度非常慢处理时间分别为 20 083 ms 和 39 882 ms。多核执行产生了大约 1.5 倍的适度加速可能受到未优化的库或 RAM 等系统瓶颈的限制。我们还记录了将最长边调整为 480 像素和 320 像素时的单线程性能。结果如表 12 所示。除 Zharkov 等人外排名保持不变在 320 像素缩放方面超越了 Zamberletti 等人。在此分辨率下较小的神经网络所需的时间变得更加合理分别为 340.9 ms 和 1 050 ms但仍距实时应用目标还很远。重要的是要承认这些方法的速度可以通过优化来显着提高。例如我们测试的 C 方法目前尚未针对多核处理进行优化。然而这可以通过 OpenMP 等库轻松实现OpenMP 架构审查委员会2008 年。此外通过使用 SIMD 内在函数可以使 C 代码变得更快而 OpenVINO (OpenVINO, 2024) 和 TFLite 等软件工具包可以加快深度学习模型的执行速度特别是在嵌入式 CPU 上。最后可以采用量化和修剪等技术来提高神经网络的速度同时对准确性的影响最小。然而这超出了我们论文的范围。Concluding remarks and future research directions在本文中我们对条形码定位领域进行了全面回顾并发布了条形码本地化的公共基准解决了该领域内再现性和数据集标准化方面现有的挑战。我们的核心贡献总结如下。数据集整合和标准化。我们从公共来源收集了包含 8 748 张图像的数据集并为其提供了标准化注释。我们决定公开该数据集以便将来可以用于该领域的贡献。可重复的基准测试。 BarBeR 是我们公开访问的基准测试具有来自文献的一套算法在第 4 节中详细描述、用于深度学习模型训练的脚本以及各种性能指标在第 6 节中介绍。这确保了透明度并使研究人员能够轻松复制和扩展我们的工作。最后我们使用我们的数据集和经过训练的模型对基准进行了多次测试验证了其可靠性和可用性。特别是我们可以从迄今为止进行的测试中得出一些有趣的结论。首先我们的测试证实了深度学习方法相对于手工方法具有显着的准确性优势。然而大多数深度学习模型的计算复杂性仍然是实时嵌入式应用程序的挑战。另一方面我们的研究结果表明小型神经网络例如 YOLO Nano的性能几乎与大型架构例如 RTDETR 和 RetinaNet一样好。最后在测试的公开可用方法中Yun 等人的提议提供了准确性和速度的最佳组合在两个指标上都超越了索罗斯和赞贝莱蒂的方法。相反最快的方法是 Gallo 等人描述的方法表明即使在非常受限的设备上也可以实现不错的精度。正如介绍中所述条码解码技术在物流、供应链管理、零售、机器人等行业发挥着至关重要的作用市场价值数十亿。本文旨在提供该领域的学术观点重点关注条形码定位——任何解码过程中至关重要的第一步。通过推进该领域的开源研究我们希望促进利用条形码技术的行业的增长并支持依赖该技术的学术活动。对于未来我们设想对我们的基准进行一系列可能的改进可用于进一步推动条形码读取领域的发展。实例分割。当前的软件可以轻松扩展以支持图像分割基准测试。数据集元数据已经用多边形定义了 ROI。条形码解码。评估集成本地化解码系统的解码能力可以为实际用例提供更广泛的评估。事实上条形码读取系统的最终指标是解码条形码的数量以及实现该结果所需的时间。图像增强。研究图像增强技术的影响可能会提高挑战性条件下条形码读取的成功率。可以在定位阶段之前或之后将图像处理步骤添加到管道中。视频支持。在许多应用中条形码读取器输入是图像序列而不是单个帧。在基准测试中添加视频数据集可以开辟新的评估可能性使研究人员能够探索速度和准确性之间的权衡。例如更快且不太精确的解码器可能会处理更多的帧而较慢但更准确的算法可能依赖更少的帧。基准测试可以揭示哪种方法在不同情况下更有效。此外利用跨帧的时间信息可以提高定位算法的准确性或效率为基于视频的条形码检测研究提供新的方向。Gallo et al. 算法Gallo et al. 算法是专为1D 条形码实时定位设计的传统计算机视觉算法核心思想是利用 1D 条形码 “高对比度平行线条” 的结构特征通过计算图像水平与垂直导数差异突出条码区域以极简流程实现快速检测适配早期移动设备等资源受限场景。优先保证速度兼顾模糊 / 噪声图像中的 1D 条形码检测适配当代移动设备原文提及 “engineered for speed, enabling it to operate on contemporary mobile devices”。条形码水平放置平行线条垂直对齐仅支持 ±30° 内的旋转超出则检测可靠性下降。1D 条形码区域的水平导数线条边缘方向绝对值远大于垂直导数通过该差异构建 “条码热图”快速定位目标区域。仅支持 1D 条形码不支持多 ROI单图单条码、无旋转不变性、不适配 2D 条形码。算法流程可分为 6 个关键步骤每个步骤的具体操作和计算如下计算条码热图核心差异化步骤突出条形码区域水平导数强、垂直导数弱抑制背景。对输入图像的每个像素n计算水平导数绝对值与垂直导数绝对值的差值得到热图I e ( n ) I_e(n)Ie(n)I e ( n ) ∣ I x ( n ) ∣ − ∣ I y ( n ) ∣ I_e(n) |I_x(n)| - |I_y(n)|Ie(n)∣Ix(n)∣−∣Iy(n)∣。其中I x ( n ) I_x(n)Ix(n)为像素n的水平方向导数I y ( n ) I_y(n)Iy(n)为垂直方向导数反映图像在该方向的灰度变化强度。条形码区域的I e ( n ) I_e(n)Ie(n)值显著高于背景因线条边缘沿水平方向分布水平导数更强。热图平滑处理降低噪声干扰使条码区域的热图值更集中。对热图I e ( n ) I_e(n)Ie(n)应用盒滤波器box filter得到平滑后的热图I s ( n ) I_s(n)Is(n)。盒滤波器通过邻域像素均值加权减少孤立噪声点对后续二值化的影响。热图二值化将连续灰度的热图转化为黑白二值图像分离条码候选区域与背景。采用Otsu 自适应阈值法对I s ( n ) I_s(n)Is(n)进行二值化无需手动设定阈值自动适配图像灰度分布。二值图像中高亮度区域前景为条码候选区域blob低亮度区域背景为非条码区域。筛选目标 Blob确定唯一的条码候选区域算法假设单图仅含 1 个 1D 条形码。遍历二值图像中的所有 Blob选择包含 “热图最大强度像素n 0 n_0n0” 的 Blobn 0 arg ⁡ max ⁡ I s ( n ) n_0 \arg\max I_s(n)n0argmaxIs(n)。最大强度像素大概率位于条码核心区域其所在 Blob 即为最可能的条码区域。生成条码 bounding box确定条码的矩形边界与图像坐标轴平行。从像素n 0 n_0n0出发分别沿水平、垂直方向追踪 Blob 的边缘形成与图像边框平行的矩形因算法假设条码水平放置矩形边无需旋转。优化扫描线与去除安静区剔除条码周围的 “安静区”quiet zone条码边缘无信息的空白区域精准定位有效条码区域。选取矩形中心的水平线作为扫描线l ( n ) l(n)l(n)沿扫描线从两端向中心收缩直到检测到灰度强度低于均值 85% 的像素收缩后的区域即为去除安静区的有效条码区域。算法的计算过程围绕 “突出条码特征→降噪→分离目标→精准定位” 展开每个步骤的数学逻辑和操作细节如下图像预处理将输入彩色图像转换为单通道灰度图。简化计算避免彩色通道干扰边缘检测1D 条码的核心特征是灰度对比强烈的平行线条。导数计算与热图生成通过水平 / 垂直导数的差异突出条码区域条码线条沿水平分布水平导数更强。对灰度图中每个像素n ( x , y ) n(x,y)n(x,y)计算水平导数I x ( n ) I_x(n)Ix(n)和垂直导数I y ( n ) I_y(n)Iy(n)使用Sobel 算子传统边缘检测主流选择核大小默认 3×3轻量级场景常用。Sobel 水平核[ − 1 0 1 − 2 0 2 − 1 0 1 ] \begin{bmatrix}-101\\-202\\-101\end{bmatrix}−1−2−1000121垂直核[ − 1 − 2 − 1 0 0 0 1 2 1 ] \begin{bmatrix}-1-2-1\\000\\121\end{bmatrix}−101−202−101。计算热图I e ( n ) I_e(n)Ie(n)I e ( n ) ∣ I x ( n ) ∣ − ∣ I y ( n ) ∣ I_e(n) |I_x(n)| - |I_y(n)|Ie(n)∣Ix(n)∣−∣Iy(n)∣。条码区域中水平方向的边缘线条边界灰度变化剧烈∣ I x ( n ) ∣ |I_x(n)|∣Ix(n)∣远大于∣ I y ( n ) ∣ |I_y(n)|∣Iy(n)∣因此I e ( n ) I_e(n)Ie(n)为高值背景区域两者差异小I e ( n ) I_e(n)Ie(n)接近 0 或负值。盒滤波器平滑降噪步骤消除孤立噪声点对后续二值化的干扰使条码区域的热图值更连续。盒滤波器均值滤波器的窗口大小k × k k×kk×k基准测试中优化为 15px见文档 7.2 节 “optimal size for the box filter’s window: 15 pixels for Soros and Gallo”。对热图I e ( n ) I_e(n)Ie(n)进行卷积I s ( x , y ) 1 k 2 ∑ i − k / 2 k / 2 ∑ j − k / 2 k / 2 I e ( x i , y j ) I_s(x,y) \frac{1}{k^2} \sum_{i-k/2}^{k/2} \sum_{j-k/2}^{k/2} I_e(xi,yj)Is(x,y)k21∑i−k/2k/2∑j−k/2k/2Ie(xi,yj)窗口中心对齐像素( x , y ) (x,y)(x,y)边缘像素采用零填充。输出平滑后的热图I s ( n ) I_s(n)Is(n)。Otsu 自适应二值化自动分割条码候选区域前景与背景无需手动调参。统计平滑热图I s ( n ) I_s(n)Is(n)的灰度直方图h ( g ) h(g)h(g)g为灰度级0255。遍历所有可能阈值t0255计算类间方差σ 2 ( t ) \sigma^2(t)σ2(t)σ 2 ( t ) ω 0 ( t ) ω 1 ( t ) [ μ 0 ( t ) − μ 1 ( t ) ] 2 \sigma^2(t) \omega_0(t)\omega_1(t)[\mu_0(t)-\mu_1(t)]^2σ2(t)ω0(t)ω1(t)[μ0(t)−μ1(t)]2。其中ω 0 \omega_0ω0、μ 0 \mu_0μ0为阈值 t 以下像素的占比和均值ω 1 \omega_1ω1、μ 1 \mu_1μ1为阈值以上像素的占比和均值。选择使σ 2 ( t ) \sigma^2(t)σ2(t)最大的阈值t o p t t_{opt}topt二值化规则I b ( n ) 1 I_b(n) 1Ib(n)1若I s ( n ) ≥ t o p t I_s(n) ≥ t_{opt}Is(n)≥topt前景 Blob否则I b ( n ) 0 I_b(n) 0Ib(n)0背景。Blob 筛选目标区域定位从二值图中筛选出唯一的条码候选 Blob算法假设单图单 1D 条码。查找二值图中所有连通区域Blob使用 8 - 邻域连通准则传统 Blob 检测常用兼顾速度。计算每个 Blob 的 “核心像素”找到热图I s ( n ) I_s(n)Is(n)中最大值对应的像素n 0 arg ⁡ max ⁡ I s ( n ) n_0 \arg\max I_s(n)n0argmaxIs(n)。筛选包含n 0 n_0n0的 Blob 作为目标候选区域理由最大值像素大概率位于条码核心其所在 Blob 为真实条码区域。Bounding Box 生成与安静区去除精准定位条码有效区域剔除无信息的安静区。生成初始矩形框从n 0 n_0n0出发沿水平 / 垂直方向追踪 Blob 的边界得到与图像坐标轴平行的矩形因算法假设条码水平放置无需旋转框。确定扫描线取矩形中心的水平线l ( n ) l(n)l(n)扫描线覆盖条码的核心区域确保灰度变化最明显。安静区去除计算扫描线l ( n ) l(n)l(n)上所有像素的灰度均值μ l \mu_lμl。从扫描线两端向中心收缩直到像素灰度值小于0.85 μ l 0.85\mu_l0.85μl文档明确阈值 85%收缩后的区间即为有效条码区域。最终输出有效区域的 Bounding Box。参数类别参数名称取值选择依据预处理参数输入图像格式灰度图单通道简化导数计算突出条码灰度对比特征导数计算参数边缘检测算子Sobel 3×3传统算法主流选择平衡速度与边缘检测效果平滑参数盒滤波器窗口大小15×15 像素BarBeR 基准中优化后的最优值文档 7.2 节明确兼顾降噪与速度二值化参数阈值计算方法Otsu 自适应无需手动调参应对不同光照、对比度场景Blob 筛选参数连通准则8 - 邻域比 4 - 邻域更易捕获完整条码 Blob且计算开销低定位优化参数旋转容忍度±30°算法核心假设水平放置超出则线条方向与导数计算方向不匹配检测失效安静区参数灰度阈值比例85%均值占比文档明确设定剔除条码边缘无信息的空白区域精准定位有效数据区结构特征由黑白相间的平行线条组成线条方向一致多为水平存在 “安静区”条码边缘无信息空白区。高灰度对比度黑白反差明显模块尺寸固定像素 / 元素 PPE≥1.0 时易检测无复杂纹理。仅水平方向编码数据垂直方向无信息定位无需考虑垂直方向的细节。传统轻量计算机视觉算法速度优先嵌入式首选核心优势无训练依赖、计算开销低、单帧耗时≤10ms鲁棒性通过 “自适应特征手工调优” 保障文档中以Yun et al.精度 - 速度平衡最优和Gallo et al.速度最快为代表。Yun et al. 利用 1D 条码 “边缘方向一致性” 和 “高对比度” 特征通过方向直方图筛选 salient 区域兼顾旋转不变性与抗模糊能力。核心组件与步骤预处理灰度化→高斯模糊3×3 核降噪不破坏边缘特征提取Sobel 算子计算梯度幅度 / 方向→18 bin 方向直方图每 bin 10°覆盖全旋转角度目标筛选自适应阈值分离主方向特征→熵值筛选突出平行线条区域抑制背景定位连通区域分析8 - 邻域→多 ROI 输出支持多条码后处理边界框优化去除冗余区域。Gallo et al.速度最快聚焦 1D 条码 “水平放置高对比度” 假设简化旋转处理优先保障速度适配移动设备。核心组件与步骤预处理灰度化无额外模糊减少计算特征提取Sobel 算子计算水平 / 垂直导数→热图生成I e ∣ I x ∣ − ∣ I y ∣ I_e|I_x|-|I_y|Ie∣Ix∣−∣Iy∣突出水平线条目标筛选15×15 盒滤波器平滑→Otsu 自适应二值化→Blob 筛选含热图最大值像素定位Bounding Box 生成→扫描线收缩去除安静区85% 均值阈值后处理单 ROI 输出假设单条码。RT-DETRTransformer 轻量化改造去除 NMS利用 1D 条码 “特征简单” 的特性加速推理鲁棒性拉满。核心组件与步骤预处理同 YOLO Nano亮度均衡统一尺度特征提取HGNetv2-L backbone31M 参数→混合编码器多尺度特征序列化定位IoU-aware 查询选择→迭代优化边界框无需锚框适配任意尺度后处理直接输出结果无 NMS节省耗时。抗旋转 / 模糊 / 遮挡能力最优适合高精度场景如机器人导航扫码。YOLO-v8 Nano基于 1D 条码 “目标形态简单” 的特性用极简 CNN 架构提取特征减少参数冗余兼顾速度与精度。支持 ±90° 旋转、模糊、小尺寸条码PPE≥0.5适配仓储自动化场景。核心组件与步骤预处理灰度化→自适应亮度均衡提升光照鲁棒性→640px 长边 resize统一输入尺度特征提取轻量 CNN backbone3.16M 参数→多尺度特征融合适配不同尺寸条码定位锚框匹配针对 1D 条码比例优化锚框→边界框回归后处理非极大值抑制NMS→置信度筛选阈值 0.5。Yun et al. 算法是传统计算机视觉中1D 条形码定位的精度 - 速度最优解核心思想是利用 1D 条码 “平行线条的方向一致性” 特征通过梯度方向直方图捕捉主方向、熵值筛选突出条码区域实现旋转不变性、多 ROI 检测支持单图多条码同时保持轻量计算PC 端单帧耗时 7.6ms。其设计兼顾鲁棒性抗模糊、光照变化与速度参数以自适应为主、手动调优为辅复现难度低适配嵌入式与移动场景。算法围绕 1D 条码的核心特性 “黑白平行线条→梯度方向高度集中” 展开核心逻辑可概括为方向一致性捕捉1D 条码的平行线条会产生大量方向相同的梯度通过统计梯度方向直方图分离出占比最高的 “主方向”即条码线条的垂直方向。熵值筛选 salient 区域条码区域的梯度方向高度集中主方向占比高熵值小背景区域梯度方向杂乱熵值大通过熵值阈值筛选出条码候选区。多 ROI 与旋转适配通过连通区域分析支持多条码检测通过全角度覆盖的方向直方图18 个 bin每 bin10°实现 ±90° 旋转不变性。轻量计算设计仅依赖 Sobel 梯度、直方图统计、熵值计算等基础操作无复杂变换如霍夫变换平衡速度与鲁棒性。算法参数分为 “自适应参数”无需手动调优和 “手动优化参数”复现关键具体如下参数类别参数名称取值 / 范围选择依据与复现建议预处理参数高斯模糊核大小3×3平衡降噪效果与计算速度不可过大如 5×5 会模糊条码边缘梯度计算参数Sobel 核大小3×3轻量计算首选梯度幅度阈值(T_{mag})全图梯度幅度的均值自适应5~10无手动调优必要复现可直接取均值或按图像噪声程度微调方向直方图参数bin 数量18每 bin10°覆盖 0°~180° 全角度保证旋转不变性主方向分离参数比例常数(α)0.3BarBeR 基准优化值兼顾主方向纯度与覆盖度复现优先使用可在 0.2~0.4 之间微调局部熵值参数局部块大小16×16 像素经验值过小如 8×8易受噪声影响过大如 32×32会丢失小条码细节平滑参数盒滤波器窗口大小30×30 像素“Yun 算法最优窗口 30px”连接断裂条码区域不可小于 20px后处理参数最小连通区域面积≥100 像素过滤微小噪声块复现可根据条码最小尺寸调整如小条码可设 50 像素连通准则邻域类型8 - 邻域比 4 - 邻域更易捕获完整条码区域复现默认选择算法流程可分为 7 个关键步骤每个步骤的计算细节与物理意义如下图像预处理,彩色图像→单通道灰度图→高斯模糊3×3 核σ1.0。灰度化采用加权平均法公式为I g r a y ( x , y ) 0.299 R 0.587 G 0.114 B I_{gray}(x,y) 0.299R 0.587G 0.114BIgray(x,y)0.299R0.587G0.114B平衡亮度与计算量。高斯模糊用 3×3 高斯核平滑图像减少噪声对梯度计算的干扰核矩阵为1 16 [ 1 2 1 2 4 2 1 2 1 ] \frac{1}{16}\begin{bmatrix}121\\242\\121\end{bmatrix}161121242121。简化后续梯度计算抑制高频噪声保留条码线条的低频梯度特征。梯度计算计算每个像素的梯度幅度强度和方向捕捉条码线条的边缘信息。采用Sobel 算子计算水平梯度∇ I x \nabla I_x∇Ix和垂直梯度∇ I y \nabla I_y∇Iy核大小 3×3轻量计算首选水平核检测垂直边缘对应条码线条方向[ − 1 0 1 − 2 0 2 − 1 0 1 ] \begin{bmatrix}-101\\-202\\-101\end{bmatrix}−1−2−1000121垂直核检测水平边缘[ − 1 − 2 − 1 0 0 0 1 2 1 ] \begin{bmatrix}-1-2-1\\000\\121\end{bmatrix}−101−202−101梯度幅度反映边缘强度m a g ( p ) ∇ I x 2 ∇ I y 2 mag(p) \sqrt{\nabla I_x^2 \nabla I_y^2}mag(p)∇Ix2∇Iy2。梯度方向反映边缘朝向a n g ( p ) arctan ⁡ 2 ( ∇ I y , ∇ I x ) ang(p) \arctan2(\nabla I_y, \nabla I_x)ang(p)arctan2(∇Iy,∇Ix)文档公式 (7)范围[ − π , π ] [-π, π][−π,π]后续映射为[ 0 , 180 ° ] [0, 180°][0,180°]。物理意义条码的黑白线条边界会产生高幅度梯度且方向集中如水平条码的梯度方向多为垂直即 90°。全局方向直方图构建主方向捕捉,统计全图梯度方向分布找出条码的 “主方向”梯度集中的方向。方向量化将[ 0 , 180 ° ] [0, 180°][0,180°]梯度方向划分为 18 个 bin每个 bin 覆盖 10°文档明确即 bin0 对应 0°~10°bin1 对应 10°~20°…bin17 对应 170°~180°。阈值筛选设定梯度幅度阈值T m a g T_{mag}Tmag自适应默认取全图梯度幅度的均值复现常用经验值 5~10仅保留m a g ( p ) T m a g mag(p) T_{mag}mag(p)Tmag的像素过滤弱边缘噪声。直方图统计对筛选后的像素按其梯度方向归入对应 bin得到全局方向直方图h G ( b ) h_G(b)hG(b)b 0 , 1 , . . . , 17 b0,1,...,17b0,1,...,17表示每个 bin 的像素个数。关键输出h G ( b ) h_G(b)hG(b)的峰值对应的 bin即为条码的主方向如峰值在 bin9对应 90°~100°说明条码线条为水平方向。主方向与弱方向分离突出条码特征目标通过自适应阈值将主方向条码相关与弱方向背景相关分离。计算逻辑计算直方图阈值T h i s t T_{hist}ThistT h i s t m a x ( h G ( b ) ) × α T_{hist} max(h_G(b)) × αThistmax(hG(b))×α其中α αα为比例常数0 α 1 0α10α1基准测试优化值 0.3平衡主方向纯度与覆盖度。方向映射定义映射函数V h G m a p ( b ) V_{h_G}^{map}(b)VhGmap(b)若h G ( b ) T h i s t h_G(b) T_{hist}hG(b)Thist则该 bin 为主方向组件O s O_sOs条码梯度集中的方向否则为弱方向组件O w O_wOw背景梯度方向。目的聚焦主方向过滤背景杂乱梯度减少后续计算量。局部熵值计算条码区域筛选目标通过局部熵值判断区域是否为条码条码区域熵值小背景熵值大。计算逻辑图像分块将预处理后的灰度图划分为非重叠的局部块patch块大小默认 16×16 像素复现常用经验值平衡局部特征捕捉与速度。局部方向直方图对每个块计算其局部方向直方图h L ( i ) h_L(i)hL(i)同样 18 个 bin仅统计块内m a g ( p ) T m a g mag(p) T_{mag}mag(p)Tmag的像素。局部主方向判断找到h L ( i ) h_L(i)hL(i)的最大值对应的索引i m a x i_{max}imax若V h G m a p ( i m a x ) O s V_{h_G}^{map}(i_{max}) O_sVhGmap(imax)Os该块的主方向与全局主方向一致则计算该块的熵值否则熵值设为 0。熵值计算E ( f ) { J if V h G m a p ( i m a x ) O s 0 otherwise , J ∑ i 0 17 [ h L ( i ) − h L ( i m a x ) ] E(f) \begin{cases} J \text{if } V_{h_G}^{map}(i_{max}) O_s \\ 0 \text{otherwise} \end{cases}, \quad J \sum_{i0}^{17} [h_L(i) - h_L(i_{max})]E(f){J0ifVhGmap(imax)Osotherwise,J∑i017[hL(i)−hL(imax)]物理意义J越小熵值越小说明块内梯度方向越集中越可能是条码区域反之则为背景。显著性图生成与二值化目标区域分离目标将熵值筛选后的区域转化为二值图分离条码候选区与背景。计算逻辑熵值图阈值化将每个块的熵值E ( f ) E(f)E(f)赋值给块内所有像素得到熵值图设定熵值阈值T E T_ETE自适应采用 Otsu 法复现常用经验值 0.2×max (E (f))得到初步显著性图S ( f ) S(f)S(f)E ( f ) T E E(f) T_EE(f)TE的像素设为 1否则为 0。盒滤波器平滑用盒滤波器优化窗口 30×30 像素对S ( f ) S(f)S(f)进行卷积目的是连接断裂的条码区域、消除孤立噪声点。最终二值化再次用 Otsu 法对平滑后的显著性图二值化得到最终二值图I b I_bIb前景为条码候选区背景为 0。连通区域分析与 Bounding Box 生成多 ROI 输出目标从二值图中提取多个条码的边界框完成定位。计算逻辑连通区域检测采用 8 - 邻域连通准则文档隐含传统多目标检测常用找到I b I_bIb中所有连通区域每个连通区域对应一个条码候选区。过滤小区域设定最小面积阈值默认 100 像素过滤微小噪声块保留面积大于阈值的连通区域。生成边界框对每个有效连通区域计算其最小外接矩形与图像坐标轴平行无需旋转框因条码旋转已通过方向直方图适配输出每个条码的 Bounding Boxx,y,w,h。GitHub - MeiGen-AI/InfiniteTalk: Unlimited-length talking video generation that supports image-to-video and video-to-video generationGitHub - Wan-Video/Wan2.2: Wan: Open and Advanced Large-Scale Video Generative ModelsGitHub - 11cafe/jaaz: The world’s first open-source multimodal creative assistant This is a substitute for Canva and Manus that prioritizes privacy and is usable locally.GitHub - Orange-3DV-Team/MoCha: MoCha: End-to-End Video Character Replacement without Structural GuidanceGitHub - TheAlgorithms/Python: All Algorithms implemented in PythonGitHub - import-ai/omnibox: Collect, organize, use, and share, all in OmniBox.GitHub - datawhalechina/hello-agents: 《从零开始构建智能体》——从零开始的智能体原理与实践教程

标签：网站建设企业官网项目流程 UI设计前端开发

企业官网建设流程全解析

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

热门文章

贵州网站设计户外平台设计

python网站开发框架wordpress翻译

网站建设制作视频教程深圳网站建设公司招聘电话销售

莆田网站制作设计做一电影网站的apk

网站空间买卖wordpress极简中文主题

设计师做单页的网站wordpress注册页模板

文章分类

标签云

相关文章

网站建设需要怎么做网站开发竞聘报告

网站的优化和推广方案4414站长平台

做ppt模板下载网站为什么wordpress安装成了英文版

需要专业的网站建设服务？