通过多边界聚类和优先级排序（MCP）来促进神经网络再训练_海苔小饼干_mcp模型

网络投稿 02-07 5612

本周阅读了论文《Multiple-Boundary Clustering and Prioritization to Promote Neural Network Retraining》，该论文主要提出了一种叫MCP的方法，选择有效的输入子集对DL模型进行再训练，以提高模型的质量。在我们的研究中，可以考虑本文的边界聚类的算法思想。

主要工作：

前提：

测试工作中，常通过标记从测试上下文中收集有效输入子集来重新训练DL模型，提高模型质量。

本文提出：

多边界聚类和优先级排序（MCP）——将测试样本聚类到DL模型的边界区域并指定优先级，从所有边界区域均匀选择样本，以确保每个边界重建都有足够的有用样本。

实验和实验结果：

对三个流行 DL 模型、33 个模拟测试环境进行了实证研究。与最先进的基线方法相比，MCP有效性、效率都更好。

要解决的问题：

以有限的标记工作指导DL模型的再训练。目前基于边界的技术只捕获了测试样本与DL模型边界的距离关系，而无法获取边界分布信息，可能导致边界之间选择不平衡。

如上图，III 中的样本比 I 和 II 中的样本离原始边界更远。虽然一般靠近边界的样本对边界的变化更敏感，理论上更有助于重建边界，但如果只考虑距离度量，可能会过度选择 I 和 II 中的样本（距离更短），忽略 III 中的样本（距离更长），这对于重建第 2 类和第 3 类之间的边界必不可少。

因此，基本思想是将再训练DL模型考虑为基于多重分类的多个边界的重建，从多个边界区域中均匀选择样本，以确保每个边界重建有足够的样本。

算法步骤：