Unify ML4TSP: Drawing Methodological Principles for TSP and Beyond from Streamlined Design Space of Learning and Search

Key Points

解耦训练和求解过程，并分别模块化
提出组合优化问题采样不独立的解决方案

Abstract

本文针对机器学习求解组合优化问题缺乏统一框架的问题，以旅行商问题（TSP）为研究对象，提出模块化框架ML4TSPBench。该框架将主流学习型求解器分解为可组合的设计空间（训练阶段的学习功能/目标 + 求解阶段的构造/改进方法），通过重组技术库验证了四项核心设计原则：

联合概率估计（Joint Probability Estimation）
对称解表示（Symmetry Solution Representation）
在线优化（Online Optimization）
搜索友好性（Search Friendliness）
基于原则提出新方法（如节点归一化、对称扩散模型），重组后求解器在TSP-50/100/500上达到SOTA（gap 0.000%/0.001%/0.142%），并验证原则上可推广至车辆路径（CVRP）和最大独立集（MIS）问题。代码已开源。

1. Introduction

背景与问题

TSP是ML4CO的典型问题，现有方法包括监督学习、强化学习、生成模型等，但学习与搜索组件交织，难以分析各自贡献。
核心矛盾：训练阶段优化历史实例平均性能，而求解阶段需针对新实例优化，二者目标不一致。

现有方案局限

方法实现差异大（如自回归 vs. 非自回归），效果不透明，缺乏统一评估框架。
未回答关键问题：学习如何提升求解？什么是优秀学习设计的原则？

本文方案

ML4TSPBench框架：将主流方法分解为模块化设计空间（图1），支持技术重组和透明消融。
贡献：
- 提炼四项设计原则，通过消融验证其有效性。
- 提出新方法（如节点归一化、对称RL目标）。
- 重组技术库达到SOTA，开源代码。

2. Background

TSP问题定义

输入：$n$个城市的坐标，边距阵 $\mathbf{D}_{i,j}$。
目标：最小化哈密顿回路长度 $f(\mathbf{X};G)=\sum_{i,j}\mathbf{D}_{i,j}\cdot\mathbf{X}_{i,j}$。

ML4TSP方法分类

范式	代表工作	特点
纯在线求解	LKH-3, Concorde	无预训练，依赖手工启发式
离线学习直接求解	GCN (Joshi et al.)	预测解后无搜索
离线支持在线求解	本文框架重点	学习引导搜索（如MCTS、扩散）

与现有框架对比

Berto et al. (2023)：仅统一RL模型实现，未分析学习范式。
Joshi et al. (2020)：仅分析基础方法，未提设计原则。

3. Method

3.1 训练与求解的模块化

训练阶段（学习如何从数据中提取启发式规则）

组件	选项	功能说明	代表方法
学习功能	1. 边预测 (Edge Prediction)	预测每条边是否在最优解中（输出热力图 $\mathbf{H}_{i,j}$）	GCN (Joshi et al.)
	2. 边遗憾预测 (Edge Regret)	预测选择某边的代价增益（$\mathbf{R}_{i,j}=\frac{\text{固定该边后的最优解}}{\text{全局最优解}}-1$）	GNNGLS (Hudson et al.)
	3. 解生成 (Solution Generation)	建模高质量解分布 $p(\mathbf{S} \| G)$（可采样多个解）	扩散模型 (Sun & Yang)
	4. 序列节点预测 (Sequential)	自回归生成节点序列（Step-by-Step决策）	POMO (Kwon et al.)
训练目标	1. 监督解接近 (SL)	热力图拟合参考解（交叉熵损失）	Att-GCN (Fu et al.)
	2. 无监督目标 (UL)	直接优化路径长度+约束惩罚（无需参考解）	UTSP (Min et al.)
	3. 强化目标 (RL)	REINFORCE策略梯度优化期望路径长度	AM (Kool et al.)
	4. 生成目标 (Generative)	扩散模型最大化解似然 $p_\theta(\mathbf{S}\mid G)$	DIFUSCO (Sun & Yang)

求解阶段（利用训练好的模型解决新问题）

组件	选项	功能说明
基于学习的搜索	1. 主动搜索 (Active Search)	测试时微调模型参数/热力图
	2. 梯度搜索 (Gradient Search)	扩散模型添加目标引导（如T2T的噪声-去噪优化）
构造方法	1. 贪心 (Greedy)	选最高置信度边/节点
	2. 采样 (Sampling)	按热力图概率采样边/节点
	3. 波束搜索 (Beam Search)	保留Top-K候选解
改进搜索	1. 2-opt/重定位 (Local Search)	交换/移动节点优化路径
	2. MCTS变体	蒙特卡洛树搜索（本文解耦为：构造初始解 + 局部搜索）

传统方法将学习与搜索耦合（如RL序列生成），而本框架将其解耦为独立模块，支持自由重组（例如：扩散模型生成热力图 + MCTS搜索）。

3.2 四项设计原则

原则1：联合概率估计（解决变量独立性假设问题）

问题：传统边预测方法（如GCN）将每条边 $E_{i,j}$ 是否被选中的概率视为独立事件，使用二元交叉熵损失单独优化：
$$\mathcal{L} = -\sum_{i,j} \left[ \mathbf{S}_{i,j} \log(\hat{\mathbf{H}}_{i,j}) + (1-\mathbf{S}_{i,j}) \log(1-\hat{\mathbf{H}}_{i,j}) \right]$$
其中 $\hat{\mathbf{H}}_{i,j}$ 是模型对边 $E_{i,j}$ 的独立预测概率。

TSP的解必须满足全局约束：每个节点的度（相连边数）必须为 2（入度=出度=1）。边的选择高度相关（例如：若 $E_{i,k}$ 被选，则同节点 $i$ 的其他边概率需调整）。

方案:

节点归一化 (Node Norm)

节点归一化对神经网络原始输出 $\mathbf{F} \in \mathbb{R}^{n\times n}$ 进行以下操作：
$$\mathbf{F}_{i,j}' = \frac{\exp(\mathbf{F}_{i,j})}{\sum_{k=1}^n \exp(\mathbf{F}_{i,k})} \cdot \begin{bmatrix} n-2 \\ 2 \end{bmatrix}$$

第一步：Softmax归一化（行方向）
$$\text{For each node } i: \quad \mathbf{P}_{i,j} = \frac{\exp(\mathbf{F}_{i,j})}{\sum_{k=1}^n \exp(\mathbf{F}_{i,k})}$$
此时 $\sum_{j=1}^n \mathbf{P}_{i,j} = 1$，表示节点 $i$ 的所有出边概率之和为1。

第二步：概率重加权

将 $\mathbf{P}_{i,j}$ 拆分为 “选中概率” 和 “未选中概率” 两个通道：
$\mathbf{F}'_{i,j} = \mathbf{P}_{i,j} \cdot \begin{bmatrix} n-2 & 0 \\ 0 & 2 \end{bmatrix}$
物理意义：

“选中概率”通道：所有边概率和强制为 2（满足节点度=2）。
“未选中概率”通道：所有边概率和强制为 $n-2$（排除其他边）。

最终热力图：$\hat{\mathbf{H}}_{i,j} = \text{Clip}(\mathbf{F}'_{i,j}[\text{selected}])$

效果：TSP-100上SL+Node Norm比原始SL的gap从7.078%→2.721%

原则2：对称解表示（解决解的空间对称性）

问题：同一TSP解有 $2n$ 种等效表示（如不同起点/方向），但模型可能因训练数据偏好特定形式。
方案：

生成模型：将扩散模型监督信号从有向图改为无向图（天然对称）。
RL方法：训练时强制随机起点解码（REINFORCE从任意节点开始采样）。
效果：扩散模型引入对称后，TSP-500构造解gap从9.639%→6.695%

原则3：在线优化（弥合训练与求解目标差异）

问题：训练优化历史数据平均性能，但求解需针对新实例特化。
方案：

技术	适用场景	操作
主动搜索 (Active Search)	边预测/序列预测	测试时用RL目标微调热力图（类似训练阶段）
梯度搜索 (Gradient Search)	生成模型	在扩散去噪过程注入目标梯度（见公式5）

原则4：搜索友好性（提升学习与搜索协同效率）

方案：
- 预测多样性：生成模型采样多个解供改进搜索选择（表2：8×Greedy比单解gap降3.25%）。
- 信息增强：预测边遗憾（$\mathbf{R}_{i,j}$）比二值热力图更易引导局部搜索（表5）。
- MCTS解耦：将原MCTS拆分为"构造初始解 + 改进搜索"（图8），支持与贪心/采样等方法组合。

3.3 对问题的泛化性

原则	泛化问题	适配方法	效果
联合概率估计	MIS	用 LinSAT 层替代节点归一化，约束相邻节点概率和 ≤ 邻接组大小-1	MIS 构造解 Size↑ 421.692 → 422.098（表10）
对称解表示	CVRP	RL 训练时强制随机起点解码 + 多方向采样	CVRP-50 长度 ↓11.138 → 10.605（表11）
在线优化	MIS	扩散模型添加梯度搜索（目标引导去噪）	MIS 解 Size↑ 424.496 → 425.006（表12）
搜索友好性	MIS	生成模型 + 8× 贪心采样（提升多样性）	MIS 解 Size↑ 424.496 → 425.142（表13）

问题适配的技术库组件

ML4TSPBench 模块	CVRP 适配	MIS 适配	复用性
学习功能	边预测 → 节点-路径分配预测	边预测 → 节点选择预测	高
训练目标	同 SL/RL/生成目标	同 SL/RL/生成目标	高
构造方法	贪心/采样需加入容量约束校验	贪心/采样需加入独立集约束校验	中
改进搜索	2-opt → Relocate/交换路径	局部搜索 → 节点增删	低

适配示例：

CVRP：将 TSP 的边热力图 $\mathbf{H}$ 替换为节点-路径分配矩阵，构造时校验车辆容量（如 $\sum \text{需求} \leq \text{容量}$）。

MIS：将扩散模型输出改为节点选择概率，约束条件改为“相邻节点不同时选中”（LinSAT 实现）。

4. Evaluation

实验设置

数据集：TSP-50/100/500（随机均匀坐标），TSP-1000/TSPLIB（泛化测试）。
基线：Concorde（最优解）、LKH-3、GCN、DIMES、DiffUSCO等。
评估指标：相对最优解的gap（Drop↓）、求解时间。

核心结论

四项原则的有效性：
- 联合概率估计：SL+节点归一化比原始SL在TSP-100上gap降低4.357%（表1）。
- 对称性：扩散模型引入对称表示后，TSP-500 gap从9.639%→6.695%（表2）。
- 在线优化：主动搜索使RL方法在TSP-50上gap从5.238%→0.823%（表4）。
- 搜索友好性：预测边遗憾比预测解在引导搜索上更有效（表5）。
重组求解器性能：
- 最佳组合：SL+节点归一化 + Random_MCTS，TSP-50/100/500 gap达0.000%/0.001%/0.142%（表7）。
- 生成模型+梯度搜索：非自回归方法在速度与精度平衡中表现最佳（TSP-500 gap 0.187%）。
泛化性：
- TSPLIB上重组方法gap 1.416%（表8），设计原则在CVRP/MIS问题同样有效（附录C）。

5. Conclusion

框架价值：ML4TSPBench统一了学习与搜索组件的设计空间，首次实现透明消融和技术重组。
设计原则：联合概率估计、对称性、在线优化和搜索友好性是提升ML4TSP性能的关键。
性能优势：重组方法在TSP上达SOTA，监督学习与非自回归范式更具优势。

paper-reading > optimization

#machine-learning #optimality #tsp

Unify ML4TSP: Drawing Methodological Principles for TSP and Beyond from Streamlined Design Space of Learning and Search

https://blog.xiaoaojianghu.fun/posts/f79587e2.html

作者

wst

发布于

2025年10月26日

许可协议

Neural Solver Selection for Combinatorial Optimization 上一篇

泛函分析第九次作业下一篇