ClavaDDPM

基于扩散模型的多关系表格生成

扩散模型表格生成阅读笔记

论文基本信息

论文标题:ClavaDDPM: Multi-relational Data Synthesis with Cluster-guided Diffusion Models

出版期刊:NeurIPS 2024

论文作者:Wei Pang, Masoumeh Shafieinejad, Lucy Liu, Stephanie Hazlewood, Xi He

学校机构:University of Waterloo, Vector Institute, Royal Bank of Canada

研究问题

(1)多表数据生成能力不足,不可扩展、难以建模跨多跳

(2)现有研究集中在单表生成,而单表生成无法扩展到真实数据库

(3)在多关系表中,外键约束会导致复杂依赖

如何在复杂外键约束下,高效建模多表数据并捕获长距离依赖

研究内容

(1)提出 ClavaDDPM 模型:基于扩散模型的表格生成模型,并用聚类标签建模两个表之间的关系

(2)用 latent 变量替代外键条件:降维、提升条件建模稳定性、捕捉跨表依赖

(3)三阶段生成流程:一,通过 GMM 聚类标签得到 latent 标签 c;二,父表基于标签 c 增强的数据训练扩散模型,子表用正常的数据训练扩散模型,并训练一个分类器;三,生成阶段自顶向下生成表格

(4)用最近邻匹配解决多父表冲突问题

研究假设

H1:父表行 i.i.d

H2:子表条件独立

H3:latent 变量使得条件独立

H4:聚类可表达跨表关系

H5:多父表中,用最近邻匹配可近似联合分布

具体实现细节

研究局限性

(1)在多表中仅考虑外键约束

(2)强假设:条件独立

(3)未深入隐私分析

根据CC BY-NC-SA 4.0许可
最后更新于 2026-03-31