扩散模型表格生成阅读笔记
论文基本信息
论文标题:ClavaDDPM: Multi-relational Data Synthesis with Cluster-guided Diffusion Models
出版期刊:NeurIPS 2024
论文作者:Wei Pang, Masoumeh Shafieinejad, Lucy Liu, Stephanie Hazlewood, Xi He
学校机构:University of Waterloo, Vector Institute, Royal Bank of Canada
研究问题
(1)多表数据生成能力不足,不可扩展、难以建模跨多跳
(2)现有研究集中在单表生成,而单表生成无法扩展到真实数据库
(3)在多关系表中,外键约束会导致复杂依赖
如何在复杂外键约束下,高效建模多表数据并捕获长距离依赖?
研究内容
(1)提出 ClavaDDPM 模型:基于扩散模型的表格生成模型,并用聚类标签建模两个表之间的关系
(2)用 latent 变量替代外键条件:降维、提升条件建模稳定性、捕捉跨表依赖
(3)三阶段生成流程:一,通过 GMM 聚类标签得到 latent 标签 c;二,父表基于标签 c 增强的数据训练扩散模型,子表用正常的数据训练扩散模型,并训练一个分类器;三,生成阶段自顶向下生成表格
(4)用最近邻匹配解决多父表冲突问题
研究假设
H1:父表行 i.i.d
H2:子表条件独立
H3:latent 变量使得条件独立
H4:聚类可表达跨表关系
H5:多父表中,用最近邻匹配可近似联合分布
具体实现细节
研究局限性
(1)在多表中仅考虑外键约束
(2)强假设:条件独立
(3)未深入隐私分析