<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>Tabular on RuHeYun</title>
        <link>https://ruheyun.github.io/tags/tabular/</link>
        <description>Recent content in Tabular on RuHeYun</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>en-us</language>
        <copyright>RuHeYun</copyright>
        <lastBuildDate>Tue, 31 Mar 2026 10:14:06 +0800</lastBuildDate><atom:link href="https://ruheyun.github.io/tags/tabular/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>ClavaDDPM</title>
        <link>https://ruheyun.github.io/p/clavaddpm/</link>
        <pubDate>Tue, 31 Mar 2026 09:29:20 +0800</pubDate>
        
        <guid>https://ruheyun.github.io/p/clavaddpm/</guid>
        <description>&lt;p&gt;扩散模型表格生成阅读笔记&lt;/p&gt;
&lt;!-- more --&gt;
&lt;h2 id=&#34;论文基本信息&#34;&gt;论文基本信息
&lt;/h2&gt;&lt;p&gt;&lt;mark&gt;论文标题&lt;/mark&gt;：ClavaDDPM: Multi-relational Data Synthesis with Cluster-guided Diffusion Models&lt;/p&gt;
&lt;p&gt;&lt;mark&gt;出版期刊&lt;/mark&gt;：NeurIPS 2024&lt;/p&gt;
&lt;p&gt;&lt;mark&gt;论文作者&lt;/mark&gt;：Wei Pang, Masoumeh Shafieinejad, Lucy Liu, Stephanie Hazlewood, Xi He&lt;/p&gt;
&lt;p&gt;&lt;mark&gt;学校机构&lt;/mark&gt;：University of Waterloo, Vector Institute, Royal Bank of Canada&lt;/p&gt;
&lt;h2 id=&#34;研究问题&#34;&gt;研究问题
&lt;/h2&gt;&lt;p&gt;（1）多表数据生成能力不足，不可扩展、难以建模跨多跳&lt;/p&gt;
&lt;p&gt;（2）现有研究集中在单表生成，而单表生成无法扩展到真实数据库&lt;/p&gt;
&lt;p&gt;（3）在多关系表中，外键约束会导致复杂依赖&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;如何在&lt;strong&gt;复杂外键约束下，高效建模多表数据并捕获长距离依赖&lt;/strong&gt;？&lt;/p&gt;
&lt;/blockquote&gt;
&lt;h2 id=&#34;研究内容&#34;&gt;研究内容
&lt;/h2&gt;&lt;p&gt;（1）提出 ClavaDDPM 模型：基于扩散模型的表格生成模型，并用&lt;strong&gt;聚类标签&lt;/strong&gt;建模两个表之间的关系&lt;/p&gt;
&lt;p&gt;（2）用 latent 变量替代外键条件：降维、提升条件建模稳定性、捕捉跨表依赖&lt;/p&gt;
&lt;p&gt;（3）三阶段生成流程：一，通过 GMM 聚类标签得到 latent 标签 c；二，父表基于标签 c 增强的数据训练扩散模型，子表用正常的数据训练扩散模型，并训练一个分类器；三，生成阶段自顶向下生成表格&lt;/p&gt;
&lt;p&gt;（4）用最近邻匹配解决多父表冲突问题&lt;/p&gt;
&lt;h2 id=&#34;研究假设&#34;&gt;研究假设
&lt;/h2&gt;&lt;p&gt;H1：父表行 i.i.d&lt;/p&gt;
&lt;p&gt;H2：子表条件独立&lt;/p&gt;
&lt;p&gt;H3：latent 变量使得条件独立&lt;/p&gt;
&lt;p&gt;H4：聚类可表达跨表关系&lt;/p&gt;
&lt;p&gt;H5：多父表中，用最近邻匹配可近似联合分布&lt;/p&gt;
&lt;h2 id=&#34;具体实现细节&#34;&gt;具体实现细节
&lt;/h2&gt;&lt;h2 id=&#34;研究局限性&#34;&gt;研究局限性
&lt;/h2&gt;&lt;p&gt;（1）在多表中仅考虑外键约束&lt;/p&gt;
&lt;p&gt;（2）强假设：条件独立&lt;/p&gt;
&lt;p&gt;（3）未深入隐私分析&lt;/p&gt;
</description>
        </item>
        
    </channel>
</rss>
