近期,中國科學院合肥物質院智能所謝成軍與張潔團隊基于控制條件相關性分析,設計了面向擴散變換器的可控圖像生成方案,相關研究成果以RelaCtrl: Relevance-Guided Efficient Control for Diffusion Transformers為題被AI領域CCF-A類會議Proceedings of the AAAI Conference on Artificial Intelligence (AAAI26)接收。
擴散變換器(Diffusion Transformer)近年來在文本生成圖像、文本生成視頻等任務中發揮著核心作用,其優越的可擴展性顯著推動了生成模型的發展。然而,現有可控擴散變換器方法往往依賴笨重的控制分支,引入大量參數與計算開銷,同時普遍忽視了不同Transformer層對控制信息敏感度存在的差異,導致資源分配低效、算力利用不足等問題。
針對上述挑戰,研究團隊提出了相關性引導的高效可控生成框架 RelaCtrl,在不犧牲生成質量的前提下,以更加精煉、智能的方式將控制信號融入擴散變換器。該框架首先定義并計算“ControlNet相關性得分”,通過在推理階段逐層跳過控制分支,系統評估各層控制對最終圖像質量和控制精度的影響。基于這一度量,RelaCtrl 可自適應調整控制層的插入位置、參數規模與建模能力,有效削減冗余參數與重復計算,在控制能力與資源利用之間實現動態平衡。在結構設計上,團隊進一步以精心設計的二維隨機混合模塊(TDSM)替代傳統復制模塊中的自注意力機制和前饋網絡(FFN),構建高效的詞元混合器與通道混合器,在保持表達能力的同時大幅壓縮計算成本。實驗結果表明,與典型 ControlNet 方法相比,RelaCtrl 僅以約 15% 的參數量和計算復雜度即可獲得更優的生成表現,在多項定性與定量指標上均展現出顯著優勢。
碩士研究生曹可為論文第一作者,張潔副研究員為論文通訊作者。該工作在顯著降低參數量與計算成本的同時保持生成質量,為AIGC領域提供了更高效、輕量化的可控生成解決方案。
論文鏈接:https://arxiv.org/abs/2502.14377

圖 1 可控圖像生成方案架構圖

圖 2 相關性曲線的實驗結果
表1 模型在不同控制條件下的實驗結果


圖 3 不同可控生成方法的定性比較結果
