炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛力主題機會!
張劍清是一名上海交通大學在讀博士生,獲中國人工智能學會“青託”、吳文俊人工智能榮譽博士及國家獎學金。在代碼大模型、合成數據集進化生成、聯邦學習與推薦系統方向取得系列成果,主要關注其中的垂域自適應、模型融合、模型個性化主題,於JMLR、NeurIPS、ICML、CVPR、KDD、ICCV、AAAI等發表9篇CCF-A一作論文,主導並開源了PFLlib、HtFLlib、EvolveGen等項目,曾在字節跳動、清華AIR、KAUST、騰訊等機構實習交流。
數據短缺問題隨着大模型的高速發展,日益加劇。已經有不少 Nature 論文指出,預計到 2028 年,公共數據的產生速度將因趕不上大模型訓練的消耗速度而被耗盡。而在某些特殊領域,比如醫療、工業製造等,原本可用數據就非常少,數據短缺的問題更嚴重。
爲了解決這一困境,我們提出了合成數據自主進化框架 PCEvolve:只需提供少量標註樣本,就可在保護隱私同時進化出一整個數據集。PCEvolve 的進化過程類似 DeepMind 提出的 FunSearch 和 AlphaEvolve。
現有大模型 API 並不能拿來直接合成垂域數據
垂直領域的中小企業普遍不具備訓練私有大模型的能力,而傾向於使用現成的大模型 API(下文簡稱“大模型”)。人造合成數據是目前解決數據短缺問題所採用的主流方法:讓已有大模型生成數據,再進行篩選、標註、清洗等步驟,得到高質量訓練數據。
然而,當應用到垂直領域,如醫療、工業製造等領域,大模型雖然能夠根據 prompt 生成對應的數據,但滿足“語義匹配”的數據,並不能直接拿來作爲垂直領域數據使用。這是因爲:垂直領域的數據還有各種其他特性信息,比如光照、數據採樣設備型號、隱私信息、上下文等。
舉例來說,皮革在不同環境、材質、磨損程度等方面,都具備太多細節信息,而提供給大模型的 prompt 很難完整描述;即便完整描述,大模型也不能完全生成符合 prompt 的數據,因爲大模型本身還無法完全模擬世界。
如下圖所示,大模型生成的數據,和垂域攝像機拍攝的數據,具有巨大的差距,雖然標籤都是“帶有膠水殘留的皮革”。同樣的,在文本領域,讓現成的大模型生成的 code snippet 數據,也無法與某公司內部開發人員的代碼習慣和代碼規範相匹配。而且,這一垂域數據特徵分佈差異的問題,在任意模態都存在。
同時,因爲垂域數據可能因爲知識產權、隱私保護、行業規範等原因,本地數據不允許上傳給大模型作 context,極大地增加了 prompt 工程的難度、降低了合成數據的質量。比如,公司內部的代碼不能上傳、醫院的病人數據不能上傳、企業的次品樣品數據不能上傳等等。
PCEvolve:保護隱私的合成數據進化框架
垂域數據除了不能上傳之外,還具有本身就稀少的特性,導致帶標註的垂域樣本原本就少。這使得其他要求提供大量標註樣本的方法(如 PE 等),不再可用。因爲 PE 等方法在垂域情況下,爲了保護隱私所加的噪聲過大,使其方法退化爲一種隨機方法。而我們的 PCEvolve 在進化過程中設計了一種基於“指數機制”(Exponential Mechanism)的新的隱私保護方法,適配垂域場景的少樣本情況。
下圖是 PCEvolve 的架構圖,左邊是迭代進化框架:類似達爾文進化論,先讓大模型 API 生成較大數量的候選合成數據(種羣),再經過【選擇器】(自然選擇)進行淘汰,最後將不帶隱私信息的優質合成數據返回給大模型進行下一輪進化。右邊則是進化框架的“引擎”【選擇器】的詳細設計:以隱私數據作爲參考(verifier)給合成數據打分(reward),最後根據分數優勝劣汰;其中打分過程,因爲用到了隱私數據,需要作隱私保護。
PCEvolve 選擇器詳細設計
首先我們先聲明:下面所有的操作都需要考慮隱私保護,我們採用的是差分隱私(Differential Privacy, DP),並通過指數機制來實現 DP,其中指數機制定義爲:
在醫療場景和工業製造場景的實驗結果
我們主要通過兩種方式驗證 PCEvolve 的效果:a) 合成的數據對於下游模型訓練的增幅,b) 合成數據本身的質量。
a) 合成的數據對於下游模型訓練的增幅
我們評估了 PCEvolve 在COVIDx(COVID-19 胸部 X 線圖像)、Came17(乳腺癌轉移的腫瘤組織切片)、KVASIR-f(用於胃腸道異常檢測的內鏡圖像)、MVAD-l(用於異常檢測的皮革表面)上的表現,這裏大模型方面我們只需提供 API 即可。
【表 1】在四個特殊領域數據集上的精度(%)
b) 合成數據本身的質量
下圖是我們採樣的皮革表面數據,這三行分別代表正常皮革、有切割缺陷的皮革、有膠水殘留缺陷的皮革。“Initial”表示大模型 API 合成的圖像(進化之前);“Private”表示垂域場景真實採集的隱私皮革表面數據。
其他更多實驗詳見論文。
(轉自:網易科技)
免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。