论文笔记:Matrix Completion in the Unit Hypercube via Structured Matrix Factorization
2019 IJCAI
0 摘要
????????復雜任務可以通過將它們映射到矩陣完成(matrix completion)問題來簡化。在本文中,我們解決了我們公司面臨的一個關鍵挑戰:預測藝術家在電影鏡頭中渲染視覺效果 (VFX) 的效率。我們通過使用雙重方法來應對這一挑戰:首先,我們將此任務轉換為一個受約束的矩陣完成問題,其條目以單位間隔 [0, 1] 為界;其次,我們提出了兩種新穎的矩陣分解模型,它們利用了我們對 VFX 環境的了解。我們的第一種方法,專業知識矩陣分解(EMF),是一種可解釋的方法,將潛在因素構建為加權的用戶-項目相互作用。第二個是生存矩陣分解 (SMF),它是一種概率模型,用于定義員工效率的基本過程。我們通過對我們的 VFX 數據集和兩個附加數據集的廣泛數值測試來展示我們提出的模型的有效性,這些數據集的值也在 [0, 1] 區間內。
1 introduction
????????出現在多個組織中的各種復雜應用程序可以轉化為矩陣完成問題。在這項研究中,我們解決了我們公司面臨的一個關鍵挑戰:預測藝術家在電影鏡頭中渲染視覺效果 (VFX) 的效率。有效解決這個問題至關重要,因為項目經理經常依賴能力指標(例如員工的效率)來最好地控制和調整可用資產。
????????
?
????????圖 1 說明了 VFX 制作框架中藝術家(即員工)和工作分配之間的層級關系。在這里,組織的一項工作(job)是由不同部門(department)的一系列貢獻組成,并且可能涉及眾多員工(employee)。每個部門由一名經理(manager)領導,經理將她所在部門的工作劃分為多個任務(task),每個任務分配給一個員工。員工從事這些任務并提交稱為索賠(claim)的部分結果。在評估索賠的質量后,經理決定是否批準。因此,我們的目標是利用每位員工的潛在屬性來解釋他們在各種任務中的效率,以確保產品能夠按時交付。?
????????我們工作的主要貢獻如下:
(i)將工業設置轉換為稀疏實值矩陣,其中條目位于 [0, 1] 區間(例如,部門員工的效率)
(ii)提出兩個 新穎的結構化矩陣分解(MF)模型,以有效解決由此產生的矩陣完成問題。
雖然我們的方法受到圖 1 所示的分層任務分配的啟發,但它們的公式非常通用,可以輕松應用于各種場景。 在本文中,我們特別考慮了另外兩個應用:
(a) 向 OTT(over-the-top) 流媒體設備的用戶推薦應用程序?
(b) 在線廣告投放中的推薦,以最大限度地提高點擊率。 點擊率。
這些應用程序的詳細信息將在后面的部分中解釋。
????????盡管傳統的矩陣分解算法已被證明可以有效解決矩陣補全問題,但最近的研究表明,受約束的 MF 技術在各種數據集上都優于它們,包括 MovieLens、Jester 和 BookCrossing [Fang et al., 2017; Jawanpuria 和 Mishra,2018 年]。
????????此外,隨著矩陣稀疏性的增加,MF 方法往往會產生不穩定和超出范圍的預測 [Jiang et al., 2018]。
????????雖然大多數推薦系統的條目都在一系列可能的評分值范圍內(例如,五星級評分系統中的 1 到 5 個),但我們的數據位于單位區間 [0, 1] 上。
????????雖然我們可以將數據轉換為序數空間,例如 1 到 5 之間的評級,但如圖 2 所示,任何將單位區間映射到更大區間的單調變換都不會簡化預測問題。
????????
????????因此,我們針對這種情況提出了兩種新方法:
a)專業知識矩陣分解(EMF),其中條目通過用戶和項目潛在因素(即低秩特征)之間的加權相關性來近似,
b) 生存矩陣分解( SMF),它使用概率模型通過對導致部門員工平均效率的過程進行建模來捕獲潛在因素。
我們的兩種方法都是結構化矩陣分解方法,其約束是通過對所呈現的設置進行建模而得出的。 ?
?2 related work
????????資源分配是業務流程管理中提高組織績效的一個相關問題 [Dumas et al., 2013]。最近,已經提出了流程挖掘中的不同方法 [Van Der Aalst, 2011],以從歷史數據中提取有用的知識 [Arias et al., 2018]。然而,之前的研究集中在特定的過程案例[Huang et al., 2012; Conforti 等人,2015]。作為回應,我們研究了一個可以映射到各種組織的通用框架。
????????我們提出的方法的靈感來自于一系列關于低秩矩陣補全的工作,以及它們在推薦系統中的應用[Hu et al., 2008; Candes and Recht, 2009; ` Candes and Plan, 2010; Koren ` et al., 2009; Funk, 2011; Jain et al., 2013].。???適合我們任務的一類方法包括有界矩陣分解方法。非負矩陣分解 (NMF) 是此類中最流行的方法,它只為預測值提供 0 的下限。有界矩陣分解 (BMF) [Kannan et al., 2014] 給出了一種更通用的方法:一種低秩近似,它利用了推薦系統中的所有評級都在一個范圍 范圍內這一事實。
? ? ? ? 我們提出的方法,專業矩陣分解,與這些在潛在因素上具有額外結構的矩陣完成模型密切相關[Soni et al., 2016; Hoyer, 2004; Aharon et al., 2006; Kannan et al., 2014]。然而,我們的方法與它們的不同之處在于其獨特的結構,由我們設置中的單位間隔約束給出。據我們所知,這種結構在現有的 MF 文獻中并沒有明確的數據處理。?隱式反饋數據的 MF 方法 [Hu et al., 2008; Johnson, 2014] 在相同的區間上工作,但主要區別在于僅依賴于二進制值的矩陣條目。
????????我們的第二種方法,生存矩陣分解,與概率矩陣分解方法有關 [Mnih 和 Salakhutdinov,2008; Salakhutdinov 和 Mnih,2008 年]。雖然他們還將矩陣條目解釋為概率,但我們的方法在其制定過程中專門模擬了端到端的批準過程。
3 問題定義
????????如第 1 節所述,我們提出的模型受到圖 1 中描述的框架的啟發。該流程圖受到 Technicolor 電影制作中工作分配的具體應用場景的啟發,其中藝術家(員工)在各種電影鏡頭中渲染視覺效果。
????????盡管如此,這個框架非常通用,其他生產流程可以很容易地映射到這個設置中。 例如,如果一個組織以 100 分制記錄員工在工作中的表現,則可以通過定義工作質量的閾值(例如,90/100)將每個分數映射到批準或拒絕一個claim。
????????考慮到工作分配場景,員工效率的自然能力指標是由接受的claim數量與部門員工提交的claim總數的比率給出。
????????接受的claim計入員工的整體表現。 如果被拒絕,員工會在他們認為符合要求的質量時提交新的claim。 claim被拒絕顯然會導致整個組織的績效損失,因為員工可能需要重新開始,或者經理可能決定指定另一名員工。
????????令 為部門 n 中員工 d 提出的claim總數, 表示部門 n 中員工 d 提出的第 i 個claim是被接受 (1) 還是被拒絕 (0)。
???????? 然后我們定義部門n中員工d的效率,如下: ?
????????
? ? ? ? 可以很輕易第發現在[0,1]之間
????????我們研究的目標是預測每個部門員工的效率。
????????我們通過建立一個效率矩陣來應對這一挑戰,其條目 表示部門 n 中員工 d 的效率。 由于大多數員工在整個職業生涯中只在少數幾個部門工作,因此該矩陣中只有少數條目(對應于觀察指標集 Ω ? [D] × [N])是已知的。 因此,我們預測員工效率的目標現在簡化為預測 X 的缺失條目。 ?
?4 模型部分
4.1 expertise matrix factorization
????????在第一種方法中,我們將效率矩陣建模為低秩矩陣。 在我們的設置中,我們可以將潛在因素視為在給定部門工作所需的一組技能或專業知識。 特別是,我們假設每個員工的潛在因素(技能)在 0 到 1 的范圍內,而每個部門的潛在因素是非負的并且總和為 1。一方面,員工在每項技能上都有一定的水平,其中 0表示沒有能力,1表示熟練。 另一方面,假設每個部門都具有完成任務所需的各項技能的重要程度占比。
?
?????????我們假設一個基于直覺推理的低秩模型,即可能需要少量技能來完成不同部門的任務。使用該模型,部門 n 中員工 d 的效率近似為員工技能的加權和,其中權重由部門中每種技能的重要性給出。 潛在向量中的結構確保該模型下的效率值位于 [0, 1] 內。
???????? 我們進一步擴展此模型以適應用戶偏差,代表每個員工在每項技能上的最低熟練程度。 請注意,為部門添加的偏差項是不一致的,因為并非每種技能都應該在每個部門中都有用‘????????
? ? ? ? ?最終的目標函數如下:
?????????我們依靠基于交替最小化的算法來解決這個問題,首先求解 W 和 β,然后求解 Z。
4.2 Survival Matrix Factorization
????????在這種方法中,我們旨在為導致效率值的基礎過程推導出概率模型
????????
???????? 回想一下等式 (1),效率矩陣 X 中的每個條目被定義為部門 n 中員工 d 的經驗平均效率。
????????員工提交的每項claim都可以視為獨立同分布。 可以看作來自伯努利隨機變量 的樣本,并且根據弱大數定律,矩陣項幾乎肯定地趨向于 的平均值,它等于 P( = 1)。
?????????介紹了這個概率框架后,為了定義 ?P( = 1),我們對claim接受過程進行建模。
????????claim代表員工交付給經理的工作,經理評估每個claim的質量并僅在它們足夠好時接受它們。
????????首先,我們假設員工 d 以一定的質量分布向部門 n 提交索賠。 也就是說,每個索賠 i 都有相應的質量,這是一個隨機變量,它是從部門 n 中員工 d 所產生的工作質量的潛在概率分布中抽取的。
????????其次,我們通過單個參數 γn 對部門 n 的經理進行建模,表示他們的質量閾值:部門 n 的claim只有在其質量高于閾值時才被接受(如圖 3 所示)。
?????????
? ? ? ? 于是,每個可以估計為:
????????
? ? ? ? ?其中是survival 函數,或者稱之為互補累積分布函數,是概率密度函數
????????在本文中,我們假設員工的質量概率分布是正態的,并且所有員工和部門的claim質量方差相同:
?????????
????????進一步,我們令??,于是有:
?
?????????
?????????我們的目標函數問題是
?????????上述問題中的目標函數在 W、Z、γ 和 σ 上是平滑的,可以使用隨機梯度下降來解決。
?5 實驗部分
5.0 數據集
????????在本節中,我們評估我們的模型在
(a) VFX 渲染數據集
(b) Technicolor 的 OTT 流數據集和
(c) 在線點擊率 (CTR) 的公共數據集上。
e-bug/unit-mf: Code and data for our paper "Matrix Completion in the Unit Hypercube via Structured Matrix Factorization", IJCAI 2019. (github.com)上提供了公共數據的實驗結果。
?5.1 方法
?5.1.1 評估函數
????????推薦算法的質量可以使用不同類型的指標來評估。 我們使用 RMSE 和 MAE 作為統計準確度指標,而 Precision@N 和 Re call@N 作為決策支持指標,對于 N ∈ {2, 3, 5, 10}。 在推薦系統的上下文中,我們通常對向用戶推薦前 N 個項目感興趣。 我們的框架顯然也是如此,項目可以是員工、應用程序或網站類別。
5.1.2 training detail
? ? ? ? 我們使用了最多100個epoch,同時設置作為訓練結束標記,其中?是時刻t的目標函數值
? ? ? ? 在SGD算法中,我們使用batch-size的大小為8(VFX數據集),128(OTT數據,CTR數據)
????????在 VFX 數據中的所有可能值上搜索潛在因子 K(W,Z的rank) 的最佳數量,而我們在較大的 OTT 和 CTR 數據中使用 K ∈ {10, 15, 20} 的常見值。 每個矩陣因子用 (0, 1) 中的均勻隨機數初始化,偏差初始化為零向量。
?5.1.3 baseline & 論文提出的方法
- ?MF:有偏差的MF,使用SGD更新
- ?NMF :NMF 的交替非負最小二乘法。 每個塊都通過投影梯度下降進行更新。
- ?BMF:? 有界矩陣分解。 ? ? ?為了解決的限制,我們對隨機初始化的W和Z 進行的規約
- PMF : 概率矩陣分解
- LMF : logistic 矩陣分解
- EMF:論文提出的方法1?Expertise matrix factorization.
- SMF:論文提出的方法2??Survival matrix factorization (方差σ設置為1)
? 5.2 電影數據
????????我們的分析是由 Technicolor 收集的數據驅動的,其中不同的學科(部門)負責在電影(工作)中生成 VFX,員工被稱為藝術家。 所有數據都是根據適當的最終用戶協議和隱私政策收集的。
?
????????我們的電影制作數據集由索賠記錄組成,每個記錄都有以下字段:jobId (int)、disciplineId (int)、taskId (int)、userId (int)、claimId (int)和approved (bool)。
????????為了確保每個平均效率都足以代表一個藝術家在一個學科中的真實效率,我們 刪除由平均少于 10 個claim產生的所有條目。這也確保了根據 Hoeffding 定理 [Hoeffding, 1963],等式 (3) 中引入的近似值以高概率成立。
????????此外,為了緩解冷啟動問題,我們刪除了少于 10 個藝術家的聲明的學科,并刪除了少于 3 個非缺失條目的藝術家。
????????在這些預處理步驟結束時,我們剩下一個 312 × 25 矩陣和 1, 026 個非缺失條目。這個矩陣不僅非常稀疏(86.85%),而且每個用戶的評分也很少,大多數藝術家只研究過三個學科。效率分布呈指數增長(圖 4)。
????????
表 1 報告了該數據集上每種算法的預測誤差。 精度和召回值列于表 2 中。
??
5.3 OTT 數據
????????我們的第二個應用程序包括在OTT設備上使用的應用程序,其目標是向客戶推薦應用程序。 我們的 OTT 數據集包含任何用戶對給定應用程序的查看次數。 該數據通過除以用戶的最大觀看次數映射到用戶的觀看率 ∈ [0, 1]。
????????與我們對 VFX 數據所做的類似,我們刪除了觀看人數少于 15 人的應用程序以及觀看程序數少于 10 人的用戶。 預處理后,我們剩下 934 個用戶和 140 個應用程序和一個極其稀疏的矩陣(99.91%)。 表 3 和表 4 顯示 K 分別等于 15 和 20 的精度和召回值。 由于空間限制,K = 10 的結果被省略,但遵循類似的模式。
5.4 討論
????????在我們的 VFX 數據中,SMF 實現了最低的預測誤差,并且 EMF 在精度和召回率方面優于其他所有方法,其值是第二好的模型的三倍。 在這里,EMF 的假設與我們的 VFX 框架中的藝術家緊密匹配。
???????? PMF 的最強點之一是它能夠很好地為評分很少的用戶進行泛化。 然而,在這里——每個用戶的最大條目數僅為 7——我們看到 EMF 在預測準確性和推薦質量方面都優于 PMF。
總結
以上是生活随笔為你收集整理的论文笔记:Matrix Completion in the Unit Hypercube via Structured Matrix Factorization的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文笔记:HKMF-T: Recover
- 下一篇: 机器学习笔记 network compr