當前位置：首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

论文研读-AI4VIS-可视化推荐-VizML: 一种基于机器学习的可视化推荐方法

發布時間：2024/3/13 ChatGpt 52 豆豆

生活随笔收集整理的這篇文章主要介紹了论文研读-AI4VIS-可视化推荐-VizML: 一种基于机器学习的可视化推荐方法小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

VizML: 一種基于機器學習的可視化推薦方法

1 論文概述
- 1.1 摘要
- 1.2 引言
2 問題陳述
3 相關工作
- 3.1 基于規則的可視化推薦系統
- 3.2 基于機器學習的可視化推薦系統
4 數據
- 4.1 Plotly介紹
- 4.2 數據描述和分析，收集和清理
- 4.2 數據特征提取
- 4.3 設計選擇提取
5 方法
- 5.1 特征處理
- 5.2 預測任務
- 5.3 神經網絡和基線模型
6 評估性能
- 解釋特征重要性
7 基準與眾包的有效性
- 7.1 建模和測量有效性
- 7.2 基準測試過程與數據準備
- 7.2 基準測試程序
- 7.3 基準測試結果
8 討論

1 論文概述

本文發表于CHI 2019。作者來自MIT Media Lab和MIT CSAIL。

1.1 摘要

可視化推薦系統的目標是通過自動生成結果讓分析師進行搜索和選擇，而不是手動指定，從而降低探索基本可視化的障礙。

在這里，我們演示了一種基于機器學習的可視化推薦新方法，該方法從大量的數據集和相關的可視化中學習可視化設計選擇。首先，我們確定分析師在創建可視化時所做的五個關鍵設計選擇，例如選擇可視化類型和選擇沿著X或y軸對列進行編碼。我們使用從一個流行的在線可視化平臺收集的100萬個數據集可視化對來訓練模型來預測這些設計選擇。與基線模型相比，神經網絡預測這些設計選擇具有較高的準確性。我們從這些基線模型中報告并解釋特性的重要性。

為了評估該方法的通用性和不確定性，我們使用一個眾包測試集進行基準測試，結果表明，我們的模型在預測共識可視化類型時的性能與人類的性能相當，并超過了其他可視化推薦系統。

1.2 引言

背景：
跨領域的知識工作者——從商業到新聞到科學研究——越來越多地使用數據可視化來產生見解、交流發現和做出決策[9,26,58]。然而，許多可視化工具由于依賴于代碼[7,68]或點擊[2,62]的手動說明，學習曲線陡峭。因此，越來越多缺乏時間或背景來學習復雜工具的領域專家往往無法訪問數據可視化。
雖然需要創建定制的可視化，但是對于許多常見的用例(如初步的數據探索和基本可視化的創建)來說，手工規范是不必要的。在這些用例中，搜索的速度和廣度比可定制性更重要[63]，為了支持這些用例，系統可以利用數據集的屬性對可視化的影響。例如，先前的研究表明，視覺通道(如位置和顏色)編碼數據的準確性取決于數據值的類型[5,15,67]和[28]分布.

前人方案：
基于規則的方法：
大多數推薦系統將這些可視化指南編碼為“if-then”語句的集合，或規則[21]，以自動生成可視化，供分析人員搜索和選擇，而不是手動指定[64]。例如，APT[35]、BOZ[13]和SAGE[52]使用感知原則的規則生成可視化并排序。最近的系統如Voyager[72,73]、Show Me[34]和DIVE[23]擴展了這些方法，支持列選擇。雖然對于某些用例[72]是有效的，但是這些基于規則的方法面臨著限制，例如昂貴的規則創建和可能結果[1]的組合爆炸。
基于機器學習的方法：
相比之下，基于機器學習(ML)的系統通過對分析師交互的訓練模型直接學習數據和可視化之間的關系。雖然最近的系統如DeepEye[33]、Data2Vis[17]和Draco-Learn[37]都很令人興奮，但它們并沒有像分析師那樣學會如何選擇可視化設計，這將影響到可解釋性和集成到現有系統的方便性。此外，由于這些系統在受控設置中使用規則生成的可視化注釋進行訓練，它們受到數據數量和質量的限制。

本文方案：
我們引入了VizML，這是一種基于ml的方法，使用大量的數據集和相關的可視化來實現可視化推薦。首先，我們將可視化描述為一個做出設計選擇的過程，使效率最大化，這取決于數據集、任務和上下文。然后，我們制定可視化建議作為一個開發模型的問題，學習做出設計選擇。
我們使用來自Plotly Community Feed[46]的100萬個獨特的數據集可視化對來訓練和測試機器學習模型。我們描述了收集和清理這個語料庫的過程，從每個數據集提取特征，并從相應的可視化中提取五個關鍵的設計選擇。我們的學習任務是優化模型，利用數據集的特征來預測這些選擇。

結果與評估：
在60%的語料庫上訓練的神經網絡在一個單獨的20%測試集中預測設計選擇的準確率達到了70 - 95%。這一性能超過了四個更簡單的基線模型，它們本身的性能優于隨機概率。我們從這些基線模型之一報告特征的重要性，解釋特征對給定任務的貢獻，并將它們與現有的研究聯系起來。
我們通過對眾包測試集進行基準測試來評估我們模型的可泛化性和不確定性。我們通過從Plotly中隨機選擇數據集來構建這個測試集，將每個數據集可視化為一個條形、直線和散點圖，并測量機械土耳其工人的共識。使用一個根據共識程度調整的評分指標，我們發現VizML的表現與Plotly用戶和Mechanical Turkers相當，并且優于兩個基于規則和兩個基于ml的可視化推薦系統。

最后，我們討論了初始機器學習方法在可視化推薦中的解釋、應用和局限性。我們還提出了未來研究的方向，例如聚合公共訓練和基準語料，將單獨的推薦模型集成到端到端系統中，以及細化可視化有效性的定義。

2 問題陳述

數據可視化通過用可視化元素表示數據來傳遞信息。這些表示是用從數據映射到實體屬性的編碼指定的：圖形標記(例如點、線或矩形)的位置、長度或顏色[5,12]。

具體地說，考慮一個描述406輛汽車(行)的數據集，它有8個屬性(列)，比如每加侖行駛里程(MPG)、馬力(Hp)和磅重(Wgt)[50]。為了創建顯示mpg和hp之間關系的散點圖，分析人員將每對數據點與二維平面上圓的位置進行編碼，同時還指定其他屬性，如大小和顏色:

我們將數據集d的基本可視化表述為一組相互聯系的設計選擇 C ={c}。然而，并不是所有的設計選擇都會產生有效的可視化效果——有些選擇彼此不兼容。例如，使用線標記的Y軸位置編碼分類列是無效的。因此，產生有效可視化結果的選擇集是所有可能選擇的空間的子集。

可視化的有效性可以通過信息度量，如效率、準確性和可記憶性（efficiency, accuracy, and memorability）[6,74]，或情感度量，如參與度（engagement）[19,27]來定義。先前的研究還表明，除了任務[3,28,53]、美學[14]、領域[24]、受眾[60]和媒介[36,57]等上下文因素外，有效性還受到低級感知原則[15,22,31,51]和數據集屬性[28,54]的影響。

換句話說，在給定數據集d 和上下文因素T 的情況下，分析師做出的設計選擇C 可以使可視化有效性EFF 最大化，此時的設計選擇C_max定義為：

但是，做出設計選擇可能是昂貴的。可視化推薦的一個目標是，通過自動建議一個子集的設計選擇(C_rec?C)來降低創建可視化的成本，從而最大化效率。使用由數據集ozvdkddzhkzd和相應的設計選擇{C}組成的語料庫訓練的基于ml的推薦系統，將推薦視為一個優化問題，如預測C_rec ~ C_max。

設計選擇推薦建模：
給定 C’(除了設計選擇c以外的其他選擇)、數據集d 和上下文因素T ，理想的設計決策推薦函數F_c輸出最大化可視化有效性的設計選擇c_max。

我們的目標是用函數G_c來近似F_c。現在假設一組數據集D=ozvdkddzhkzd和相應的可視化V={V_d}，每個可視化都可以用設計選項C_d={c_d}來描述。基于機器學習的推薦系統考慮G_C作為帶有一組參數Θ_c的模型，可以通過最大化目標函數Obj的學習算法對該語料庫進行訓練：

在不喪失一般性的情況下，假設目標函數使訓練輸出{C_d}的可能性最大化。即使分析師做出次優設計選擇，集體優化所有觀察到的設計選擇的可能性仍然是最優的。這正是我們觀察到的設計選擇c_d=F_c（d|C′，T）+噪聲+偏差的情況。因此，給定一個看不見的數據集d?, 最大化這個目標函數可以合理地給出一個使可視化的效果最大化的推薦。

在本文中，我們的模型G_c是一個神經網絡，Θ_c是連接權重。我們通過獨立地優化每個G_c來簡化推薦問題，并且沒有上下文因素：G_c（d|Θ）=G_c（d|Θ，C′，T）。我們注意到，獨立的推薦建議可能不兼容，也不一定能最大限度地提高整體效率。生成完整的可視化輸出需要為每個c的G_c之間的依賴關系建模。

3 相關工作

我們將我們的工作與現有的基于規則的可視化推薦系統和基于ML的可視化推薦系統進行了關聯和比較。

3.1 基于規則的可視化推薦系統

可視化推薦系統可以建議數據查詢（選擇要可視化的數據）或可視化編碼（如何可視化所選數據）。數據查詢推薦的方法各不相同[59,69]，最近的系統優化了統計“效用”函數[18,65]。盡管指定數據查詢對可視化至關重要，但它與設計選擇建議是截然不同的任務。

大多數視覺編碼推薦實施的指導方針都是貝爾廷[5]和克利夫蘭與麥吉爾[15]的開創性工作。麥金萊（Mackinlay）的APT[35]——ur推薦系統——就是這種方法的一個例子。該系統使用表達能力和感知有效性標準對可視化進行枚舉、過濾和評分。密切相關的SAGE[52]、BOZ[13]和Show Me[34]支持更多數據、編碼和任務類型。最近，Voyager[71–73]、Explore in Google Sheets[20,66]、VizDeck[43]和DIVE[23]等混合系統將視覺編碼規則與包含非選擇列的可視化建議結合起來。

盡管對許多用例有效，但這些系統有三個主要限制。首先，可視化是一個復雜的過程，可能需要對難以用簡單規則捕捉的非線性關系進行建模。其次，制定規則集是一個昂貴的過程，需要依靠專家的判斷。最后，隨著輸入數據維數的增加，規則的組合性質會導致大量可能的建議。

3.2 基于機器學習的可視化推薦系統

由基于規則的系統編碼的指南通常來自實驗結果和專家經驗。因此，啟發法以一種間接的方式，從另一位分析師創造和消費可視化的經驗中提煉出最佳實踐。基于ML的系統沒有將從數據中學習到的最佳實踐聚合起來，并用規則將它們表示在一個系統中，而是建議訓練直接從數據中學習并可以按原樣嵌入系統的模型。
表S1顯示了基于ml的可視化推薦系統VizML(本工作)、DeepEye[33]、Data2Vis[17]和Draco-Learn[37]的列表比較。

VizML在三個主要方面與這些系統不同。在學習任務方面，DeepEye學習對可視化進行分類和排序，Data2Vis學習端到端生成模型，Draco學習學習軟約束權重。通過學習預測設計選擇，VizML模型更容易進行定量驗證，提供特征重要性的可解釋度量，并且可以更容易地集成到可視化系統中。

在數據量方面，VizML訓練語料庫比DeepEye和Data2Vis訓練語料庫大幾個數量級。我們語料庫的規模允許使用1）捕獲數據集許多方面的大型特征集和2）高容量模型，如深度神經網絡。

第三個主要區別是數據質量。與用于訓練三個現有系統的少數數據集相比，用于訓練VizML模型的數據集在形狀、結構和分布上極為不同。此外，其他基于ML的推薦系統使用的可視化由基于規則的系統生成，并在受控設置下進行評估。VizML使用的語料庫是分析師對自己的數據集進行真實視覺分析的結果。

然而，VizML面臨兩個主要限制。首先，這三個基于ML的系統同時推薦數據查詢和視覺編碼，而VizML只推薦后者。第二，在本文中，我們不創建使用可視化模型的應用程序。面向用戶的系統的設計考慮是重要的，這些系統有效地、正確地使用了基于ML的可視化推薦，但超出了本文的范圍。

4 數據

我們描述了從經過處理的Plotly數據中提取特征和設計選擇的過程。圖1中的步驟1、步驟2和步驟3。

4.1 Plotly介紹

Plotly是一家軟件公司，是數據可視化和分析創建工具和軟件庫。例如，Plotly Chart Studio[45]是一個web應用程序，允許用戶上傳數據集并手動創建超過20種可視化類型的交互式D3.js和WebGL可視化。熟悉Python的用戶可以使用Plotly Python庫[47]用代碼創建相同的可視化效果。

Plotly中的可視化是用聲明性模式指定的。在這個模式中，每個可視化都由兩個數據結構指定。第一個是跟蹤列表，用于指定數據集合的可視化方式。第二個是一個字典，它指定了與數據無關的可視化的美學方面，例如軸標簽和注釋。例如，第2節中的散點圖使用單個“散點”軌跡指定，Hp為x參數，MPG為y參數：

Plotly模式類似于MATLAB和matplotlib Python庫的模式。流行的Vega[56]和Vega lite[55]模式是更武斷的，這“允許使用簡潔的JSON描述顯示復雜的圖表，但用戶對其控制較少”[49]。盡管存在這些差異，但將繪圖模式轉換為其他模式還是很簡單的，反之亦然。

Plotly還支持共享和協作。從2015年開始，用戶可以將圖表發布到Plotly Community Feed[46]，它提供了一個用于搜索、排序和過濾數百萬可視化內容的界面，如圖S2所示。PlotlyREST API[48]中的底層/繪圖端點將每個可視化與三個對象相關聯：數據包含源數據，規范包含跟蹤，布局定義顯示配置。

4.2 數據描述和分析，收集和清理

我們描述了從Plotly Community Feed[44,46]中收集和清理230萬數據集可視化對的語料庫的過程，并提供了對數據的描述。本文是首次使用由143007個獨立用戶生成的plotly語料庫來訓練可視化推薦系統。該語料庫和分析腳本都是公開的，可以通過以下途徑獲取://vizml.media.mit.edu。

使用Plotly API，我們從feed中收集了大約2.5年的公共可視化效果，從2015-07-17開始，到2018-01-06結束。我們總共收集了2359175個可視化對象，其中2102121個包含所有三個配置對象，其中1989068個被正確解析。為了避免用戶上傳的數據集和我們的數據集之間的混淆，我們將這個數據集可視化對集合稱為Plotly語料庫 .

Plotly語料庫包含143007個獨特用戶創建的可視化效果，這些用戶的使用情況差異很大。每個用戶的可視化分布如圖S3所示。除去擁有最多可視化效果的前0.1%用戶（其中許多是通過編程生成可視化效果的機器人），用戶創建的平均值為6.86，每個用戶創建的可視化效果中位數為2。

數據集的列數和行數也有很大差異。雖然有些數據集包含100多列，但94.97%的數據集包含少于或等于25列。不包括超過25列的數據集，平均數據集有4.75列，中位數數據集有3列。每次可視化的列分布如圖S4a所示。每個數據集的行分布如圖S4b所示，平均值為3105.97，中位數為30，最大值為10×106。這些重尾分布與[38]報告的IBM ManyEyes和Tableau Public的分布一致。

雖然Plotly允許用戶使用多個數據集生成可視化效果，但98.32%的可視化效果僅使用一個源數據集。因此，我們只關注使用單個數據集的可視化。此外，超過90%的可視化使用了源數據集中的所有列，因此我們無法解決數據查詢選擇問題。最后，在13321598條記錄道中，只有0.16%的記錄道具有轉換或聚合。鑒于這種極端的類不平衡，我們無法將列轉換或聚合作為學習任務。

4.2 數據特征提取

我們將每個數據集映射到841個特征，使用16個聚合函數從81個單列特征和30個成對列特征映射而來。有關每個特征的詳細信息，請參見SM第S4節中的表S2。表S2a中的單列特征分為四類：維度（D）（列的行數）、類型（T）（分類、時間或定量）、值（V）（統計和結構特性）和名稱（N）（與列名相關）。我們區分這些特征類別有三個原因。首先，這些類別允許我們組織如何創建和解釋特征。其次，我們可以**觀察不同類型特征的貢獻。**第三，某些類別的特征可能比其他類別的特征更難概括。我們依據這些特征對Plotly語料庫的貢獻將這些特征排序（D→ T→ V→ N）。

我們用30個成對列特征描述每對列。表S2b中的成對列特征分為“值”和“名稱”兩類。許多成對列的特征取決于在通過單列特征提取確定的單個列類型上。例如，皮爾遜相關系數需要兩個數字列，“共享值的數量”特征需要兩個分類列。

最后，通過使用表S2c中所示的16個聚合函數聚合這些特征，創建了841個數據集級特征。

每列由四個類別的81個單列特征描述。尺寸（D）特征是一列中的行數。類型（T）特征捕獲列是分類的、時態的還是定量的。值（V）特征描述列中值的統計和結構特性。名稱（N）功能描述列名。我們區分這些特征類別有三個原因。首先，這些類別允許我們組織如何創建和解釋特征。其次，我們可以觀察不同類型特征的貢獻。第三，某些類別的特征可能比其他類別的特征更難概括。我們訂購這些類別（D→ T→ 五、→ N）我們期望這些特征對情節豐富的語料庫有多大的偏見。
一個實例：

4.3 設計選擇提取

Plotly中的每個可視化都包含將數據集合與視覺元素關聯的軌跡。因此，我們通過解析這些跟蹤來提取分析師的設計選擇。編碼級別設計選擇的示例包括標記類型，例如散點、直線、條形；以及X或Y列編碼，指定在哪個軸上表示哪個列；以及X或Y列是否是沿該軸表示的單個列。例如，圖3中的可視化由兩條散射跡線組成，兩條散射跡線的X軸（Hp）上編碼的列相同，Y軸上編碼的列不同（MPG和Wgt）。

通過聚合這些編碼級設計選項，我們可以描述圖表的可視化級設計選項。在我們的語料庫中，超過90%的可視化由同質標記類型組成。因此，我們使用可視化類型來描述所有記錄道之間共享的類型，并確定可視化是否具有共享軸。圖3中的實例具有散點可視化類型和單個共享軸（X）。

5 方法

我們描述了我們的特征處理流程、我們使用的機器學習模型、我們如何訓練這些模型，以及我們如何評估性能。這些是圖1中工作流的步驟4和5。

5.1 特征處理

通過5個階段，我們將原始特征轉換為適合建模的形式。

對類別特征應用one-hot編碼。

將高于第99個百分點或低于第1個百分點的數值設置為相應的截止值。

使用非缺失值模式估算缺失的分類值，并使用非缺失值的平均值估算缺失的數值。

我們去掉了數值域的平均值，并按單位方差進行縮放。

我們隨機刪除了彼此完全相同的重復數據集，得到了唯一的1066443個數據集和288437列。然而，許多數據集都是由同一個用戶上傳的微小修改版本。因此，除了每個用戶一個隨機選擇的數據集外，我們刪除了所有數據集，這也消除了對更多產的用戶的偏見。這種積極的重復數據消除最終產生了119815個數據集和287416列的語料庫。僅精確重復數據消除的結果會顯著提高語料庫內測試的準確率，而基于軟閾值的重復數據消除則會導致相同的測試準確率。

5.2 預測任務

我們的任務是訓練使用第4節中描述的特性預測第4節中描述的設計選擇的模型。兩個可視化級別預測任務使用數據集級別的特征預測可視化級別的設計選擇：

這三個編碼級別預測任務使用有關單個列的特性來預測它們的視覺編碼方式。這些預測任務獨立地考慮每個列，而不是在同一數據集中并列的其他列，它們考慮列順序的影響。

對于可視化類型和標記類型的任務，2類任務預測折線與條形，3類任務預測散點與折線與條形。雖然Plotly支持超過20種標記類型，但我們將預測結果限制在構成語料庫中大多數可視化的少數類型。這種可視化類型的異質性與[4,38]的研究結果一致。

5.3 神經網絡和基線模型

我們的主要模型是一個具有3個隱藏層的完全連接的前饋神經網絡（NN），每個層由1000個具有ReLU激活函數的神經元組成，并使用Pytork實現[41]。為了進行比較，我們選擇了四種更簡單的基線模型，它們都是使用scikit學習[42]實現的，帶有默認參數：樸素貝葉斯（NB）、K近鄰（KNN）、邏輯回歸（LR）和隨機森林（RF）。對每個模型進行隨機參數搜索，與報告的結果相比，沒有顯著提高性能。

對于所有模型，我們將數據分成60/20/20個訓練/驗證/測試集，并使用5倍交叉驗證對每個模型進行五次訓練和測試。因此，報告的結果是五個測試集的平均測試結果。我們對訓練集、驗證集和測試集進行了過采樣，使其達到了大多數類的大小，同時確保三個集之間沒有重疊。由于結果的異質性，我們樣本過多，天真的分類器猜測基本比率的準確率會很高。平衡等級還允許我們報告標準準確度（正確預測的分數），這對于解釋性和將結果推廣到多等級C>2的情況來說非常理想，與F1分數等衡量標準形成對比。

神經網絡使用Adam優化器和200的小批量進行訓練。學習率初始化為5×10?4，并遵循一個學習率計劃，該計劃在遇到高原時將學習率降低10倍，定義為10個階段，在此期間，驗證精度不會超過10?3的閾值。訓練在學習率第三次下降后結束，或在100個階段結束。dropout、dropout和batch標準化并沒有顯著改善性能。

在特征方面，我們通過按順序遞增地添加特征的維度（D）、類型（T）、值（V）和名稱（N）類別，構建了四個不同的特征集。我們將這些功能集稱為D、D+T、D+T+V和D+T+V+N=All。使用所有四個特征集分別對神經網絡進行訓練和測試。四種基準型號僅使用完整的功能集（D+T+V+N=All）。

6 評估性能

我們在表1中報告了每個模型在五項預測任務上的性能。神經網絡始終優于基線模型，模型性能通常提高：NB<KNN<LR=RF<NN。也就是說，在某些情況下，RF和LR的性能并不顯著低于NN。可能需要更簡單的分類器，這取決于對優化精度的需求，以及與其他因素（如可解釋性和培訓成本）的權衡。

因為這四個特征集是一系列超集（D? D+T? D+T+V? D+T+V+N），我們考慮每個特征集的精度。例如，在D+T+V上訓練的模型的精度比在D+T上訓練的模型的精度高，這是對基于價值（V）特征貢獻的一種衡量。這些邊際精度與基線模型精度一起顯示在表1中。

我們注意到，基于值的特征集（例如，列的統計特性）比基于類型的特征集（例如，列是否分類）對性能的貢獻更大，這可能是因為基于值的特征比基于類型的特征多得多。或者，由于許多基于值的功能依賴于列類型，因此基于值的功能和基于類型的功能之間可能存在重疊信息。

解釋特征重要性

特征重要性有助于將我們的結果與之前的文獻聯系起來，并為基于規則的系統提供設計指南。在這里，我們使用標準平均減少雜質**（MDI）度量**[8,32]來確定性能最佳的隨機森林模型的特征重要性。我們之所以選擇這種方法，是因為它的可解釋性和跨行程的穩定性。五種不同任務的前十項功能如表2a所示，所有其他任務的前十項功能如SM表S3所示。

我們首先注意到維度（灰色）的重要性，比如列的長度（即行的數量）或列的數量。例如，列的長度是預測該列是顯示為直線還是條形跟蹤的第二重要特征。標記類型對視覺元素數量的依賴性與啟發式一致，比如“將條形圖中的條形總數保持在12以下”，以顯示條形圖中的個體差異[61]，以及不創建包含“超過五到七個”切片的餅圖[30]。對列數的依賴性與Bertin[5]描述的啟發法有關，并在Show Me[34]中進行了編碼。

與列類型（黃色）相關的特性對于每個預測任務都非常重要。例如，數據集是否包含字符串類型列是確定兩類可視化類型的第五個最重要特征。可視化類型選擇對列數據類型的依賴性與Mackinlay[35]和Cleveland and McGill[15]描述的視覺編碼感知屬性的類型依賴性一致。

基尼、熵、偏度和峰度等統計特征（定量、分類）在所有方面都很重要。這些高階矩的存在是驚人的，因為低階矩（如均值和方差）的重要性很低。這些時刻的重要性突出了捕捉分布形狀的高級特征的潛在重要性。這些觀察結果支持在可視化推薦中使用統計特性，如[59,70]，但也支持在Foresight[16]、VizDeck[43]和Draco[37]等系統中使用高階特性，如偏度、峰度和熵。

**有序性（綠色）的度量，特別是分類性和單調性，**對于許多任務都很重要。分類定義為列的排序值和未排序值之間的元素相關性，即| corr（Xraw，Xsorted）|，位于[0,1]范圍內。單調性是通過嚴格增加或減少Xraw中的值來確定的。這些特征的重要性可能是由于分析員對數據集進行了預排序，這可能會揭示出哪一列被認為是獨立的或解釋性的列，這通常是沿著X軸可視化的。雖然直觀，但我們還沒有看到現有系統中的有序性因素。

我們還注意到線性或對數空間序列系數的重要性，它們是基于啟發式的特征，大致捕捉了變化的規模（紅色） 。這兩個系數在所有四個選定的編碼級別預測任務中都很重要。我們還沒有看到以前的系統中使用過類似的規模度量。

總之，SM中表2a和表S3中特征的多樣性表明，基于規則的推薦系統應該包含比大多數系統所依賴特征的系統更多的特征（例如[34,73]）。此外，特定于任務的特征排序，以及模型中的非線性依賴，使得基于規則的系統更難在任務和領域中表現良好，因此進一步強調了基于ML的推薦系統的需求。

7 基準與眾包的有效性

我們將有效性的定義從一個二進制擴展到一個可以通過眾包共識確定的連續函數。然后，我們描述了從土耳其機械工人那里收集可視化類型評估的實驗過程。我們使用基于共識的有效性評分來比較預測這些評估的不同模型。

7.1 建模和測量有效性

如第2節所述，我們將數據可視化建模為一個制定一組設計選擇C={C}的過程，該選擇最大化了有效性標準Eff，該標準取決于數據集d、任務和上下文。在第6節中，我們通過在數據集設計選擇對[（d，cd）]語料庫上訓練機器學習模型來預測這些設計選擇。但是因為每個數據集僅由每個用戶可視化一次，所以我們認為用戶選擇c_d是有效的，并且彼此選擇無效。也就是說，我們認為有效性是二進制的。

但之前的研究表明，有效性是持續的。例如，Saket等人使用時間和準確性偏好來衡量任務績效[53]，Borkin等人使用標準化記憶分數[6]，Cleveland和McGill使用絕對錯誤率來衡量基本感知任務的績效[15]。可視化專家[25,29]的討論還表明，在顯示相同數據時，多重可視化同樣有效。

我們的有效性度量應該是連續的，并反映數據可視化的模糊性，這會導致多個選擇在同一數據集上獲得非零甚至最大的分數。這與其他機器學習任務的性能指標一致，比如語言翻譯中的BLEU分數[40]和文本摘要中的胭脂度量[11]，其中多個結果可能（部分）是正確的。

為了估計這個有效性函數，我們需要觀察一個由多個潛在用戶可視化的數據集。假設一個設計選項c可以具有多個離散值{v}。例如，我們考慮c是的可視化類型的選擇，它可以取值{bar，line, scatter}。使用n_v表示選擇v的次數，我們計算做出選擇v的概率為?P_c（v）=n_v/N，并使用{?Pc}表示所有v的概率集合。我們通過最大概率來規范選擇v的概率，以定義有效性得分?Effc（v）=?Pc（v）/max（{Pc}）。現在，如果所有N個用戶都做出相同的選擇v，只有c=v會得到最大分數，其他選擇將得到零分。然而，如果兩個選項以相同的概率選擇，因此兩個選項都同樣有效，則標準化將確保兩個選項都獲得最高分數。

開發這種眾包評分，反映出做出數據可視化選擇的模糊性，有三個主要目的。首先，它可以讓我們在模型周圍建立不確定性——在本例中，通過引導。其次，它讓我們可以測試在Plotly語料庫上訓練的模型是否可以概括，以及Plotly用戶是否真的在做出最佳選擇。最后，它讓我們可以對Plotly用戶的性能以及其他預測指標進行基準測試。

7.2 基準測試過程與數據準備

為了生成眾包評估數據，我們通過Amazon Mechanical Turk招募并成功預選了300名參與者。為了參與實驗，工人們必須持有美國學士學位，年滿18歲，并通過電話完成調查。工人們還必須成功地回答三個預篩選問題：1）你見過數據可視化嗎？[是或否]，2）二維繪圖的x軸是水平運行還是垂直運行？[水平、垂直、兩者都有，都沒有]，3）以下哪種可視化是條形圖？【條形圖、折線圖、散點圖】。150名工人成功完成了兩個類的實驗，而150名單獨的工人完成了三個類的實驗。

在成功完成預篩選后，工作人員評估了從我們的測試集中隨機選擇的30個數據集的可視化類型。每次評估分為兩個階段。首先，向用戶展示了數據集的前10行，并告訴用戶“請花點時間檢查以下內容”。然后，五秒鐘后，“下一步”按鈕出現。在下一階段，用戶被問到“哪個可視化最能代表這個數據集？（顯示X行中的前10行）。”在這個階段，向用戶展示了數據集以及代表該數據集的相應條形圖、線形圖和散點圖。用戶可以在至少十秒鐘后提交此問題。通過注意力檢查問題將評估分為兩組，每組15人。因此，66個數據集中的每個數據集平均評估68.18次，而99個地面真相數據集中的每個數據集平均評估30次。

為了在我們的基準測試集中選擇數據集，我們首先隨機呈現了一組候選數據集，這些數據集被可視化為條形圖、直線圖或散點圖。然后，我們刪除了明顯不完整的可視化（例如空白可視化）。最后，我們刪除了無法在所有三種可視化類型中進行可視化編碼而不丟失信息的數據集。從剩下的候選人中，我們隨機選擇了33個條形圖、33個折線圖和33個散點圖。

在清理數據時，我們遵循了四個原則：盡可能少地修改用戶的選擇，將更改一致地應用于每個數據集，依賴于繪圖默認值，不做任何不明顯的更改。對于每個數據集，我們修改了原始列名，以消除特定于繪圖的偏差（例如，刪除自動附加到列名的“、x”或“、y”）.我們還希望讓用戶的評估體驗盡可能接近原始的圖表創建體驗。因此，如果從用戶可視化軸標簽或圖例（例如，第一列未標記，但在X軸上顯示為萼片寬度），我們將機器生成的類型的列名更改為明顯的列名。由于這些修改，Plotly用戶和Mechanical Turkers都獲得了比我們的模型更多的信息。

我們將**這99個數據集中的每一個可視化為條形圖、直線圖和散點圖。**我們通過分支原始的Plotly可視化，然后使用Plotly Chart Studio修改標記類型，**創建了這些可視化。**我們確保所有可視化類型的顏色選擇和軸范圍一致。布局的其余部分與用戶的原始規范或Plotly提供的默認值保持不變。

7.2 基準測試程序

我們在基準測試中使用了四種類型的預測因子：人類、基于規則的模型、基于ML的模型和基線。這兩個人類預測器是Plotly預測器，它是Plotly用戶創建的原始繪圖的可視化類型，而MTurk預測器是單個隨機Mechanical Turk參與者的選擇。在評估單個Mechanical Turk的表現時，該個體的投票被排除在模式估計中使用的投票集之外。這兩個基于規則的預測指標包括一個商業系統和另一個研究系統。第一個是Tableau的Show Me功能[34]，它基于Mackinlay的APT[35]的表現力和有效性標準。第二個是CompassQL推薦引擎[71]，為Voyager和 Voyager 2系統提供動力[72,73]。基于機器學習的兩個預測因子是DeepEye和Data2Vis。

在所有情況下，我們都試圖在合理的范圍內做出最大化預測性能的選擇。我們上傳了逗號分隔值（CSV）文件數據集在ShowMe、DeepEye和CompassQL，并將其作為JSON對象上傳到Data2Vis。不像 VizML和Data2Vis，DeepEye支持餅圖、條形圖和散點圖可視化類型。我們將餅圖和條形圖建議都標記為條狀預測，在兩種類型的情況下，將散點圖建議標記為直線預測。

對于所有工具，我們都在合理范圍內修改了數據，以最大限度地增加有效結果的數量。對于剩余的錯誤（Data2Vis為4個，DeepEye為14個），以及沒有返回結果的情況（DeepEye為12個，CompassQL為33個），我們分配了一個隨機圖表預測。

預測者的表現被評估為標準化有效性得分的總和。預測因子的一致性調整推薦分數（CARS）定義為：

其中|D|是數據集的數量（兩類66，三類99），?c_predictor是數據集D的預測可視化類型，?P_c返回給定可視化類型的Mechanical Turker投票分數。請注意，最小CARS>0%。我們通過對比105個投票的自舉樣本，圍繞這些分數建立了95%的置信區間，這些樣本可以被認為是從觀察到的概率分布中提取的合成投票。

7.3 基準測試結果

我們首先使用基尼系數來衡量共識程度，其分布如圖4所示。如果對所有可視化都達成了強烈共識，那么基尼分布將強烈地向最大值傾斜，兩類情況下為1/2，三類情況下為2/3。相反，較低的基尼意味著較弱的共識，表明理想的視覺化類型模棱兩可。基尼分布不偏向任何一個極端，這支持使用軟評分指標，比如CARS，而不是像精度這樣的硬指標。

在圖5中，每個模型和任務的一致性調整推薦分數可視化為條形圖。我們首先比較兩類情況下VizML（88.96±1.66）與Mechanical Turkers（86.66±5.38）和Plotly用戶（90.35±1.85）的CARS，如圖5a所示。令人驚訝的是，VizML的性能與最初的Plotly用戶相當，后者擁有領域知識，并投入時間可視化自己的數據。VizML的表現明顯優于Data2Vis（75.61±2.44）和DeepEye（79.12±4.33）。Show Me實現的CARS為（81.70±2.05），與CompassQL（80.98±4.32）相似。雖然其他推薦人沒有接受過進行可視化類型預測的培訓，但所有推薦人的表現都略好于隨機推薦人。對于這項任務，絕對最低得分為（48.61±2.95）。

同樣的結果適用于圖5b所示的三類情況，其中VizML的CARS（81.18±2.39）略高于Mechanical Turkers（79.28±4.66）和Plotly用戶（79.58±2.44），但誤差范圍內。Data2Vis（64.75±3.13）和DeepEye（68.09±4.11）的表現優于隨機測試（60.37±6.98），具有較大的裕度，但仍在誤差范圍內。CompassQL（68.95±4.48）略高于Show Me（65.37±2.98），誤差也不太大。最低得分為（26.93±3.46）。

8 討論

在本文中，我們介紹了VizML，這是一種機器學習方法，用于使用大量數據集和相應的可視化推薦。我們確定了五個關鍵的預測任務，并表明神經網絡分類器在這些任務上獲得了較高的測試精度，相對于隨機猜測和簡單分類器。我們還通過眾包共識建立的測試集進行基準測試，并表明神經網絡的性能與人類個體相當。

可視化系統開發人員有多種途徑可以將基于ML的推薦程序（如VizML）納入創作工作流。除了現有的手動規范工具（如Tableau[62]中的Show Me[34]功能）之外，部分規范建議者還依賴于學習模型提供的設計選擇建議。基于代碼的創作環境，如Draco[37]和 Vega Lite[55]編輯器可以使用部分規范推薦程序來支持可視化“自動完成”功能，這些功能可以實時建議設計選項，以響應用戶交互。Voyager[73]和DIVE[23]等混合倡議系統可以利用Top-N建議，為用戶提供一個可視化庫，供其搜索和深入研究。設計與基于ML的推薦程序的交互是未來工作的一個重要領域。

為了為自己的系統開發基于ML的推薦程序，開發人員可以從識別用戶設計選擇和從數據中提取簡單特征開始。如果有足夠的容量，這些特性和設計選擇可以用來訓練模型，正如我們在本文中所演示的那樣。或者，開發人員可以通過使用預先訓練過的模型（如VizML）來克服冷啟動問題。有了模型，開發者可以通過收集使用分析（例如，點擊和分享等參與度指標）來建立可視化效果的定制指標，從而取得進一步進展。

我們承認Plotly語料庫和我們的方法的局限性。首先，盡管采用了積極的重復數據消除，但我們的模型肯定偏向于Plotly數據集。作為一個基于網絡的平臺，Plotly可以吸引特定的分析師群體，通過界面設計或默認設置鼓勵特定類型的繪圖，或者更適合特定類型和大小的數據。其次，無論是Plotly用戶還是Mechanical Turker 都不是數據可視化方面的專家。第三，我們承認，本文只關注可視化推薦管道中通常考慮的任務的子集。

未來工作的前景在于數據收集和建模方向。在數據方面，需要從其他工具（如多目和表格）獲得更多不同的培訓數據，并與相鄰的數據科學任務（如特征選擇和數據轉換）相關。更豐富的訓練數據使研究人員能夠調查之前的偏見問題，使用基于任務（或通常是多目標）的有效性度量優化可視化推薦，推薦數據集的多個視圖，研究特征工程的補充方法，并使用概率圖形模型整合不同的設計選擇建議。

每一個基于ML的推薦模型背后都有一個可視化效果的度量。對于可視化社區來說，確定告知有效性的參數是一個懸而未決的問題。機器學習任務，如圖像注釋或醫學診斷，通常是客觀的，因為存在一個明確的人類注釋的基本事實。其他任務是主觀的，如語言翻譯或文本摘要任務，并以人為評估或人為生成的結果為基準。

客觀可視化質量問題指向專家在可視化評估中的作用。可視化專家提供的評估是由感知研究的經驗和知識提供的。但是，如果外行是可視化的目標受眾，眾包代理的一致意見可能是衡量可視化質量的一個很好的標準。VizML提供了大量訓練語料庫、初始機器學習模型和眾包基準，是解決這些問題的一個進步。

總結

以上是生活随笔為你收集整理的论文研读-AI4VIS-可视化推荐-VizML: 一种基于机器学习的可视化推荐方法的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Matplotlib学习笔记3
下一篇：论文笔记5：Noise Reductio