捕獲和轉換Web的工具

如何填充數據集

有時候 構造數據集網頁刮板 添加更多值 into一列比另一列。 在下面的示例中,在刮掉第一頁後,將John的名稱與三種顏色一起添加到“名稱”列,在下一頁中,將David的名稱與其他兩種顏色一起添加了。 給出以下數據集。

名稱顏色
約翰黃色
大衛紅色
綠色
藍色
紫色

但是,此表具有誤導性,因為它沒有顯示使用哪種顏色找到了哪個名稱。 相反, pad 方法可用於將空單元格自動追加到數據集列的末尾,直到所有列的長度相同。 一個例子 pad 使用的方法如下所示。

Data.save(Page.getTagValue({"class":{"equals":"Name"}}), 'Name', 'Color');
Data.save(Page.getTagValues({"class":{"equals":"Color"}}), 'Name', 'Color');
Data.pad();

這些抓取指令將生成如下所示的數據集。

名稱顏色
約翰黃色
紅色
綠色
大衛藍色
紫色

我們可以通過指定 padValue 的參數 pad 方法為刮板找到的名稱。 如在此示例中,刮刮指令變成每頁只有一個名稱。

var name = Page.getTagValue({"class":{"equals":"Name"}});
Data.save(name, 'Name', 'Color');
Data.save(Page.getTagValues({"class":{"equals":"Color"}}), 'Name', 'Color');
Data.pad(name);

如下所示,這會在名稱列的每個空白單元格中放置一個名稱。

名稱顏色
約翰黃色
約翰紅色
約翰綠色
大衛藍色
大衛紫色