網頁抓取工具 非常靈活,可以執行各種在線任務,例如檢查網站鏈接和報告損壞的報告。
首先要做的是創建一個 刮 並分配您要檢查的目標網站,然後將以下代碼用於抓取說明。
var urls = Page.getTagAttributes('href', {"tag":{"equals":"a"}}); urls = Utility.Array.unique(urls); urls = Utility.Array.filter(urls, Data.readColumn("Links", "URL")); for (i = 0; i < urls.length; i++) { var url = urls[i]; Data.save(Page.getUrl(), "Links", "Found On"); Data.save(url, "Links", "URL"); if (Utility.URL.exists(url)) { Data.save("Found", "Links", "Result"); } else { Data.save("Missing", "Links", "Result"); } }
第一行 var urls = Page.getTagAttributes('href', {"tag":{"equals":"a"}});
提取所有超鏈接URL並將其放入 urls
變量。 下一行使用 Utility.Array.unique 使所有URL唯一的方法。
第三行確保不會對鏈接進行兩次檢查,以確保我們不會讀取鏈接。 saved並以此過濾提取的鏈接。 如果要記錄每個頁面的鏈接,請刪除此行。
清理完網址數據後,我們將遍歷其餘每個網址,並將其保存在 數據集 以及當前頁面,然後使用 Utility.URL.exists
方法。 這樣檢查的結果也是 save數據集中的d。
或者,您可以通過替換代碼來檢查網站圖片是否存在 Page.getTagAttributes('href', {"tag":{"equals":"a"}});
同 Page.getTagAttributes('src', {"tag":{"equals":"img"}});
.