捕獲和轉換Web的工具

創建一個自定義鏈接檢查器

該示例也可作為 模板.

網頁抓取工具 非常靈活,可以執行各種在線任務,例如檢查網站鏈接和報告損壞的鏈接。

首先要做的是創建一個 並指定您要檢查的目標網站,然後使用以下代碼作為抓取說明。

        var urls = Page.getTagAttributes('href', {"tag":{"equals":"a"}});
        urls = Utility.Array.unique(urls);
        urls = Utility.Array.filter(urls, Data.readColumn("Links", "URL"));

        for (i = 0; i < urls.length; i++) 
        {
          var url = urls[i];

          Data.save(Page.getUrl(), "Links", "Found On");
          Data.save(url, "Links", "URL");

          if (Utility.URL.exists(url))
          {
            Data.save("Found", "Links", "Result");
          }
          else
          {
            Data.save("Missing", "Links", "Result");
          }
        }
    

第一行 var urls = Page.getTagAttributes('href', {"tag":{"equals":"a"}}); 提取所有超鏈接 URL 並將它們放入 urls 多變的。 下一行使用 實用程序.數組.unique 使所有 URL 唯一的方法。

第三行確保鏈接不會被檢查兩次,為此我們讀取之前已檢查過的 URL saved 並以此過濾提取的鏈接。 如果您希望記錄鏈接斷開的每個頁面,請刪除此行。

清理 URL 數據後,我們循環遍歷每個剩餘的 URL,將其保存在 數據集 與當前頁面一起,在使用檢查 URL 是否存在之前 Utility.URL.exists 方法。 此檢查的結果也是 save數據集中的 d。

或者,您可以通過替換代碼來檢查網站圖像是否存在 Page.getTagAttributes('href', {"tag":{"equals":"a"}}); with Page.getTagAttributes('src', {"tag":{"equals":"img"}});.