捕獲和轉換Web的工具

從網站中提取鏈接

該示例也可作為 模板.

一項常見任務是從網站中提取鏈接,特別是 HTML 鏈接。 幸運的是,使用時這很容易 網頁抓取工具。 首先,使用常規詳細信息(例如抓取的起始頁面和任何其他選項)創建一個新抓取。

然後去 刮刮說明 標籤並點擊 網頁按鈕 按鈕。 這將進入 Page 關鍵詞 into 抓取說明,並將打開一個下拉菜單。 選擇 getTagAttributes 從列表中。 接下來添加 'href' 作為第一個參數,這告訴 Web Scraper 提取 href 屬性,然後鍵入逗號。

接下來點擊 篩選按鈕 這允許您告訴 Web Scraper 從哪些元素中提取 href 屬性。 在過濾器窗口中,確保類型設置為“網頁”,限制為“標籤名稱”和“等於”。 然後輸入 a 在文本框中,然後單擊“添加”按鈕,然後單擊“插入過濾器”按鈕。 通過在行尾添加分號來結束指令。

您應該得到如下所示的內容。

Page.getTagAttributes('href', {"tag":{"equals":"a"}});

上面的代碼將從網頁中提取所有鏈接 URL,但我們現在需要 save 那些鏈接 URL。 為此,我們將該命令減去分號包裝在 Data.save 命令。 為此,請轉到該行的開頭並選擇 數據按鈕 按鈕。 然後在下拉菜單中選擇 save,然後轉到行尾並添加逗號。 然後添加您想要調用的數據集,例如“我的網站”,然後添加另一個逗號,然後添加另一個參數來描述該列,例如“鏈接”,然後使用 ) 分號之前。

您現在應該有以下抓取說明。

Data.save(Page.getTagAttributes('href', {"tag":{"equals":"a"}}), 'My Websites', 'Links');

現在,如果您運行抓取,您將從網站中提取所有鏈接。 這將創建一個名為“我的網站”的表,列名稱為“鏈接”,然後可以將其導出 into 許多不同的格式,例如 XML、CSV 或電子表格。 本教程也可以通過使用“抓取指令”工具欄中的嚮導按鈕來完成。