捕獲和轉換Web的工具

從網站中提取鏈接

這個例子也可以作為 模板.

一個常見的任務是從網站中提取鏈接,特別是HTML鏈接。 幸運的是,使用時很容易 網頁抓取工具。 首先,使用常規詳細信息(例如,刮擦的起始頁和其他任何選項)創建一個新的刮擦。

然後去 刮刮說明 標籤並點擊 網頁按鈕 按鈕。 這將進入 Page 關鍵詞 into刮刮說明,將打開一個下拉列表。 選擇 getTagAttributes 從列表中。 接下來添加 'href' 作為第一個參數,它告訴Web Scraper提取href屬性,然後鍵入逗號。

接下來點擊 篩選按鈕 這使您可以告訴Web Scraper從中提取href屬性的元素。 在過濾器窗口中,確保類型設置為“網頁”,限制為“標籤名稱”和“等於”。 然後輸入 a 在文本框中,然後單擊添加按鈕,然後單擊插入過濾器按鈕。 通過在行尾添加分號來完成該指令。

您應該會看到如下所示的內容。

Page.getTagAttributes('href', {"tag":{"equals":"a"}});

上面的代碼將從網頁中提取所有鏈接URL,但是我們現在需要 save 這些鏈接的網址。 為此,我們將該命令減去分號包裝在 Data.save 命令。 為此,請轉到該行的開頭,然後選擇 數據按鈕 按鈕。 然後在下拉菜單中選擇 save,然後轉到該行的末尾並添加一個逗號。 然後添加您想要調用數據集的內容,例如“我的網站”,然後添加另一個逗號,然後添加另一個參數來描述列(例如“鏈接”),然後使用 ) 在分號之前。

您現在應該具有以下刮刮說明。

Data.save(Page.getTagAttributes('href', {"tag":{"equals":"a"}}), 'My Websites', 'Links');

現在,如果您運行抓取工具,您將從網站中提取所有鏈接。 這將創建一個名為“我的網站”的表,其列名為“鏈接”,然後可以將其導出 into許多不同的格式,例如XML,CSV或電子表格。 也可以通過使用“抓取指示”工具欄中的嚮導按鈕來完成本教程。