一個常見的任務是從網站下載圖像, 網頁抓取工具 這很容易。 首先,使用常規詳細信息(例如,刮擦的起始頁和其他任何選項)創建一個新的刮擦。
然後去 刮刮說明 標籤並點擊 按鈕。 這將進入
Page
關鍵詞 into刮刮說明,將打開一個下拉列表。 選擇 getTagAttributes
從列表中。 接下來添加 'src'
作為第一個參數,它告訴Web Scraper提取src屬性,然後鍵入一個逗號。
接下來點擊 這使您可以告訴Web Scraper從哪些元素中提取src屬性。 在過濾器窗口中,確保類型設置為“網頁”,限制為“標籤名稱”和“等於”。 然後輸入
img
在文本框中,然後單擊添加按鈕,然後單擊插入過濾器按鈕。 通過在行尾添加分號來完成該指令。
您應該會看到如下所示的內容。
Page.getTagAttributes('src', {"tag":{"equals":"img"}});
上面的代碼將從網頁中提取所有圖像URL,但是我們現在需要使用這些圖像URL來 save 這些圖像作為文件。 為此,我們將該命令減去分號包裝在 Data.saveFile
命令。 為此,請轉到該行的開頭,然後選擇 按鈕。 然後在下拉菜單中選擇
saveFile
,然後轉到該行的末尾並添加一個 )
在分號之前。
您現在應該具有以下刮刮說明。
Data.saveFile(Page.getTagAttributes('src', {"tag":{"equals":"img"}}));
現在,如果您運行抓取工具,您將從網站上提取所有圖像。 通過使用“抓取指示”工具欄中的嚮導按鈕也可以實現本教程的大部分內容。