捕獲和轉換Web的工具

如何抓取產品列表和詳細信息頁面

在網站上,通常會有一個搜索頁面,其中包含一個項目列表,每個項目都有一個摘要說明,並帶有指向詳細頁面的鏈接,該頁麵包含有關該項目的深入信息。

由於這種結構經常使用,因此經常需要從搜索頁面中刮取有關每個項目的某些信息,而從詳細信息頁面中刮取其餘的信息。 本文將提供有關如何抓取此類信息的指導。

首先輸入您要抓取的產品列表頁面的URL。 然後從產品列表頁面中選擇要選擇的信息。 確保選擇所有數據示例。

然後在抓取說明頁面上,單擊 添加抓取指令.

首先要注意的是,我們的抓取器的工作方式與瀏覽器完全相同,因此,如果存在Cookie安全通知或其他內聯彈出窗口阻止您單擊頁面,則必須指示抓取器在彈出窗口關閉之前其餘的刮操作都可以完成。 這些彈出窗口中的大多數僅需要單擊一次,因此您可以告訴GrabzIt進行相同的操作。 為此,請使用 點擊元素 操作,然後單擊所需的HTML元素以關閉彈出窗口。 然後單擊“僅一次”選項,然後 Save 和下一步。

接下來選擇 提取數據 操作,然後選擇要提取的數據。 因此,如果要選擇項目的標題,請從搜索結果列表中選擇。 確保已選中該列表中的每個標題。

我們的嚮導會嘗試自動識別數據集,並可能選擇比您想要的信息更多的信息。 如果發生這種情況,只需再次單擊您不想選擇的項目,它們將不再包含在內。 這告訴我們的網頁刮板要提取什麼。

現在,選擇要提取的數據項的屬性。 例如“文本”,然後單擊“下一步”。 在下一個屏幕上為其命名。 請注意,這裡您希望所有數據都使用默認模板。 這是因為您希望在沒有特殊模板的情況下提取數據。

一旦選擇了所有要從產品搜索頁面中提取的項目數據。 在產品詳細信息頁面上選擇所有鏈接以獲取更多信息。 例如,這可能是圖像。 然後點擊 點擊元素 行動。 將模板設置為“詳細”,然後將其延遲五秒鐘,然後單擊“下一步”。 當詢問您是否要從新頁面提取數據時,請選擇“是”。 現在,像以前一樣選擇要提取的數據。 但是這一次,指定它必須在“詳細信息”模板下執行。

添加另一條抓取指令,然後返回主頁。 這次從分頁鏈接中選擇下一個按鈕。 當。。。的時候 點擊動作 出現選項框,請選擇 下一頁按鈕 選項。 這樣,抓取工具便知道此按鈕實際上是一個分頁按鈕,並將對所有結果進行分頁。 請確保您最後有此刮擦說明。 如果不是最後一個抓取指令,則可以將其拖到最後。

然後轉到計劃標籤,然後單擊創建以開始抓取。 您可以在“管理剪貼簿”頁面上實時查看剪貼簿的進度,方法是單擊剪貼簿的行圖標,然後單擊查看器圖標。