捕獲和轉換Web的工具

2019的大型Web刮板改進

週五,三月8 2019;

除了重新設計和大量錯誤修復外,我們還對GrabzIt的網絡抓取工具進行了重大改進,其中包括:

  • 支持提取CSS樣式中包含的內容
  • 現在,您可以選擇從中執行抓取的國家/地區。 目前的選擇是美國或英國。
  • 現在,您可以選擇是否遵守robots.txt規則。 默認情況下,抓取會這樣做。
  • 相對數據現在可以自動關聯在一起,當您具有針對某些HTML元素(而非其他HTML元素)呈現的數據時,這將非常有用。 通過將這些項目關聯在一起,這些值將針對所得數據集中的正確數據項出現。
  • 創建數據集時,不同的列可以屬於不同的模板,這意味著可以從一種類型的頁面填充某些列,而從不同類型的頁面填充其他列。 這樣的一個示例是產品列表頁面和產品詳細信息頁面。 這樣一來,您可以從列表頁面獲取詳細信息,然後從產品詳細信息頁面獲取詳細信息。
  • 改進數據集構建器的另一種方法是允許將操作的效果(例如包含,小於等)應用於所有或某些列。
  • 現在有幾個 新命令 可從抓取嚮導中獲得。
    • 刪除–您現在可以刪除元素,這在某些情況下可用於阻止多次讀取同一元素。
    • 滾動-網絡抓取工具現在可以滾動支持它的HTML元素。
    • 懸停–此命令會將鼠標懸停在指定元素上方,這對於顯示信息很有用。
    • 分頁–這是“點擊”操作的新功能,它允許在選定的分頁鏈接上自動執行分頁。 這意味著,即使刮板在分頁數據中的某處單擊,作為刮板的一部分,它也會找到返回當前分頁頁面的方式,以繼續進行刮板。
  • 關於Grabz的最好的部分是 網頁刮板 是您可以每月免費使用它。 因此,您還等什麼呢,請給我們任何您想使我們成為最好的在線網絡抓取工具的反饋!

查看最新的博客文章