捕獲和轉換Web的工具

Web Scraper文檔

這是我們通過網絡刮板提供的特殊刮板指示方法的概述。

Criteria.apply(數組)

從提供的陣列中刪除與該條件中通過先前操作刪除的那些項目相同位置的所有項目。

  • array-必需,將更改應用到的數組。

Criteria.ascending(值)

以升序返回值。

  • 值-必需,傳遞您希望以升序排序的數組。

Criteria.contains(針,值)

僅返回needles數組中包含指定值的項目。

  • 針頭-必需,要過濾的陣列。
  • 值-必填,必須包含值項。

Criteria.create(數組)

創建一個新條件,準備對新陣列執行操作。

  • array-必需,要應用更改的列的數組。

  • Criteria.descending(值)

    以降序返回值。

    • 值-必需,傳遞您希望以降序排序的數組。

    Criteria.equals(針,值)

    僅返回針數組中等於指定值的項目。

    • 針頭-必需,要過濾的陣列。
    • value-必填項,必須等於。

    Criteria.extract(數組,模式)

    返回數組中所有根據指定模式修剪的匹配項。

    • array-必需,要修剪的數組匹配。
    • pattern-必填,pattern定義瞭如何修剪返回文本的所需部分。 要修剪的值由模式中的{{VALUE}}指示。
      例如,從“我的年齡是33”中減少年齡。 模式“我的年齡是{{VALUE}}”。 將被使用。

    Criteria.greaterThan(針,值)

    返回needles數組中唯一大於指定值的項目。

    • 針頭-必需,要過濾的陣列。
    • value-必填項,必須大於。

    Criteria.keep(針,乾草堆)

    保留在乾草堆數組中找到的所有匹配項後,返回needles數組。

    • 針頭-必需,要過濾的陣列。
    • 乾草堆-必需,用於保留針的陣列。

    Criteria.lessThan(針,值)

    返回指針數組中唯一小於指定值的項目。

    • 針頭-必需,要過濾的陣列。
    • value-必填項,必須小於。

    Criteria.limit(值,限制)

    返回前n個值,其中n是極限變量。

    • 值-必需,傳遞您要限制的數組。
    • 限制-必需,要從數組返回的值的數量。

    Criteria.notEquals(針,值)

    返回needles數組中唯一不等於指定值的項。

    • 針頭-必需,要過濾的陣列。
    • 值-必需,值項必須不等於。

    Criteria.remove(針,乾草堆)

    刪除在乾草堆數組中找到的所有匹配項後,返回needles數組。

    • 針頭-必需,要過濾的陣列。
    • 乾草堆-必需,用於除去針的陣列。

    Criteria.repeat(array)

    重複數組中的項目,直到匹配最長列的長度。

    • array-必需,要重複的數組。

    Criteria.unique(針)

    僅返回針數組中的唯一值。

    • 針頭-必需,傳遞您要從中刪除所有重複值的數組。

    Data.countFilesDownloaded()

    計算下載的文件總數。


    Data.log(消息)

    將消息寫到抓取日誌。

    • message-必填,寫入日誌的消息。

    Data.pad(padValue,dataSet)

    通過將空單元格附加到列的末尾來填充數據集中存在的所有列,直到特定數據集中的所有列具有相同數量的單元格為止。

    • padValue- 可選,用於填充單元格的值。 如果未指定,則使用空值。
    • 數據集- 可選,要填充的數據集。

    Data.readColumn(dataSet,column)

    從指定的數據集中讀取指定列的列。

    • 數據集- 可選,從中讀取值的數據集。
    • 欄- 可選,即數據集中要從中讀取值的列。

    數據。save(值s,dataSet,列)

    Save指定的數據集和列的任何一個或多個值。

    • 值-必需,傳遞您希望的任何值或值數組 save.
    • 數據集- 可選,數據集到 save 價值 into.
    • 欄- 可選,數據集中的列 save 價值 into.

    數據。saveDOCXScreenshot(htmlOrUrls,選項,數據集,列)

    拍攝HTML,URL或URL的DOCX屏幕截圖,並選擇在指定的數據集和列中放置指向文件的鏈接。

    • url-必填,傳遞您希望獲取DOCX屏幕截圖的任何url或一組url。
    • 選項- 可選,屏幕截圖選項。
    • 數據集- 可選,數據集到 save DOCX屏幕截圖鏈接 into.
    • 欄- 可選,數據集中的列 save DOCX屏幕截圖鏈接 into.

    數據。saveImageScreenshot(htmlOrUrls,選項,數據集,列)

    拍攝HTML,URL或URL的圖像屏幕快照,並選擇在指定的數據集和列中放置指向文件的鏈接。

    • url-必填,傳遞您希望獲取其圖像截圖的任何url或一組url。
    • 選項- 可選,屏幕截圖選項。
    • 數據集- 可選,數據集到 save 圖片截圖鏈接 into.
    • 欄- 可選,數據集中的列 save 圖片截圖鏈接 into.

    數據。savePDFScreenshot(htmlOrUrls,選項,數據集,列)

    拍攝HTML,URL或URL的PDF屏幕截圖,並選擇在指定的數據集和列中放置指向文件的鏈接。

    • 網址-必填,傳遞您希望獲取其PDF屏幕截圖的任何網址或網址數組。
    • 選項- 可選,屏幕截圖選項。
    • 數據集- 可選,數據集到 save PDF屏幕截圖鏈接 into.
    • 欄- 可選,數據集中的列 save PDF屏幕截圖鏈接 into.

    數據。saveTableScreenshot(htmlOrUrls,選項,數據集,列)

    截取HTML,URL或URL的表格屏幕截圖,並選擇在指定的數據集和列中放置指向文件的鏈接。

    • url-必需,傳遞您希望獲取表格屏幕快照的任何url或一組url。
    • 選項- 可選,屏幕截圖選項。
    • 數據集- 可選,數據集到 save 表格截圖鏈接 into.
    • 欄- 可選,數據集中的列 save 表格截圖鏈接 into.

    數據。save文件(網址s,文件名,數據集,列)

    Save將任何一個或多個URL作為文件,並可以選擇將指向文件的鏈接放在指定的數據集和列中。

    • url-必填,傳遞您希望打開的任何URL或URL數組 intoa文件。
    • 文檔名稱 - 可選,傳遞您希望使用的任何文件名,而不是生成的文件名。
    • dataSet-可選,數據集 save 文件鏈接 into.
    • 欄- 可選,數據集中的列 save 文件鏈接 into.

    數據。saveToFile(數據,文件名,數據集,列)

    Save將任何數據或數據項作為文件,並有選擇地將指向文件的鏈接放在指定的數據集和列中。

    • 數據-必需,傳遞您希望的任何數據或數據數組 save 在文件中。
    • 文檔名稱 - 可選,傳遞您希望使用的任何文件名,而不是生成的文件名。
    • dataSet-可選,數據集 save 文件鏈接 into.
    • 欄- 可選,數據集中的列 save 文件鏈接 into.

    數據。save唯一(值s,dataSet,列)

    Save指定的數據集和列的任何唯一值或多個值。 同一數據集和列中的重複值將被忽略。

    • 值-必需,傳遞您希望的任何值或值數組 save.
    • 數據集- 可選,數據集到 save 價值 into.
    • 欄- 可選,數據集中的列 save 價值 into.

    數據。saveUniqueFile(網址s,文件名,數據集,列)

    Save將任何一個或多個URL作為文件,並可以選擇將指向文件的鏈接放在指定的數據集和列中。 此方法只會 save 指定的數據集和列的唯一值,或者如果整個刮板都沒有數據集和列的唯一URL。

    • url-必填,傳遞您希望打開的任何URL或URL數組 intoa文件。
    • 文檔名稱 - 可選,傳遞您希望使用的任何文件名,而不是生成的文件名。
    • 數據集- 可選,數據集到 save 文件鏈接 into.
    • 欄- 可選,數據集中的列 save 文件鏈接 into.

    數據。saveVideoAnimation(videoUrls,選項,數據集,列)

    轉換一個或多個在線視頻 into動畫GIF,並且可以選擇在指定的數據集和列中放置指向文件的鏈接。

    • videoUrl-必需,傳遞要轉換的任何視頻網址或網址數組 into動畫GIF。
    • 選項- 可選,動畫選項。
    • 數據集- 可選,數據集到 save 動畫鏈接 into.
    • 欄- 可選,數據集中的列 save 動畫鏈接 into.

    Global.get(名稱)

    得到一個 saved變量值。

    • name-必需,要返回的變量的名稱。

    Global.set(名稱,值s,堅持下去)

    Save刮取頁面之間的任何值或多個值。

    • name-必填,變量名 save.
    • 值-必填,變量值為 save.
    • 持久-可選,如果為true,則變量將在兩次刮擦之間保留。

    Navigation.addTemplate(URLs,模板)

    將一個或多個URL定義為屬於指定模板。 這允許將抓取指令限制為僅在某些URL上執行。

    • url-必需,傳遞您希望為其定義模板的任何url或一組url。
    • 模板-必填。

    Navigation.clearCookies()

    刪除當前抓取的所有cookie。


    Navigation.navigate(過濾器,模板)

    單擊一個或多個HTML元素。

    • filter-必需的過濾器,用於標識要單擊的HTML元素。
    • template-導航到所選HTML元素時要分配的模板。

    Navigation.goTo(URL)

    立即轉到指定的URL。

    • url-必填,用於瀏覽的URL。

    Navigation.hover(過濾器)

    將鼠標懸停在一個或多個HTML元素上。

    • filter-必需的過濾器,用於標識要懸停在哪個HTML元素上的過濾器。

    Navigation.isTemplate(模板)

    如果當前頁面屬於指定模板,則返回true。

    • template-必填,用於檢查頁面是否屬於的模板。

    Navigation.paginate(過濾器,秒)

    通過指定的元素分頁。

    • filter-必需的過濾器,用於標識要分頁的HTML元素。
    • seconds-必需,是分頁結果之間的秒數。

    Navigation.remove(過濾器)

    刪除一個或多個HTML元素。

    • filter-必需的過濾器,用於標識要刪除的HTML元素。

    Navigation.scroll(過濾器)

    滾動選定的元素或整個網頁。

    • filter-可選,用於標識要滾動的元素的過濾器,如果未提供,則將滾動整個網頁。

    Navigation.select(值s,過濾器)

    在選擇元素中選擇一個或多個有效值。

    • 值-必需,一個或多個要選擇的值。
    • filter-必需,用於標識要選擇的選擇元素的過濾器。

    Navigation.stopScraping(中止)

    立即停止刮擦。

    • 中止-可選,如果為true,則停止任何其他處理,並且不導出或傳輸任何結果。

    導航類型(文本s,過濾器)

    輸入文字 intoa元素。

    • 文本-​​必填,要鍵入的一項或多項文本。
    • filter-必需,用於標識要鍵入哪個元素的過濾器 into.

    Navigation.wait(秒)

    等待幾秒鐘,然後繼續。 使用此單擊,選擇和鍵入命令時,此功能最為有用。

    • seconds-必需,等待的秒數。

    Page.contains(查找,屬性,過濾器)

    如果Page包含要查找的文本,則返回true。

    • find-必需,要查找的文本。
    • attribute-可選,要搜索的屬性。
    • filter-可選,用於標識要搜索的元素的過濾器。

    Page.exists(過濾器)

    如果Page包含與搜索過濾器匹配的元素,則返回true。

    • filter-必需,用於標識要搜索的元素的過濾器。

    Page.getAuthor()

    如果指定了頁面作者,則獲取頁面作者。


    Page.getDescription()

    如果指定了頁面描述,則獲取頁面描述。


    Page.getFavIconUrl()

    獲取頁面的FavIcon URL。


    Page.getHtml()

    獲取原始頁面HTML。


    Page.getKeywords()

    獲取要抓取的頁面的關鍵字。


    Page.getLastModified()

    從頁面元數據或響應標頭中獲取網頁的最後修改時間。


    Page.getPageNumber()

    獲取正在抓取的當前URL的頁碼。


    Page.getPreviousUrl(index)

    獲取前一個URL,-1表示最後一個URL,而數字越小則表明哪個URL越早。

    • index-可選,要返回的上一頁的索引。 默認為-1。

    Page.getTagAttribute(屬性,過濾器)

    返回匹配的屬性值。

    • attribute-必需,要搜索的屬性。
    • filter-可選,用於標識要搜索的元素的過濾器。

    Page.getTagAttributes(屬性,過濾器,鏈接到)

    返回匹配的CSS值。

    • attribute-必需,要搜索的CSS屬性。
    • filter-可選,用於標識要搜索的元素的過濾器。
    • linkedTo-可選,由應鏈接到的列組成,以便相對值保持在一起。

    Page.getTagCSSAttribute(屬性,過濾器)

    返回匹配的CSS值。

    • attribute-必需,要搜索的CSS屬性。
    • filter-可選,用於標識要搜索的元素的過濾器。

    Page.getTagCSSAttributes(屬性,過濾器,鏈接到)

    返回匹配的屬性值。

    • attribute-必需,要搜索的屬性。
    • filter-可選,用於標識要搜索的元素的過濾器。
    • linkedTo-可選,由應鏈接到的列組成,以便相對值保持在一起。

    Page.getTagValue(filter)

    返回匹配的元素值。

    • filter-可選,用於標識要搜索的元素的過濾器。

    Page.getTagValues(filter,linkedTo)

    返回匹配的元素值。

    • filter-可選,用於標識要搜索的元素的過濾器。
    • linkedTo-可選,由應鏈接到的列組成,以便相對值保持在一起。

    Page.getText()

    從頁面獲取可見的文本。


    Page.getTitle()

    獲取頁面標題。


    Page.getUrl()

    獲取頁面的URL。


    Page.getValueXPath(xpath)

    返回與提供的XPATH匹配的值。

    • xpath-必需,用於匹配元素值或屬性的XPATH。

    Page.getValuesXPath(xpath)

    返回與提供的XPATH匹配的值。

    • xpath-必需,用於匹配元素值或屬性的XPATH。

    Page.valid()

    如果當前正在抓取的URL是有效的網頁,則返回true。


    Utility.Array.clean(值s)

    返回values數組中的所有非null和空值。

    • values-必需,傳遞任何要清除的值數組。

    Utility.Array.contains(值s)

    如果針位於乾草堆數組中,則返回true。

    • 針-必需,傳遞任何值或值數組以查找。
    • 乾草堆-必需,用於搜索一個或多個針的數組。

    Utility.Array.merge(array1,array2)

    合併兩個數組 into用第二個數組中的值替換空或空值。 兩個數組的大小必須相等。

    • array1-必需,傳遞要合併的值數組。
    • array2-必需,傳遞要合併的值數組。

    Utility.Array.unique(值s)

    從values數組返回唯一值。

    • values-必需,傳遞任何值數組以使其唯一。

    Utility.Text.extractAddress(文本)

    提取指定text參數內的第一個電子郵件地址。

    • 文本-​​必填,用於從中提取電子郵件地址的文本。

    Utility.Text.extractAddresses(文本)

    從指定的text參數中提取所有電子郵件地址。

    • 文本-​​必填,用於提取所有電子郵件地址的文本。

    Utility.Text.extractLocation(文本,語言)

    自動從指定的text參數中提取第一個位置。

    • text-必填,用於從中提取位置的文本。
    • 語言-語言(可選),以兩個字母ISO 639-1格式提取的文本語言。 默認為“ en”。 使用“自動”來嘗試自動檢測文本語言。

    Utility.Text.extractLocations(文本,語言)

    自動從指定的text參數中提取位置。

    • 文本-​​必需,用於從中提取位置的文本。
    • 語言-語言(可選),以兩個字母ISO 639-1格式提取的文本語言。 默認為“ en”。 使用“自動”來嘗試自動檢測文本語言。

    Utility.Text.extractLanguageName(文本)

    自動從text參數中提取指定的語言。

    • text-必需的文本,用於從中提取語言。

    Utility.Text.extractLanguageCode(文本)

    自動從text參數中提取指定的語言。

    • text-必需的文本,用於從中提取語言。

    Utility.Text.extractName(文本,語言)

    自動從指定的text參數中提取名字。

    • text-必需,用於從中提取名稱的文本。
    • 語言-語言(可選),以兩個字母ISO 639-1格式提取的文本語言。 默認為“ en”。 使用“自動”來嘗試自動檢測文本語言。

    Utility.Text.extractNames(文本,語言)

    自動從指定的text參數中提取名稱。

    • text-必需,用於從中提取名稱的文本。
    • 語言-語言(可選),以兩個字母ISO 639-1格式提取的文本語言。 默認為“ en”。 使用“自動”來嘗試自動檢測文本語言。

    Utility.Text.extractOrganization(文本,語言)

    自動從指定的text參數中提取第一個組織。

    • text-必填,用於從中提取組織的文本。
    • 語言-語言(可選),以兩個字母ISO 639-1格式提取的文本語言。 默認為“ en”。 使用“自動”來嘗試自動檢測文本語言。

    Utility.Text.extractOrganizations(文本,語言)

    自動從指定的text參數中提取組織。

    • 文本-​​必填,用於從中提取組織的文本。
    • 語言-語言(可選),以兩個字母ISO 639-1格式提取的文本語言。 默認為“ en”。 使用“自動”來嘗試自動檢測文本語言。

    Utility.Text.extractSentiment(文本)

    自動從指定的text參數中提取情感。

    • text-必需,用於從中提取情感的文本。

    Utility.Image.extractText(網址s, 語言)

    嘗試使用光學字符識別從任何指定的圖像中提取文本。

    • url-必需,傳遞要從中提取文本的圖像的任何URL或URL數組。
    • 語言-語言(可選),以兩個字母ISO 639-1格式提取的文本語言。 默認為“ en”。

    Utility.URL.addQueryString參數(urls, 核心價值)

    添加查詢string 任何URL的參數。

    • url-必需,傳遞要添加查詢的任何URL或URL數組 string 參數為。
    • key-必需,要添加的參數的鍵。
    • value-必需,要添加的參數的值。

    Utility.URL.getQueryString參數(urls,鍵)

    獲取查詢的值string 來自任何一個或多個URL的參數。

    • url-必需,傳遞您希望讀取查詢的任何URL或URL數組string 參數來自。
    • key-必需,要讀取的參數的鍵。

    Utility.URL.removeQueryString參數(urls,鍵)

    刪除查詢string 來自任何一個或多個URL的參數。

    • url-必需,傳遞您希望刪除查詢的任何URL或URL數組string 參數來自。
    • key-必需,要刪除的參數的鍵。

    Utility.URL.exists(URLs)

    通過調用每個URL來檢查URL是否確實存在。

    • url-必需,傳遞您要檢查的任何URL或URL數組。