網頁抓取工具 提供了幾種特殊的實用方法,可以輕鬆地從網站中提取電子郵件地址。 下面的示例從網頁中獲取所有 HTML 內容,然後將其傳遞給 Utility.Text.extractAddresses
在保存地址之前查找所有有效電子郵件地址的方法 intoa 數據集,然後發送給用戶。
或者,可以使用以下命令提取第一個匹配的電子郵件地址 Utility.Text.extractAddress
方法。
Data.save(Utility.Text.extractAddresses(Page.getHtml()));
PDF文檔也可以被抓取 對於電子郵件地址,其方式與上面抓取網頁的方式類似。 正如您在下面的示例中看到的,該過程完全相同,除了 PDF.getText()
方法被用來代替 Page.getHtml()
方法。
Data.save(Utility.Text.extractAddresses(PDF.getText()));
GrabzIt 有能力 從圖像中提取文本 這意味著這種能力也可以用於從圖像中提取電子郵件地址。 下面的示例從網頁上的所有圖像中提取任何電子郵件地址。
Data.save(Utility.Text.extractAddresses(Utility.Image.extractText(Page.getTagAttributes('src', {"tag":{"equals":"img"}}))));
下面的抓取說明會從 PDF 文檔中找到的圖像中提取所有電子郵件地址。
Data.save(Utility.Text.extractAddresses(Utility.Image.extractText(PDF.getValue({"type":"image"}))));