捕獲和轉換Web的工具

從圖像中提取文本

重要的文本信息通常可以存儲在圖像中。 然而 網頁抓取工具 提供使用光學字符識別自動提取此信息的功能。 雖然這是一種人工的形式 int高明的結果並不總是完美的。

要從圖像中提取文本,您應該使用 Utility.Image.extractText 方法如下圖所示。

var textArray = Utility.Image.extractText(Page.getTagAttributes('src', {"tag":{"equals":"img"}}));

這些示例都從網頁獲取所有圖像URL,然後將URL傳遞給extractText方法,該方法嘗試從每個圖像中提取文本數據,然後將所有匹配項作為數組傳回。 strings.

如果圖像中的文本使用其他語言,則需要使用兩個字母(ISO 639-1)格式指定正確的語言代碼,如下所示。

var textArray = Utility.Image.extractText(Page.getTagAttributes('src', {"tag":{"equals":"img"}}), 'fr');