捕獲和轉換Web的工具

從PDF文檔中提取數據

從PDF文檔的內容中抓取數據並不像從HTML文檔中那樣靈活,但是使用方法仍然可以通過多種方法來實現。 網頁抓取工具。 首先抓取您使用的PDF內容 PDF 功能而不是 Page 功能,但其他功能通常以相同的方式工作。

PDF文檔的過濾器比HTML文檔的過濾器簡單得多,首先,您必須指定要提取的內容類型:鏈接,圖像或文本。

//Extract images
PDF.getValue({"type":"image"});
//Extract links
PDF.getValue({"type":"link"});
//Extract text
PDF.getValue({"type":"text"});

對於鏈接和圖像,您可以通過指定其位置來限制返回的圖像或鏈接。

PDF.getValue({"type":"image","position":"2"});

獲取文檔中的第二張圖像。 對於文本,圖像和鏈接,您可以通過指定頁碼進一步限制返回的數據。

PDF.getValue({"type":"image","position":"2","page":"5"});

這將從第五頁返回第二張圖像。 文本帶有行號的附加選項,但是文本不支持位置。

PDF.getValue({"type":"text","page":"5","line":"10"});

這將從第五頁獲取第十行文本。 除了這些過濾器選項差異之外,從PDF文檔中抓取數據的工作方式與 從HTML文檔中抓取數據,但是由於無法完全確定使用PDF過濾器提取的內容,因此可能需要指定一個 模式 從文本中提取正確的信息。