捕獲和轉換Web的工具

如何從非結構化文本中自動提取結構化信息?

普通書面文本可能包含很多不容易提取的信息。 例如,一句話可能是關於公司的評論,但是您如何知道它是好是壞?

普通的網頁抓取工具將無法提取此信息。 但是GrabzIt可以使用其內置的自然語言處理功能。 如下例所示,頁面文本將被分析並返回以下值之一:非常負,負,中性,正和非常正。

Data.save(Utility.Text.extractSentiment(Page.getText()), 'Dataset', 'Sentiment');

雖然 網頁抓取工具 可以從文本中提取更多信息,包括語言檢測,位置名稱,人員名稱和組織名稱。 其示例如下所示。

//Language Detection
Data.save(Utility.Text.extractLanguageName(Page.getText()), 'Dataset', 'Language');
//Identify Geographic Locations
Data.save(Utility.Text.extractLocations(Page.getText()), 'Dataset', 'Locations');
//Identify People's Names
Data.save(Utility.Text.extractNames(Page.getText()), 'Dataset', 'Names');
//Identify Organizations Names
Data.save(Utility.Text.extractOrganizations(Page.getText()), 'Dataset', 'Organizations');

您無需自己編寫任何這些刮取指令,因為當您在我們的刮取嚮導中選擇一個適用的HTML元素時,它們會自動出現。