普通書面文本可能包含很多不容易提取的信息。 例如,一句話可能是關於公司的評論,但是您如何知道它是好是壞?
普通的網頁抓取工具將無法提取此信息。 但是GrabzIt可以使用其內置的自然語言處理功能。 如下例所示,頁面文本將被分析並返回以下值之一:非常負,負,中性,正和非常正。
Data.save(Utility.Text.extractSentiment(Page.getText()), 'Dataset', 'Sentiment');
雖然 網頁抓取工具 可以從文本中提取更多信息,包括語言檢測,位置名稱,人員名稱和組織名稱。 其示例如下所示。
//Language Detection Data.save(Utility.Text.extractLanguageName(Page.getText()), 'Dataset', 'Language'); //Identify Geographic Locations Data.save(Utility.Text.extractLocations(Page.getText()), 'Dataset', 'Locations'); //Identify People's Names Data.save(Utility.Text.extractNames(Page.getText()), 'Dataset', 'Names'); //Identify Organizations Names Data.save(Utility.Text.extractOrganizations(Page.getText()), 'Dataset', 'Organizations');
您無需自己編寫任何這些刮取指令,因為當您在我們的刮取嚮導中選擇一個適用的HTML元素時,它們會自動出現。