捕獲和轉換Web的工具

如何從非結構化文本中自動提取結構化信息?

正常的書面文本可能包含大量不易提取的信息。 例如,一句話可能是對一家公司的評論,但你如何知道它是好評論還是壞評論?

普通的網絡抓取工具無法提取此信息。 然而,GrabzIt 可以通過使用其內置的自然語言處理能力。 如下例所示,分析頁面文本並返回以下值之一:Very Negative、Negative、Neutral、Positive 和 Very Positive。

Data.save(Utility.Text.extractSentiment(Page.getText()), 'Dataset', 'Sentiment');

雖然 網頁抓取工具 可以從文本中提取更多信息,包括語言檢測、位置名稱、人名和組織名稱。 其示例如下所示。

//Language Detection
Data.save(Utility.Text.extractLanguageName(Page.getText()), 'Dataset', 'Language');
//Identify Geographic Locations
Data.save(Utility.Text.extractLocations(Page.getText()), 'Dataset', 'Locations');
//Identify People's Names
Data.save(Utility.Text.extractNames(Page.getText()), 'Dataset', 'Names');
//Identify Organizations Names
Data.save(Utility.Text.extractOrganizations(Page.getText()), 'Dataset', 'Organizations');

您不必自己編寫任何這些抓取指令,因為當您在我們的抓取嚮導中選擇適用的 HTML 元素時,它們會自動出現。