一、互聯(lián)網(wǎng)信息采集與處理檢索系統(tǒng)
1. 新聞搜索引擎SPIDER
2. 網(wǎng)頁搜索引擎SPIDER
3. 定向專業(yè)搜索SPIDER
4. 基于視覺的正文智能提取模塊(自動正文提。
5. 智能摘要提取模塊
6. 去重模塊
7. 智能分類模塊
8. 檢索前端類聚模塊
9. 分詞模塊
10. 索引模塊
11. 最大可支持10TB以上數(shù)據(jù)容量,可分層建索引庫、分布索引、分布檢索、分布采集處理。
二、WEB結構化信息抽取技術(格式化數(shù)據(jù)抽。
應用于垂直搜索引擎的重要技術,抽取出結構化數(shù)據(jù),對具體網(wǎng)頁無依賴,直接針對數(shù)據(jù)類型進行抽取。
元數(shù)據(jù)(結構化信息提。 采集技術:模板方式,作為 WEB結構化信息抽取技術的補充。
三、自然語言的結構化信息抽取技術
應用于垂直搜索引擎,情報分析處理(科研產(chǎn)品)
|