SAP _ Enterprise Blog

jeffersonchen

My Links

Blog Stats

Cached @ 2025/4/26 5:14:00Control ASP.skins_mtclean_controls_blogstats_ascx

留言簿(25)

随笔档案

文章档案

搜索

最新评论

阅读排行榜

评论排行榜

Cached @ 2025/4/26 5:14:00Control ASP.skins_mtclean_controls_singlecolumn_ascx

Web2DB数据采集服务

因特网是一个巨大的和迅速发展的信息资源。但大多数信息都是以无结构的文本形式存在,使得查询信息变得非常困难。

网络数据抽取 是一个从目标网页中摘取某些数据形成统一的本地数据库的一个过程。这些数据本来只是在可见的网页中以文本形式存在。这个过程所需要的不仅仅是网页爬行器与网页包装器。

网页数据抓取

一个复杂的数据抽取过程需要应付种种障碍,例如会话识别,HTML表单,客户端Java脚本,以及数据整合问题例如与数据集与单词集不一致的情况,以及缺失和冲突的数据。

posted on 2006-12-04 15:18 jeffersonchen 阅读(4037) 评论(16)  编辑 收藏

Feedback

# re: Web2DB数据采集服务 2006-12-11 12:10 Eric

Are you from CIC Data?
you could reply me to eric@speed-china.com

# re: Web2DB数据采集服务 2006-12-15 15:52 jeffersonchen

not like that. perhaps you know something for that. I just do some search for the industry portal .

标题
姓名
主页
内容 
  登录  使用高级评论  Top 订阅回复  取消订阅
[使用Ctrl+Enter键可以直接提交]