有关信息采集系统的一点想法


     有种信息采集的软件可以把各大新闻网站的新闻采集到自己的数据库变成自己CMS里的信息,最近项目因为进度问题没有人手去开发CMS并且每天进行维护就想用别人网站的信息,就先做了一个调用RSS频道的代码,但是发现要的“首都新闻”没有开通RSS服务,浪费了两个小时,就想到了这个信息采集系统,网上有卖的,好一点的上万哦,我自己想想该怎么做了。

     查了一些资料,翻了一些代码,简单思路可以这样
1、XMLHttp获取远程新闻列表页面
2、转换成字符串
3、提出新闻列表页面中的新闻内容链结(一般大网站都是专门的CMS发布的静态页面,链结目录和命名有一定规律)
4、反复获取3中提出的新闻内容链结的页面,再根据特定的内容页面结构获取该条新闻的各字段信息,标题、内容、作者、日期、来源等等。
5、将4中得到得信息存入数据库

    试了一些,基本这样可以实现,但是有些问题:
1、适应性差,不同的新闻网站需要不同得配置
2、还是适应性差,如果某网站修改了CMS发布新闻的格式,这里得配置也就需要修改
3、效率怎么样还是个大问题,可以用正则表达式来匹配3和4中的运算,但是想想页面这么多字符,运算量是很大的,有什么办法可以提高匹配效率
4、如何高效的避免重复导入问题,一天运行两次以上的程序,肯定有可能导入相同的新闻。

呵呵,因为这个不是SPS里的项目,放在SPS就要想想如何写可以将来做成WebPart在SPS里,直接插入某个List也好
  明天再试试

上一篇: 寻人启事
下一篇: 两首很老的歌
文章来自: 本站原创
引用通告: 查看所有引用 | 我要引用此文章
Tags:
相关日志:
评论: 0 | 引用: 0 | 查看次数: 3668
发表评论
昵 称:
密 码: 游客发言不需要密码.
邮 箱: 邮件地址支持Gravatar头像,邮箱地址不会公开.
网 址: 输入网址便于回访.
内 容:
验证码:
选 项:
虽然发表评论不用注册,但是为了保护您的发言权,建议您注册帐号.
字数限制 5000 字 | UBB代码 关闭 | [img]标签 关闭