新浪微博爬虫之htmlunit

        最近研究新浪微博的爬虫,微博api申请繁琐,限制很多,另想办法。

    爬微博,首先要登录,httpclient可以做,麻烦,而且微博的登录密码的加密方式不停的在变化,再找找,发现了这个开源htmlunit,完全在java下模拟浏览器行为,这个方便,用来写个登录小程序,几行代码就可以登录,并获取登录后的页面内容。简单方便。

      先继续琢磨一下。
                    

[本日志由 英雄无敌 于 2014-02-28 09:44 PM 编辑]
上一篇: 别人的行程
下一篇: 温暖台湾-出发前
文章来自: 本站原创
引用通告: 查看所有引用 | 我要引用此文章
Tags:
相关日志:
评论: 0 | 引用: 0 | 查看次数: 10708
发表评论
昵 称:
密 码: 游客发言不需要密码.
邮 箱: 邮件地址支持Gravatar头像,邮箱地址不会公开.
网 址: 输入网址便于回访.
内 容:
验证码:
选 项:
虽然发表评论不用注册,但是为了保护您的发言权,建议您注册帐号.
字数限制 5000 字 | UBB代码 关闭 | [img]标签 关闭