爬虫 | 四维致一

2016年9月15日作者：白42

2评论

很多时候，我们要查看的内容必须要先登录才能找到，比如知乎的回答，QQ空间的好友列表、微博上关注的人和粉丝等。要使用爬虫直接登录抓取这些信息时，有一个不太好解决的难题，就是这些网站设置的登录规则以及登录时的验证码识别。不过，我们可以想办法绕过

2016年8月21日作者：白42

暂无评论

在抓取网页时遇到了一段报错信息：抓取网页的代码及网址如下：在错误信息中提示了网页的编码不是utf-8。那么如何确认网页的编码形式呢？有如下几种方式：从网页源码中查找chaset信息；使用FireBug。重新打开网页，使用FireBu

2016年8月21日作者：白42

暂无评论

这一节看下如何抓取网页中的图片。目标网址是：http://pp.163.com/longer-yowoo/pp/10069141.html。这里有一组我非常喜欢的图片。要抓取网页首先就要找出图片的网址。这里仍然是使用BeautifulSo

2016年8月13日作者：白42

1评论

之前的内容已经大致实现了如何获取网页、分析网页、获取目标内容。接下来的目标是如何让网页抓取进行得更效率些。在进行抓取的时候，时间的消耗主要是在请求等待的时间上，所以一个最容易想到的优化方式就是使用多线程。多线程多线程的实现还是比较简单的

2016年7月30日作者：白42

暂无评论

这次尝试下怎样搜索电影并解析出磁力链接信息。搜索的网址是：https://www.torrentkitty.tv/search/。开始了！使用FireFox打开上面的网址，输入要搜索的电影。在点击搜索按钮前记得打开FireBug，并激

2016年7月27日作者：白42

暂无评论

最近这段时间会有需要写一个网络爬虫。会在这里将实现网络爬虫的经验记录下来。爬虫什么的，只是一个名字罢了。简单地说，也都是从http请求开始的。 Python实现http请求主要依赖的是urllib.request模块。例如发送http g