四维致一

no valid crumb was included in the request解决

2016年10月14日作者：白42

2评论

在向Jenkins发送请求时收到了这样的403错误信息：我们使用的Jenkins的版本是2.7。后来通过google找到了解决方案。在系统管理 –> Configure Global Security中调整设置：取消“启用安全

[阅读更多...]

HBase Shell初接触

2016年10月10日作者：白42

暂无评论

1. 连接到HBase 连接到正在运行的HBase实例使用“hbase shell”命令。该命令位于HBase安装路径的/bin目录下。我这里将bin目录加入到了系统环境变量PATH中。执行命令： 2. 查看HBase Shell帮助信息

[阅读更多...]

一个中文乱码的问题

2016年9月24日作者：白42

暂无评论

前两天同事问了我一个中文乱码的问题。他写了一个json请求的接口，通过浏览器请求接口的时候，返回的json中包含的中文显示了乱码。后来使用jmeter进行测试时也发现返回的是乱码。之前也遇到过几次Java/JSP中文乱码的问题，知道乱码通

[阅读更多...]

Spark快速入门

2016年9月24日作者：白42

暂无评论

这是整理的Spark官网的《QuickStart》教程。在这篇教程里我们会先使用shell初步接触一下spark，然后再编写一个spark应用。我这里会优先使用scala来完成这些工作。如果想使用python或者java请直接移步原文。 s

[阅读更多...]

Python网络爬虫7 – 使用cookie

2016年9月15日作者：白42

2评论

很多时候，我们要查看的内容必须要先登录才能找到，比如知乎的回答，QQ空间的好友列表、微博上关注的人和粉丝等。要使用爬虫直接登录抓取这些信息时，有一个不太好解决的难题，就是这些网站设置的登录规则以及登录时的验证码识别。不过，我们可以想办法绕过

[阅读更多...]

HttpClient多线程并发

2016年9月11日作者：白42

2评论

说明：以下的代码基于httpclient4.5.2实现。我们要使用java的HttpClient实现get请求抓取网页是一件比较容易实现的工作：要多线程执行get请求时上面的方法也堪用。不过这种多线程请求是基于在每次调用get方法时创建

[阅读更多...]

Java Fork/Join

2016年9月1日作者：白42

暂无评论

Fork/Join框架是ExecutorService接口的一个实现，通过它我们可以实现多进程。Fork/Join可以用来将一个大任务递归的拆分为多个小任务，目标是充分利用所有的资源尽可能增强应用的性能。和任何ExecutorServic

[阅读更多...]

Python网络爬虫6 – 网页编码

2016年8月21日作者：白42

暂无评论

在抓取网页时遇到了一段报错信息：抓取网页的代码及网址如下：在错误信息中提示了网页的编码不是utf-8。那么如何确认网页的编码形式呢？有如下几种方式：从网页源码中查找chaset信息；使用FireBug。重新打开网页，使用FireBu

[阅读更多...]

Python网络爬虫5 – 图片抓取

2016年8月21日作者：白42

暂无评论

这一节看下如何抓取网页中的图片。目标网址是：http://pp.163.com/longer-yowoo/pp/10069141.html。这里有一组我非常喜欢的图片。要抓取网页首先就要找出图片的网址。这里仍然是使用BeautifulSo

[阅读更多...]

Python网络爬虫4 – 多线程抓取

2016年8月13日作者：白42

1评论

之前的内容已经大致实现了如何获取网页、分析网页、获取目标内容。接下来的目标是如何让网页抓取进行得更效率些。在进行抓取的时候，时间的消耗主要是在请求等待的时间上，所以一个最容易想到的优化方式就是使用多线程。多线程多线程的实现还是比较简单的

[阅读更多...]

no valid crumb was included in the request解决

HBase Shell初接触

一个中文乱码的问题

Spark快速入门

HttpClient多线程并发

Java Fork/Join

Python网络爬虫6 – 网页编码

Python网络爬虫5 – 图片抓取

Python网络爬虫4 – 多线程抓取

我的专题

友情链接

其他操作

我的专题

友情链接

其他操作

标签云