四维致一

偶尔三省

2018年9月25日作者：白42

1评论

最近休假在家，但平时琐事太多，难得有敲代码的时间，不过却是一个反思的好时间。在这里记录一些想法。不要抱怨这是一个我不自觉会犯的毛病，以后一定要注意。抱怨本身只能吐出一下自己的郁闷，不过却不能纾解郁闷，对问题本身也无任何裨益。相反的，每

[阅读更多...]

设计模式讨论可以休矣

2018年7月22日作者：白42

暂无评论

多少有些标题党了。首先声明一下，就我个人来说，我对设计模式没有丝毫反感。我反感的是空泛地没有标的地讨论设计模式，或者说言必谈设计模式。起因是和同事的一次讨论。讨论的过程不便多说，只说下我的观点：只为学习设计模式而学习设计模式是没有意义的，

[阅读更多...]

Spark堆内存溢出解决记录

2018年7月22日作者：白42

暂无评论

最近的工作有很大一部分是在做用户画像。画像读取的维度bitmap动辄几百MB，甚至存在部分GB级别的。而我们的Yarn集群规模比较小，内存总计只有100多GB。开发调试时遇到最多的问题除了Task not serializable就是he

[阅读更多...]

Spark Job调优-Part 2

2018年7月21日作者：白42

暂无评论

这一节将主要介绍资源调优，或者说是如何充分利用集群资源。然后再说一下如何对并发度进行优化，这是job性能参数中最难也是最重要的部分。最后我们将了解一些数据自身的表现形式：Spark读取时数据在磁盘上的保存形式（如Apache Avro和 A

[阅读更多...]

Spark Job调优–Part 1

2018年7月17日作者：白42

暂无评论

在开始写spark代码或者翻阅spark文档的时候，会遇到一些诸如“transformation”，“action”和“RDD”这样的术语。了解这些术语对于编写spark代码是至关重要的。类似的，当写的spark程序执行失败的时候或者尝试

[阅读更多...]

Kafka 调整partiton数目和replica factor

2018年7月13日作者：白42

暂无评论

调整partiton 调整partition可以直接执行如下命令：注意替换topicName、$ZK_HOST_NODE和partitionNum三个参数。调整replica factor 调整replica-factor需要先创建一个

[阅读更多...]

Druid historical/broker 节点启动失败

2018年7月12日作者：白42

2评论

部署Druid服务时遇到了启动失败的异常。相关的节点是historical和broker。异常信息如下：异常信息中比较关键的部分是下面这一句：这一句指明了启动失败的原因：分配的直接内存不足。需要的直接内存大小是“5,368,709,12

[阅读更多...]

IDEA修改类注释自动生成的用户名

2018年7月10日作者：白42

暂无评论

使用IDEA时，自动生成的类注释中的用户名默认为操作系统当前的用户名。这样的用户名通常和实际要用的用户名是不一致的。已知的有两种调整方式。第一种方式在File -> Settings -> Editor -> File

[阅读更多...]

Gradle Refresh异常： Could not HEAD

2018年7月7日作者：白42

暂无评论

在idea中使用Gradle的时候遇到了一个奇怪的异常：获取公司内部repository中的包是正常的，但是获取jar源文件的时候却遇到了一些异常。异常信息可以通过执行“Refresh All Gradle Projects”操作，在Gr

[阅读更多...]

spark java.lang.StackOverflowError

2018年7月2日作者：白42

1评论

问题描述在工作中使用spark的一个主要内容就是从多个路径下搜集数据并进行处理。常用的代码大致如下：在readData方法中调用SparkContext的sequenceFile方法读取文件创建RDD集合。而后调用RDD的reduce和

[阅读更多...]

偶尔三省

设计模式讨论可以休矣

Spark堆内存溢出解决记录

Spark Job调优-Part 2

Spark Job调优–Part 1

Kafka 调整partiton数目和replica factor

Druid historical/broker 节点启动失败

IDEA修改类注释自动生成的用户名

Gradle Refresh异常： Could not HEAD

spark java.lang.StackOverflowError

我的专题

友情链接

其他操作

我的专题

友情链接

其他操作

标签云