这一节将主要介绍资源调优,或者说是如何充分利用集群资源。然后再说一下如何对并发度进行优化,这是job性能参数中最难也是最重要的部分。最后我们将了解一些数据自身的表现形式:Spark读取时数据在磁盘上的保存形式(如Apache Avro和 A
[阅读更多...]-
Spark Job调优-Part 2
-
Spark Job调优–Part 1
在开始写spark代码或者翻阅spark文档的时候,会遇到一些诸如“transformation”,“action”和“RDD”这样的术语。了解这些术语对于编写spark代码是至关重要的。 类似的,当写的spark程序执行失败的时候或者尝试
[阅读更多...] -
Kafka 调整partiton数目和replica factor
调整partiton 调整partition可以直接执行如下命令: 注意替换topicName、$ZK_HOST_NODE和partitionNum三个参数。 调整replica factor 调整replica-factor需要先创建一个
[阅读更多...] -
Druid historical/broker 节点启动失败
部署Druid服务时遇到了启动失败的异常。相关的节点是historical和broker。异常信息如下: 异常信息中比较关键的部分是下面这一句: 这一句指明了启动失败的原因:分配的直接内存不足。需要的直接内存大小是“5,368,709,12
[阅读更多...] -
IDEA修改类注释自动生成的用户名
使用IDEA时,自动生成的类注释中的用户名默认为操作系统当前的用户名。这样的用户名通常和实际要用的用户名是不一致的。 已知的有两种调整方式。 第一种方式在File -> Settings -> Editor -> File
[阅读更多...] -
Gradle Refresh异常: Could not HEAD
在idea中使用Gradle的时候遇到了一个奇怪的异常:获取公司内部repository中的包是正常的,但是获取jar源文件的时候却遇到了一些异常。 异常信息可以通过执行“Refresh All Gradle Projects”操作,在Gr
[阅读更多...] -
spark java.lang.StackOverflowError
问题描述 在工作中使用spark的一个主要内容就是从多个路径下搜集数据并进行处理。常用的代码大致如下: 在readData方法中调用SparkContext的sequenceFile方法读取文件创建RDD集合。而后调用RDD的reduce和
[阅读更多...] -
Kafka java.nio.channels.ClosedChannelException
最近开始部署一个工程时遇到了Kafka消费的问题,报错信息如下: 相关的工程已经在测试环境测试过了,部署到新的环境上却报错了。所以这个问题应该是环境问题或配置问题。 进入Kafka源码可以发现这个问题是在连接Kafka Broker时出现的
[阅读更多...] -
Gradle访问需要用户名密码的仓库
公司私有的maven仓库在访问时是需要用户名密码的。访问这种仓库的时候需要在build.gradle中配置repository用户权限,如下面这样: 但是如果每个项目都要配置一次的话,多少会让人有些觉得不耐烦。所以可以这个配置也可以在ini
[阅读更多...] -
使用Gradle构建scala多模块工程
前段时间终于无法忍受sbt慢如龟速的编译打包速度了。稍稍调研了一下,就果断切换到了gradle。由于调研得比较匆忙,在使用过程中遇到了各种问题。好在最后都能解决了。 我这里使用scala主要是用来编写spark job。由于我自己的一些需要
[阅读更多...]