kerberos使用手册,包括管理员和普通用户。
CDH启用sentry
CDH集群启用sentry步骤和测试。
Flume SpoolDirectorySource遇到emoj截断问题
最近在flume上报hdfs过程中遇到一些文件在中间被截断的问题,经过排查发现遇到emoj表情时会出现这种情况,如”上海👃”。下面介绍问题是如何定位并修复的。以下代码都基于org.apache.flume:flume-ng-core:1.6.0
。
HDFS修改备份系数和动态增删节点
hadoop集群会经常遇到增删节点的情况,这里整理一下修改hdfs备份系数和增删datanode时的一些工作。
Cloudera启用kerberos
CDH中想使用sentry进行安全管理,但需要首先集成kerberos,下面介绍CDH启用kerberos的步骤以及遇到的问题。
基本按照Cloudera官网: Enabling Kerberos Authentication Using the Wizard进行操作。
如果需要禁用kerberos,参考CDH禁用kerberos
WARNING!!! 操作需谨慎,坑很多,最好先在测试环境预演。
ntp server搭建
NTP(Network Time Protocol)是用来使计算机时间同步化的一种协议,它可以使计算机对其服务器或时钟源做同步化,它可以提供高精准度的时间校正。
在CDH集群中,要求服务器之间时钟尽量保持同步,本例讲解如何在CentOS6.5上配置NTP服务器和NTP客户端,可使多台客户机的时间与指定的NTP服务器的时间保持一致。从而保证多台服务器的时间同步。
kafka重新分配partition
今天kafka测试环境中机器磁盘告警,占用率超过了80%,原来是某一个topic
的partition
为1,只往一台机器上写数据,造成kafka集群空间使用不均。
下面主要使用kafka-topics.sh
和kafka-reassign-partitions.sh
来解决问题。
推荐使用kafka manager来管理kafka集群。
flume-ng配置以及使用lzo
flume-ng配置以及使用过程中遇到的问题和解决办法。重点说一下hdfs.codeC使用lzo的问题。另外附上自己实现的flume插件,https://github.com/wzktravel/flume-agent,当前有一个interceptor,两个source:
- HDFSInterceptor,在header中加入时间,文件名,ip等
- SpoolDirectoryHourlySource,收集按小时进行切片的日志
- DirTailPollableSource2, 动态tail目录下最后修改的文件
以下都基于flume ng 1.6.0版本,最后附上flume上报到hdfs的配置。
Cloudera中配置hadoop_lzo
Hadoop经常用于处理大量的数据,如果期间的输出数据、中间数据能压缩存储,对系统的I/O性能会有提升。综合考虑压缩、解压速度、是否支持split,目前lzo是最好的选择。下面主要介绍在Cloudera中如何配置lzo。
SimpleDateFormat时区和语言环境
对于类似于”20/Nov/2015:12:59:59 +0800”的字符串,怎么用SimpleDateFormat进行转换?