ntp server搭建

NTP(Network Time Protocol)是用来使计算机时间同步化的一种协议,它可以使计算机对其服务器或时钟源做同步化,它可以提供高精准度的时间校正。
在CDH集群中,要求服务器之间时钟尽量保持同步,本例讲解如何在CentOS6.5上配置NTP服务器和NTP客户端,可使多台客户机的时间与指定的NTP服务器的时间保持一致。从而保证多台服务器的时间同步。

Read More

kafka重新分配partition

今天kafka测试环境中机器磁盘告警,占用率超过了80%,原来是某一个topicpartition为1,只往一台机器上写数据,造成kafka集群空间使用不均。
下面主要使用kafka-topics.shkafka-reassign-partitions.sh来解决问题。
推荐使用kafka manager来管理kafka集群。

Read More

flume-ng配置以及使用lzo

flume-ng配置以及使用过程中遇到的问题和解决办法。重点说一下hdfs.codeC使用lzo的问题。另外附上自己实现的flume插件,https://github.com/wzktravel/flume-agent,当前有一个interceptor,两个source:

  1. HDFSInterceptor,在header中加入时间,文件名,ip等
  2. SpoolDirectoryHourlySource,收集按小时进行切片的日志
  3. DirTailPollableSource2, 动态tail目录下最后修改的文件

以下都基于flume ng 1.6.0版本,最后附上flume上报到hdfs的配置。

Read More

Cloudera中配置hadoop_lzo

Hadoop经常用于处理大量的数据,如果期间的输出数据、中间数据能压缩存储,对系统的I/O性能会有提升。综合考虑压缩、解压速度、是否支持split,目前lzo是最好的选择。下面主要介绍在Cloudera中如何配置lzo。

Read More