Hadoop教程

一个气象数据集

在我们的例子里,要编写一个挖掘气象数据的程序。分布在全球各地的很多气象传 感器每隔一小时收集气象数据,进而获取了大量的日志数据。由于这些数据是半结 构化数据且是按照记录方式存储的,因此非常适合使用MamReduce来处理。

数据的格式

我们将使用国家气候数据中心(National Climatic Data Center,简称NCDC,网址为:http://www.ncdc.noaa.gov/)提供的数据。这些数据按行并以ASCII编码存储,其中每一行是一条记录。该存储格式能够支持众多气象要素,其中许多要素可以有选择 性地列入收集范围或其数据所需的存储长度是可变的。为了简单起见,我们重点讨论一些基本要素(如气温等),这些要素始终都有且长度固定。例2-1显示了一行采样数据,其中重要字段已突出显示。该行数据已被分成很多行 以突出显示每个字段,在实际文件中,这些字段被整合成一行且没有任何分隔符。

例2-1.国家气候数据中心数据记录的格式

% 1s raw/1990 | head
010010-99999-1990.gz
010014-99999-1990.gz
010015-99999-1990.gz
010016-99999-1990.gz
010017-99999-1990.gZ
010030-99999-1990.gz
010040-99999-1990.gz
010080-99999-1990.gz
010100-99999-1990.gz
010150-99999-1990.gz

因为有成千上万个气象台,所以整个数据集由大量的小容量文件组成。通常情况 下,处理少量的大型文件显得更容易且有效,因此,这些数据需要经过预处理,将每年的数据文件拼接成一个独立文件。

关注微信获取最新动态