
Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL来自-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数下程动通脚答措劳死据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的360百科海量数据并行计算提供陈织当谈板集了一个简单的操作和编程接口。
- 中文名 Apache Pig
- 外文名 Apache Pig
- 释义 基于Hadoop的大规模数据分析平台
- 平台 apache
简介
Apache Pig 是apache平台下的一个免费开源项目,Pig为大型数据集的处理提供了更高层次的抽象,很多时候数据的处理需要多个MapReduce过程才能实现,是的数据处理过程与该模式匹配可能很困难。有了Pig就能够使用更丰富的数据结构。
Pig Latin 是一个相对简单的来自语言,一条语句 就是一个操作,与数据库的表类似,可以在关系数据库中找到它(其中,元组代表行,并且每个元组都由字段组成)。
Pig 拥有大量的数据类型,不仅支持包、元组和映射差普就设班酸督等高级概念,还支持简从先投亮值全粉大单的数据类型,如 int、long、float否矿同程、double、chararray 和 bytearray。并且,还有一套完整的比较运360百科算符,包括使用正则表达式的丰富匹配模式。
常用命令
FILTER 过滤结果集,添加条件
FOREACH 对元组进行迭代输出
GROUP 将数据分组,类似SQL的分组函数。
JOIN 两个或两个以上的关系钱原端诉屋省(内连接或外部连接)多个文件之间的关联关系。
LOAD 从文件系统加载数据。
ORDER 根据一个或多个字段对关系进行排序,支持升序asc和降序desc。
SPLIT 将一个关系划分为两个或两个以上的关系。
STORE 把数据存储到HDFS中
简单示例
首先准备好一个文本文件 test.txt 文件
内容如下:
1001:zh来自angsan
1002:li360百科si
1003:wangwu
把文件添加到hdfs中
$hadoop fs -put text.面三甚困肥主管与态真txt /user/液红州细空奏刚点逐hadoop/inp策景最台容许包世胜ut/
/*本地模今景米兴汽式运行pig*/
$ pig -x local
/* 加载数据 */
grunt> A = LOAD 'hdfs://localhost:9000/user/hadoop/input/test.txt' using PigStorage(':') as (id:int,name:chararray);
/*显示加载的数据*/
dump 略爱心包察满另宣室圆A
/*显示结果*/
(1001,zhangsan)
(1002,lisi)
(1003,wangwu)
转载请注明出处累积网 » Apache Pig