--统计数据的行数
cd hdfs:///
A = LOAD '/logdata/2012*/*/nohup_*' AS (name:chararray) ;
B = GROUP A BY name;
C = FOREACH B GENERATE group, COUNT(A);
D = ORDER C BY ($1);
E = FILTER D BY $1 > 200;
dump E;
--统计单词的个数
A = LOAD'/logdata/20130131/*/*' AS (line: chararray) ;
B = foreach Agenerate flatten(TOKENIZE((chararray)$0)) as word;
C = group B by word;
D = foreach Cgenerate COUNT(B), group;
E = ORDER D BY ($0);
F = FILTER E BY $0> 200;
DUMP F;
参考资料:
http://salsahpc.indiana.edu/ScienceCloud/pig_word_count_tutorial.htm
分享到:
相关推荐
wordcount单词统计,hadoop程序,可直接放在hadoop环境中运行
大数据实验报告Hadoop编程实现wordcount单词统计程序附源码.doc
计数文本文档中单词和字符的个数并保存在另一个文本文档中
输入一串还有空格的字符,就能统计出单词的个数
hadoop入门程序,非常的详细,有什么不懂可以给我留言 。欢迎咨询
Hadoop的词频统计源代码WordCount
WordCount的功能是统计输人文件(也可以是输入文件夹内的多个文件)中每个单词出现的次数。基本的解决思路也很直观,就是将输入的文件文本切分成单词,将其中相同的单词聚集在一起,统计其数量作为该单词的出现次数...
简单词频统计,带有注释,方便大家入门hadoop!具体的大家请自己看
采用java实现的spark的wordcount单词技术的程序.可以跑通。
1. 创建目录 2. mkdir wcinput 3. 在创建好的文件夹中创建文件wc.input,输入一些内容,例如 zhangsan zhangsan ss ss cls cls jiao 4. 将wc.input上传到HDFS上 hadoop fs -copyFromLocal wcinput/ /user/ 5. 调用...
wordcount程序运行过程分析与应用。工作流程。。。。。。
Word字数批量统计器(WordCount)可以用来批量统计指定文件夹下所有word文档字数,可以将结果保存为文本文档或Excel表格,精确统计选择目录中每个Word文档的字数,需要的朋友快来下载使用吧。 WordCount软件介绍 ...
统计英文文章中单词的词频;统计英文文章中词组的频次
Hadoop 用mapreduce实现Wordcount实例,绝对能用
亲自测试的
博客配套文件,详细演示了本地和集群模式如何运行Spark程序,演示了一个简单wordCount程序流程。
hadoop wordcount2.0 包含省略标点,忽略大小写等内容
本项目主要实现的功能是:统计单词的个数 jdk1.8 jstorm2.2.1 执行步骤: 1. 本地正确安装maven 2. 本地正确安装zookeeper,并启动 3. Idea导入项目源码,以maven形式 4. 执行mvn clean compile 4. 可分别运行...