pig分析日志脚本（1）统计行数和单词个数wordcount - 云计算? - ITeye博客

`

cloudtech

浏览: 4605673 次
性别:
来自: 武汉

最近访客更多访客>>

u012363178

devcang

robinjim

JasonWo

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

全部博客 (6378)

社区版块

存档分类

2013-03 ( 15)
2013-02 ( 44)
2013-01 ( 243)
更多存档...

最新评论

x70740692：我也是舆情系统苦逼难做
网络舆情信息分析系统——（1）
勇气魄力：啥啊！没什么信息
ArcGIS for Server 10.1智能支持云的架构(上)
迟来的风：很不错，值得学习，非常感谢您给了我们这么好的资源
最新跟我学spring3 电子书下载
linfanne：哭了，有一个地方写错了，跟了2个多小时代码才找到原因& ...
Spring MVC+Freemarker+Javascript的多语言（国际化i18n/本地化）和主题（Theme）实现
linfanne：无数的鲜花，多语言暂时不考虑，多主题刚好用到，我一般都不回帖， ...
Spring MVC+Freemarker+Javascript的多语言（国际化i18n/本地化）和主题（Theme）实现

pig分析日志脚本（1）统计行数和单词个数wordcount

阅读更多

--统计数据的行数

cd hdfs:///

A = LOAD '/logdata/2012*/*/nohup_*' AS (name:chararray) ;

B = GROUP A BY name;

C = FOREACH B GENERATE group, COUNT(A);

D = ORDER C BY ($1);

E = FILTER D BY $1 > 200;

dump E;

--统计单词的个数

A = LOAD'/logdata/20130131/*/*' AS (line: chararray) ;

B = foreach Agenerate flatten(TOKENIZE((chararray)$0)) as word;

C = group B by word;

D = foreach Cgenerate COUNT(B), group;

E = ORDER D BY ($0);

F = FILTER E BY $0> 200;

DUMP F;

参考资料：

http://salsahpc.indiana.edu/ScienceCloud/pig_word_count_tutorial.htm

分享到：

document.getElementById("addUser").oncli ... | 红黑树

2013-01-31 16:06
浏览 991
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

单词统计WordCount-hadoop程序: wordcount单词统计，hadoop程序，可直接放在hadoop环境中运行

大数据实验报告Hadoop编程实现wordcount单词统计程序附源码.doc: 大数据实验报告Hadoop编程实现wordcount单词统计程序附源码.doc

WordCount_计数单词、字符个数_: 计数文本文档中单词和字符的个数并保存在另一个文本文档中

统计单词个数: 输入一串还有空格的字符，就能统计出单词的个数

Hadoop入门脚本WordCount: hadoop入门程序，非常的详细，有什么不懂可以给我留言。欢迎咨询

Hadoop的词频统计源代码WordCount: Hadoop的词频统计源代码WordCount

WordCount详解: WordCount的功能是统计输人文件（也可以是输入文件夹内的多个文件）中每个单词出现的次数。基本的解决思路也很直观，就是将输入的文件文本切分成单词，将其中相同的单词聚集在一起，统计其数量作为该单词的出现次数...

词频统计hadoop mr: 简单词频统计，带有注释，方便大家入门hadoop！具体的大家请自己看

java实现的spark的wordcount单词技术程序: 采用java实现的spark的wordcount单词技术的程序.可以跑通。

编写Java程序，实现统计单词个数功能: 1. 创建目录 2. mkdir wcinput 3. 在创建好的文件夹中创建文件wc.input，输入一些内容，例如 zhangsan zhangsan ss ss cls cls jiao 4. 将wc.input上传到HDFS上 hadoop fs -copyFromLocal wcinput/ /user/ 5. 调用...

wordcount运行分析: wordcount程序运行过程分析与应用。工作流程。。。。。。

WordCount(Word字数批量统计器)V2.1.0免费安装中文版: Word字数批量统计器(WordCount)可以用来批量统计指定文件夹下所有word文档字数，可以将结果保存为文本文档或Excel表格，精确统计选择目录中每个Word文档的字数，需要的朋友快来下载使用吧。 WordCount软件介绍 ...

WordCount.rar_统计_统计英文文章的词频_英文_英文词频分析_词频统计: 统计英文文章中单词的词频；统计英文文章中词组的频次

Hadoop mapreduce实现wordcount: Hadoop 用mapreduce实现Wordcount实例，绝对能用

spark下实现wordcount: 亲自测试的

Spark 最简单WordCount: 博客配套文件，详细演示了本地和集群模式如何运行Spark程序，演示了一个简单wordCount程序流程。

WordCount2_hadoopwordcount_: hadoop wordcount2.0 包含省略标点，忽略大小写等内容

jstorm2.2.1执行wordcount: 本项目主要实现的功能是：统计单词的个数 jdk1.8 jstorm2.2.1 执行步骤： 1. 本地正确安装maven 2. 本地正确安装zookeeper,并启动 3. Idea导入项目源码，以maven形式 4. 执行mvn clean compile 4. 可分别运行...

Global site tag (gtag.js) - Google Analytics