NoSql_笔记

2013年中国数据库大会PPT

duchaochen阅读(539)评论(0)赞(0)

干货来了!!2013年中国数据库大会刚刚闭幕,PPT已经提供下载。分享给各位。 1、 大数据革命.pdf 2、 MPP NewSQL 数据库集群支撑企业超大规模数据仓库案例介绍.pdf 3、 Big Data in Action – 企业如...

Hive中小表与大表关联(join)的性能分析zz

duchaochen阅读(543)评论(0)赞(0)

其实hive优化的建议是多表关联的时候将大表放在后面,因为前面的关联结果要放入内存。不过博主文章本身写的也不错。 经常看到一些Hive优化的建议中说当小表与大表做关联时,把小表写在前面,这样可以使Hive的关联速度更快,提到的原因都是说因为...

工作杂记2

duchaochen阅读(554)评论(0)赞(0)

继续昨天的工作,首先设置了一下SecureCRT的自动登录,还是比较简单的。 之后在~/.bashrc里设置环境变量: export JAVA_HOME=/home/work/xxx/java6 export JRE_HOME=/home/...

工作杂记

duchaochen阅读(547)评论(0)赞(0)

今天搭建测试环境: 首先讲hadoop,hive从线上库scp过来,发现从测试库无法连接线上库,转用szrz,rz时报错,经同事指点,发现从线上可以scp测试,完成。 之后配置环境: hadoop,没有多少可说的,设计hadoop-env....

RHive的安装和用法

duchaochen阅读(552)评论(0)赞(0)

RHive 是一种通过HIVE高性能查询来扩展R计算能力的包。它可以在R环境中非常容易的调用HQL, 也允许在Hive中使用R的对象和函数。理论上数据处理量可以无限扩展的Hive平台,搭配上数据挖掘的利器R环境, 堪称是一个完美的大数据分析...

Oozie简介

duchaochen阅读(543)评论(0)赞(0)

在Hadoop中执行的任务有时候需要把多个Map/Reduce作业连接到一起,这样才能够达到目的。[1]在Hadoop生态圈中,有一种相对比较新 的组件叫做Oozie[2],它让我们可以把多个Map/Redu...

PIG总结

duchaochen阅读(542)评论(0)赞(0)

PIG就好像Linq,感觉不如HIVE用着顺手。 https://www.cnblogs.com/end/category/284624.html 文章永久链接:https://www.ycbbs.vip/?p=30266

Hadoop++:Hadoop的局部性能改良

duchaochen阅读(547)评论(0)赞(0)

Hadoop++是对Hadoop Map Reduce的非入侵式优化,通过自定义Hadoop框架中的split等函数来提升,提升查询和联接性能。 项目由德国Saarland大学Jens Dittrich教授主持。项目主页是 http://i...

(转)Mahout使用入门

duchaochen阅读(571)评论(0)赞(0)

一、简介 Mahout 是 Apache Software Foundation(ASF)旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Apache Mahout项目已经发展...