博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
20190722 对于大数据环境--意义
阅读量:4352 次
发布时间:2019-06-07

本文共 377 字,大约阅读时间需要 1 分钟。

其实,要搭建一个Hadoop 生态圈并不难,在我理解难在根据实际需求去做出配置调整

传统的数据仓库,存在的意义就是为了更好的规范数据关系,为数据分析、数据挖掘提供服务

那么搭建一个空的Hadoop生态圈没有太多的意义,因为没有数据就没有价值,我不太喜欢外包的原因就是因为外包公司没有办法自主的对数据进行一些有效的处理。

ETL工程的意义也不是在于你会多少的ETL工具,而是如何有效的工程化数据抽取、数据转换、数据存储 。要解决的是同步问题、完整性问题、是否重复的问题,最怕的不过是遗漏数据(这里会涉及到高并发处理等)

Hadoop 环境能比传统环境更能提供的是它的高效运算、处理。

工程工程,就是要把一些思维结构工程化

并行高效的进行ETL过程。

转载于:https://www.cnblogs.com/Soar-Pang/p/11224748.html

你可能感兴趣的文章
lintcode-medium-Binary Tree Zigzag Level Order Traversal
查看>>
logrotate日志切割
查看>>
POJ-3253 Fence Repair 贪心
查看>>
Arraylist集合遍历输出
查看>>
java中的选择结构与循环结构
查看>>
无法将类型“ASP.login_aspx”转换为“System.Web.UI.WebControls.Login”
查看>>
[cocos2dx] lua注册回调到c++
查看>>
(treap)[bzoj3224][洛谷3369][cogs1829]Tyvj 1728 普通平衡树
查看>>
Linux下常用的shell命令记录
查看>>
HTTP 常用 Header 讲解
查看>>
linux分割字符串操作
查看>>
PHP学习2
查看>>
多实例Mysql配置
查看>>
linux下安装Mongodb
查看>>
Page.RegisterStartupScript和Response.Write的区别。
查看>>
hdu4348区间更新的主席树+标记永久化
查看>>
ZOJ 2532 Internship
查看>>
HDU 3452 Bonsai
查看>>
[Erlang12] Mnesia分布式应用
查看>>
图的遍历 | 1013 连通块块数
查看>>