NodeJS->HBase(5)存储设计和数据访问

因为在前面的第4节中,涉及的内容主要是从Redis中校验数据和缓存数据更新,所以这里把HBase给拆分出来了,单独的放在这个章节,便于后续对这HBase内容和线索的扩张学习。 HBase被设计成为用来存储百亿级、百万列(长表、宽表)的结构化的数据,但是HBase里面数据存储和RowKey设计是有一定讲究的。因此,在设计这个HBase表去存储车辆运行数据的时候,要好好处理。 还有就是,永远不要指望使用HBase来实现RDBMS那样的灵活的查询功能(例如,两表join,这算SQL最核心了把,表如果不能用来join,那还要它干嘛,是不是都是这么想的),如果有这个想法,就尽早死了这条心,有些事情坚持很重要的,但是也要懂得放弃。 最后,HBase的目的是为了高并发的简单读和写和海量存储设计的,复杂的关系查询和多维计算天生就是不是它能干的,因此它还有有个好搭档Hive,这个后面再说,兄弟两关系不错。如果合二为一的话就是RDBMS了。

Continue reading »

大数据乐高(11)连成一片天(占坑……)

以Hadoop作为底层技术应用平台已经成为行业的大数据的代名词,虽然Hadoop不是大数据的全部,但是也代表了相当的力量。 Spark的崛起,通过AMPlab的产品介绍,Spark其实是用来取代Hadoop的,从Shark->SparkSQL的推出实际上已经正式的宣布 数据进入Hbase之后,定期服务到Hive,然后创建数据仓库,做日,周的report 开发前端的服务,查看这些报表数据 Solr的引入 NodeJS Redis Flume(前端网页日志的分布式收集,也要进Kafka) Ignite Azkaban Splunk Kylin/Drill/Impala   总结 我们学了那些东西,每种东西的那些部分(关键特性,用法) 商用软件和替代性 改进回调地狱,ORM框架,定期作业等 真真需要bigdata的地方,或者是无可替代的部门的说明 那些可以随便可以替代的地方,对比等等  

Continue reading »