大数据乐高(11)连成一片天(占坑……)

以Hadoop作为底层技术应用平台已经成为行业的大数据的代名词,虽然Hadoop不是大数据的全部,但是也代表了相当的力量。 Spark的崛起,通过AMPlab的产品介绍,Spark其实是用来取代Hadoop的,从Shark->SparkSQL的推出实际上已经正式的宣布 数据进入Hbase之后,定期服务到Hive,然后创建数据仓库,做日,周的report 开发前端的服务,查看这些报表数据 Solr的引入 NodeJS Redis Flume(前端网页日志的分布式收集,也要进Kafka) Ignite Azkaban Splunk Kylin/Drill/Impala   总结 我们学了那些东西,每种东西的那些部分(关键特性,用法) 商用软件和替代性 改进回调地狱,ORM框架,定期作业等 真真需要bigdata的地方,或者是无可替代的部门的说明 那些可以随便可以替代的地方,对比等等  

Continue reading »

NodeJS->Kafka开发测试(6)发送,认证、策略管理、消息偏移管理(占坑中…)

来的快也去的快…   1/ 按照分组,发给Kafka服务器(占坑) 拿出来,保存到HBASE中,需要使用到HBASE的NPM包插件 根据messageID,查询所属的服务器(如何查询更高效一些,一共400多个参数,按照messageID的第一个字母的分类,来分配。) 2/ Kafka的策略管理(占坑) 数据写入HBase 数据发送给Kafka(分不同的Kafka服务器来发送,不同的服务器对应到不同的用户,隔离开)来发送。 Kafka消息大小,生命周期管理多久,保存在磁盘上 如何设定offset management,加入上次读到某个地方,再继续从哪个地方开始读取。 怎么验证用户可以订阅消息。SSL、Kerberos 在哪里解析? 数据直接进哪里? NodeJS分发数据到Kafka,谁能发过去,权限验证 谁能从Kafka读取数据,验证 消息太多,怎么管理 上次读到一半消息,中断了,接着上次的位置向下读取,偏移量怎么搞定

Continue reading »

Nginx->NodeJS->Redis开发测试(4)接收/解析/验证

很多东西,仅仅只是为了用而用,不去讨论这个软件组件存在的必要性和可替代性。 接下来,我们将YY一下,数据从车载的TBOX/OBD等设备发送出来之后的流程,短信网关通常采用中国移动、联通的服务。这部分对于SMS短信进行规则性解析暂时还不是很了解,所以暂时先不无法覆盖这部分的内容。 1/ 车辆TBOX/OBD上报SMS消息给应用网关 从车载TBOX中发出的短信长什么样? 我们假设一把先,它就是来自一个汽车里面的盒子,里面插了个SIM卡,然后每隔10秒就发个短消息给某个专用的特定号码而已。对于整车厂来说,这个盒子可能是固定在车内的,拿不出来的,并非是后来找个地方安装上去的。 在我们的例子中,则没有这样的外置的盒子,都是默认盒子是整车厂直接默认就安装在车内的。 这里找个例子,中国移动出的路尚OBD盒子,直接插在汽车的OBD接口上,数据就直接上载到云了,下个应用App就可以直接看到自己车辆的所有的数据。 OBD盒子的汽车上的接口,汽车启动就开始传输数据了到中国移动OneNET网关了。(大众的车貌似都是在A的这个位置) 如果发过来短信的号码不在自己的SIM卡管理范围中,可能是别人发错了,或者是一个欺诈或者虚假消息,可以直接删除这个消息。还有其他的一些规则校验,都需要实现,这些内容其实属于SIM管理的一些功能。

Continue reading »

NodeJS->Kafka->Spark开发测试(3)发送/接收/解析/发送

很多东西,仅仅只是为了用而用。像蜻蜓一样,点一下水,了解一下这个水波纹,真的要去用的时候,我们再去潜水,虽然是个简单的demo,但是一趟hello,world下来,我们依然会很有收获。 在前面一章中,看到数据的来源及其格式,以及通过NodeJS来发送数据消息。接下来,我们来看如何构建一个http消息接收接收、解析和转发的Node服务。 数据流是:汽车TBOX(2G/3G短信)——->应用网关——->Node Web服务器——->HBase\Hive & Kafka(ZooKeeper)——->订阅后的处理(本章不讲解) 1/ 数据分发的策略 目前根据国家的政策,从车辆采集数据的渠道必须是由车辆的整车制造企业来负责完成,这其实也意味着,车辆运行的所有的数据的来源渠道只有整车厂,其他的合作伙伴需要拿到车辆的运行数据,必须通过整车厂这道关才能拿到。 整车厂的数据分发策略(假想) 1.1 整车厂内部先存储数据(待完善) 整车厂在拿到数据之后,直接将数据写入自己的数据中心的HBase,后面再批处理计算后再写入Hive,供Spark作业计算后,输出结果放入到MySQL,让用业务用户通过自开发应用对这些数据进行分析,或者使用可视化的工具进行分析。

Continue reading »