信鸽头条
大数据处理的数据从何而来?

2019-10-31 15:26:34   来源:课工场

相关热词搜索:

前两天小编和同事聊天,有一茬没一茬的聊到,“咦,你说咱们用来做大数据处理的这些数据,都是从哪来的呢?”,小编一时语塞,“你管它呢,总之它就有”。但这个问题它还真是一个值得说说的问题。

在现在的数据技术时代中,数据有着不可替代的地位,抛开数据谈大数据服务就是瞎扯,没有数据作支撑的大数据平台就是一个空壳。数据是一切数据分析、数据挖掘、大数据处理、ai算法的核心。

在目前的来看,绝大多数公司或者组织做大数据处理时,他们的数据来源于:设备收集、数据库、日志、爬虫等等。当然如果是学术或者个人做大数据处理的研究的话,数据还经常可能来源于:开源数据集、造数据(假数据/模拟数据)等等。

这很好理解,因为在公司中,常常数据都是需要服务于真实业务,所以数据也就来自于真实业务,而个人或者学术上可以使用一些特定的开源数据集来做相应研究,下面我们来介绍一下公司中经常获取数据的这几种方法:

网络运维.jpg
1、设备收集

设备收集顾名思义就是使用一些设备来进行收集数据,比如在工业界电力行业常用的Scada数据就是通过常用的一些终端电子设备,直接放在汇流箱、逆变器等设备上,实时将电流电压数据记录并保存下来,这样得到大量的数据。

再如,我们每个人的手机可能都是某些软件的数据收集终端,我们每天的运动步数可能会被支付宝/微信记录下,我们每天点开软件的次数等等这些操作,都是各个软件收集数据的一个手段。这些数据可以直接放入到大数据环境当中,也可以通过关系型数据库做一个跳板。
 数据库.jpg  

2、从数据库导入

在大数据技术风靡起来前,关系型数据库(RDMS)是主要的数据分析与处理的途径。许多公司的业务逻辑数据都是存放在关系型数据库中。比如一个电商网站,你购买了一件商品,发生的这种行为绝对会生成一条数据在数据库中。

比如你收藏了一件商品、退货了一件商品等等这种行为都会被记录到数据库中。发展至今数据库技术已经相当完善,当大数据出现的时候,行业就在考虑能否把数据库数据处理的方法应用到大数据中。

虽然出现Hive等大数据产品,但是在生产过程中业务数据依旧使用 RDMS 进行存储,这是因为产品需要实时响应用户的操作,在毫秒级完成读写操作,而大数据产品不是应对这种情况出现的。

到这里你可能就有一个疑问,如何把业务的数据库同步到大数据平台中?一般来说业务数据我们使用实时和离线采集数据来将数据抽取到数据仓库中。然后再进行后续数据处理和分析,我们常用的数据库导入工具是Sqoop。

Sqoop是 Apache 旗下一款 Hadoop 和关系型数据库之间传送离线数据的工具。实现关系型数据库同 Hadoop 集群的 Hdfs、Hbase、Hive 进行数据同步,是连接传统关系型数据库和 Hadoop 的桥梁。

日志.jpg
3、日志导入

日志系统将我们系统运行的每一个状况信息都使用文字或者日志的方式记录下来,这些信息我们可以理解为业务或是设备在虚拟世界的行为的痕迹,通过日志对业务关键指标以及设备运行状态等信息进行分析。

除了常规记录的方式收集日志之外,一般用户的一些行为日志收集的方式我们采用埋点的形式进行收集。埋点的意思实际上是在前端页面上放上一个监控点,它能够记录下你所有的一些行为,比如你鼠标来来回回移动了几下,你点击了哪些地方,你在这篇文章上停留了多久,你在输入框中输入了什么字然后又删除了等等所有的一些行为,都可以被埋点所记录。

而将日志数据导入到大数据环境中也有许多的方案,常见的日志收集解决方案如ELK搭建日志采集+日志查询+可视化系统。

Flume+Kafka+Hive/Spark+SparkStreaming实现日志的实时采集+离线分析+实时处理的架构等等。

爬虫.jpg
4、爬虫

爬虫是一种通过模拟正常人浏览访问网站的一类程序,它通过模拟正常人访问网站,从而达到获取该网站数据的目的,比如说我访问了一下天气预报网站,并复制了今天的温度发给女朋友,我说对女朋友说“宝贝,今天温度很合适,咱们去爬山吧”,女朋友回“分手吧,40度的温度你叫我爬山,你根本不爱我”。看吧,我成功通过获取网站的数据丢失了一个女朋友。爬虫就是通过模拟人的方式去访问网站,并获取网站的数据的。

时至至今,爬虫的数据成为公司重要战略资源,通过获取同行的数据跟自己的数据进行支撑对比,管理者可以更好的做出决策。爬虫也是一个非常有用和常见的数据获取方式。

总结一下,数据采集是数据分析、数据挖掘工作中的第一步。数据采集的准确性决定了这个数据分析报告是不是有使用价值。只有当数据采集具有科学性、客观、严密的逻辑性时,建立在这样的数据分析基础之上得出来的结论才具有现实的价值和意义。

郑州翔天信鸽软件学院自成立以来,不仅专注于IT职业教育,开设有软件工程师、网络工程师、启蒙星等专业,同时面向大专以上学历的学生开设JAVA、大数据、云计算、UI设计、python+人工智能、Web前端等短期培训高薪就业课程。郑州北大青鸟翔天信鸽专注IT职业教育14年,数千名学子毕业后就职于上市公司,这里就是你梦想起航的地方,我们期待与你相遇~

好了,课工场郑州翔天信鸽软件学院今天就为大家分享到这里了,如果各位小伙伴想了解相关的IT知识可以关注我哦~想要学习IT相关课程可以登录课工场郑州翔天信鸽软件学院官网http://www.zz-kgc.com报名咨询哦~

扫码获取更多
干货信息和视频教程
跟IT大咖专家一起交流学习
姓名
电话
QQ
推荐阅读
  • 分而治之是利用微件拆分来达到工程拆分治理的思路,可以解决业务快速扩张、开发维护困
    难等问题。对于一个完整的产品来说,前端可视化层、后端服务层是必备的。
    ...

  • 如果你是一名开发人员,那么用膝盖想也知道你的职业生涯大部分将使用Java而度过。这是一款商业级的编程语言,我们没有办法不接触它。对于Java,有两种截然不同的观点:一种认为Jav...

  •   学大数据开发还是学软件开发?哪个专业前景好就业薪资高呢?  大数据开发学习有难度,零基础入门要先学习Java语言打基础,然后进入大数据技术体系的学习,学习Hadoop、Spark...

  •   最早的APP开发只有原生概念,Html页面只是用来做一些简单的静态资源展示,但是随着H5的出现,大家发现很多功能和逻辑都可以用Web来实现,然后原生作为容器显示,而且H5展示的页面...

最新就业喜报
  • 祝贺T74班-刘*平入职郑州亿恩科技,月薪15000

  • 祝贺T73班-李*权入职郑州景安科技,月薪9500

  • 祝贺T94班-吴*同学入职郑州*汪洋科技,月薪15000

  • 祝贺T42班-张*君入职上海*海医疗,月薪6000+

  • 祝贺T52班-刘*同学入职郑州*凯德装饰,月薪8000+

  • 祝贺T37班-李*慧入职上海市*承机电工程有限公司,月薪8000+

  • 祝贺T94班-古*杰入职中国人寿郑州分公司,月薪9000+

  • 祝贺T26班-林*耿入职*龙桥科技有限公司,月薪9500(包吃住)

  • 祝贺T59班+李*强入职*郑州*设计有限公司,月薪7000

  • 祝贺T40班-李*同学入职上海市*家顺,月薪9000+

  • 祝贺T84班-李*深入职上海市*家文化传播有限公司,月薪8500+

  • 祝贺T106班-黄*英入职上海市*尔康净水科技有限公司,月薪9000+

  • 祝贺T46班-龚*峰入职上海*宝通广告有限公司,月薪8000+

  • 祝贺T74班-刘*同学入职上海市*一策划公司,月薪7000+

  • 祝贺T76班-王*同学入职*飞丝电子有限公司,月薪7600

  • 祝贺T99班-张*婵入职上海市*美姿美业文化传播有限公司,月薪9500+

  • 祝贺T27班-潘*东入职上海*速一元购,月薪8500+

  • 祝贺T84班-范*同学入职上海市*健康管理有限公司,月薪8000+

  • 祝贺T77班-周*峰入职上海市有限*科技有限公司,月薪9000+提成

  • 祝贺T80班-王*孝入职上海*博软件技术有限公司,月薪9000