大数据世界:大、更大、最大

大型复杂数据集的集合被认为是大数据,难以使用传统的数据库和数据处理工具进行存储和处理。大数据是从传统和数字来源收集的,经过适当提炼后,可以用于研究和分析。随着时间的推移,组织在不断壮大,这些组织产生的数据也在以指数级增长。面临的挑战是要有一个能够提供完整数据的单一、一致视图的平台。另一个挑战是如何组织这些数据,使其有意义并可作为有用的信息使用。我们周围的一切都会产生 大数据 连续不断地。社交媒体网站和数字资源负责产生如此巨大的数据量。这些海量数据是如何传输的——传感器、移动设备和系统就是答案。

null

这些大数据来自哪里?

  • 社会化媒体: Facebook和谷歌等大数据公司从我们开展的任何活动中获取数据。其他例子包括YouTube、Twitter、LinkedIn、博客、幻灯片、Instagram、chatter、WordPress、Jive等。
  • 公共网站: 这包括来自维基百科、医疗服务、世界银行、政府、天气、交通等的数据。
  • 档案: 这包括医疗记录、客户信函、保险表格、扫描文件等任何数据的档案。
  • 文件: 任何格式的文档,包括HTML、CSV、PDF、XLS、Word、XML等,都是大数据的来源。
  • 媒体: 图像、视频、音频、直播、播客等。
  • 数据存储: 用于存储数据的各种数据库和文件系统是大数据的来源。
  • 机器日志数据: 来自服务器的数据、应用程序日志、审核日志、CDR呼叫详细记录、各种移动应用程序、移动位置等。
  • 传感器数据: 数据来自连接到医疗设备、道路摄像头、卫星、交通监控设备、视频游戏、家用电器、空调机组、办公楼等的传感器。

大数据的三对大战

有3V定义了大数据的速度、种类和容量

  1. 品种: 存储数据有多种格式,例如数据库、MS Access、MS Excel、文本等。它也可以是pdf、视频或短信的形式。因此,我们面临的挑战是如何安排这些数据,使其具有意义,并且当数据的格式相同时,处理起来更容易。
  1. 卷: 来自多个来源的数据量巨大。随着数据量的增加,组织重新评估其体系结构和应用程序非常重要。
  1. 速度: 速度是指数据的处理速度。在早些时候,昨天的数据被认为是最近的数据,但现在这件事只在报纸上有效。其余时间,所有内容都会在不到几秒钟的时间内更新。新闻频道、广播、推文、Facebook帖子和评论一切更新如此之快,以至于几分钟前的数据更新被认为是无用和过时的。

大数据是非结构化、结构化和多结构化数据的混合体。

  1. 结构化数据: 具有定义格式并按预定义模式组织的数据称为结构化数据。来自大型机、SQL server、Oracle、DB2、Sybase、Access、Excel、txt和Teradata等传统数据库和存储库的数据被视为结构化数据的示例。关系数据库管理系统只处理这类数据。
  1. 非结构化数据: 无组织的数据以及使用传统数据库或数据模型不容易解释此类数据的数据称为非结构化数据。来自社交媒体的数据,如聊天、文本分析、博客、推文、评论、点击、标签等。。
  1. 多结构数据: 多结构数据是未建模的,需要对其进行组织,尽管可能存在模式,但会被忽略。它可以从人和机器之间的相互作用中衍生出来。这包括新兴市场数据、电子商务和其他第三方数据,如天气、货币兑换、人口统计、面板等。

关于作者:

瓦希纳维·阿格拉瓦尔 热爱通过写作追求卓越,热爱科技。她成功地管理和运营了个人技术杂志和网站。 她目前为 Intellipaat . 她来自班加罗尔,在内容写作和博客领域有5年的经验。她的作品已在多个与Hadoop、大数据、商业智能、云计算、IT、SAP、项目管理等相关的网站上发表。

© 版权声明
THE END
喜欢就支持一下吧
点赞11 分享