当前位置: 首页>前端>正文

大数据的特征volume 大数据特征的5个v

1、大数据


大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产


2、大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。


  大数据的4个“V”,或者说特点有四个层面:


      第一,数据体量巨大。从TB级别,跃升到PB级别;


      第二,数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。


      第三,处理速度快,1秒定律,可从各种类型的数据中快速获得高价值的信息,这一点也是和传统的 数据挖掘技术 有着本质的不同。


      第四,只要合理利用数据并对其进行正确、准确的分析,将会带来很高的价值回报。业界将其归纳为4个“V”——Volume(大量)、Variety(多样)、Velocity(高速)、Value(价值)。




4v:


麦肯锡 全球研究所给出的定义是:一种规模大到在获取、 存储 、管理、分析方面大大超出了传统 数据库 软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。


必须采用 分布式架构 。它的特色在于对海量数据进行分布式 数据挖掘 。但它必须依托云计算的 分布式处理 、 分布式数据库 和 云存储 、 虚拟化技术



大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模 并行处理 (MPP) 数据库 、数据挖掘、 分布式文件系统 、 分布式数据库 、 云计算平台 、互联网和可扩展的 存储系统 。



2、数据:


大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分



大数据的结构化是相对而言的,如果将不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,则相应的结构化数据是指存储在数据库里,可以用 二维表 结构来逻辑表达实现的数据。



结构化数据:即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据。


非结构化数据:非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。


半结构化数据:指结构数据中,结构不规则的数据,由于结构变化很大也不能够简单的建立一个表和他对应。如:声音、图像文件等之间的数据,HTML文档就属于半结构化数据。它一般是自描述的,数据的结构和内容混在一起,没有明显的区分。






就数据获取而言,大的互联网企业由于自身用户规模庞大,把自身用户的电商交易、社交、搜索等数据充分挖掘,已经拥有稳定安全的数据资源。那么对于其它 大数据 公司而言,目前大概有四类数据获取方法:


第一、利用广告联盟的竞价交易平台。 比如你从广告联盟上购买某搜索公司广告位1万次展示,那么基本上搜索公司会给你10万次机会让你选取,每次机会实际上包含对客户的画像描述。如果你购买的量比较大,积累下来也能有一定的互联网用户数据资料,可能不是实时更新的资料。这也是为什么用户的搜索关键词通常与其它网站广告位的推荐内容紧密相关,实质上是搜索公司通过广告联盟方式,间接把用户搜索画像数据公开了。


第二、利用用户Cookie数据。 Cookie就是服务器暂时存放在用户的电脑里的资料(.txt格式的文本文件),好让服务器用来辨认计算机。互联网网站可以利用cookie跟踪统计用户访问该网站的习惯,比如什么时间访问,访问了哪些页面,在每个网页的停留时间等。也就是说合法的方式某网站只能查看与该网站相关的Cookie信息,只有非法方式或者浏览器厂家有可能获取客户所有的Cookie数据。真正的大型网站有自己的数据处理方式,并不依赖Cookie,Cookie的真正价值应该是在没有登录的情况下,也能识别客户身份,是什么时候曾经访问过什么内容的老用户,而不是简单的游客。


第三、利用APP联盟。 APP是获取用户移动端数据的一种有效手段,在APP中预埋SDK插件,用户使用APP内容时就能及时将信息汇总给指定服务器,实际上用户没有访问时,APP也能获知用户终端的相关信息,包括安装了多少个应用,什么样的应用。单个APP用户规模有限,数据量有限,但如某数据公司将自身SDK内置到数万数十万APP中,获取的用户终端数据和部分行为数据也会达到数亿的量级。


第四、与拥有稳定数据源公司进行战略合作。 上述三种方式获取的数据均存在完整性、连续性的缺陷,数据价值有限。BAT巨头自身价值链较为健全,数据变现通道较为完备,不会轻易输出数据与第三方合作(获取除外)。政府机构的数据要么全部免费,要么属于机密,所以不会有商业性质的合作。拥有完整的互联网(含移动互联网)的通道数据资源,同时变现手段及能力欠缺的运营商,自然成为大数据合作的首选目标。



据IDC的调查报告显示:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。


那么,什么是非结构化数据?


非结构化数据主要是指那些无法用固定结构来逻辑表达实现的数据,简单来说就是用户散落在论坛、微博、微信或其他渠道发表的关于产品的各种评价或吐槽。


从形态上,它主要包含这三大块:


第一是文本文字;


第二是图像、图片等;


第三是视频流、电视流。



首先,非结构化数据的容量对比结构化数据要大,可以达到10几倍甚至几十倍的体量;


其次是产生的速度,比如Twitter刚出来的时候,每天产生一亿条的信息量,新浪微博的信息量更大,可以达到几十亿条信息;


最后是数据来源的多样性,这些数据来源有客服、邮件、调查问卷、社交网络等等。


因此,signals平台服务的对象不是 企业 的 IT、数据库,而是商业人员,例如市场营销,客服、信息洞察员、产品优化改进设计人员等。


以手机厂商为例,Signals通过对客户的邮件反馈、在论坛的相关讨论、微信、微博等相关评价信息分析,告诉设计师用户普遍反映电源键的位置设计很不人性化,手机开屏经常掉帧等等,从而进行产品优化。


非结构化数据既然这么复杂,那怎么分析?


非结构化数据既然这么复杂,那怎么分析?


Taste analytic主要是通过如下几个步骤进行非结构化数据分析的:


第一,数据采集,帮助企业更快更全的采集到各类数据。


signals集成了上百个数据接口,包括亚马逊、天猫、Salesforce,ZenDesk, Esty, Yelp、Twitter、Facebook、Apple Store、Google Play Store等,并且这个数字还在飞速扩大,根据taste analytic创始人汪晓宇的介绍,他们正在和国内的第三方数据提供商聚合数据、百分点等进行合作,将为中国客户提供更多本地化的数据。



非结构化数据接入口


第二,数据分析,也就是对于非结构化和结构化数据进行深度机器分析。


signal通过深度学习非结构化的自然语言,根据用户的用词、造句、行文方式来理解文字含义,通过对大范围的用户、上千万个消费点进行聚类分析。目前Signals平台具备成熟的实时分析包括中文在内的12种文字以及语音等非结构化数据的能力。


此外,Taste Analytics的服务适用于各种非结构化数据分析场景,只要有聊天记录、对话记录和邮件记录,就可以和数据源直接对接分析。



从各种维度进行分析


第三,将数据进行图像可视化。


Signals平台会把数据分析结果进行 可视化 输出,为客户提供10余种图像可视化模式,并且支持客户自定义分析,共包括15种不同的可视化分类。



将数据分析结果可视化


此外,汪晓宇告诉创业邦,Taste Analytics研发出的最先进的分析技术——预测性分析,也将在中国上线,用户可以享受到结构化和非结构数据的精准分析结果,系统针对关键词、时间趋势等因素对市场行为作出及时的预测。



依据上图的元素进行预测分析


https://www.xamrdz.com/web/2un1939887.html

相关文章: