科研业绩

垚众法律大数据分析(1)//大数据概念和特征

2018-03-01


关键词(5-8):大数据;数据库;数据挖掘;人工智能;决策;价值;体量;多样性;速度;真实性 

一、什么是大数据

大数据(big data),是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。

大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产,所涉及的数据资料量规模巨大到无法通过人脑甚至主流软件工具,在合理时间内达到撷取、管理、处理、整理并提供决策依据的资讯。大数据技术,是指从各种各样类型的数据中,快速获得有价值信息的能力。大数据由巨型数据集组成,这些数据集大小常超出人类在可接受时间下的收集、应用、管理和处理能力。掌握庞大的数据信息同时对数据进行专业化处理大数据分析的关键,由于大数据的体量之大,无法用人工的方法,甚至无法用单台的计算机进行处理,需要特殊的技术,如数据库、MAP reduce技术、云计算等对数据进行统计、比对、解析方能得出客观结果,数据挖掘(data mining)则是在探讨用以解析大数据的方法。

计算机数据的基本单位是bit,按照2的十次方(1024)进率计算:1Byte= 8bits1KB= 1,024 Bytes1MB= 1,024 KB1GB= 1,024 MB1TB= 1,024 GB1PB= 1,024 TB1EB= 1,024 PB1ZB= 1,024 EB1YB= 1,024 ZB1BB= 1,024 YB1NB= 1,024 BB1 DB = 1,024 NB

二、大数据基本特征(5V

1.Volume:体量大(10TB-PB),这些数据如果打印出来将超过5千亿张A4纸。

2.Variety:多样性,数据类型不仅是文本形式,更多的是图片、视频、音频、地理位置信息等多类型的数据。

3.Value:价值密度低,以视频为例,一小时的视频,在不间断的监控过程中,可能有用的数据仅仅只有一两秒。

4.Velocity:速度快(1秒定律),可从各种类型的数据中快速获得高价值的信息。

5.Veracity:真实性,大数据产生于实际应用,数据均是客观真实的反应。




垚众法律大数据分析团队隶属于天津垚众律师事务所,由执业律师、医学专家、计算机技术人员组成,

主要业绩有肿瘤科室管理数据库的研发,肿瘤临床资料大数据分析平台的建立,

药方剂的大数据筛选平台的建立,中医药的古方挖掘和医疗方法的疗效对比评估。

现主要从事于律师事务所管理数据库的建立、法律法规数据库的构建、

裁判文书的大数据挖掘研究、基于人工神经网络的法院辅助判案系统的研制等。


特别声明:原创文字及图片,均代表个人观点,版权属天津垚众律师事务所所有,任何媒体、网站或个人未经协议授权不得转载、引用或以其他方式复制发表。已经协议授权的媒体、网站,使用时必须注明稿件来源:天津垚众律师事务所,违者将依法追究责任。

在线咨询