基于粒计算的大数据处理技术探析

摘 要:全面应对大数据的挑战需要来自存储技术、下一代网络、处理器、计算模型等各个领域的创新,粒计算是在求解问题过程中使用“粒”的理论、方法、技术和工具的集合,适用于近似求解有不确定性和层次结构的问题。文章综述了大数据处理的研究现状,分析了当前大数据处理研究存在的局限性,根据运用粒计算方法解决问题的不同特征,归纳了粒计算的3种基本模式,回顾了各种模式的相关研究工作,讨论了粒计算应用于大数据处理的可行性与优势,并探讨了在大数据的粒计算处理框架中需要解决的各个关键问题。

关键词:大数据;粒计算;数据信息

随着人工智能技术的不断深入发展、数据网络技术的普及、信息终端设备的多样化,当代信息网路己逐步向“大数据”时代发展。未来一定是数据信息大爆炸的时代,信息将是社会进步发展、市场竞争、其他社会事业、国家事业进步和发展的核心。基于上述背景,云计算技术、粒计算技术应运而生,对大数据的整合、处理、管理起到至关重要的推动作用。作者从大数据背景为切入点对大数据时代和粒计算技术进行论述.并简要分析粒计算技术在大数据中的应用。

1 大数据

1.1大数据的定义

大数据是基于现代电子信息工程下的一种新型概念,其旨在利用数量庞大、搜索速度迅速、价值密度较高、信息多样全面、信息真实可靠的数据集合实现数据信息的捕捉、管理和处理,从而提高数据使用者的决策力、洞察发现力和流程优化能力,进而实现数据信息的有效利用。 从长远的战略意义来看,大数据并不意味着掌握庞大丰富的数据信息,从某种意义上来说,是将这些基础的数据内容进行有效的专业化处理,从而实现价值转化,将之称作一种产业更为适当,也因此大数据在技术层面上需要与云计算结合使用。

1.2大数据处理技术以及局限性

大数据的处理技术可以概括为数据采集技术、数据分析技术和数据管理技术3个方面。由于大数据属于新兴的概念性信息技术理念,其很多技术是从“小数据”移植而来,那么必然存在相应的局限性,主要可概括为以下几点。首先,数据采集难度上升,大数据是基于海量的有效信息才能实现,然而从数据来源上来说,网络中存在大量的虚假信息,无法排除终端使用者故意上传虚假信息或危险数据。此外,一些终端使用者的数据信息需求可能涉及相关的隐私,如商业隐私、个人隐私等,在数据网络安全无法完全保证时,出于安全考虑很难要求这些可能涉密涉私的问题实现有效共享。其次,数据分析难度提高对技术的需求更高。大数据的背景下,需要更加可靠的计算机信息网络系统进行支持的同时,由于信息量的海量增长,传统的小规模服务器组可以实现的数据分析和检索机制无法与大数据的发展速度相适应,因此,需要进一步完善云計算技术与之配合。最后,数据管理技术上的局限性,大数据平台的拓展使每一个相对独立的数据终端接收和存储的数据容量上升,管理工作的工作量也随之上升,传统的小型服务器组、数据库己无法满足相应需求,这也是大数据数据信息混杂的一个重要原因。

2 粒计算研究与应用

2.1粒与粒算的方法

现阶段的粒计算方法主要可概括为以下3种方法:词计算理论、粗糙集理论、商空间理论,上述3种方法是基于人工智能研究中3种思维模式产生的理论方法。 词计算理论是基于不知道原则、不需要原则、无法定义原则和无法解决原则而进行的以自然语言的“词”或“句”为操作对象的计算范式,因此,词计算作为粒计算的一种方式,其是以人类感知为限度的外在表现来完成的感知计算理论。

粗糙集理论作为一种处理不精确、不一致、不完整等各种不完备信息的有效工具,一方面得益于他的数学基础成熟、不需要先验知识;另一方面在于它的易用性。由于粗糙集理论创建的目的和研究的出发点就是直接对数据进行分析和推理,从中发现隐含的知识,揭示潜在的规律,因此是一种天然的数据挖掘或者知识发现方法,它与基于概率论的数据挖掘方法、基于模糊理论的数据挖掘方法和基于证据理论的数据挖掘方法等其他处理不确定性问题理论的方法相比较,最显著的区别是它不需要提供问题所需处理的数据集合之外的任何先验知识,而且与处理其他不确定性问题的理论有很强的互补性。

商空间理论是从近代代数的环、群概念中衍化而来的一种粒计算方法。简单来说就是构建相应的商空间后通过拓扑的方法将其扩大化,以拓扑空间和等价空间共同构建商空间,从而形成一种相对全面但较为模糊的空间集,将终端需求的信息和相关信息进行分类采集,从而实现信息的粒计算。

2.2粒计算的研究与大数据处理

根据粒计算的上述方法与概念,可以看到,粒计算应用于大数据处理中存在2个基本问题:粒化和基于粒化的计算。即如何构造这个模型,以及根据这个模型的计算。粒化,是问题空间的一个划分过程,转化到大数据处理中就是将数据模糊粒化计算的参考是什么,这是实现大数据粒计算的基础。在同一或者不同的粒化准则下均可得到多个粒层,形成多层次的网络结构。粒计算通过访问粒结构求解问题,包括在层次结构中自上而下或者自下而上2个方向的交互,以及在同一层次内部的移动。即不同粒层上粒子之间的转换与推理,以及同一粒层上粒子之间相互交互,形成所谓的多粒度计算,即粒化计算后的大数据信息的精细化处理的有效进行应当如何进行,从而实现信息的多粒度、高效率、高丰富度整合利用。

3 粒计算与大数据处理

粒计算为大数据处理提供了相对可靠的理论指导与具体的技术参考。

首先,粒计算能够解决大数据“巨量”的问题。大数据与传统数据信息网络相比,最大的特点就是信息数据的海量增加,终端使用者想要在海量信息中寻找有效的需求信息,就需要通过检索功能。通过粒计算技术建立商空间,将具体数据根据同类特征或相似特征进行简单整合,将数据信息显示的优先级进行划分,从而帮助使用者实现快速检索功能,解决了信息巨量不便检索的问题。

其次,解决了大数据“多样性”和“分布式”的问题,在上述的检索环节,通过粒化处理将海量信息进行初步粒计算处理,但符合同类特征和相似性的数据信息量仍较为庞大。在初步粒化计算后再根据精细字段和模糊字段的参考词计算理论进行深度处理,将数据信息分成不同的粒层,构建符合计算规则粒层,将混杂在一起的数据信息进行划分,从而实现信息的有效分类和分布,解决了大数据的“多样性”和“分布式”问题。

此外,粒计算还能够满足大数据背景下“高速性”和“及时性”需求。信息终端使用者对特定的需求存在速度和时间效率的需求,在对这些信息进行粒化处理时,将时间要素和需求优先要素加速计算规则,从而使这些信息能够优先展现在终端使用者面前。

以百度为例,终端使用者在检索信息时需要将需求信息的内容或关键字词进行键入,输入后与之关联性最强、时间最近的信息总是优先处在分类整合后的信息上层,之后是同类特征信息和时间较接近的数据信息,最后是相似信息和时间较久远的信息。这种检索模式在以往就存在,但随着大数据时代的来临,粒计算技术的应用和发展,这种检索模式更加成熟和稳定,被越来越多的人所应用。

推荐访问:探析 数据处理 计算 技术