搜索结果: 1-14 共查到“工学 MapReduce”相关记录14条 . 查询时间(0.088 秒)
基于MapReduce的并行CCBF大流识别算法
MapReduce 大流识别 CCBF算法
2018/3/29
针对高速网络环境下,集中式的处理方式难以满足大规模网络流量数据(大流)的处理需求,在CCBF算法的基础上利用了Hadoop集群强大的分布式并行计算能力,具有分布式并行运算的能力,提高了大流识别的效率;算法完成了3组使用真实的网络流量数据的实验;基于MapReduce的并行CCBF大流识别算法具有较高的加速比和可扩展性。
云计算专家李冠憬教授访问西安电子科技大学开展学术交流——作题为“On MapReduce Acceleration in Multi-GPU systems”报告(图)
MapReduce模型 大规模数据
2016/5/11
2016年5月5日,台湾静宜大学教授、校長特別助理、国际暨两岸事务处副主任李冠憬教授应西安电子科技大学ISN国家重点实验室,网络与信息安全学院陈晓峰教授的邀请来校进行学术交流访问,并在新科技楼1012会议室为广大师生做了一场题为“On MapReduce Acceleration in Multi-GPU systems”的学术报告。
针对传统隐私保护方法无法应对任意背景知识下恶意分析的问题,提出了分布式环境下满足差分隐私的k-means算法。该算法利用MapReduce计算框架,由主任务控制k-means迭代执行;指派Mapper分任务独立并行计算各数据片中每条记录与聚类中心的距离并标记其属于的聚类;指派Reducer分任务计算同一聚类中的记录数量num和属性向量之和sum,并利用Laplace机制产生的噪声扰动num和sum...
温度感知的MapReduce节能任务调度策略
绿色计算 MapReduce 任务调度 温度感知
2016/5/11
现有的FIFO、Fair、Capacity、LATE及Deadline Constraint等MapReduce任务调度器的主要区别在于队列与作业选择策略的不同,而任务选择策略基本相同,都是将数据的本地性(data-locality)作为选择的主要因素,忽略了对TaskTracker当前温度状态的考虑。实验表明,当TaskTracker处于高温状态时,一方面使CPU利用率变高,导致节点能耗增大,任...
MapReduce框架下的优化高维索引与KNN查询
云计算 MapReduce KNN查询 高维索引
2016/12/27
针对大规模高维数据近似查询效率低下的问题,利用MapReduce编程模型在大规模集群上的数据与任务的并行计算与处理优势,提出MapReduce框架下大规模高维数据索引及KNN查询方法(iPBM),重点突破MapReduce数据块(block)的优化划分与各数据块对计算的共同贡献两大难题,利用两阶段数据划分策略并依据相关性与并行性原则将数据均匀分配到各数据块中,设计分布式的双层空间索引结构与并行KN...
基于动态域划分的MapReduce安全冗余调度策略
云计算 MapReduce框架 动态域划分 安全冗余调度
2014/2/18
MapReduce现有调度策略无法实现云环境中多租户作业的安全隔离。提出一种基于动态域划分的安全冗余调度策略:通过引入冲突关系、信任度、安全标签等概念,建立一种动态域划分模型,以将待调度节点划分为与不同租户作业关联的冲突域、可信域或调度域;结合冗余方式,将租户作业同时调度到其可信域节点和调度域节点(但不允许为其冲突域节点),通过二者执行环境和部分计算结果的一致性验证决定是否重新调度。实验分析了其有...
针对Sqoop在导入大表时表现出的不稳定和效率较低两个主要问题,设计并实现了一种新的基于MapReduce的大表导入编程模型。该模型对于大表的切分算法是:将大表总的记录数对mapper数求步长,获得对应每个split的SQL查询语句的起始行和区间长度(等于步长),从而保证每个mapper的导入工作量完全相同。该模型的map方式是:进入map函数的键值对中的键是一个split所对应的SQL语句,将查...
基于MapReduce的并行蚁群算法研究与实现
蚁群算法 SP问题 MapReduce 并行优化
2013/5/14
蚁群算法在处理大规模TSP问题耗时较长,为解决这一不足,给出了一种基于MapReduce编程模式的并行蚁群算法。采用MapReduce的并行优化技术对蚁群算法中最耗时的循环迭代和循环赋值部分进行改进,同时运用PC集群环境的优势将具有一定规模的小蚁群分配到对应的PC机上,使其并行执行,减少运行时间。实验证明改进后的并行蚁群算法在大数据集上运行时间明显缩短,执行效率显著提高。
偏最小二乘(PLS)算法是常用的光谱建模算法,然而对于海量光谱处理情形,在单台计算机上建模及优化时间开销很大。基于MapReduce编程模式,提出了并行MapReduce PLS回归算法,包括并行数据标准化和并行主成分提取两个过程。在多台普通计算机上搭建Hadoop云计算集群平台,以近红外光谱处理为例,开展了算法验证实验。实验结果表明,基于MapReduce编程模式的并行PLS算法对海量近红外光谱...
基于MapReduce的多元线性回归算法的设计与实现
MapReduce Hadoop 多元线性回归
2012/6/8
针对现代大规模数据线性回归在单机计算时间过长的问题, 本文设计并实现了一种基于 Ma p R e d u c e 架构的并行多元线性回归算法。在用普通P C搭建的H a d o o p集群上的研究实验结果表明, 基于Ma p R e d u c e 架构的多元线性回归算法在处理大规模数据时, 与单机的多元线性回归算法相比有较大的速度提升。
基于MapReduce的高铁噪声数据预处理算法研究
噪声 MapReduce 高速铁路 传感器采集
2012/4/12
随着高速铁路的快速发展,安全问题受到越来越多的关注,传感器采集的噪声数据反映了列车的运行状况,并与列车的安全息息相关。随着数据集的增大,数据处理的效率显得尤为重要,目前还无法高效地处理海量的高铁噪声数据。利用并行计算的思想,提出一种基于MapReduce的海量高铁噪声数据预处理算法。在Hadoop平台上进行实验分析,证明该算法可以有效地提高海量噪声数据预处理的效率。
基于MapReduce虚拟机的Deep Web数据源发现方法
MapReduce 虚拟机 Deep Web 数据源发现
2012/4/16
为了提高Deep Web爬虫发现和搜集数据源的效率,提出了一种融合MapReduce和虚拟化技术实现Deep Web海量数据挖掘的并行计算方法。基于MapReduce架构提出了一个Deep Web爬虫模型,通过链接过滤分类,页面过滤分类,表单过滤分类等3个MapReduce过程找到Deep Web数据源接口,并利用虚拟机构建单机集群进行性能测试。实验结果显示该方法可以实现大规模数据的并行处理,有效...
基于MapReduce模型的分布式天文交叉证认
天文交叉证认 MapReduce 并行计算 分布式计算
2010/9/6
交叉证认是实现多波段数据融合的关键技术,目前还缺乏对其分布式算法的研究。快速增长的数据规模使该问题必须要依赖分布式并行计算技术解决。提出了一种基于MapReduce分布式模型的新方法,根据Map-Reduce的要点,尽量减少了任务间的通信量,并通过合理设置划分粒度保证了效率与存储间的平衡。实验结果表明,该方法对海量数据交叉证认的效率提升明显,在大规模集群上达到了接近线性的加速比。该方法为交叉证认提...