首页 > 都市言情 > 科技革命,从1984开始 > 第220章 大数据处理关键操作

第220章 大数据处理关键操作(1/2)

目录
好书推荐: 全职御兽:我的灵宠全是大佬 你惹她干嘛?她一张符纸取你狗命 宝可梦:真实的理想 我最强不死兽,被剑骑学姐倒追 变成系统,我在诸天搞事 无敌幸运!我横扫末世躺赢成神! 你抢她命格干嘛?她是玄门小祖宗! 八零不做冤大头,下乡抓虾娶村花 池小姐独美后,渣男跪地求原谅 重生做恶女,矜贵世子向我称臣

“当然可以,你拿去看吧,有什么意见尽管跟我说。” 李卫脸上挂着温和的笑容,语气客气地说道。

秦奕接过论文,迫不及待地开始快速浏览其中的关键论述——这篇论文主要阐述了并行程序中并行、汇聚、通讯、映射及归纳等机制的语义。

看着看着,他的眼中闪过一丝惊喜,这里面描述的不正是前世互联网大数据处理框架 mApREdUcE 里的基本操作吗!

前世,搜索引擎巨头谷歌在 2004 年前后发布了三篇奠定大数据处理基础的论文 ——《the Google File System》《mapReduce: Simplified data processing on Large clusters》《bigtable: A distributed Storage System for Structured data》。

这三篇论文为大数据处理领域带来了全新的思路和方法,宛如一把火,瞬间点燃了学术界和工业界对大规模数据处理技术的研究热情,也有力推动了 hadoop 等开源项目的发展。

这些项目在之后的十几年里迅速成为了大数据基础设施,对整个大数据、云计算甚至是后来的人工智能行业都产生了深远影响。

其中,《mapReduce》这篇论文里使用的核心操作 map 和 Reduce,与李卫这篇论文中的映射和归纳两个机制,本质上如出一辙。

秦奕不禁思索,原来早在这个时候,相关的核心操作就已经在并行程序领域得到应用了吗?

或许当时撰写那三篇论文的谷歌程序员正是从这些并行程序的论文中获得了灵感。

当然,《mapReduce》论文不只是应用了这两个关键操作,它还围绕这两个核心操作,精心设计了一套完整的系统架构和实现机制,涵盖数据划分、任务调度、容错处理、数据 \/ 代码互定位等功能,确保在大规模集群上能够稳定、高效地运行。

秦奕接着又仔细看了看李卫论文里的具体实验内容,是关于 Ada 语言在一些单机程序中的处理。

“李卫同志,我有个疑惑。” 他抬起头,目光看向李卫。

“说吧。” 李卫挑了挑眉,他刚才让对方提意见不过是句客气话,没想到这个秦奕还真敢有想法。

“你这里的并行程序,似乎只涉及单台计算机的多处理器并行,没有涉及多台计算机的并行处理。” 秦奕认真地说道。

“多台计算机的并行处理?” 李卫低声重复着这个词,随后笑道,“这需要用到计算机网络了,是吧?”

秦奕连忙点头,回答道:“对的。”

“我理解单台计算机虽然具备低延迟通信、易于管理和调度以及数据一致性维护简单等优势,但是它的处理器数量和内存容量等硬件资源有限。”

“一旦并行任务规模持续扩大,很快就会遭遇资源瓶颈,难以满足大规模计算需求。如果想要进一步提升其性能,往往需要采用高端的多核处理器、大容量高速内存等硬件设备,硬件成本高昂,且能耗也相对较高。”

本章未完,点击下一页继续阅读。

书页 目录
新书推荐: 综艺显眼包:龙套追疯顶流 抗战之国之劲旅,从少将师长起 诸天:肉体凡躯?以科技铸神位! 王钱思杰日记 娱乐:反派专业户?观众被吓傻了 李白哪有三只眼?老子是杨戬! 2015,金融和互联网大佬! 都穿越南韩了必须当财阀啊 怪兽觉醒时代,我觉醒上古英灵 小于平凡的一生
返回顶部