网站开发软件h开头的挖掘爱站网-巴中市网站建设公司-Seo优化

网站开发软件h开头的挖掘爱站网

2026/6/28 18:16:34 网站建设项目流程

网站开发软件h开头的,挖掘爱站网,互联网技术类岗位有哪些,软件商店电脑版下载你好#xff0c;我是蔡元楠。今天我要与你分享的主题是“为什么 MapReduce 会被硅谷一线公司淘汰”。我有幸几次与来 Google 参观的同行进行交流#xff0c;当谈起数据处理技术时#xff0c;他们总是试图打探 MapReduce 方面的经验。这一点让我颇感惊讶#xff0c;因…你好我是蔡元楠。今天我要与你分享的主题是“为什么 MapReduce 会被硅谷一线公司淘汰”。我有幸几次与来 Google 参观的同行进行交流当谈起数据处理技术时他们总是试图打探 MapReduce 方面的经验。这一点让我颇感惊讶因为在硅谷早已没有人去谈论 MapReduce 了。今天这一讲我们就来聊聊为什么 MapReduce 会被硅谷一线公司淘汰。我们先来沿着时间线看一下超大规模数据处理的重要技术以及它们产生的年代。我认为可以把超大规模数据处理的技术发展分为三个阶段石器时代青铜时代蒸汽机时代。石器时代我用“石器时代”来比喻 MapReduce 诞生之前的时期。数据的大规模处理问题早已存在。早在 2003 年的时候Google 就已经面对大于 600 亿的搜索量。但是数据的大规模处理技术还处在彷徨阶段。当时每个公司或者个人可能都有自己的一套工具处理数据。却没有提炼抽象出一个系统的方法。青铜时代2003 年MapReduce 的诞生标志了超大规模数据处理的第一次革命而开创这段青铜时代的就是下面这篇论文《MapReduce: Simplified Data Processing on Large Clusters》。杰夫Jeff Dean和桑杰Sanjay Ghemawat从纷繁复杂的业务逻辑中为我们抽象出了 Map 和 Reduce 这样足够通用的编程模型。后面的 Hadoop 仅仅是对于 GFS、BigTable、MapReduce 的依葫芦画瓢我这里不再赘述。蒸汽机时代到了 2014 年左右Google 内部已经几乎没人写新的 MapReduce 了。2016 年开始Google 在新员工的培训中把 MapReduce 替换成了内部称为 FlumeJava不要和 Apache Flume 混淆是两个技术的数据处理技术。这标志着青铜时代的终结同时也标志着蒸汽机时代的开始。我跳过“铁器时代”之类的描述是因为只有工业革命的概念才能解释从 MapReduce 进化到 FlumeJava 的划时代意义。Google 内部的 FlumeJava 和它后来的开源版本 Apache Beam 所引进的统一的编程模式将在后面的章节中为你深入解析。现在你可能有一个疑问为什么 MapReduce 会被取代今天我将重点为你解答。高昂的维护成本使用 MapReduce你需要严格地遵循分步的 Map 和 Reduce 步骤。当你构造更为复杂的处理架构时往往需要协调多个 Map 和多个 Reduce 任务。然而每一步的 MapReduce 都有可能出错。为了这些异常处理很多人开始设计自己的协调系统orchestration。例如做一个状态机state machine协调多个 MapReduce这大大增加了整个系统的复杂度。如果你搜 “MapReduce orchestration” 这样的关键词就会发现有很多书整整一本都在写怎样协调 MapReduce。你可能会惊讶于 MapReduce 的复杂度。我也经常会看到一些把 MapReduce 说得过度简单的误导性文章。例如“把海量的××数据通过 MapReduce 导入大数据系统学习就能产生××人工智能”。似乎写文的“专家”动动嘴就能点石成金。而现实的 MapReduce 系统的复杂度是超过了“伪专家”的认知范围的。下面我来举个例子告诉你 MapReduce 有多复杂。想象一下这个情景你的公司要预测美团的股价其中一个重要特征是活跃在街头的美团外卖电动车数量而你负责处理所有美团外卖电动车的图片。在真实的商用环境下为了解决这个问题你可能至少需要 10 个 MapReduce 任务首先我们需要搜集每日的外卖电动车图片。数据的搜集往往不全部是公司独自完成许多公司会选择部分外包或者众包。所以在数据搜集Data collection部分你至少需要 4 个 MapReduce 任务1、数据导入data ingestion用来把散落的照片比如众包公司上传到网盘的照片下载到你的存储系统。2、数据统一化data normalization用来把不同外包公司提供过来的各式各样的照片进行格式统一。3、数据压缩compression你需要在质量可接受的范围内保持最小的存储资源消耗。4、数据备份backup大规模的数据处理系统我们都需要一定的数据冗余来降低风险。仅仅是做完数据搜集这一步离真正的业务应用还差得远。真实的世界是如此不完美我们需要一部分数据质量控制quality control流程比如1、数据时间有效性验证 date validation检测上传的图片是否是你想要的日期的。2、照片对焦检测focus detection你需要筛选掉那些因对焦不准而无法使用的照片。最后才到你负责的重头戏——找到这些图片里的外卖电动车。而这一步因为人工的介入是最难控制时间的。你需要做 4 步1、数据标注问题上传question uploading上传你的标注工具让你的标注者开始工作。2、标注结果下载answer downloading抓取标注完的数据。3、标注异议整合adjudication标注异议经常发生比如一个标注者认为是美团外卖电动车另一个标注者认为是京东快递电动车。4、标注结果结构化structuralization: 要让标注结果可用你需要把可能非结构化的标注结果转化成你的存储系统接受的结构。这里我不再深入每个 MapReduce 任务的技术细节因为本章的重点仅仅是理解 MapReduce 的复杂度。通过这个案例我想要阐述的观点是因为真实的商业 MapReduce 场景极端复杂像上面这样 10 个子任务的 MapReduce 系统在硅谷一线公司司空见惯。在应用过程中每一个 MapReduce 任务都有可能出错都需要重试和异常处理的机制。所以协调这些子 MapReduce 的任务往往需要和业务逻辑紧密耦合的状态机。这样过于复杂的维护让系统开发者苦不堪言。时间性能“达不到”用户的期待除了高昂的维护成本MapReduce 的时间性能也是个棘手的问题。MapReduce 是一套如此精巧复杂的系统如果使用得当它是青龙偃月刀如果使用不当它就是一堆废铁。不幸的是并不是每个人都是关羽。在实际的工作中不是每个人都对 MapReduce 细微的配置细节了如指掌。在现实中业务往往需求一个刚毕业的新手在 3 个月内上线一套数据处理系统而他很可能从来没有用过 MapReduce。这种情况下开发的系统是很难发挥好 MapReduce 的性能的。你一定想问MapReduce 的性能优化配置究竟复杂在哪里呢我想 Google500 多页的 MapReduce 性能优化手册足够说明它的复杂度了。这里我举例讲讲 MapReduce 的分片sharding难题希望能窥斑见豹引发大家的思考。Google 曾经在 2007 年到 2012 年间做过一个对于 1PB 数据的大规模排序实验来测试 MapReduce 的性能。从 2007 年的排序时间 12 小时到 2012 年的排序时间缩短至 0.5 小时。即使是 Google也花了 5 年的时间才不断优化了一个 MapReduce 流程的效率。2011 年他们在 Google Research 的博客上公布了初步的成果。其中有一个重要的发现就是他们在 MapReduce 的性能配置上花了非常多的时间。包括了缓冲大小 (buffer size分片多少number of shards预抓取策略prefetch缓存大小cache size等等。所谓的分片是指把大规模的的数据分配给不同的机器 / 工人流程如下图所示。选择一个好的分片函数sharding function为何格外重要让我们来看一个例子。假如你在处理 Facebook 的所有用户数据你选择了按照用户的年龄作为分片函数sharding function。我们来看看这时候会发生什么。因为用户的年龄分布不均衡假如在 20~30 这个年龄段的 Facebook 用户最多导致我们在下图中 worker C 上分配到的任务远大于别的机器上的任务量。这时候就会发生掉队者问题stragglers。别的机器都完成了 Reduce 阶段只有 worker C 还在工作。当然它也有改进方法。掉队者问题可以通过 MapReduce 的性能剖析profiling发现。如下图所示箭头处就是掉队的机器。图片引用Chen, Qi, Cheng Liu, and Zhen Xiao. “Improving MapReduce performance using smart speculative execution strategy.” IEEE Transactions on Computers 63.4 (2014): 954-967.回到刚刚的 Google 大规模排序实验。因为 MapReduce 的分片配置异常复杂在 2008 年以后Google 改进了 MapReduce 的分片功能引进了动态分片技术 (dynamic sharding大大简化了使用者对于分片的手工调整。在这之后包括动态分片技术在内的各种崭新思想被逐渐引进奠定了下一代大规模数据处理技术的雏型。小结这一讲中我们分析了两个 MapReduce 之所以被硅谷一线公司淘汰的“致命伤”高昂的维护成本和达不到用户期待的时间性能。文中也提到了下一代数据处理技术雏型。这就是 2008 年左右在 Google 西雅图研发中心诞生的 FlumeJava它一举解决了上面 MapReduce 的短板。另外它还带来了一些别的优点更好的可测试性更好的可监控性从 1 条数据到 1 亿条数据无缝扩展不需要修改一行代码等等。在后面的章节中我们将具体展开这几点通过深入解析 Apache BeamFlumeJava 的开源版本揭开 MapReduce 继任者的神秘面纱。思考题如果你在 Facebook 负责处理例子中的用户数据你会选择什么分片函数来保证均匀分布的数据分片?欢迎你把答案写在留言区与我和其他同学一起探讨。如果你觉得有所收获也欢迎把文章分享给你的朋友。免费资料另外我还给大家准备了一套特别全的「AI 大模型学习资料包」首次免费送给大家买不买课都送✅ AI 大模型学习路线图2025 版✅ GeekAGI 知识库DeepSeek、AI Agent 、MCP、AI 工具和框架、AI 提效案例✅ AI 大模型面试题 300 道✅ 26 套 AI 大模型行业研究报告✅ 50 AI 大模型必读电子书扫码免费领取全部内容资料详细内容如下福利 1AI 学习路线图2025版2025 年入门 AI 大模型该学什么有这张图就够了福利 2GeekGI 知识库DeepSeek 知识库AI Agent 知识库1200 AI 工具和框架MJ、SD 等 AI 应用的一条龙教程AI 经典开源项目、工作提效 / 副业变现案例福利 3AI 大模型面试题 300 道包括字节、腾讯等一线大厂的 AI 岗面经分享、LLMs、Transformer、RAG、Agent 面试真题…福利 424 套技术大会 2025 年案例 PPT扫码免费领取全部内容

标签：网站建设企业官网项目流程 UI设计前端开发

企业官网建设流程全解析

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

热门文章

贵州网站设计户外平台设计

python网站开发框架wordpress翻译

网站建设制作视频教程深圳网站建设公司招聘电话销售

莆田网站制作设计做一电影网站的apk

网站空间买卖wordpress极简中文主题

设计师做单页的网站wordpress注册页模板

文章分类

标签云

相关文章

免费建设企业网站百度怎样建设网站

企业网站鉴赏工程公司简介范文

阿里云备案 网站备案网站开发流程分析

需要专业的网站建设服务？

阿里云备案网站备案网站开发流程分析