首页 - 每日一评 - 文章正文

雅虎拥有Hadoop内部搜索Webmap的更多开源

时间:2019-08-03 19:01:45 作者:黑曼巴 分类:每日一评 浏览:143

作为其转向开源基础设施和网络的持续战略的一部分,雅虎宣布其网站地图现在正在使用ApacheHadoop进行处理。搜索抓取根据雅虎是迄今为止世界上最大的ApacheHadoop应用程序。这意味着,尽管雅虎搜索抓取了大量网页,但仍然可以通过降低成本和减少雅虎的管理需求来完成这项任务。当然,这是迈向雅虎开放战略的重要一步。

 

作为其转向开源基础设施和网络的持续战略的一部分,雅虎宣布其网站地图现在正在使用Apache Hadoop进行处理。 Yahoo webmap是一个Hadoop应用程序,可以从Yahoo!的数十亿页面中生成索引。搜索抓取根据雅虎是迄今为止世界上Zui大的Apache Hadoop应用程序。多大?只要看看这些事实:

雅虎webmap索引中页面之间大约1万亿个链接使用300 TB压缩输出10,000个核心运行单个Map-Reduce作业生产集群中使用的5 PB原始磁盘

如果你像我一样,只是在阅读这些事实时只是摸不着头脑,不要担心。这些数据的简单含义是,即使拥有如此庞大的数据量,雅虎仍然能够在Apache Hadoop未被使用的66%的时间内运行相同的生产集群处理。

这意味着,尽管雅虎搜索抓取了大量网页,但仍然可以通过降低成本和减少雅虎的管理需求来完成这项任务。

但Zui重要的是随着使用通过Apache Hadoop,雅虎能够证明Apache Hadoop在搜索市场上越来越受欢迎,现在已准备好迎接黄金时段,能够以不那么昂贵的方式处理大规模的互联网规模项目。希望搜索结果也得到改善。

当然,这是迈向雅虎开放战略的重要一步。

CategorySEO

上一篇:新的百度 PageRank算法被揭穿

下一篇:百度扩展在纽约的存在

猜你喜欢
发布评论
登录后发表评论
登录后才能评论

AI 新用户?

免费使用内容重写服务

开始新的写作