Hadoop在雅虎的应用情况

On 2010年07月15日, in highscalability, by netoearth

雅虎首席产品官 Blake Irving 吹响了2010 Hadoop峰会的呜呜祖啦(2010南非世界杯助威工具) 雅虎发表的主题演讲阐述了他们的使用规模,贡献的技术方向,以及他们如何应用这项技术的架构模式。

显而易见,Hadoop 受到越来越多的关注:今年的会议有 1000人参加并且门票在会前10天就告售罄,人数较前年的300,去年的650有大幅的增长。Java之父,James Gosling 也参加了该会议。这次会议标志着Hadoop 5周年(大约)。Irving指出世界上只有5%的数据是结构化的,而非结构化数据一直保持极大的增长,这些新产生的数据的特点是更多的瞬时性。他强调 Yahoo使用Hadoop来分析每一个页面点击并优化内容的排名,每7分钟更新一次结果。他指出“我们相信Hadoop已经为主流企业的应用做好了准 备”。

雅虎的云计算高级副总裁,Shelton Shugar指出,雅虎每天为1000亿事件产生120TB数据输入,目前储存了70PB,而其最高存储容量是170PB。雅虎每天处理3PB数据,每个 月在38000台服务器上运行超过百万个任务。由于雅虎的Hadoop的使用范围不断扩大,他们已经需要为主流应用程序员作为准备,建立支持提供和更好的 管理工具和数据安全。他指出,雅虎在生产环境中将Hadoop应用于各种产品:

  • 数据分析
  • 内容优化
  • 雅虎公司反垃圾邮件
  • 广告产品
  • 广告优化
  • 广告选择
  • 大数据处理和ETL

雅虎还在其应用科研中大量使用Hadoop,比如:

  • 用户兴趣预测
  • 广告库存预测
  • 搜索排名
  • 广告定位
  • 垃圾邮件过滤

Eric Baldeschwiele,雅虎Hadoop软件开发副总裁指出,在去年雅虎已经:

  • 把他们的集群从每个2000节点增加到4000个节点
  • 受惠于摩尔定律带来的CPU计算能力增加,每个节点的任务数翻了一倍
  • 现在有超过80%的磁盘利用率,通常50-60%的CPU使用率,并且数据使用的增长速度高于处理使用
  • 贡献了超过70%的Hadoop补丁

他们在去年的重点是改善Hadoop的map-reduce,这包括:

  • 一个新的容量调度程序
  • 任务跟踪的稳定性和支持混合工作负载的健壮性
  • 增加资源的使用的限制:安全围栏(safety rails)

现在他们的重点是开发Hadoop的分布式文件系统,HDFS:

  • 在他们的每一个集群节点的存储现在是12TB。他们现正兴建一个48PB的集群 – 由于Name节点可伸缩性的限制,“这对Hadoop来说是颠覆性的 “
  • 提高内存,连接和缓冲区的使用,并提供度量的体系。
  • 把存储拆分成一组文件卷集(使用多个HDFS集群)
  • 在Hadoop的下一个主要版本将会发布跨HDFS实例的联合存储

Baldeschwieler 解释雅虎如何个性化他们的主页:

  • 实时服务系统使用Apache从数据库中读取从user到interest的映射
  • 每隔5分钟,他们使用生产环境中的Hadoop集群基于最新数据重新排列内容,并每7分钟更新结果
  • 每个星期,他们在Hadoop科研集群上重新计算他们关于类别的机器学习模式

雅虎Mail以类似的方式使用Hadoop:

  • 在生产集群上频繁根据垃圾邮件模式为邮件计分
  • 每隔几个小时在科研集群上训练反垃圾邮件模型。
  • 该系统每天推动50亿次的邮件投递,覆盖了4.5亿个邮箱

因为HDFS有一个单点故障(Name节点),这对高可用性生产系统来说是个风险。为了减轻该风险,雅虎将数据复制到多个群集,因此分布式文件系统 的中断可以使用备份文件系统来弥补和解决。在雅虎的演讲中, 除了自己的Pig项目,他们表示正在使用Hadoop的Hive项目。

Baldeschwieler宣布,雅虎已经发布了Hadoop Security的Beta测试 版,它使用Kerberos进行身份验证,并允许在同一集群托管商业敏感数据。他们还发布了Oozie,一个Hadoop的工作流引擎,这已在雅虎成为事实 上的ETL标准。它集成了MapReduce,HDFS,Pig和Hadoop Security。

总体而言,雅虎展示了其在Hadoop技术的持续领导地位,与此同时他们感到高兴的是,领先的互联网公司和独立技术供应商纷纷加入到了这一生态系统 当中来。

查看英文原文:Yahoo! Updates from Hadoop Summit 2010

Tagged with:  

Comments are closed.