新 Twitter,新搜索

氪友NEn7·2010-10-08 06:06
除了 重新设计了 UI,在后端,Twitter 也带来了非常巨大的变化。今天, Michael Busch 更新了 Twitter Engineering Blog, 给我们带来了一些搜索方面改进的细节。 刚开始 Twitter 的实时搜索引擎是基于 Summize技术,Summize 是 Twitter 于 2008 年收购的一家公司。但是从那以后,Twitter 开始显著成长:每秒 1000 条推和 12000 个查询,一天下来要 10 亿查询,从那里起,Twitter 的工程师团队就开始寻找一个替代品了,因为旧式的基于MySQL的系统已经面临了巨大的挑战。 所以 Twitter 开始转向一个新的搜索架构,选择了开源的 Lucene。

除了
重新设计了 UI,在后端,Twitter 也带来了非常巨大的变化。今天, Michael Busch 更新了
Twitter Engineering Blog, 给我们带来了一些搜索方面改进的细节。

刚开始 Twitter 的实时搜索引擎是基于
Summize技术,Summize 是 Twitter 于 2008 年收购的一家公司。但是从那以后,Twitter 开始显著成长:每秒 1000 条推和 12000 个查询,一天下来要 10 亿查询,从那里起,Twitter 的工程师团队就开始寻找一个替代品了,因为旧式的基于MySQL的系统已经面临了巨大的挑战。

所以 Twitter 开始转向一个新的搜索架构,选择了开源的
Lucene

先不说 Lucene 的优势,首先它在实时搜索方面就有一些缺点,所以 Twitter 重写了它的部分架构,但是仍然支持 Lucene 的API。重写的部分包括:*改进无用数据收集的性能

*无锁数据结构和算法

*逆序遍历 posting 列表

*有效的早期查询终止
新的搜索架构速度更快伸缩性更强,而且仅占用后端资源的 5%。使工程师们”至少支持更大负载“的使命向前迈进了一步。

更多关于 Twitter 如何处理其他数据挑战信息可以查看上个月 Kevin Weil 在 Web 2.0 大会上的的演示。

Analyzing Big Data at Twitter (Web 2.0 Expo NYC Sep 2010)

via

+1
0

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

[]() 经过了一周的等待,好像大多数人都已经体验到了这个有 魔鬼般细节的新版界面。

2010-10-08

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业