新 Twitter，新搜索

氪友NEn7·2010-10-08 06:06

除了重新设计了 UI，在后端，Twitter 也带来了非常巨大的变化。今天， Michael Busch 更新了 Twitter Engineering Blog, 给我们带来了一些搜索方面改进的细节。刚开始 Twitter 的实时搜索引擎是基于 Summize技术，Summize 是 Twitter 于 2008 年收购的一家公司。但是从那以后，Twitter 开始显著成长：每秒 1000 条推和 12000 个查询，一天下来要 10 亿查询，从那里起，Twitter 的工程师团队就开始寻找一个替代品了，因为旧式的基于MySQL的系统已经面临了巨大的挑战。所以 Twitter 开始转向一个新的搜索架构，选择了开源的 Lucene。

除了
重新设计了 UI，在后端，Twitter 也带来了非常巨大的变化。今天， Michael Busch 更新了
Twitter Engineering Blog, 给我们带来了一些搜索方面改进的细节。

刚开始 Twitter 的实时搜索引擎是基于
Summize技术，Summize 是 Twitter 于 2008 年收购的一家公司。但是从那以后，Twitter 开始显著成长：每秒 1000 条推和 12000 个查询，一天下来要 10 亿查询，从那里起，Twitter 的工程师团队就开始寻找一个替代品了，因为旧式的基于MySQL的系统已经面临了巨大的挑战。

所以 Twitter 开始转向一个新的搜索架构，选择了开源的
Lucene。

先不说 Lucene 的优势，首先它在实时搜索方面就有一些缺点，所以 Twitter 重写了它的部分架构，但是仍然支持 Lucene 的API。重写的部分包括：*改进无用数据收集的性能

*无锁数据结构和算法

*逆序遍历 posting 列表

*有效的早期查询终止
新的搜索架构速度更快伸缩性更强，而且仅占用后端资源的 5%。使工程师们”至少支持更大负载“的使命向前迈进了一步。

更多关于 Twitter 如何处理其他数据挑战信息可以查看上个月 Kevin Weil 在 Web 2.0 大会上的的演示。

Analyzing Big Data at Twitter (Web 2.0 Expo NYC Sep 2010)