新 Twitter,新搜索
除了
重新设计了 UI,在后端,Twitter 也带来了非常巨大的变化。今天, Michael Busch 更新了
Twitter Engineering Blog, 给我们带来了一些搜索方面改进的细节。
刚开始 Twitter 的实时搜索引擎是基于
Summize技术,Summize 是 Twitter 于 2008 年收购的一家公司。但是从那以后,Twitter 开始显著成长:每秒 1000 条推和 12000 个查询,一天下来要 10 亿查询,从那里起,Twitter 的工程师团队就开始寻找一个替代品了,因为旧式的基于MySQL的系统已经面临了巨大的挑战。
所以 Twitter 开始转向一个新的搜索架构,选择了开源的
Lucene。
除了
重新设计了 UI,在后端,Twitter 也带来了非常巨大的变化。今天, Michael Busch 更新了
Twitter Engineering Blog, 给我们带来了一些搜索方面改进的细节。
刚开始 Twitter 的实时搜索引擎是基于
Summize技术,Summize 是 Twitter 于 2008 年收购的一家公司。但是从那以后,Twitter 开始显著成长:每秒 1000 条推和 12000 个查询,一天下来要 10 亿查询,从那里起,Twitter 的工程师团队就开始寻找一个替代品了,因为旧式的基于MySQL的系统已经面临了巨大的挑战。
所以 Twitter 开始转向一个新的搜索架构,选择了开源的
Lucene。
先不说 Lucene 的优势,首先它在实时搜索方面就有一些缺点,所以 Twitter 重写了它的部分架构,但是仍然支持 Lucene 的API。重写的部分包括:*改进无用数据收集的性能
*无锁数据结构和算法
*逆序遍历 posting 列表
*有效的早期查询终止
新的搜索架构速度更快伸缩性更强,而且仅占用后端资源的 5%。使工程师们”至少支持更大负载“的使命向前迈进了一步。
更多关于 Twitter 如何处理其他数据挑战信息可以查看上个月 Kevin Weil 在 Web 2.0 大会上的的演示。