搜索巨头发力微博客搜索——该如何整合微博客信息?

发布 admin | 分类 互联网动态 | 浏览 次 | Posted on 2009-7-5

3

最近,微软新搜索Bing开始索引部分Twitter内容,这意味着Bing正式涉足微博客搜索。虽然Bing现在只是尝试性地索引几千位“名人”和活跃Twitter用户的Tweets,而且只有当用户搜索此用户的账号并添加关键词“Twitter”时(查看例子)才会得到搜索结果。但以Bing现在的索引规模还远不能服务于广大用户,而且这种将及时性很强的微博客信息直接放置在普通搜索结果中的做法并不科学。不过话说回来,微软Bing是第一个比较正规的索引Tweets的主流搜索引擎,这无疑向我们释放这样一个信号:搜索引擎巨头开始发力微博客搜索了。

 

此前,世界上最大的微博客Twitter(微博客鼻祖)就推出了自己的即时搜索服务,并不时的有一些第三方Twitter搜索引擎。但这些围绕Twitter开发的微博客搜索服务都有一个致命的缺陷:仅仅以时间为轴线索引并排列搜索结果。

 

搜索巨头的加入,无疑会对整个微博客界的信息价值的提升有不小推动作用。作为Web2.0时代的又一服务发展方向,微博客产生的数据信息一定存在不可估量的价值,但现在缺乏的是如何将信息有效整合。在此,我就对搜索巨头将来推出的微博客搜索服务做一些猜测,看看将来的技术该如何实现微博客数据的价值。

 

一.搜索巨头推出的微博客搜索服务不应该仅仅局限于Twitter(但可以以Twitter为主),而应该索引其他类似的微博客服务,并将所有信息加以整合。比如在国内,不索引来自饭否、嘀咕等微博客的信息是不可能的。

 

二.现在以Twitter Search为代表的微博客搜索,基本都是以时间为轴线来实现排名。虽然微博客信息的即时性很强,但以时间索引的局限性很大,而且没有将微博客中的其他信息(如Follow和被Follow数目);鉴于此,将来的微博客搜索可以参照现在的博客、新闻搜索,引入“焦点(相关性)排序”——以Follow和被Follow数目、用户活跃程度、信息发布时间、信息被RT次数等数据为基础的排名算法。

 

三.对数据信息按照语言分类。在提供了以时间轴和焦点(相关性)两种主要排名方式后,可以根据信息语言不同,进行相关分类。同时,提供一些命令行搜索(我自己杜撰的词语),如@用来搜索用户名,RT搜索被RT的信息。

 

四.曾有人说,Twitter是垃圾信息的天堂。微博客信息之所以整合困难,有一点就是重复内容、垃圾内容过多。Google等搜索巨头可以根据自身已掌握的技术对这些信息进行分析,并将垃圾信息、重复内容加以过滤。此前,Google在判断垃圾留言方面已经有不少手段;国内的聚合搜索——雨林木风旗下的115聚搜就可以将来自百度与谷歌的搜索结果作去重处理。因此,我们有理由相信,相信对垃圾信息、重复内容有效过滤在搜索巨头眼里实现起来并不困难。

 

五.之所以把Twitter等类型网站称为微博客(Micro-blog),这说明他们与博客(Blog)是有些关联的。在微博客搜索中,可以模仿博客搜索,支持某个关键词搜索结果的RSS订阅,以及热门账号、热门信息的推荐等。

 

六.隐私问题。以Twitter为代表的微博客为什么会火?它的即时随意,它的“无所顾忌”都促使越来越多的人投向微博客的世界。但随之而来的是隐私问题。现在只有一个使用率并不高的Twitter Search,这种问题还不明显,但当微软Bing、Google等踏入这块领地后,账号的隐私问题将会逐渐显现。

 

我只想到了以上六点。当然,将来的微博客搜索不可能仅考虑这几个问题,将信息进行整合排名的算法也会复杂得多。

 

微软的Bing实时搜索虽然开了个好头,但其可用性并不强。不过另一个值得高兴地消息是,Google马上就要推出自己的微博客搜索了。让我们拭目以待。

 

本文系 对啊博客 原创文章,转载请注明出处:www.duia.org

3 评论

仁心博客
微软抢占先机
歪歪屋啊
呵呵,被WR先抢走了啊
中铁快运公司
微博客搜索,是个很不错的内容,一旦能做起来,哪微BLOG将起到很大的作用

发表评论