社会化搜索的简介

2010年4月14日 | By Yao | Filed in: 原创, 未分类.

最近保持每天浏览2,3个新的创业网站的习惯。在这个过程中,我注意到一个现象,社会化搜索(Social Search)这个关键字多次出现,关于Social Search, google 上有1.8亿个网页的搜索结果。也有超过40个网站号称自己是社会化搜索 –我想如果国内的业内人士注意到这个并且开始拷贝的话,这个数字应该是400 个。此外,在百度搜索“社会化搜索”,结果大约只有一百万个(2009年3月)。所以有必要做一点稍微深入的研究。

首先,需要定义社会化搜索 (social search

在Wiki里有这样的定义:“Social search or a social search engine is a type of web search method that determines the relevance of search results by considering the interactions or contributions of users” – 社会化搜索或者社会化搜索引擎是搜索结果考虑用户的交互性和贡献的一种网站搜索方法。更多细节请阅读这里。*{2009-3-15 21:27PM 的定义}

在百度百科里,对社会化搜索也有说明,但是基本算离题万里的胡说八道。读者可以自己点这里去看看。

当然,关于搜索我们不能忽略来自Google 的意见。这些意见大多来自著名的美女副总裁 — Marissa Mayer。其中最著名的有两份,一份来自 VentureBeat 的2008年1月的访谈,标题是“社会化搜索就是未来”,一份是2008年9月10日GOOGLE的名为“搜索的未来”的官方BLOG。中文版可以点这里

在这些资料中,MM对社会化搜索的定义更加宽泛:“We believe social search is any search aided by a social interaction or a social connection…我们相信社会化搜索是任何运用社会性交互和联系来协助的搜索

Wiki 的定义比较准确,但仍然没有足够考虑到社会化的因素。也许我们可以把它们合在一起,定义社会化搜索如下:

社会化搜索是指考虑了社会化因素例如交互,联系,用户行为模式等的网络搜索方法

社会化搜索的概念,起始于2004年,但是真的被重视和发展,是从2008年开始的。以这个美女副总裁自己为例:2007年8月,她说,还没有看到社会化搜索的前景;2008年1月,开始说 社会化搜索就是未来;而08年9月,更发表了正式的搜索的未来的官方博客。

你可以喜欢任何颜色,但我们只提供黑色的车  – 福特

搜索引擎大致可以划分为三个阶段:

l         纯粹的机器算法阶段:这个阶段可以上溯到YAHOO的第一个目录,而Google 的PR,虽然有据说超过200 个参数 – 比如链接数目,域名注册时间等–的加权调整,目前能提供给用户的搜索答案,仍然是千人一面的结果。无论你是非洲的黑人小孩,还是纽约的白人老头。

l         基于用户的算法(user-based)优化:在这个阶段,用户的参与被加入考虑。运用的技术包括,专家打分,多用户投票,META-TAG,点击跟踪技术等等。基本的思路是,用户参与决定哪些搜索结果比较重要。类似的尝试是Google+Digg. 很遗憾,搜索结果还是统一的唯一结果。而且还有一个问题:最热门的答案,一定就是最准确的吗?

l         个性化的搜索 (Subjective):每一个用户,获得不同的搜索结果。而社会化搜索,是其中的一个方向。这个个性化,可以来自如下的信息:

n         该用户的个体搜索历史 – 可以从Cookie 获得

n         该用户的行为,兴趣模式 – 可以从社会化网络获得

n         用户自己提供的兴趣 – 用户自己提供

在福特汽车的黑T时代,老福特可以只提供黑色的车。但是在门槛很低互联网上,只提供黑色车的商业环境,正在被挑战。就算Google 自己,也在致力于社会化搜索的研究。Google 也在广告系统中开始试验Cookie 和用户自己提供信息的办法。

从5W 说起

如果我们借用新闻的5W 概念,也许可以推导出后面的一个 HOW。

和目前所有人面对同一搜索结果相比,个性化的搜索需要搜索的结果来源于如下的信息:

l         WHO:搜索引擎开始试图理解屏幕前输入查询关键字的用户是怎样的人。或者叫市场细分。一个期货商搜索“天气”和天文学家搜索“天气”,背后关注的兴趣点显然不同。而这个社会身份的认定,来自于个人的网络行为模式,搜索历史和他参与,联系的网络人群。

在这里这个WHO,往往还具备了一个社会人的很多属性。或者可以用消费者细分的几个纬度来进行区隔。这些纬度包括:种族,文化,亚文化,职业,年龄,性格,消费习惯等等。而很多信息,都可以从其它途径例如FACEBOOK 里的好友,个人信息等获得。

l         WHEN: 很遗憾,目前的搜索结果是按照相关性排列的,而时间戳的问题一直没有解决。我们知道,网络广告已经可以提供按不同时间显示不同内容的服务了。但是在搜索结果上,如何做到与时俱进,还有待考虑。

l         WHERE: 虽然有很多本地搜索和生活型网站的出现,但如果搜索引擎能从IP 所在地,提供更相关的搜索结果,对相当多搜索者,是有用的。– 百度前 CTO 说,本地搜索大约是搜索总量的40%

l         WHY: 搜索是为了获得答案。目前的基于分词匹配技术的算法,不能理解问题背后的原因。换言之,不能理解“需求背后的需求”。在搜索引擎的发展方向上,语义理解或者说自然语言搜索一直是一个重要分支,但是进展不大,比较有名的是Powerset。社会化搜索,一般可以从who来推导这个why, 也有直接绕过文本分词匹配的一些尝试。

两个案例:

Baynote 公司,硅谷成功的创新企业。创始人叫 Jack Jia,很可能是华人。

他们注意到,除了用户的明示意图的行为,例如,打标签,投票,写评论等,还有大量的非明示的行为,例如:注册,下载,放入购物车,搜索浏览模式等。通过收集这些数据,类似行为模式,兴趣点的人被虚拟聚合起来,称为团体智慧(Community Wisdom)。他们认为,集合文本和行为模式可以获得搜索意图,而搜索意图加上团体智慧可以得到推荐结果。核心的思想是,Baynote 关注了沉默的大多数的搜索行为,聚合了这个“Who”,从而获得比较准确的关于 “Why”的一个猜测。

Vark 公司

社会化搜索和其它互联网应用

搜索仍然是互联网上第一大应用,按照TNS 2008年12月的报告,81% 的互联网用户使用互联网的搜索。

社会化搜索是搜索引擎的一个发展方向,也许是主要的发展方向。但由于社会化因素的引入,我们不得不关注很多社会化网络在这一发展中可能发挥的作用以及会被如何影响到。

我们不妨按照主要的互联网应用分类来探讨这个问题:

1.         社交网络SNS,例如FACEBOOK,MYSPACE,国内的开心网。社交网络可以分两大类,一个是在线上拓展关系的,比如LINKEDIN ,一个是把现实关系搬上线的如FACEBOOK。目前看,前一类发展不如人意;而后一类的发展迅猛。Google 也有自己在巴西之外都太不成功的Orkut 社交网络尝试。我猜测google目前在等待合适的时机,倒入搜索用户的FACEBOOK 帐户。

通过SNS 网络信息,搜索方可以获得大量的用户个性化信息。可以很好的解决 “Who”的问题。

而SNS 同样也没有放弃自己进入搜索领域的努力。比如前面提到的VARK网站,就是通过社交网络,很聪明地绕开了文本匹配的问题。

2.         IM 工具,例如MSN,Yahoo Messager, QQ

很多新兴的WEB2 希望用户通过自己的IM 系统信息,给自己带来更多用户。

IM 系统的要点在于实时性,否则和EMAIL 也区别不大了。

同样,社会化搜索可以从IM 的联系人,联系人分类,以及每个联系人的个性化需求获得该用户的一些社会化特性,比如,职业,族群。在IM 通话的内容中,也必然有大量的用户兴趣话题。

3.         Email 工具,例如Gmail, Hotmail.

正如Gmail 利用邮件的内容来确认提供相关广告一样,EMAIL 提供了大量的用户兴趣信息。而大量的邮件积累,数据挖掘,也是可以提供一个比较准确的用户描述的。

4.         Twitter

这个应用在国外比较火爆,而国内的还不成。Twitter 最明显的一个特点就是兴趣导向,你会关注你喜欢关注的人,而他们的行为将暗示你的兴趣点。

5.         网络购物

通常新技术最容易在商业领域实现,例如这个社会化搜索。在亚马逊,国内的DANGDANG 等网站,都有几个基本功能。一个是浏览历史纪录和利用这个产生的推荐;还有一个,选购这本书的也看了XXX。这个就是社会化搜索的一个初步尝试,而且效果不错。

按最近的调查报告,互联网购物者,一般都要在网络收集产品信息和评价。而这个过程中,社会化因素应该发挥更大的作用。对消费者的行为研究也表明,来自社会网络的评价和推荐,对最终购买决定影响远大于专家和匿名评论。

6.         互联网广告

据说互联网正在深刻改变广告这一产业。沃顿的教授甚至认为,广告当死。更多内容请看这里。

未竟的探索

首先,大量的生活中的问题都还没有被转移到互联网上

目前在互联网上的知识,是我们大脑中很少的一部分

社会化的搜索,是不是获得个性化的结果


发表评论

电子邮件地址不会被公开。 必填项已用*标注