Source: http://daily.zhihu.com/story/7906066
美味关系:食谱中的网络

网络分析领域有许多脑洞大开的研究。在研究者眼里,仿佛世界所有的人和事物都可以转变为网络似的。比如神经元、比如疾病的传播、比如词之间的关系,比如竞标者之间的关系,都已经被学者写成了学术论文并发表,作为垫脚石用在了毕业和升职之路上。他们对论文的渴望就像狼见了兔子一样(笑)。
其中,就有这样一篇文章,研究的是食谱中配料之间的网络关系(Teng 等,2013)。真是让人羡慕嫉妒恨,我怀疑他们在研究过程中可以名正言顺的吃各种美味的食物,并且美其名曰为科学献身,神农尝百草……
闲话少说,言归正传。
常看美剧和电影的同学可能知道,国外的许多事物的做法都有一个食谱(recipe)。在荧屏上,角色往往对自己家祖传的食谱非常自豪。食谱,以比较定量的方式记载着菜式配料(ingredient)的用量和做法。国外有许多类似的食谱网站,记录和收集了大量的食谱。三位研究者便是基于这些数据,专注于研究食谱中配料间的关系。并根据配料网络把握顾客偏好,推荐相应的食谱。网络食谱数据库有一个很大的特点,他们是基于用户知识分享的基础上建立起来的。同样一个菜,可能用户提交了不同的做法和反馈,这中间包含着海量的资料,是吃货们的福音和天堂之所,也反映着吃货们的偏好。
作者们主要分析了两个网络(在吃饱喝足各类食物之后)。一个是配料(食材)的共现网络,这个网络是互补的。任意两种食材在一种食物中出现,便认为他们之间存在关系。比如鸡蛋和葱花都用来做煎饼果子,鸡蛋和葱花便联系了起来。作者发现,这个网络分成了两大部分,一部分是甜,一部分是甜(真的哦……这真是出人意料……)。难怪咸豆腐脑党和甜豆腐脑党一直打的不可开交,因为他们天生两个阵营。还有一个网络是替代的网络,便是食材之间可以互相替代,那么他们之间就视为存在关系。通过这个网络,我们可以吃的更健康,也更符合自己的口味。比如把巨无霸中的配菜全换成肉……
下图就是食材的共现网络了(高分辨率大图请下载原文来看),具体应该是用 Gephi 画的。可以看到,明显的分成了两部分,左边的东西都是甜的,比如糖、黄油、橘子汁、草莓,还有很多不认识的单词……右边的都是咸的,大蒜、胡椒、洋葱和更多不认识的东西。而水、菜油、柠檬汁和姜等在中间的配料比较没原则,能百搭,既可以咸,又可以甜。鸡蛋、盐、牛奶因为联系太多,作者把他们的线都删掉了。在甜部的上方,就是 orange juice 那块,有一部分比较独立的区块,他们是各类饮品的配料,莱姆、冰块、凤梨汁、伏特加和龙舌兰等玩意。还真是有吃有喝。
下面就是食材替代网络了,作者依据附加、增加、减少等关键词从用户评论中提取相关信息并画出图。大图网络中每个点实际上代表一类食材,箭头代表他们可以替代另一类。比如鸡肉组就包括牛肉、火鸡肉和培根等。小图是 cluster 放大后的两个例子,牛奶替代物网络和肉桂替代物网络,比如姜和肉桂可以互相替代。
他们发现食谱的评级可以很有效的被配料网络特征(例如,配料的中心程度和聚集程度)和营养信息(例如,卡路里、脂肪含量等)两个特征进行预测,反而根据全食谱的预测不是最有效的(虽然它是准确率最高的,但是它的维度太高了)。这其中,替代网络特征和碳水化合物分别是最重要的特征。
其实,通过共现网络(一种二模网)进行用户推荐在互联网上被用的很多。比如你(小红和小华?)和小明都在网上买了一个刘看山的玩偶,这种系统就在你和小明之间建立了联系。后来小明又卖肾买了个 iphone6s,系统觉得你也可能会买,便会在首页推荐给你。这种技术在推荐歌曲、书籍中都会有所应用。当然,实际用起来会复杂的多。不知道知乎是否使用了类似的推荐系统?
正如作者最后所说的,通过食谱网络,我们可以替代和互补的创造出更多、更好和更健康的新食谱。
这暗示着我们,网络中蕴含的信息量远远超过个体的特征,我想,这也是网络分析的有趣之处。
原文:Teng C Y, Lin Y R, Adamic L A. Recipe recommendation using ingredient networks[C]//Proceedings of the 4th Annual ACM Web Science Conference. ACM, 2012: 298-307.
数据来自:All http://recipes.com
有兴趣的老饕可以食用关于中国食谱的另一篇,包含做法和配料。 Wang, L., Li, Q., Li, N., Dong, G., and Yang, Y. Substructure similarity measurement in chinese recipes. In WWW, ACM (2008), 979{988.
发自知乎专栏「社会网络杂谈」