分析了130W字的数据,我知道了用户在想什么

2017年6月1日 | By News | Filed in: News.

http://ift.tt/2rDEuHN

人人都是产品经理是中国最大最活跃的产品经理学习、交流、分享社区。集媒体、社区、招聘 、教育、社群活动为一体,全方位服务产品经理。本文由人人都是产品经理社区作者@朱利安 原创发布。转载请联系人人都是产品经理。 

网上流传着张小龙的对于乔老爷的一段评价:

乔布斯最厉害的地方是什么?他说乔布斯1秒钟就能变成白痴,这是他最厉害的地方。那马化腾呢?他大概需要5秒钟。而我差不多需要10秒钟。

这里的“白痴”并非字面意思,而是指产品经理在使用产品,构思产品功能的时候,能抛弃掉自己固有的思维身份,用同理心将自己转变为一个产品的典型用户,站在用户的角度去思考问题,而且能够在多种不同的用户角色之间进行切换。

外人看来好似十分简单,然而真正有过产品工作经验的人都知道,要抛弃掉自己过往的思维习惯,将自己转化为一个用户是多么的困难!

更多的时候我们通过场景分析,来假设自己是产品在某个场景下的特定用户,或通过用户画像来使得用户轮廓清晰起来,但也很难做到短时间内将自己转化为一个用户,真正以用户的思维去体验和思考产品。

“白痴”不易,但用户在想什么还是要知道啊?

怎么办!?

How to do?

常见了解用户的方法有用户调研,用户访谈,用户研究等等

除此之外,常见的还有一种——数据分析,通过数据分析来揣摩用户的心里,猜测用户的需求。

本文要介绍的数据分析和提前在功能上线前埋点,再分析埋点数据来辅助产品决策有所不同。

这类的数据通常是用户产生的内容,没办法直接获取可用的量化数据,特别有几十万的文本内容数据的时候,面对一大段一大段的文字,根本无从下手。

而仅仅分析内容的平均字数显然意义不大,针对内容本身的分析才更有价值。

下面介绍一种通过分析用户产生的内容了解用户最近关注的内容,最终帮助改善产品的方法。

三步走:

  • 收集用户的内容数据

  • 提取内容关键词

  • 分析关键词,运用于产品

第一步:收集用户的内容数据

首先,第一步,收集用户数据,但用户哪里来呢?

既然最终是为了改善产品,从群众中来,到群众中去的思路肯定是对的,作为医疗行业的产品经理,举几个医疗行业的例子。

1. 点评数据

有产品的销售可能产生点评,这里的产品不是指单某一款app或商品,而是引用了经济学中对于产品的定义。

产品是指能够供给市场,被人们使用和消费,并能满足人们某种需求的任何东西,包括有形的物品、无形的服务、组织、观念或它们的组合。

医疗行业中医生为病人提供的线下诊疗服务,线上咨询服务,私人医生服务等等就是一系列的产品。

当用户使用完这类产品的时候,会对产品进行评价,例如线上挂号,线下诊疗后对医生的态度,诊疗效果进行评价,供其他用户进行参考。

这类点评内容数据可以供其他用户在购买该产品前能有参考的凭据,同时产品人员可以利用点评的好评中评差评等数值的数据来优化列表的排序,让更多优质的医生得到曝光。

2. 咨询数据

方才提及的医疗行业的产品中,线上咨询服务不仅仅会产生点评的内容数据,还会产生真实的医生和患者之间一对一的交流的内容数据。

这些内容数据在一些较大的互联网医疗公司的产品中会通过一定的隐私处理后对公众开放,例如在PC端百度搜索“喉咙痛吃什么好”会出来非常多相关的咨询记录,包括39健康网,快速问医生等知名医疗网站的数据。

这类咨询内容的记录能帮助一些遇到相同问题的用户更快的解答自己的疑惑,提高产品内容的丰富度,增加用户粘性。

另一方面,公开这类数据让百度,360等搜索引擎的爬虫抓取,有助于提高网站的权重,在用户搜索相关内容的时候更容易出现在靠前的结果,相当于给平台新增了流量来源。

3. 社区医患双方的讨论数据

医疗行业的社区也会产生内容数据,患者和患者针对某个疾病进行讨论或分享自己的治病经历,医生和医生针对某些疑难杂症进行讨论,医生给患者进行科普的健教类文章而引起的医患双方的互动等等。

例如在PC端,糖尿病垂直社区的“甜蜜家园”以及微医的“医言堂”等,虽然一直对微医的“医言堂”模式抱有怀疑的态度,但不可否认,医患双方也是会产生一些社区讨论的内容数据。

如何获取数据?

类似上述这类的内容型数据,该如何获取?

最简单直接的方法就是找研发哥哥直接导数据,或提个后台需求,自己导出到Excel表格查看。

但有些时候,自己的产品本身数据量不大或没有数据,或本身没有后台且只是想导出小部分进行分析怎么办?

那就用“爬虫”呗,自家产品没有数据,就去爬竞品的数据;自家有但不好意思老是麻烦开发,那自己爬一些需要的数据分析。

作为产品经理,本身也不会写爬虫代码,怎么办?

这里介绍一款软件——“八爪鱼采集器”,即使不会写代码,也能快速的获取自己想要的数据!(这软件也是平时没事逛简书,在龙潇Shana的文章中发现的,强烈安利)

通过八爪鱼和一些公开数据,我们就能获取到针对单个疾病的咨询内容的数据,这样我们就能分析用户在某类疾病下普遍会去咨询医生的内容是什么。

再举个栗子,每周周五的时候,经常对着咨询数据的周报发愣——这周数据为何变动怎么大?大涨或大跌了,发生了什么事情?

这时候通过八爪鱼去爬一些异常波动科室最近2-3天的数据,或指定某天波动特别明显的数据,这样就能知道用户在这段异常波动期间哪些咨询内容成为了热点?例如流感在咨询的内容中被提及的次数多了,我们就能知道最近流感高峰期来了。

第二步:提取内容关键词

回顾下我们的三个步骤:

  • 收集用户的内容数据

  • 提取内容关键词

  • 分析关键词,运用于产品

在第一步的收集用户内容数据中,我通过采集数据的软件收集了用户在某天的咨询问题,共15859条。

通过第一步抓取用户的数据,成功获得

《带有大量文本内容的数据表格》 X1

仅将其中的咨询内容单独拎出,就已经有130W字的内容数据。

但是这些内容数据长短不一且数据量并不小,问的问题也不尽相同,例如:

  • “片子是术前的还是术后复查的。术前膝关节是什么症状?目前膝外侧是痛还是肿?偶发的还是一直持续的?”

  • “谢谢主任的讲解,那到底现在能不能做手术呢?毕竟是肿瘤也不能拖。”

  • “孩子年龄很小,夜里踢被子很容易胃部受凉而出现上述症状!建议多喝白开水、、少吃多餐、肚脐贴,必要时去医院看看”

如果仅仅针对一个句子一个句子进行分析,不单没法量化,而且需要花费大量的时间,咋办?

一句一句分析的办法肯定行不通,这时候就要祭出提取关键词大法了。

什么是关键词?

通过关键词提取软件,将上述的大段文本切成不同的词汇,再找出关键词,将关键词按照词频和权重进行排序,就知道哪些词汇是用户提及最多,最重要的。

这里可能要问,什么是关键词?

高中时候我们都作过阅读理解,关键词就是在一篇阅读理解中反复出现或比较重要的词汇。

这里我们有两个概念:

  • 词频,用来描述出现的次数;

  • 权重,用来表示这个词汇的重要程度。

例如“片子是术前的还是术后复查的。术前膝关节是什么症状?目前膝外侧是痛还是肿?偶发的还是一直持续的?”,切词之后就变成“片子,是,术前,还是,术后,复查…”

“术前”的词频为2,因为它出现了两次,但是“术前”词汇的权重呢?这里无法直接给出,但是在统计学上,越常词汇的权重就越小,例如“我,你,他”,同理,不常见的词汇,例如“肿瘤”,权重就会较大。

不同词汇在不同的语境下的重要程度是不同的,假如一篇专门讲述手术的文章,和一篇专门讲述糖尿病的文章都有提及“糖尿病”这个词汇,词汇“糖尿病”明显对于讲述糖尿病的文章是更重要的,但是词汇“糖尿病”在不同的文章中的权重又相同。

这时候如何突出关键词“糖尿病”词汇对于糖尿病文章的重要性呢?

为了思考这个问题,逛了逛知乎,在上面看到了一种关键词提取的理论——TF-IDF法

TF-IDF=词频(TF)*逆文档频率(IDF)

原理这里不展开讲,我们可以简单粗暴的理解为一个关键词的重要程度可以这样判断

关键词重要程度=词频*权重

提取关键词的方法理论比较复杂,但我们不需要了解背后的机制,使用一些切词软件就能帮我们提取出大段内容的关键词,而且还含有词频和权重(至于这些切词软件是否使用的是TD-IDF的理论不得而知,暂且认为是吧。)

这样,通过切词软件,我们终于从一堆长长的文本中提取出了关键词。

得到 《带有词频及权重的关键词表格》 X1

导出Excel表格将关键词的词频和权重分数相乘再倒序排列,这样我们能知道哪些词汇是出现频率高且权重大的关键词。

第三步:分析关键词,运用于产品

经过前面两步,我们手中已经有了

  • 《带有大量文本内容的数据表格》 X1

  • 《带有词频及权重的关键词表格》 X1

对着这两个表格,我们能做些什么?

先说个题外话,前阵子有位仁兄抓取了大量民谣的歌词,统计了歌词中常出现的词汇,同时使用了腾讯文智和哈工大社会计算与信息检索研究中心的自然语言处理模块,对这些词汇的感情色彩进行分析。

得出了如下结论:

在我的统计中,出现最多的几个意象是:再见,姑娘,夜空,孤独,快乐。

如果把民谣拟人化,那应该是一个喜欢南方的北京小伙子,觉得世界很操蛋,但骂归骂,到底是对生活有希望的,憧憬着明天,在春天感到快乐,在冬天感到孤独,没有女朋友,但有几个纠缠不清的前女友,经常和她们见面,见面的地方可能是成都,昆明,南京,上海,武汉。

也许你认为这些关键词最大的用户无非就是写篇文章,博众人一笑,成为闲暇的谈资,那就错了!

既然这些关键词从真实的用户中来,那么通过关键词也能了解用户在想什么,也能用于产品中,例如运用于点评,咨询,文章,内容推荐等等。

关键词的运用场景

1. 点评

如果内容数据从点评中来,那么可以筛选出好评,中评,差评的内容,分别提取出对应评价的关键词。

在产品功能上,提供点评的便捷输入的标签,而标签的内容,就可以是用户常常使用的词汇(既你提取出的关键词)。

提供这些便捷输入能提升点评的体验,也能促使用户点评,提高总体的点评量。

2. 文章

一篇好文章最怕的是没有阅读量,但单单靠标题党绝对不是长久之计,真正从内容下功夫才是王道。

在对的场景中将用户感兴趣的文章推荐给他是提升阅读量的有效方法。

以医疗举例,在皮肤科的专题页面中,通过分析皮肤科用户的咨询数据,了解用户最常咨询的关键词是“湿疹”、“皮疹”、“皮炎”、“皮损”等等,那么文章的选题就可以从这些用户常咨询的关键词入手来展开。

3. 咨询主诉内容的填写

通过分析咨询内容,在用户填写自己病情的时候,显示出来对应的关键词标签,让用户点击快速输入,减少用户手动输入的内容。

既能帮助用户实现更高效的输入方式,同时通过标签的提醒,也能提醒用户自己是否存在同样的症状,在描述症状是更加的仔细,提高咨询填写主诉的质量。

4. 建立疾病和对应的同义词库

脑洞再大的时候(这里可能不科学,纯属脑洞),我们去分析某个疾病下用户的关键词是什么,将这些描述症状的关键词设为疾病的同义词,让两者建立关联关系。

这样做的好处在于,让用户在搜索某个疾病的症状的时候,例如牙疼,那么就能通过这些描述症状的关键词去找到对应的疾病名,提示用户可能的疾病是什么,提高搜索的准度。

最后:三步骤总结

至此,通过三步骤:

(1) 收集用户的内容数据,我们获得了

《带有大量文本内容的数据表格》 X1

(2)通过提取内容关键词,我们获得了

《带有词频及权重的关键词表格》 X1

(3)通过分析关键词,运用于产品,我们可能会获得

  • 点评功能 X 数据上涨 ↑

  • 资讯功能 X 数据上涨 ↑

  • 咨询功能 X 数据上涨 ↑

  • 搜索功能 X 数据上涨 ↑

关键词运用的场景还能有很多,可以慢慢挖掘,欢迎交流。

推荐阅读

《有了手机号快捷登录,还需要密码登录吗?》

《账号体系设计:如何解决手机号二次使用导致的账号问题》

IT.数码

via 36氪 http://36kr.com

May 31, 2017 at 11:05AM


发表评论

电子邮件地址不会被公开。 必填项已用*标注