数据透视:知乎网的“另一面”

机器学习 3138 Views

数盟倡导“数据创造价值”,致力于打造最卓越的数据科学交流平台,为企业、个人提供最卓越的服务】

摘要:

知乎,一个真实的网络问答社区,帮助你寻找答案,分享知识。在向公众开放注册的一年多时间,注册用户迅速由40万攀升至400万。

起因对「看知乎」了解稍为深入的人都知道,每天推荐的答案全部来自我监控的用户数据库。而这个数字在年初是1万左右,到现在也没超过3万(虽然每天都在增加)。有时候会想,我有没有可能是井底之蛙?知乎用户究竟是紧密围绕着一个核心团体还是聚集成许多互不来往的孤岛呢?如果是后者的话,难道我真的遗漏了大量值得关注的用户,只因为他们属于另一个群体吗?以及,知乎到底有多少人?年初400万,5月600万,现在有700万还是800万?他们中的大多数都活跃吗?专业吗?受欢迎吗?他们都关注了谁?被谁关注?最近常被拉出来声讨的三零用户到底有多少人?占多大比例?带着这些疑问,笔者修改了一下爬虫算法,以尽可能大的范围来搜集用户,以及他们之间互相关注的关系。以下就是本次调查分析的结果了。概况数据收集方法:以「看知乎」网站2014年8月20日监控到的28,810个用户作为种子,遍历他们的关注者列表;再将第一次收集到的用户关注者列表进行二次遍历,然后将全部用户以及他们的关联关系汇总起来。执行这个工程的时间跨度是8月21~24日,由于时间导致的数据误差在可承受范围内,不影响结果的合理性。收集到的总用户数是3,507,426人。嗯?三百五十万?是不是比预计的少了一半?没错,但剩余的另一半基本可确认为是零提问零回答零关注的三零用户,以及只关注对方的僵尸粉小团体等等,其中绝大部分账号应该都是不活跃的、也不参与提问和回答的。考虑到知乎的规模和用户群的凝聚性,这样的推测结果很合理。剩余的几百万账号里基本不可能存在一个不与外界交流的、有价值用户的集合了。暂且忽略掉他们,假设知乎的全体用户即是这3,507,426人,下面所有分析也都在此范围内进行。一些数字:他们提出了1,381,317个问题;撰写了5,065,386个答案;发表了21,098篇专栏文章;获得了41,856,875个赞同;被关注51,934,080人次。(不包含匿名行为)回答者一般情况下,某个用户在知乎从零起步的过程应该是这样的:回答问题;因为答案的质量优秀而获得赞同;引发别人的兴趣,进而关注自己;以上三个步骤循环或交错进行。这就涉及到三个重要指标:回答数、赞同数、被关注数。我们先讲前两者,关注的问题放在后面几节中进行。知乎的作者和读者关系以及传播路径大体是这种样子:

顶端是信息制造者;之下是有账号、可交互的读者,能通过赞同、反对、评论等方式对答案进行影响并传播;再下面则是纯粹的读者了。那么,在金字塔顶端的回答者占到知乎用户的多少呢?这些回答者中有多少人得到了赞同呢?以及,又有多少人因此而被人关注了呢?下面的数字可能会令你略有些意外:

也就是说,知乎中80%多的人注册后完全没有写过任何一个答案;而且,写过答案的人里,还有一半从来没得到过赞同、三分之一左右没有人关注;换言之,被别人点过哪怕一个赞同的用户,也已经在整个知乎排到了前8.77%内。(最高纪录保持者是位写了340个答案却无人赞同的知友——没办法,答案太水了)对被赞同过的307,430人还可以再细分一下:

经常看到有人在答案上面更新「哇,居然有好几百个赞了」,说明大家觉得几百上千个赞同还是挺有面子的事。事实也确是如此,超过1000赞同的人只占1.86%——而且还不是所有人的1.86%,而是至少有一个赞同的人里的。如果放到全体用户中,超过1000赞同人的只占0.1633%,也就是不到千分之二。赞同我们时常在话题精华和热门推荐中看到动辄数千票的答案,但其中许多只是偶然现象。一般来说,只有一两个高票答案的用户在知乎很可能会昙花一现。既不能持续引发读者的兴趣,也不能转化为关注数。下面就把全体用户的最高票答案和整体赞同数拿出来计算一下,除了最高的之外,我们还按由高到低的顺序取出前5及前10的答案做对比。(如果回答数不足5或10,那有几个就拿几个)

解释一下。最下面的「全部」一行,也就是图表中的最右列,指的是全体知乎用户的最高票答案在所有赞同中所占的比例。平均来说,单个答案票数占了三分之一,而前10个答案的票数就有近七成了;前几行则是赞同数在某个范围内的所有用户所占的比例。可以看出,越是得到赞同较多的用户,越不会依靠单独一个或几个答案就被人重视,而是拥有更多热门答案。不过另有个有趣的现象,即赞同数在10000以下的所有用户中,最高票答案所占的比例平均都在45~50%之间,超过10000后则急剧缩减。这并不难解释:知乎赞同破万的答案仅有50多个,并不常见,而绝大多数高票答案位于百字头或千字头范围内,因此有相当一部分用户会依靠单个答案的赞同而跨入上一级门槛,如果删掉它,就会掉回下一数量级里去。当你写出第一个受欢迎的答案时,无论是有干货还是抖机灵,都没法只靠它走上人生巅峰。只有坚持不断地在自己擅长的领域输出信息才能得到更多人的认可。而关注数显然是代表了更高的认可层级。如果说赞同数是军功章,代表过去的成就,那关注数就是军衔,代表日后的影响力。下面的图表解释得更明白:

它表达的就是:如果只有单个高票答案出彩,其余答案则反响平平,那么是不会得到很多关注的;反之,如果某人有几十上百个答案都很受欢迎,在一个或多个领域树立起名声,那受关注的几率会直线上涨,甚至远超过赞同数。接下来会详细分析「关注」这件事。关注者对用户而言,「被关注人数」,或者说粉丝数才是最重要的指标,因为这代表了他回答问题或赞同答案时的直接传播范围。有时候我们会借用微博的称谓,把粉丝上万的人称为「大V」(尽管知乎没有认证体系)或者叫「大牛」,以及那些几千个粉丝的中牛小牛们。那么,这些大中小牛在知乎的几百万用户中又占多少呢?直觉来说可能不少,毕竟我们每个人都关注了几个感兴趣的大牛嘛,每天时间线上推送的也常常是他们的答案,而且重复。但直觉并不那么可靠。统计结果如下:

看图可知,整个知乎,有近70%是完全没有被人关注过的小透明;超过96%的人粉丝少于10人;而粉丝超过1000人的, 只占到了万分之九。换句话说,99.9%的人影响力是极为有限的,至于有限到什么程度,后文有详述。顺便补充一下,零关注、零提问、零回答的「三零用户」共2,092,271人,占全体用户的59.65%。影响力对于普通用户而言,首页时间线是获取信息的最大渠道,[国外大数据]肯进入发现频道或话题中主动寻找新问题和答案的已经是少数了。那么,占据他们时间线的是哪些人所推送的信息呢?也就是说,知乎用户乐于关注哪些人呢?

如果一个网站的「社交性」较强,那么大家会更多地关注自己的熟人朋友;但如果「媒体性」较强的话,大家则会更专注于那些名人、大号、专业人士。微博是这两者的结合,因为上面很常见的行为是既关注一群朋友,又关注几个大V。前面也说过,知乎上大多数人的粉丝很少,那么他们更乐于互相关注呢?还是尽可能去关注大牛们呢?接下来我们就要分析这点。首先把所有用户的关注行为汇总起来,看看他们更乐于关注什么人:这张图可能不是太好理解。解释一下,如果你关注了50个人,则发生了50次「关注行为」,如果关注的是个只有十几粉丝的普通人,则会累加在1~100这个区间内,而关注的是一个几十万粉丝的名人时,就会累加在10000以上的区间内。对全部51,934,080次「关注行为」的汇总结果就是上面这张图了。与前一节的数据对比,就可以看出知乎用户的关注是何等地集中:粉丝达到100的人数仅占全部用户的不到1%,却吸引了85%的注意力;粉丝超过10000的大牛们仅有700多人,但当知乎用户每点下10次「关注」时,就有7次落在这个小群体上。再换个角度,可能会更明显些。我们要把每个知乎用户所有关注的人中,粉丝大于100的、1000的和10000的人所占的比例都计算出来,稍作简化,就是下面的三幅图了:

初看似乎更不容易理解,在此解释一下:以第一幅图为例,它说明有77%的知乎用户只关注了粉丝100以上的人,而对没什么名气的普通人一概置之不理;还有19%虽然也关注了几个普通人,但超过一半仍然是大中小牛们;只有4%例外。再看后两幅,就更清楚了。65%的人只关注粉丝上千的3000多位「中牛」;近一半的人把所有目光完全限定在粉丝过万的729位「大牛」之中。现在你应该能感到知乎用户的「受众」身份是多么明显了:他们绝大多数都只盯着那些牛人们看,时间线上铺满他们的答案和推荐。或者说,它的「社交性」远远逊于「媒体性」,尽管许多人最近开始说知乎是个社交网站,抱怨有效信息被稀释、灌水的人也越来越多。但对绝大多数人而言,来到这里还是为了阅读与倾听,而不是为了发表自己的看法的。关联度上一节的结论仿佛在说知乎无社交,是否真的如此呢?在全部51,934,080次关注行为中,仅有1,291,626次是双向的,也就是不到2.5%。换言之社交媒体上常见的「回粉」在这里基本行不通,因为你关注一个人时只有1.25%的概率得到一个回粉。考虑到知乎的媒体性和眼球集中在少数大牛的现状,并且几十万粉丝的大牛们无法逐个回粉,确实显得社交性不足。但并不代表知乎就不存在社交。如果按照粉丝数划分人群,并将每个人关注别人时对方也关注了你的情况全都整理出来,得出下面的结果:

结论有点残酷:人人都爱和大牛做朋友,所以他们关注人时得到回粉的几率也相当高;反之。当你没啥名气时则回应者寥寥。有人可能会质疑,前面说整体的双向关注率只有2.5%,怎么这里最低的一档也有6.01%呢?是不是统计出错了?不是的,因为占总人数70%的2,425,064位零粉丝的小透明所做出的23,125,516次关注行为,完全没有得到回应,即回粉率为零,这才拉低了整体水平。这个结论似乎更残酷了,还是谈点别的吧。前面一直在说所有人都在关注大牛,那么,把观察范围仅限于「牛圈」中时,他们互相之间的关系又是怎样的呢?我们仍然以粉丝数100、1000和10000为分界点,分别将他们的数据整理成表格:

解释一下里面的名词。人数:属于这个范围的人数,注意,粉丝100以上同时也包含了粉丝1000以上的人数,这点和之前的许多图表不同;关注次数:这个范围内任何一人关注了另一人,则算作一次关注,互粉则算两次;理论最大值:假设这些人中的任意两个都互粉,算出来的理论最大关注次数;关注率:关注次数/理论最大值,越高则代表大家的关系越近;平均关注人数:关注次数/人数,即平均每个人关注了多少圈子内的别人;平均路径长度:大家都知道六度分隔理论吧,指的是某人平均只需经过六个人就能联系到世界上的任意一个人,那么路径长度就是7了。当然,六度的范围已经很大了,一般来说,圈子越小、联系越紧,这个路径长度就会越短。计算公式是:,其中n为路径长度,N为人数,W为每人的平均关注数。假设关注次数达到理论最大值,则路径长度为1,即每个人只需要一步即可联系到任意的另一个人。而知乎粉丝上万的大牛们路径长度仅为1.5,这是什么概念?平均来讲,两个大牛要么直接认识,要么仅仅通过一个中间人就能认识;就算是粉丝超过100的接近两万人里,平均也只需要经过一个中间人就认识了!看到这里,恐怕大家对知乎的人际网是如何紧密有个认识了吧。顺便一提,全体知乎用户的路径长度是5.65,比六度分隔略低一些。如果还有兴趣,本文后附了个有个趣味小程序,是关于大牛互相关注的,动动鼠标就知道这帮人到底多熟了。粉丝质量以前@chenqin提过一个二级关注的概念,就是「粉丝的粉丝」到底有多少人。它能够表示出一个知乎用户到底是常被大牛关注还是常被三零用户关注,换句话说就是某个人的粉丝平均质量有多高。看过前面几节的分析之后,大概也能推测出统计趋势了:大牛们的粉丝里,与自己同级别的人数量不少,但相对来说,绝大多数都是三零用户。实际是这样吗?我们整理出了下面的图表:

图中每根柱子代表了粉丝数位于某区间段内的用户群,而不同的颜色则表示他们的「粉丝的粉丝」数量分布情况。与预计相符的趋势当然就是大牛们的粉丝里三零用户(橙色)占了绝大多数,而相反地,越是受人关注较少的,本人和粉丝所在的群体越相符。比如某人只有不到100个粉时,关注他的有70%也在这个区间内(青色)。不过,数量最小的群体拥有的能量却很大。下面就是将粉丝群体再按照他们粉丝数量汇总的情况:

这回形势倒转了,三零用户们的占比完全是零,而80%的贡献度来源于10000以上的大牛们。不太容易理解的可能就是最右一列为何蓝色部分占比会变小,其实原因就是「受大牛关注的普通用户」这个人群太少了而已,如果减去那些知乎早期注册但很久不活跃的人,恐怕这部分还会更低呢。对二级关注的分析,在统计学上可能意义并不大。因为知乎的关注现状是大量的纯读者集中关注少数大牛,恐怕并不容易在其中找出谁的粉丝质量更高。当然,我倒是发现了它的另一种用法,就是用来找僵尸粉和僵尸点赞……总结每一段正文都是围绕着数据来讲的,很少谈到这对知乎代表了什么。如果最后一定需要总结的话,其实也很简单:知乎的用户数量不少,但贡献和关注度的差距绝对不是80-20原则能形容的,简直是百里挑一,甚至万里挑一。而且用户金字塔的尖端还结成了一个十分紧密的小圈子。这个小圈子借助知乎社区和媒体平台的放大效应,拥有了不亚于大中型互联网媒体的影响力。然而无论是圈子成员,还是身为管理者的知乎团队,对现状的认识都有所不足。对一些随着影响力而来的必然状况应对无措,以至于造成了社区氛围的不和谐。了解问题是解决问题的第一步。如果只用自己身边的情况来判读最近的某些事件,会发生许多误解。多少把握一些知乎整体状况的话,或许能有所改观吧。

from:http://www.raincent.com/content-11-2932-1.html

—————————————————

数盟网站:www.dataunion.org

数盟微博:@数盟社区

数盟微信:DataScientistUnion

数盟【大数据群】272089418

数盟【数据可视化群】 179287077

数盟【数据分析群】 174306879 ,110875722 ,321311420

—————————————————

更多精彩,点击可得~

如未说明则本站原创,转载请注明出处:NULL » 数据透视:知乎网的“另一面”