2014年11月18日

[知乎专栏–思考IT]算法思考题:知乎网友的答题质量怎么计算?

作者 zhuangbiaowei
推荐50位优秀、活跃的知乎用户 – GayScript – 知乎专栏

因为 @GayScript 的这篇文章,我有些怨念,但是又不到吐槽的程度,所以打算做一些正面的思考:

  • 活跃度,可以按最近3个月答题数来做统计。先找到1000~5000个用户,计算最近3个月平均答题数,然后:排除掉答题最少的20%;
  • 回答质量,可以选取所有回答中,得票最高的前100个答案,作为计算依据,毕竟我们是关注一个人的最高水平,而非平均水平(用以保护太水的用户);
  • 赞答比不能直接用来排序,应该考虑粉丝数的放大效应,但是另一方面,粉丝数高,正有可能是人家的优质回答的结果,所以:赞答比直接除以粉丝数,就构成逆向歧视了。所以,我建议:Top100赞答比/平方根(粉丝数);
  • 样本用户的爬法,我不建议从某人的关注者抓取,而是从知乎的发现入手,从那些热门回答的用户中,搜集样本。然后再搜集这些样本用户的关注对象,作为二级用户数据。这样,就差不多了。

没空做啊,就是想想。如果谁有空做这个算法, 可以一起讨论一下。