连夜分析,探寻B站2022年度百大的版本答案
背景
为方便分享,做了一个微信公众号的版本,欢迎大伙捧场分享: https://mp.weixin.qq.com/s/Vq7NVn_sU_muxaFFzO0Vcg
在我写文章的几小时以前,一年一度的B站2022 百大 UP 主盛典刚刚结束,一如既往地,我点开名单尝试找寻熟悉的UP主,却发现新老面孔交集,大有陌生之感。
加之前几天偶见视频「盲猜 B 站 22 年最火的视频,居然有一半没看过?」,我的心情同片中人物一样,震惊而又陌生,所以这次完整名单揭晓后,便花1个小时来写了个爬虫,看看今年百大的「版本答案」。 照例,下面一节先写一点关键的技术细节,想要直接看结果可以跳到下下节。
技术细节
- 百大 UP 名单页面: https://www.bilibili.com/BPU2022#/poweruplist
- 其中的名单通过访问路由
/activity/operation/list
获得: https://api.bilibili.com/x/activity/operation/list?pn=1&ps=50&source_id=63a14c147e8469700e19a45d ,合计分 3 页,通过切换pn
参数换页。 - 数据中掺杂了一部分 UP 主数据,包含了 UP 主
mid
等关键数据,但是粉丝数follower
为 0 ,故该部分连带其他基础数据通过访问路由 http://api.bilibili.com/x/web-interface/card?mid= 二次查询。 - UP 主的投稿视频列表可以通过 https://api.bilibili.com/x/space/wbi/arc/search?mid= 获取,讨喜的是,数据的开头直接给出了该 UP 主在不同分区分别投稿的视频数,以嵌套字典的形式展现,示例:
"tlist":{"160":{"tid":160,"count":3,"name":"生活"},"4":{"tid":4,"count":147,"name":"游戏"}}
- 至于嵌套字典如何处理,这是一个 Python 中获取 json 解析后某 UP 主投稿第二多的分区名的示例:
c1 = sorted(searchdata.items(), key=lambda x: x[1]['count'], reverse=True)[1][1]['name']
- 更多参考: https://github.com/SocialSisterYi/bilibili-API-collect
数据时间
这次数据爬取合计关注了如下维度:
1 | ID,昵称,性别,关注数,投稿数,粉丝数,获赞数,第一分区,第一分区投稿数,第二分区,第二分区投稿数,签名,认证,大会员状态, |
谁是老人?
STN 工作室
以4位ID占据了绝对优势,泛式
与-LKs-
紧随其后,从上到下都是一些老面孔。而最新的则是汪苏泷
。
谁是粉丝之王?
罗翔说刑法
以 2572W 的千万级粉丝数获得百大粉丝榜首,而 Milk缪客
以 62W 的粉丝数守住百大 UP 粉丝数底线。
谁是获赞之王?
谁是投稿之王?
最高为 籽岷
的 5092
,最低为 light是光华
的 14
。
谁是追星之王?
CSGO久菜合子
在关注数上获得了数量级优势。
趣味数据
大会员
以下 UP 主没有大会员:
这两个有非年费大会员:
这三个有十年大会员:
籽岷
有百年大会员,其余百大均为年费大会员。 共 92 人拥有大会员。
既往认证史
- 2 人在百大前没有获得过任何认证。
- 36 人被认证为既往年份百大 UP 主。
- 74 人被认证为知名 UP 主。
- 10 人被认证为直播高能主播。
- 4 人被认证为优质 UP 主。
- 13 人被认证为官方账号,或显示为指定艺人。
- 3 人被认证或是「自称」为虚拟主播。
一点分区的版本答案
这份数据的来源在前文已经阐明,对于一个 UP 主,我们将其投稿视频前二的分区分别称之为第一、二分区,借此可以在通常意义上探索一个 UP 的主业与副业。
一些较为离谱数据的解释: 这些人浅尝辄止,只在第二分区投稿了一个视频:
这些人始终如一,只在一个分区投稿视频:
尾声
所以说,如果你从零起步,想迈进百大 UP 主的门槛,就数据来看,你最好需要完成什么条件? 拿到 70W 以上的粉丝,获取一个以上的个人认证,发表 20 个以上的视频,拥有 200W 以上的点赞数。
主业目前还是一个蓝海,游戏区可以掺和,动画美食科普区也行。但是最好还是涉足一下生活区,作为垫底的副业。