Post

社交网络漫游指南

一直想写一篇关于信息安全的东西,但写到什么程度比较难以把握

一直想写一篇关于信息安全的东西,但写到什么程度比较难以把握,不过决定还是先动起笔,写到哪里算哪里吧。

引言

中文互联网的一个独有特征是半实名性:“实名”体现为所有社交媒体的注册都强制要求绑定手机,而众所周知,手机号与原神uid构成一一映射,一旦手机号暴露,原神uid便会被公之于众;“半”体现在手机号只是作为登录时的身份验证,明面上是不对他人可见的。

不过,以上只是理想情况,现实中难免有各种意外,让手机号一不留神就流出到网络上,使“半实名”成为“全实名”。这一现象在互联网野蛮生长的早期阶段尤为常见,早期的几个社交平台,如QQ、微博,均发生过多次用户数据大规模泄漏的恶性事件。时至今日,只要随便点开一个纸飞机的公众号,便能获取到这些数据,这也是为什么管人圈的每个观众都知道七海Nana7mi的家庭住址。

当然,本文的重点不是研究这些灰色地带,这是盒狗做的工作。之后的内容将基于公开合规的前提,讨论信息是如何在互联网上被泄漏出去的。

身份认证三要素

要实现信息安全,首先要明确哪些信息绝对不能被泄漏。这里引出身份认证三要素的概念,即姓名、原神uid和手机号,只要知道任意一项,便能将其他两项推出来。虽然办理金融业务时需要三要素齐全,但要在互联网上定位一个人,只需其中一项就够了。

虽说是身份认证三要素,但三者的关系也不是完全平等的,重要性由高到低排列:

  • 原神uid:最底层的要素,与用户身份构成一一映射,同时也是最难获取的,一般通过其他两要素获得。
  • 手机号:与用户身份构成“伪”一一映射(存在更换手机,或使用他人手机的可能),由于手机号极易获取,原神uid被开多半是因为它。
  • 姓名:考虑到重名的存在,这一要素的泄漏并不像前两者那么致命。如果你的真名是李毅,那就算被其他人知道也没什么大不了的。值得注意的是“姓名+地区”、“姓名+学校”这类双重定位法,反之如果你的真名是小伍,而且还是学校里的大明星,那你可要当心了。

考虑到QQ、微博在互联网早期的泄漏事件,如果你不是20年后新注册的用户,那么你的QQ号、微博id在实质上与手机号构成一一映射关系。因此,可以将传统三要素推广至五要素:

\[QQ/微博 \overset{(1)}{\iff} 手机号 \overset{(2)}{\iff} 原神uid \overset{(3)}{\iff} 姓名 \overset{(4)}{\iff} 手机号\]

其中,关系(1)、(2)、(3)源于数据泄漏,不能从正规渠道获取。值得讨论的是关系(4),分为两个方向,“$\implies$”同样源于数据泄漏,无法正常获取,但“$\impliedby$”存在公开的获取渠道:

  • 蓝色app:用户的姓氏不可见,可以从手机号推出名字;已知姓氏,可以验证全名。
  • 绿色app:姓名皆不可见,但绿色app是一款基于现实的社交软件,部分用户会使用真名作为id。

社交媒体数据获取

信息泄漏是一个由量变到质变的过程:很多人有在社交媒体上分享生活的习惯,如在微博上记录校园生活、在xhs上做美食探店、在b站上传旅行vlog。只看单个平台其实传递的信息并不多,但如果能将这些散落到各个平台的数据收集起来,那信息量将是相当可观的。

不同社交媒体的数据获取流程在此就不作详细讨论了,只罗列一些统计数据的站点:

1、数字图书馆

  • 网页快照,国外站点,中文网页缺失较多

2、微博

3、b站

4、公众号搜索

  • 学校信息,使用“姓名+地区”、“姓名+学校”进行关键词检索

5、领英

  • 教育/工作经历

6、小红书/抖音

  • 通讯录联系人/可能认识的人

7、贴吧

8、谷歌文档

应用示例:打假b站上“伪造学历”的up主

背景:在平行宇宙的b站,有一位自称top2毕业的虚拟主播。近期,该主播发布了一系列的反智言论,让你不禁怀疑起她学历的真实性。你希望找出她的真名,并验证她的学历是否造假。

切入点:该主播曾在小红书上提到她把自己的虚拟形象注册了商标。顺着这个思路,可以在企查查上找到她的家族公司,同时在“合作伙伴”一栏得到该主播的真实姓名。

验证:学历信息可以通过领英获取,关键词搜索“姓名+top2学校”,可以找到主播的领英主页。验证发现,该主播本科就读于一所双非院校,毕业后在top2读了一年水硕镀金,此后逢人便自夸自己是top2毕业的。不禁感概互联网的水还是过于深了。