发现不正常的活动:从追踪到验证的思考方式(2)

  • 信息战是这些寡头社交网络最常见和最具危险性的用例这一

如果您不能百分百肯定一个账户是水军,那就不要指出它,万一被倒打一耙,您的信誉将严重受损,甚至让您的调查目标背道而驰。

指称水军的关键证据是证明某个或某群账户受雇发表特定言论、操纵舆论和推高虚假的热点,如果没有受雇的证据,您就不如绕开水军的指称,而是强调 “协调性不真实行为”。尤其是,很多机器人并非完全自动化,它们是人类和自动化相结合的状态,了解这点很重要。

欢迎回来!

如果您错过了前面的内容,可以在这里回顾:《没有固定模式,但总会有一些迹象:从追踪到验证的思考方式(1)》。

我们有专门汇总信息战揭露和分析的专栏,也专门介绍过《如何识别水军》、《如何追踪水军幕后推手》、《如何识别造假账户》、《可视化信息战报告》、以及 《水军的目的是什么、他们如何工作》。本文将简要解释这个问题,并提供一些工具、和一个香港的案例。

机器人是一种软件应用程序,可以自动执行人类(僵尸牧民)分配给它的任务。一个机器人做的是好事还是坏事,完全取决于它的 “主人” 的意图。

在公开辩论中最常被提及的机器人是社交媒体机器人,它们活跃在包括 Facebook、Twitter 和 LinkedIn 在内的几乎所有寡头社交媒体平台上。在这些平台上,它们可以被用来传播特定的意识形态信息,目的往往是为了让不知情的人们看起来好像 “公众” 对某个特定的话题、人物、内容或标签的支持率很高,其实是虚构的。

社交媒体机器人往往分为三大类:预定机器人、观察者机器人、和放大器机器人。了解您对哪种机器人感兴趣很重要,因为每种类型都有特定的目的。随着每个目的的实现,它们会出现不同的语言和交流模式。在虚假信息的背景下,调查者最感兴趣的是研究 “放大器机器人”。

📌 放大器机器人的存在正是为了放大虚构的热点和传播特定立场的内容,目的是塑造/操纵网络舆论。它们也可以用来让个人和组织看起来比实际拥有更多的粉丝。

这种机器人的力量来自于数量。一个由放大器机器人组成的网络可以操纵热门标签、传播特定链接或视觉内容,或者结伙在网上大量发送垃圾信息或骚扰目标个人,试图诋毁目标人或使目标人看起来有争议或受到围攻。

通过大量的合作,放大器机器人看起来更加 “合法”,因此他们可以操纵网络舆论环境

传播虚假信息的放大器机器人主要通过标签活动或以链接、视频、备忘录、照片、或其他内容类型的形式分享新闻。标签活动包括机器人不断地在推特上协调性发布相同的标签,或一组标签。其目的通常是欺骗 Twitter 的趋势算法,将特定的标签添加到趋势话题列表中

购买和创建机器人是比较容易的。无数网站都会以几百美元甚至更低的价格卖给你自己的机器人军队。但一个复杂的、类似于人类的僵尸网络的创建和维护要难得多。

开发者和研究人员已经创建了许多工具来帮助评估一个账户是否可能是机器人。这些工具在收集信息方面可能是有用的,但一个工具的得分绝不是确定的,绝不应成为任何报告或结论的唯一依据。

最著名的工具之一是 Botometer,由印第安纳大学的研究人员创建。根据各种标准,它计算出一个分数,说明一个 Twitter 账户及其追随者是机器人的可能性有多大。

对于 Reddit,Jason Skowronski 创建了一个实时仪表盘,它就会尝试评估评论是由机器人、trolls 还是人类做出的。

虽然也有例外,但大多数公开的僵尸检测工具都是为 Twitter 创建的。原因是许多社交网络  — — 包括 Facebook  — — 限制其API的方式,使公众无法分析和使用其数据来创建这种公共调查工具。

📌 如前所述,僵尸检测工具是一个很好的起点,但它们不应该是您唯一的证据。它们的准确度不同的原因之一是,根本没有一个通用的标准列表来100%肯定地识别机器人。

📌 有一些指标可以参考,并怀疑为机器人,但并没有哪个单独的指标能实现定性,这点很重要,具体介绍参见《如何分辨:机器人、僵尸网络和 trolls

要确定虚假信息活动是由机器人还是由人类进行的,他们是否有动机或受雇发布大量关于特定主题的内容,这往往是一个挑战。例如,BBC发现,在2019年11月发布类似的 Facebook 信息,放大关于鲍里斯·约翰逊的有利内容的账户,其实是由假装成社交机器人的人类管理的

您也可能会遇到这种网络机器人,即:部分自动化、部分由人类管理的社交媒体账户,它们表现出自然和非真实行为的结合。

📌 调查者必须避免在没有适当证据和分析的情况下,将可疑账户错误地贴上机器人的标签,因为一个错误的指控可能会破坏您的可信度,尤其是,对您的调查目标可能适得其反,以色列的例子就很说明这点,见《舆论战》。

处理这些不同类型的机器人、网络机器人和过度活跃的人类账户的方法之一是:将调查重点放在监控所有不真实行为或类似机器人的行为上,而不是试图只识别一种类型的可疑账户

例如,Bot Sentinel 提供了一个公开的数据库,其中包含了(美国)表现出可疑行为的 Twitter 账户。他们的创建者决定收集 “反复违反Twitter规则的账户”,而不是专门搜索社交机器人

调查不真实行为的步骤

一般来说,建议您采用以下方法来识别社交网络上的不真实和潜在的自动化行为:

1. 手动检查账户的可疑行为。

2. 结合使用工具或更具技术性的网络分析。

3. 调查他们的活动、发布内容和与他们互动的其他账户的关系网络。结合传统的调查技术,如尝试联系他们或他们声称认识的人。

4. 向专门研究机器人和非真实活动的外部专家咨询。

要了解如何手动评估可疑账户,重要的是要了解 Twitter 或其他社交网络上自动账户的典型警告信号。

每个社交媒体机器人都需要一个身份。僵尸创建者希望使他们的账户尽可能地看起来令人信服,但建立和维护看起来可信的个人资料需要时间,特别是如果目标是运行一个大型僵尸网络的话。一个人拥有的账户越多,创建和管理这些账户以使其看起来真实的方式就越耗时。这就是这些虚假账户容易出现纰漏的地方。在许多情况下,它们的创建者只做了最起码的工作来建立一个个人资料档案,一个好的调查员可以检测到这一点。

📌 以下是一些需要注意的地方。

1、没有真实的个人资料照片

偷来的个人资料照片或根本没有个人资料照片都可能是不真实的指标。由于僵尸创建者想要同时创建许多账户,他们必须获得一系列照片,并经常从其他网站复制这些照片。然而,这样做会造成不一致的情况。例如,一个账户的个人资料照片是男性,但用户名却暗示女性是该账户的所有者,这可能是一个信号,表明有些事不对。为了绕过这个问题,许多僵尸创建者选择卡通或动物作为个人资料照片,但这种策略再次成为另一种模式,用来检测不真实或僵尸账户。

比如这里《追踪网络水军团队:如何识别机器学习制造的假人脸 — 案例》。

2、自动创建的用户名

其次,要注意名字和用户名。每一个 Twitter ID都是独一无二的,这意味着您想要的用户名往往已经被别人抢走了。这对普通人来说只是一个不便,但当有人试图在短时间内创建50、500或5000个账户时,就会成为一个真正的挑战。

僵尸创建者经常部署一种策略来帮助他们轻松找到未被使用过的用户名。具有以下标准的脚本被用来自动创建用户名:

📌 当您发现多个 Twitter 帐户的ID由相同数量的字符和数字组成时,您可以在每个帐户的关注者列表中手动搜索具有该模式的更多帐户,以潜在地识别僵尸网络。

在这个例子中,这些账户还有另一些共同点:它们都是在2019年9月创建的。当与其他信号相结合时,这可能是一个指标,表明这些账户都是由同一个人在同一时间完成创建的。

3、账户活动不符合账户年龄

如果一个新注册的账户已经有比较多的粉丝,或者它在短时间内发布了大量的推文,您应该更加怀疑。如果一个老账号尽管非常活跃,但粉丝却很少,也是同样的道理。

如果您遇到这样的账号,可以更深入地分析该账号的推文活跃度。将位于页面顶部的推文数量,除以该账号的活跃天数。例如,以一个截至2019年11月11日有3,489条推文的账号为例,该账号创建于2019年8月15日。将3,489除以89(它的活跃天数),就可以得到每天39.2条推文。

从该账户生命周期内的推文数量来看,这个数字是否显得太高、不现实或无法由人类维持?

4、可疑的推文模式

另一个需要研究的因素是发布推文的节奏。人类可能会对他们通常发推文的日子和时间表现出轻微的偏好,但一个人不太可能只在周一、周二和周三持续发推文,而在一周的其他日子里长期保持完全沉默。

如果您想看到一个特定账户的这些模式的可视化,请查看 Luca Hammer 打造的账户分析工具

5、将可视化作为调查的一部分

为了更好地了解整个僵尸网络的活动情况,您可以使用 Gephi 这样的可视化平台。

比如下面这样,通过观察大量Twitter账户之间连接关系的可视化表现,您可以注意到图片左侧的结构(红色)很突出:

通过放大该区域,可以查看哪些 Twitter 帐户属于此特定结构:

每一个红色的圆圈代表一个Twitter账号,线条是它们之间的关系。通常情况下,较小的账号围绕着中间一个较大的圆圈排列,这意味着它们都会与影响力中心账号进行互动。然而,上面结构中的账号之间并没有这样的互动关系,这就预示了异常账户的行为。

下面是香港的案例。本案例是来自Bellingcat 的开源调查员 Johanna Wild 的工作。

2019年8月,Twitter 宣布删除数千个账户,称其帮助传播关于香港抗议活动的虚假信息,是 “国家支持的协调性行动” 的一部分。很快,Facebook 和 YouTube 发布声明称,他们也删除了从事有关抗议活动的协调性不真实行为的账户。

与 Facebook 和 YouTube 不同的是,Twitter 公布了其删除的账户名单,为进一步调查该信息战活动提供了机会。

发现可疑活动

调查者首先搜索了关于抗议活动的相关标签。简单的关键词搜索 “香港骚乱” 就会出现很多推文,有些包含多个标签。

调查者想把重点放在亲中国的账户和内容上,因为这些账户和内容是 Twitter 已经发现的从事不真实活动的账户和内容。首先尝试了一些关键词的表述,比如:

“香港的耻辱” -警察 -政府

这个搜索产生的结果包含 “香港耻辱” 的短语,但不包含警察或政府的字眼。目标是过滤掉 “香港警察可耻” 等推文,保留 “香港抗议者可耻” 等字眼的推文。其他搜索关键词是 “香港蟑螂” 和 “香港暴徒”,这是亲北京推特账号对抗议者的常见描述。

在使用这些和其他搜索词后,调查者检查了关于香港的最近期推文,这些推文获得了许多转发和点赞。您可以简单地通过添加 “min_retweets:500” 或 “min_faves:500” 来过滤参与度。这将只得到至少500次转发或点赞的推文。这是推特高级搜索,具体方法见这里从推特中挖掘真相不需要太复杂的工具:一个常用工具的全面指南》;还有这里《如何发现社交媒体上的机器人账户?- 12种方法》;以及工具介绍《深挖推特:提供技巧、工具和平台

然后看一下与这些推文互动的 Twitter 账号。例如,有这样一条推文,来自验证用户胡锡进,他是中国国营媒体《环球时报》中英文版的主编:

单击每一个 “转推” 和 “点赞” 超链接,以显示执行相关操作的帐户列表:

假设是,不真实的亲北京账号会放大中国知名国家媒体人员的推文。在这种情况下,很多用户名脱颖而出,因为他们的名字后面都有一个八位数字,这表明这些用户在注册时接受了Twitter生成的默认用户名。这就需要进一步研究他们的行为和特点。

📌 当检查这些账户时,可以看到他们的粉丝数量很少,关注的账户很少,没有提供任何识别性简介,正在转发其他人的推文,几乎没有发送自己的推文,并且几乎只宣传反对香港抗议活动的内容。

调查者还注意到,这些账号的创建日期非常接近,大约都是在2019年8月创建。因为Twitter公布了它删除的亲中国账户的名单,调查者可以检查这些账户的创建日期,看看它们是否呈现出类似的趋势。

在 Luigi Gubello 的帮助下,调查者使用了一个简单的 Python 脚本来识别数据中的模式(您可以在他的GitHub上找到代码,更多关于他的信息在这里)。下图显示,被删除的账户都是近几个月内创建的,这与调查的一组活跃账户的特征一致。

进程自动化

现在调查者已经确定了表现出可疑特征和行为的推文样本,想进行更大规模的分析。这需要一些自动化。一位Bellingcat研讨会的参与者有软件开发的背景,所以他写了一小段 JavaScript 代码来执行两个功能:提取转发或点赞特定推文的账户的用户名,然后快速过滤用户名列表,使其只关注符合某种模式的用户名。他过滤的模式是一个名字后面跟着一个八位数字。

通过在Chrome开发者工具控制台中加载这个脚本,它直接在浏览器中提供网络开发者工具,每当点击特定推文的 “转发” 或 “点赞” 超链接时,它就会在后台运行。然后它会返回高亮显示符合该模式的用户名的结果。您可以在这里看看这是什么样子的

现在可以使用这个脚本来检查与其他突出的亲中国推文互动的账户。在香港抗议活动中,华裔女演员刘亦菲分享了一条支持警方的微博,这导致社交网络上一些人呼吁抵制她的新电影 “花木兰”。然而,调查者也注意到,许多微博账号使用 #支持木兰# 的标签支持这位女演员和她的电影。调查者决定用上述脚本来研究转发或点赞支持木兰推文的用户。

调查者收集了适合目标模式的帐户名,然后确定了它们的创建日期。这表明大多数帐户都是在8月16日创建的

只需将鼠标悬停在个人资料的 “joined” 信息上即可收集帐户的确切创建日期和时间,如下所示:

有了面前的一组帐户,调查者开始对其共享内容的手动分析。很快就很清楚,这个名单上的帐户全都在推特上赞成刘亦菲并反对香港示威者。

调查名单中的许多账户在8月17日或18日之后变得不再活跃,这再次显示出协调性行动的特征。不知道它们休眠的确切原因,但有可能是Twitter要求创作者登录时进行额外的验证步骤,而它们无法遵守。另一种可能是,它们只是停止了推文,因为在 Twitter 开始暂停亲中国的账户后,僵尸创建者不想引起进一步的怀疑。

然而,几个月后,其中几个账号又开始活跃起来。这一次,他们传播的是关于刘亦菲和她的电影 “花木兰” 的正面信息。

调查者还发现带有其他用户名模式或创建日期的亲 “花木兰” 帐户不断传播着有利于刘亦菲的消息。为此,调查者搜索了包含 #SupportMulan 或 #liuyifei 等主题标签的推文:

似乎这些账号改变了策略,从批评香港抗议者到宣传女演员和她的电影,也许是为了避免被 Twitter 封杀。

📌 该案例研究显示了如何结合人工和自动技术来快速发现可疑的 Twitter 账户信息战网络。它还说明,即使在一个平台宣布关闭某些账户后,继续寻找其他可疑账户和活动也是有用的。

借此,您能够使用一些简单的搜索技术和账户细节分析来识别一组更大的虚假账户网络,这些账户显示出从事协调性非真实活动的强烈指标。⚪️

Case study: Finding evidence of automated Twitter activity during the Hong Kong protests

—— 未完待续 ——

发表评论

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据