- 国际用户之间发送的图像和文件,被训练审查算法
我们在5年前提醒过《GFW的反转》,即 通过国际扩张,将自由区域的用户拉到不自由区域内。
那是5年前的文章,该现象至今依旧如此。这是高堡奇人的一个典型症候 —— 扩张、覆盖、裹挟。数字殖民是思想层面的,而不仅仅是技术物理层面。
最近,多伦多大学公民实验室的研究表明,流行的社交网络应用程序微信的加拿大用户可能正在 “帮助” 这家中国公司审查其在中国的用户。
允许用户发送消息、在社交网络上进行交互、并进行数字支付的微信,由中国通信寡头公司腾讯拥有,是中国最受欢迎的社交网络应用。在全球范围内,它拥有超过十亿的用户。
公民实验室(Citizen Lab)的研究发现,当在中国境外注册的用户之间发送的文件和图像被发送给中国境内的用户时,会触发审查。
Citizen Lab 主管 Ron Deibert 说:“该公司实际上是对一部分用户进行政治监视,这些用户正在中国大陆以外使用微信的国际版应用程序。”
“这些数据被用来训练审查算法,以便更好地对中国大陆用户进行审查和监视。这真是很令人震惊。”
在2019年11月至2020年1月的三个月内进行了一系列测试之后,Citizen Lab 得出了结论。
Deibert 说:“这里存在一个道德问题。你使用了这个应用程序,你实质上是在为中国境内的数字压制机器的完善提供了免费劳动力。你已经成为帮凶”。
公民实验室的研究人员说,他们从1月开始仔细检查了微信针对中国境内和境外用户的服务条款和隐私政策,并多次要求腾讯的国际数据保护办公室提供信息。问题集中在微信的政策及其如何共享和使用国际用户数据上。
Deibert 说:“我们没有得到很多有意义的东西,当然也没有任何指向这种数据实践的东西。”
“此外,当我们向他们发送有关我们报告的问题时,腾讯公司没有回复我们。”
审查关键字和图像
据德国数据和分析公司 Statista 的数据,微信拥有超过十亿的用户,是仅次于 WhatsApp 和 Facebook Messenger 的全球第三大流行的短信应用程序。 Deibert 说,目前尚不清楚加拿大有多少人使用该应用程序的国际版本。
Apple App Store 和 Google Play Store 中都提供了微信。
苹果拒绝对调查结果发表评论,而谷歌没有回应多项评论请求。
公民实验室先前发现,微信会审查用户使用已注册到中国电话号码的帐户发送的内容中某些关键字,但不会审查具有国际电话号码的帐户所发送的某些关键字,并且,微信会审查其认为具有政治意义的中国图片。
National Post 说,去年,加拿大用户与中国用户进行群聊时,他们的某些消息被阻止。
审查是如何进行的
公民实验室的研究人员使用新创建的微信帐户建立了两个群聊,一个使用中国境外的电话号码注册的帐户,另一个是使用中国的电话号码注册的帐户。
Citizen Lab 的研究显示,微信会扫描通过该应用发送的所有文件和图像以获取MD5哈希,本质上是图像的数字指纹。公民实验室团队对两个不同的图像进行了相同的哈希处理,一个是最近几年去世的著名政治异议人士的图像,另一个图像并不敏感,只是普通图像。
“我们会在国际用户群组中发送政治敏感的图像。然后,在一分钟后,我们将具有相同哈希值的不敏感图像发送给中国用户群组,然而不敏感的图像受到了审查,” 公民实验室的研究助理 Jeffrey Knockel 说。
“除非在国际用户中进行政治监视,否则就没有办法解释为什么不敏感的图像会被屏蔽。”
研究人员还使用文件进行了测试,结果发现,敏感的文件在非中文帐户之间传送后,再对中国帐户传送,就会被审查。
研究人员警告说,他们不知道是否对微信上发送的文本信息也使用了相同的监控。
隐私问题
不列颠哥伦比亚大学亚洲国际关系教授 Paul Evans 阅读了公民实验室报告后表示,他偶尔会继续使用该应用程序,但他建议他的学生,尤其是来自中国的学生,要小心。
他说:“一段时间以来,我们一直能意识到微信针对中国用户的审查和监视活动。现在我们也意识到,它对外国用户的监视”。
安大略省前隐私专员 Ann Cavoukian 说,该报告表明隐私专员需要采取行动。
“例如,如果我是专员,我要向安大略省的每个人都清楚说明使用微信的后果,您的信息可能会流向未知的第三方,并再次返回来困扰你。”
Cavoukian 表示,她对公民实验室的发现并不感到惊讶,而且一般人都需要意识到自己的数据有多值钱。
她说:“我并不是说其他消息传递应用程序就不收集信息。Facebook 和 Instagram 都在这样做,但就您信息的潜在用途而言,中国的微信可能完全不同。”
她警告说,任何在中国的应用程序都可能包括对用户的监视。
与公民实验室研究人员的问答
1、微信如何进行审查?
微信通过服务器端进行内容审查,审查机制存储在服务器上。
信息从一方微信用户发送到另一方时,它会途径腾讯(微信的母公司)管理的服务器,服务器在把信息传递到接收方时会先检查该信息是否含有敏感词。
含有敏感词的信息会被屏蔽,微信不会对信息发送方或接收方进行屏蔽提示。
以下截屏显示的是两个中国大陆电话号码注册的微信账号的聊天界面。一个账号试图发送关键词 “法轮功”,该关键词被屏蔽,但没有任何信息提示发送者或接收者信息被屏蔽了。
2、中国大陆微信账号与非中国大陆微信大陆账号有什么区别?
中国大陆账号指的是最初注册时使用中国大陆手机号码注册的微信账号。非中国大陆账号指的是最初注册时使用任何除中国大陆以外的手机号码注册的微信账号(比如使用加拿大或者美国手机号码注册的微信号)。
中国大陆注册账号适用的是中国大陆地区管辖区(主要是深圳市)的用户协议,并且会受到内容审查。
非中国大陆账号适用的是除中国大陆以外的管辖区(主要是新加坡)的用户协议。
此前研究指出,非中国大陆账号不受审查影响。不过,我们最新的研究表明,非中国大陆账号之间的文档和图像传输会受到监控,含有政治敏感内容的文档和图像会被添加到针对中国大陆账号的审查列表中。
3、你是如何发现非中国大陆账号存在被监控行为的?
我们曾被问及,非中国大陆注册账号是否只要不与中国注册账号通讯就不存在针对政治内容的监控。
根据我们的研究,非中国大陆注册账号之间的通讯不受审查,所以我们当时的回答是“我们认为非中国大陆注册账号之间的通讯也不受监控。”
然后我们开始好奇,如何用科学的方法测试是否不存在监控?
监控甚少无缘无故地发生,很多时候实施监控是为了其他目的,比如用来完善日后的审查机制等。
基于此前的研究,我们知道微信如何通过监控图像和文件来自动过滤敏感内容。
研究非中国大陆注册账号的困难在于非中国大陆注册账号之间不存在内容审查,所以要测试它们是否受监控我们必须使用两个不同的聊天环境:第一个是非中国大陆注册账号之间的聊天环境,用以触发监控;第二个是含中国大陆注册账号在内的聊天环境,用于监测审查变化。
当我们在仅含有非中国大陆账号的聊天环境中发送政治敏感内容,我们观察到第二个聊天环境中审查内容有所增多,这表明第一个聊天环境中的内容是受到监控的,即使它并不含有任何中国大陆账号。
4、微信如何分析、标示、并存储敏感文件?
文件会被扫描是否存在敏感文字。图像也会被扫描是否含有敏感文字,此外,图像还会被与系统现有的敏感图库比对,分析目标图片是否与图库内的其他图片相似。
如果文件被系统定义为政治敏感,文件的MD5值会被标示。微信会储存这个MD5值,以备下次更有效率地过滤这些文件。
5、微信通过消息摘要算法版本5 (MD5 hash)来迅速辨识并标志敏感内容。MD5值是什么?
MD5是一种数字指纹。MD5算法可以用来把体积大的文件缩小至一个“哈希值”。
哈希值通常由一个短的随机字母和数字组成的字符串组成。按照MD5算法的不可逆性和唯一性设计,不同的文件应该拥有不同的MD5值,但实际上该算法在漏洞。
由于微信使用MD5算法存储敏感文件的哈希值,我们利用了算法的漏洞来设计本研究。我们把两份内容不同的图像文件修改成一样的哈希值,其中一张图像含有政治敏感信息,另一张是普通的图像文件。
我们的测试显示,敏感图像在非中国大陆注册账号中传输后,拥有一样哈希值但是不含有敏感信息的图像在中国大陆注册账号中被审查了。
测试结果表明,非中国大陆注册账号间的通讯必然存在监控,因为非敏感图像的数字指纹不可能被微信系统标示成敏感信息。
下图展示了把文档或图像转换为MD5值的过程。在下图的例子中,两张不同的图像通过加密算法转换成两个唯一的MD5值。
6、这项研究存在哪些不足之处?
其中一个不足指出是我们的技术分析只能表明图像和文件是否被监控。我们目前无法得知文字通讯信息是否被监控。
在没有实质性证据前,我们提示用户有这个可能性。另一不足之处是我们的研究时间跨度数月。
虽然我们持续稳定地观察到针对非中国大陆账号的监控行为,但我们无法判断这种监控行为是否恰好在我们研究进行的时期出现。
这种监控行为也有可能已存在数年,或者一直存在。
7、对于微信非中国大陆注册账号的用户来说,这项研究的结论意味着什么?
在中国大陆以外的微信用户或许会以为微信的审查和监控机制并不影响他们。但是,我们的研究表明,用户不仅会因为政治敏感内容受到监控,用户所发的内容也会被用于训练微信针对中国大陆注册账号用户的审查系统。
8、这些研究结果是否意味着中国政府在监控微信的国际用户?
根据中国网络安全法,中国政府有权以国家安全和侦查犯罪为由要求互联网公司提供其接收到的或存储的信息。
具体就微信而言,其中国用户适用的是中国大陆的用户协议以及隐私政策,而国际用户适用的是基于新加坡的用户协议和隐私政策。
我们研究的初衷是希望了解这些签订基于新加坡的用户协议及隐私政策的微信国际用户之间的通讯时候会被分享和传输到微信位于中国的团队,或者腾讯其他位于中国的子公司。
我们希望借此了解微信国际用户的通讯是否不受诸如微信针对中国大陆用户的监控。
我们的实验显示微信国际用户之间的交流通讯会被用于扩建微信针对中国大陆用户的审查系统。
然而,我们的研究无法支持腾讯与中国政府分享微信国际用户通讯记录这样的说法。
虽然我们的研究表明微信对国际用户实施内容监控,但我们没有其他确切证据明晰哪些内容被监控,监控的所有动机,以及微信与谁或哪些机构分享了这些监控数据。
9、难道不是所有的社交媒体平台都或多或少存在监控吗?微信和其他社交媒体平台的行为有什么不同?
本报告之所以特别指出微信存在的监控行为,是因为监控的内容的特殊性,监控针对的是在中国被视为政治敏感的内容。
这当中包括批评政府以及呼吁人权关注的内容。微信的内容监控之所以独特,是因为所监控的内容对象不同,而且微信的监控系统也是有所选择地对用户实施。
我们的研究显示非中国大陆微信账号之间传输的内容会受到监控,其中政治敏感的内容会被用于训练和扩大微信针对中国大陆账号的审查。
据我们所知,目前社交媒体平台所采用的监控系统中,只有微信是利用对一类用户实施监控所获得的数据来增强其对另一类用户的监控和审查。
10、这些研究结果如何帮助我们理解中国的数字审查?
就我们所知,本研究是目前为止第一个提供实质技术证据证明微信(一款用户数量遍布全球的软件)对国际用户进行内容监控,并且通过这些监控来训练针对中国大陆注册用户的审查系统的研究。
此前针对中国的数字审查的研究大多集中在中国以内审查如何进行或者哪些内容会被审查。
近年来,中国公司日益全球化,這些公司在满足国际用户的需求的同时,需要在中国国内遵守内容管控相关的法律。
我们的研究结果在这个大环境下显得尤其重要。
11、中国的内容管控范围有多广?
中国有一套针对互联网,应用程序,和媒体的内容管控系统。所有在中国境内运营的互联网平台都必须遵守当地针对内容管理的法律法规。
互联网公司须对平台上的内容负责,如果内容不当,公司会面临被罚款或者运营牌照被吊销的后果。
这个系统的复杂之处在于当地与内容管理相关的法律法规界定模糊。比如,“扰乱社会秩序,破坏社会稳定”的内容是不被允许的,但对于什么内容“扰乱社会秩序,破坏社会稳定”没有明确定义。
互联网公司可能会在重大事件期间收到政府指令,但我们的研究显示中国目前并没有一份集中下发到公司的统一的关键词表。
公司需要自行审读有关条例和政府指令,自行鉴定如何过滤内容以及具体哪些内容需要被过滤。
我们过去的研究显示,微信会在敏感时期和重大事件期间会广泛地审查内容,比如最近针对新冠疫情的讨论。
12、研究结果指出哪些可能的法律问题?隐私协议难道不是应该告知用户相关的监控行为吗?
包括苹果和谷歌在内的应用软件平台服务商会要求应用软件提供隐私条例。许多国家也有相关法律要求公司阐明它们如何收集,处理,和存储用户数据。我们的研究显示微信国际版本的隐私条例和用户协议并没有充分告知用户他们的数据会被如何使用。
针对这种情况,部分地区的隐私专员可以以误导用户为理由给公司开出罚单。不同地区有不同的罚款规定,罚款可从数百,到数千,乃至数百万元。在某些国家,比如加拿大,居民可能向联邦隐私专员提出申诉,隐私专员可以向公司提出如何改进服务的建议。
平台服务商,如苹果和谷歌, 可以基于误导消费者和不准确提供隐私条例的理由从平台上移除相关应用。
最后,政府机构可能会调查微信如何在程序中植入内容监控。调查结果可能会导致某些政府机构禁用微信,甚至基于国家安全的理由强制平台移除软件。
13、这项研究与此前针对新冠病毒的审查研究有相关之处吗?
我们上一份报告指出微信广泛审查与新冠病毒有关的内容。因为微信采取“一APP两制”的审查系统,审查影响所有使用中国大陆手机号码注册的用户。
这一份报告指出的是,微信的内容管控并不限于中国大陆注册账号。微信针对非中国大陆注册账号进行了内容监控。
我们并没有测试与新冠病毒相关的内容是否被监控和增加到针对中国大陆账号的审查列表中,但我们的研究结果表明微信有能力这样做。
以下截屏展示了我们在上一份报告中观察到的微信针对新冠肺炎的内容审查。一名用户试图发送同时含有“美国疾控中心” 和 “冠状病毒” 的信息,但由于“美国疾控中心”和“冠状病毒”这两个词组成了敏感词组,中国大陆微信账号并没有收到这些信息。
14、你们未来的研究计划是什么?
本次报告我们发现了微信如何在国际用户中监控文件和图像传输,我们会持续本项研究,并关注类似的监控行为是否发生在文字传输中。⚪️
WeChat’s surveillance of international users boosts censorship in China, researchers say
我在中国大陆:有一次我电脑登陆微信!我通过手机助手(微信包含的一个功能)传输图片,结果都被拦截!