为什么说用语言学鉴别网络攻击者的国籍不靠谱？

内容简介：为什么说用语言学鉴别网络攻击者的国籍不靠谱？

分析攻击中所用语言知识只是归因的工具之一，而且并非总那么可靠。

恶意软件、数据盗窃、勒索软件。每个人都想知道最新疯狂攻击背后的神秘人到底是谁。近年来，安全界在使用语言学识别作恶者上进行了一些尝试，但谈到归因问题，该方法仍有许多不足与限制。

最近，情报公司Flashpoint的分析师们声称WannaCry勒索软件与中国有关的时候，语言分析进入了人们的讨论的范畴。在此之前，很多安全研究都认为该勒索软件出自朝鲜，因为攻击重用了与Lazarus组织相关的基础设施组件。

另外，Taia Global 的报告指出，影子经纪人的声明，其实是英语母语的人写的——尽管语法看起来支离破碎。语言分析还被用于指证盗取了DNC资料的 Guccifer 2.0，很可能不是所谓的罗马尼亚人。退回到2014年，Taia Global 还曾声称，语言线索将索尼数据泄露案犯指向俄罗斯黑客，而不是如美国政府宣称的是朝鲜人。

归因真是够难，依赖语言工具似乎仅仅增加了混乱。WannaCry到底是中国人还是朝鲜人干的？ Guccifer 2.0 是罗马尼亚人还是俄罗斯人的杰作？语言分析极少能引导人找出确凿证据。虽然语言分析能为研究人员带来一系列可供追踪的线索，但最多也就是支持或确认技术研究和取证方法发现的其他证据。语言分析，也只是归因武器库中的另一个工具而已。

伊利诺伊理工大学教授什洛莫·阿加门说：“语言学证据要想可信可靠，必须呈现出不同特性的一致模式，指向单一方向。Taia对索尼黑客和影子经纪人的原始分析背后的人，就是阿加门教授。

理解分析

分析类型有两种，一种查看源代码，另一种审查所用的文本。第一种形式里，分析关注的是代码风格和模式，要找出与其他已知代码样本的相同点。很多研究人员依靠这种方法来将不同攻击联系到一个黑客身上，但这不是语言分析。

第二种方法依靠人类语言，比如出错消息、对话框和直接显示给受害者看的消息。人类语言分析方法想要起效，就需要有文本，而且是大量文本。Flashpoint的WannaCry分析聚焦受害者看到的勒索信。阿加门分析了影子经纪人散漫的宣言。Guccifer 2.0 的案例中，阿加门查阅了《主板》杂志记者通过推特对 Guccifer 2.0 的采访。某些案例中，代码本身也包含有文本，比如注释信息，但那通常被认为没什么用。必须要有足量文本作为分析样本才行。

勒索软件往往非常适合采用语言分析，因为该攻击仰仗受害者能读懂的勒索消息。大多数恶意软件，甚至鱼叉式网络钓鱼活动，都经不起这样的仔细推敲，因为诱饵都是精心编造得看起来合法又貌似其他什么东西的。

分析从收集尽可能多的文本开始。限定某些数据集，可导致分析走向不可预期的路径，所以，确保包含所有可用的东西是关键。比如说，Taia的团队就审查了媒体报道中和贴在Pastebin上的20条据称来自索尼事件黑客的消息。即便如此，该团队还在报告中注明，该少于2000个单词的数据量，太少了。

语法、拼写、标点中的错误，时态混乱，乃至用词，都能给出一定线索。以英语为例，某些语法错误是英语(美式英语)母语者通常不会犯的，比如漏掉定冠词“the”和不定冠词“a/an”，或者句子中省了“to”、“should”、“must”或“will”之类的介词或情态动词。另一条线索是“-ing”词尾变形错误，比如该用“they are going”的时候用成了“they are go”。

依靠这些线索，分析师可列出5种可能语言，然后对比每个“奇点”以确定它们最接近哪种。比如说，漏掉“the”，就是俄语母语者或某些其他斯拉夫语的典型特征。Guccifer 2.0 在推特采访中一直漏冠词，就表明更可能是俄罗斯人而不是罗马尼亚人，因为罗马尼亚语是有定冠词和不定冠词的。

能认出的错误或语言特征越多，分析就越透彻。索尼报告显露出了25种不同元素。

不是事先准备好的

然而，分析语言并不总是那么直接明了，因为人们会说多种语言，且流利程度不同。举个例子，汉语母语但师从俄罗斯人学习黑客技术，顺带学了俄语，但又用英语进行攻击，那从所用第三语言中泄露出的第二语言特征就会比母语还多。

上下文也很重要。线索可能会指向说俄语的人，但如果有理由认为攻击者是中国人，那就很有可能是曾受过俄罗斯人培训的中国黑客。语言学可以辅助从源代码证据和网络取证等其他研究路径中三角定位出证据。

语言分析自身意义不大，不应该单用语言分析就归因下结论。

Flashpoint分析了WannaCry攻击中用到的28个勒索通告，涉及27种语言，得出原始勒索消息背后的作者讲中文的结论。两份通告是用中文写的，一份简体中文，另一份繁体，看起来非常自然；而其他的——保加利亚语、法语、德语、意大利语、日语、韩语、俄语、西班牙语、越语等等，都是从英语写的勒索通告翻译过来的。

中文勒索通告中含有几个口语，这在其他通告中是没有出现的，意味着作者对中文应用自如。英语文本使用了正确的拼写和大小写，但在该用“can’t”的地方错用了“couldn’t”，表明英语文本的作者并非英语母语者，而是英语学得不错的什么人。朝鲜语勒索通告满是低级错误和不正确的语法。

Flashpoint承认其分析的限制，指出这些模式有可能是作为误导而特意插入的。比如说，朝鲜语通告就被认为是特意写那么糟糕来模糊与Lazarus黑客团伙的联系。虽然分析师高度自信该勒索软件的作者汉语流利英文熟悉，且一定程度上确认英文通告是基于汉语通告写就，分析团队却并未作出明确结论。研究人员在报告中写道：“仅凭这个还不足以确定该勒索软件作者的国籍。”

事实上，Flashpoint在宣称勒索通告是汉语者写的同时，也并未斩断WannaCry与Lazarus的联系。关于该朝鲜攻击小组，我们所知甚少。或许该黑客组织里就有汉语母语者呢。很多朝鲜人都会说汉语，很多朝鲜攻击者也都在中国受训和运作，尤其是中国东北地区。研究人员过去也曾提过，很多朝鲜攻击者实际上不从朝鲜发起攻击。

为什么语言分析有价值

还有一种可能，攻击者雇佣分包商外包了各部分工作。网络犯罪是个全球经济，可能翻译是一方负责，而恶意软件则购买自完全不同的另一方。这也是为什么Flashpoint的WannaCry语言分析中，恶意软件和勒索通告的作者被打上不同标签的部分原因——两项任务有可能经由完全不同的人员完成。

语言是有特质的，分析所用词句，可让研究人员掌握更多关于攻击者身份、思维和动机方面的洞见。比如说，某说西班牙语的黑客用“grifo”指代“gas station(加油站)”。因为该词基本上只在秘鲁使用，研究人员就可以高置信度评估该黑客是秘鲁人，或者与秘鲁有极深的联系。黑客若用蔑称提及少数族裔，那他/他们的种族和性别身份，还有其政治意识形态，就会泄露一二。

误导也是有可能的。正如影子经纪人就似乎故意加入了语法错误，来掩盖其英语很溜的本质。攻击者是可以特意插入特定短语或错误，来伪造国籍误导司法部门和安全研究人员的。这也是为什么要有大量文本供分析的原因——想要保持一直出同样的错也是很难的。

纽约大学一份最近的研究，展示了语言风格分析如何被准确可靠地用于识别地下社区人士的身份，基本他们使用各种各样的别称和账户。很多攻击者可能会忽视自己在字符串、评论和消息中所用的语言，甚至没意识到这些东西能被研究人员加以分析。

语言分析不是归因的铁证，但某些情况下可与技术证据结合使用，将恶意黑客与攻击联系起来。

文本上的算法——深入浅出自然语言处理

路彦雄 / 人民邮电出版社 / 2018-3-1 / 69.00元

本书结合作者多年学习和从事自然语言处理相关工作的经验，力图用生动形象的方式深入浅出地介绍自然语言处理的理论、方法和技术。本书抛弃掉繁琐的证明，提取出算法的核心，帮助读者尽快地掌握自然语言处理所必备的知识和技能。本书主要分两大部分。第一部分是理论篇，包含前3章内容，主要介绍一些基础的数学知识、优化理论知识和一些机器学习的相关知识。第二部分是应用篇，包含第4章到第8章，分别针对计算性能、文本处理的术语......一起来看看《文本上的算法——深入浅出自然语言处理》这本书的介绍吧!

码农工具

为什么说用语言学鉴别网络攻击者的国籍不靠谱？

文本上的算法——深入浅出自然语言处理

HTML 编码/解码

Base64 编码/解码

RGB CMYK 转换工具