NLP哪里跑: Unicode相关的一些小知识和工具

栏目: 编程工具 · 发布时间: 6年前

我们都知道,所有的数据,在计算机上都是以数字(严格来说是二进制)的形式存在的,文字也是如此,只不过咱们的编辑器、浏览器对这些数字做了特殊处理,将其对应的形状展示出来了而已。在这个基础上,不同的操作系统、平台、应用为了能够正常地交流,就必须约定一个统一的「计算机中的数字」到「实际文字」的对应关系(即编码标准),比方说数字 97 对应小写英文字母「a」、33528 对应「言」字之类的 —— 没错,所谓的编码标准,就相当于一个大的索引表,每个文字在这个索引表里都有一个对应的索引号(也就是我们刚才说到的数字)。

在计算机系统发展早期,其实是并没有这样一个统一的编码系统的,美国一开始就用了 0-127 的值来编码,包括了大小写字母、数字、标点符号以及一些特殊符号,这就是“美国信息交换标准代码(American Standard Code for Information Interchange, ASCII )”。显然 ASCII 是不适用于中文的,所以后来我国推出过 GB2312 标准,收录了 6763 个汉字,并在之后经过扩展有了 GBK 和 GB18030 多个编码标准;另外一方面,港澳台地区又独立发展出了繁体的 BIG5 编码……这些编码都是互相不兼容的,这就会导致使用编码 A 的网站,被使用编码 B 的计算机访问后显示为乱码的状况,而这里只提到了中英文的编码体系,实际上很多国家都有过自己的标准,而且很多是还在使用的。

基于这种状况,后来计算机领域产生了一个叫做 Unicode 的统一编码,又称「万国码」,收录了世界上各个国家大部分的文字,并且仍然在不断增修,今年六月份发布了第十一个正式版本。目前使用最广泛的是 Unicode 实现是 UTF-8 编码。

本文无意就编码标准和编码实现的关系、不同编码之间的同异这类问题做太多展开,只是说一下在做自然语言处理的工作时会涉及到的一些小知识以及相关的工具。


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

松本行弘的程序世界

松本行弘的程序世界

松本行弘 / 柳德燕、李黎明、夏倩、张文旭 / 人民邮电出版社 / 2011-8 / 75.00元

《松本行弘的程序世界》是探索程序设计思想和方法的经典之作。作者从全局的角度,利用大量的程序示例及图表,深刻阐述了Ruby编程语言的设计理念,并以独特的视角考察了与编程相关的各种技术。阅读《松本行弘的程序世界》不仅可以深入了解编程领域各个要素之间的关系,而且能够学到大师的思考方法。 《松本行弘的程序世界》面向各层次程序设计人员和编程爱好者,也可以供相关技术人员参考。一起来看看 《松本行弘的程序世界》 这本书的介绍吧!

随机密码生成器
随机密码生成器

多种字符组合密码

Base64 编码/解码
Base64 编码/解码

Base64 编码/解码

UNIX 时间戳转换
UNIX 时间戳转换

UNIX 时间戳转换