NLP哪里跑: Unicode相关的一些小知识和工具

栏目: 编程工具 · 发布时间: 7年前

我们都知道,所有的数据,在计算机上都是以数字(严格来说是二进制)的形式存在的,文字也是如此,只不过咱们的编辑器、浏览器对这些数字做了特殊处理,将其对应的形状展示出来了而已。在这个基础上,不同的操作系统、平台、应用为了能够正常地交流,就必须约定一个统一的「计算机中的数字」到「实际文字」的对应关系(即编码标准),比方说数字 97 对应小写英文字母「a」、33528 对应「言」字之类的 —— 没错,所谓的编码标准,就相当于一个大的索引表,每个文字在这个索引表里都有一个对应的索引号(也就是我们刚才说到的数字)。

在计算机系统发展早期,其实是并没有这样一个统一的编码系统的,美国一开始就用了 0-127 的值来编码,包括了大小写字母、数字、标点符号以及一些特殊符号,这就是“美国信息交换标准代码(American Standard Code for Information Interchange, ASCII )”。显然 ASCII 是不适用于中文的,所以后来我国推出过 GB2312 标准,收录了 6763 个汉字,并在之后经过扩展有了 GBK 和 GB18030 多个编码标准;另外一方面,港澳台地区又独立发展出了繁体的 BIG5 编码……这些编码都是互相不兼容的,这就会导致使用编码 A 的网站,被使用编码 B 的计算机访问后显示为乱码的状况,而这里只提到了中英文的编码体系,实际上很多国家都有过自己的标准,而且很多是还在使用的。

基于这种状况,后来计算机领域产生了一个叫做 Unicode 的统一编码,又称「万国码」,收录了世界上各个国家大部分的文字,并且仍然在不断增修,今年六月份发布了第十一个正式版本。目前使用最广泛的是 Unicode 实现是 UTF-8 编码。

本文无意就编码标准和编码实现的关系、不同编码之间的同异这类问题做太多展开,只是说一下在做自然语言处理的工作时会涉及到的一些小知识以及相关的工具。


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

小程序大能量

小程序大能量

肖月 / 人民邮电出版社 / 2018-11 / 49.80元

本书主要针对零基础的读者,详细讲解小程序的搭建以及小程序的运营等知识。全书共有6章。第 1章重点介绍了小程序诞生的原因以及小程序的发展历史;第 2章详细讲解了快速搭建小程序的方法;第3章向读者阐述了小程序和互联网运营的关系;第4章主要介绍了小程序运营的意义;第5章全面分析了打造爆款小程序的策略;第6章重点总结了小程序的营销推广策略。 本书可以作为对小程序感兴趣的个人以及企业的学习用书,帮助读者快速......一起来看看 《小程序大能量》 这本书的介绍吧!

CSS 压缩/解压工具
CSS 压缩/解压工具

在线压缩/解压 CSS 代码

MD5 加密
MD5 加密

MD5 加密工具

正则表达式在线测试
正则表达式在线测试

正则表达式在线测试