URL特殊字符和JS编码解码方法

栏目: 后端 · 前端 · 发布时间: 5年前

内容简介:文章目录我们在操作
  • Home
  • Programming >Front end >Javascript
  • URL特殊字符和JS编码解码方法

文章目录

前言

我们在操作 URL 的时候经常需要处理其中的特殊字符,因为在 URL 中有很多字符是有特殊意义的,比如 ?&= 等等,如果在处理 URL 的时候不对这些特殊字符进行转义,那么浏览器很可能会错误解析 URL ,所以一般的编程语言都提供了对 URL 进行编码解码的 API ,在 JS 中也有对应的方法 encodeURIdecodeURIencodeURIComponentdecodeURIComponent

escape 方法已经从标准中移除,虽然有些浏览器还支持,但是尽量使用上面的方法。

URL编码

URL 编码也称作百分号编码 Percent-encoding ,是对我们在 HTTP 请求中的 URL 实行的编码机制。因为我们的资源路径中的字符很有可能是在 URL 中有特殊意义的字符,比如我在本地保存一个文件名叫 test test.txt ,中间有一个空格,当我把这个文件上传到服务器比如说阿里云 oss 中的时候,如果我要复制这个资源的路径就会编程 https://cdn1.clloz.com/test%20test.txt ,我们的空格被转义称为 %20 (这里的百分号有点像我们平常用来转义的 \ ),如果不进行转义,浏览器无法明白这个 URL 到底是什么意思。我们对资源或者目录的命名是可以包含任意字符,比如空格, ? 甚至是各种不同的语言的字符编码,为了能让我们在请求资源的时候有一个统一的标准,必须对 URL 进行编码。

再举两个例子:例如 URL 参数字符串中使用 key=value 键值对这样的形式来传参,键值对之间以 & 符号分隔,如 /s?q=abc&ie=utf-8 。如果你的 value 字符串中包含了 = 或者 & ,那么势必会造成接收 URL 的服务器解析错误,因此必须将引起歧义的 &= 符号进行转义,也就是对其进行编码。

又如, URL 的编码格式采用的是 ASCII 码,而不是 Unicode ,这也就是说你不能在 URL 中包含任何非 ASCII 字符,例如中文。否则如果客户端浏览器和服务端浏览器支持的字符集不同的情况下,中文可能会造成问题。

URL中的字符

URL 中的字符分为保留字符和为保留字符,保留字符是那些具有特殊含义的字符,例如:斜线字符用于 URL (或 URI )不同部分的分界符;未保留字符没有这些特殊含义。百分号编码把保留字符表示为特殊字符序列。

  1. 保留字符: * ' ( ) ; : @ & = + $ , / ? # [ ]RFC 3986 section 2.2 保留字符 (2005年1月))
  2. 未保留字符: A B C D E F G H I J K L M N O P Q R S T U V W X Y Z a b c d e f g h i j k l m n o p q r s t u v w x y z 0 1 2 3 4 5 6 7 8 9 - _ . ~RFC 3986 section 2.2 保留字符 (2005年1月))

URI 中的其它字符必须用百分号编码。

因为保留字符在 URL 中具有特殊的含义,所以当我们的路径中使用保留字符作为普通字符的时候就必须进行转义,其实保留字符的转义非常简单,就是在对应保留字符的 ASCII 码对应的十六进制数前面加上转义字符 % 即可。对于非 ASCII 字符, 需要转换为 UTF-8 字节序, 然后每个字节按照上述方式表示。

例如, / , 如果用作 URI 的路径成分的分界符, 则是具有特殊含义的保留字符. 如果该字符需要出现在 URI 一个路径成分的内部, 则三字符序列 %2F%2f 就用于代替原本的 / 出现在该 URI 路径成分的内部。

保留字符 编码
空格 %20
! %21
" %22
# %23
$ %24
% %25
& %26
' %27
( %28
) %29
* %2A
+ %2B
, %2C
/ %2F
: %3A
; %3B
< %3C
= %3D
> %3E
? %3F
@ %40
[ %5B
\ %5C
] %5D
| %7C

JS中的URL编码解码方法

JS 中提供了两组用来编码解码 URL 的方法, encodeURIdecodeURIencodeURIComponentdecodeURIComponent 。两组方法功能一样,都是用来对 URI 进行编码或者解码,不同的是对编码字符的范围有所不同, encodeURI 的范围要比 encodeURIComponent 小一些。

encodeURI 会转义除以下字符的所有字符:

类型 包含
保留字符 ; , / ? : @ & = + $
非转义的字符 A-Z a-z 0-9 - _ . ! ~ * ' ( )
数字符号 #

encodeURIComponent 会转义除了转义除了 字母数字().!~*'-_ 之外的所有字符。

对于非 ASCII 码的字符,这两个方法都会将对应的字符的多字节的 UTF-8 编码转义成单字节的 16 进制数,比如 你好吗UTF-8 编码是 E4BDA0 E5A5BD E59097 就会被这两个方法转义为 %E4%BD%A0 %E5%A5%BD %E5%90%97 ,每个字都是三个字节,就被转义为三个两位的 16 进制数。

参考文章

  1. 网址URL中特殊字符转义编码
  2. 百分号编码
  3. ES5/标准 ECMAScript 内置对象

以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

计算理论导引

计算理论导引

[美]Michael Sipser / 唐常杰、陈鹏、向勇、刘齐宏 / 机械工业出版社 / 2006-7 / 36.00元

本书是计算理论领域的经典著作,被国外多所大学选用为教材。本书以注重思路、深入引导为特色,系统地介绍计算理论的三大主要内容:自动机与语言、可计算性理论和计算复杂性理论。同时,对可计算性和计算复杂性理论中的某些高级内容作了重点讲解。全书通过启发性的问题、精彩的结果和待解决问题来引导读者挑战此领域中的高层次问题。新版的一大亮点是增加了更多习题、教辅资料和部分习题解答,更加有利于教学。 全书叙述由浅......一起来看看 《计算理论导引》 这本书的介绍吧!

UNIX 时间戳转换
UNIX 时间戳转换

UNIX 时间戳转换

RGB HSV 转换
RGB HSV 转换

RGB HSV 互转工具