PHP 对输入变量名的自动转换的问题与源码分析

栏目: PHP · 发布时间: 5年前

内容简介:表单提交到PHP脚本时,底层的PHP会做一层转换。将一些符号转成下划线实际上这层转换中会发生很多意想不到的情况。

起步

表单提交到 PHP 脚本时,底层的PHP会做一层转换。将一些符号转成下划线 _

PHP 对输入变量名的自动转换的问题与源码分析

实际上这层转换中会发生很多意想不到的情况。

列举这些情况

PHP 对输入变量名的自动转换的问题与源码分析

一个简单的测试就出现了意外,一个是单个 [ 也会被替换,对于 array 的输入, key 不会做转换。于是我多多测了一下,得出如下列表:

<input name="a.b" />        转为: $_REQUEST["a_b"]
<input name="a b" />        转为: $_REQUEST["a_b"]
<input name="a[b" />        转为: $_REQUEST["a_b"]
<input name="a]b" />        转为: $_REQUEST["a]b"]
<input name="a-b" />        转为: $_REQUEST["a-b"]
<input name=" ab" />        转为: $_REQUEST["ab"]
<input name="ab " />        转为: $_REQUEST["ab "]
<input name="arr[a.b]" />   转为: $_REQUEST["arr"]["a.b"]
<input name="ar.r[a.b]" />  转为: $_REQUEST["ar_r"]["a.b"]
<input name="arr[a[b]]" />  转为: $_REQUEST["arr"]["a[b"]
<input name="arr[a[]x]" />  转为: $_REQUEST["arr"]["a["]
<input name="arr[]ab" />    转为: $_REQUEST["arr"][0]
<input name="arr[a]b" />    转为: $_REQUEST["arr"]["a"]
<input name="arr[a.b" />    转为: $_REQUEST["arr_a.b"]
<input name="arr[[a.b" />   转为: $_REQUEST["arr_[a.b"]

这个转换机制十分诡异是吧。查了一下,在 Bug#77172 convert error on receiving variables from external sources 中提出了 id[]_text 转换成 id[] 的问题,采取的结果是补全文档上的说明。

另外也有几个讨论是否关闭这层转换:

这三个 Request 都还是 open 状态,还没有结果,其中关于关闭转换的讨论早在06年就提出来了。我不清楚 PHP 为什么会做这个转换,目的是什么。据我所知的 java,Django 都不会做转换的。

PHP对于外部输入的变量都会转换的,这就涉及到了 $_POST, $_GET, $_FILES, $_COOKIE, $_REQUEST 这些变量了。

源码分析

虽然我没有阅读过php源码,在朋友的帮助下,关于这部分的转换代码在 main/php_variables.cphp_register_variable_ex 函数中 php_variables.c#L68 ,源码精简了下流程:

PHPAPI void php_register_variable_ex(char *var_name, zval *val, zval *track_vars_array)
{
    char *p = NULL;
    char *ip = NULL;        /* index pointer */
    char *index;
    char *var, *var_orig;

    /* ignore leading spaces in the variable name */
    while (*var_name==' ') { // 忽略前置空格
        var_name++;
    }

    for (p = var; *p; p++) {
        if (*p == ' ' || *p == '.') {   // 空格和点替换成下划线
            *p='_';
        } else if (*p == '[') {
            is_array = 1;     // 如果遇到 [ 则视为数组,is_array 设为1
            ip = p;
            *p = 0;
            break;
        }
    }
    ...
}

这里可以看出,忽略前置空格是最先做的动作;当遇到第一个 [ 时,php则认为数数组,不再进行转换,设置了 is_array = 1 就 break 了。

这个 is_array 有什么用呢,往下看:

if (is_array) {
    int nest_level = 0;
    while (1) {
        char *index_s;
        size_t new_idx_len = 0;
        ip++;    // [ 的下一个字符
        index_s = ip;
        if (*ip==']') { // 如果下一个字符就已经是],表示没有设置key
            index_s = NULL;
        } else {
            ip = strchr(ip, ']');  // 查找剩余字符串中的 ]
            if (!ip) {
                /* PHP variables cannot contain '[' in their names, so we replace the character with a '_' */
                *(index_s - 1) = '_'; // 如果没找到,则将 [ 替换成下划线

                index_len = 0;
                if (index) {
                    index_len = strlen(index);
                }
                goto plain_var;
                return;
            }
            *ip = 0;
            new_idx_len = strlen(index_s);  // key 的长度到第一个出现 ] 为止
        }
    }
    ...
}

到此,转化处理的过程就很清晰了,对于数组情况的变量名,分为两种:

  1. 没找到 ] 与其匹配,该变量名不是数组,将 [ 替换成下划线,后续字符串不做处理;
  2. ] 与其匹配,取到第一个出现 ] 的位置作为 key ,舍弃后面的字符。

对于情况1 就很奇怪了,如果输入是 arr[[a.b 那么就会转成成 arr_[a.b 了。

总结

鉴于当前的转换规则总结的规律如下:

  1. 在第一个 [ 之前的字符中,忽略前置的空格,将 .空格 替换成下划线 _
  2. 在第一个 [ 之后的字符,不再进行替换处理:
    • 若后续字符中 没有 ] 时,第一个 [ 替换成 _ ,后续字符串不做转换;
    • 若后续字符中 ] 时,取到第一次出现 ] 的位置作为 key,舍弃后续字符。

另外,谁能告诉我PHP的这层转换的设计初衷是什么啊。


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

Egret——HTML5游戏开发指南

Egret——HTML5游戏开发指南

张鑫磊 等 / 电子工业出版社 / 2016-3 / 85

《Egret——HTML5游戏开发指南》由浅入深,在讲解游戏开发基础的同时提供众多实战案例供读者学习。《Egret——HTML5游戏开发指南》章节内容包含Egret基础概念及基础图形图像处理方法、网络相关操作、移动设备适配、性能优化、文本动画相关知识、调试技巧、DragonBones骨骼动画系统和P2物理引擎等。通过《Egret——HTML5游戏开发指南》,读者可以了解并掌握HTML5游戏开发技能......一起来看看 《Egret——HTML5游戏开发指南》 这本书的介绍吧!

HTML 编码/解码
HTML 编码/解码

HTML 编码/解码

Base64 编码/解码
Base64 编码/解码

Base64 编码/解码

HEX CMYK 转换工具
HEX CMYK 转换工具

HEX CMYK 互转工具