David

特殊字符的转义(escaping)对于网页安全和用户体验至关重要,由于在 HTML 的不同位置,需要对不同的字符进行不同的转义,各种框架/脚本语言提供了若干个不同的函数,但是,这里要介绍的是 Go 的自带 Web 框架,它能够识别 HTML,自动的选择转义含糊进行正确的转义。

Go 语言是 Google 发起的开源项目,现在已经有大量的外部人员参与到开发当中,其中不乏中国的程序员。由于是一门新兴的语言,因此设计不少之前编程语言的经验与教训。为了适应当前开发的需要,Go 自带了 Web 框架:template。

template 的一个最大的特点就是会解析模板中的 HTML 语法,从而知道所要替换的变量在网页中的位置,从而正确的进行转义,下面看一段例子程序(边边角角省掉了,template 需使用 “html/template”):

t, _ := template.New("foo").Parse(  
  `<a title="{{.}}" href="http://example.com/{{.}}/hello?q={{.}}">{{.}}</a>` +
  `<script>var s = '#Hello? I\x27m David='</script>`)  
t.ExecuteTemplate(os.Stdout, "foo", "#Hello? I'm David=")

一共就两条语句:

  1. 编译一个模板,模板中包含了 HTML 框架,其中含有一些变量。这里就是四个 {{.}}
  2. 执行模板,给出变量的值,这里四个变量的值都是 “#Hello? I’m David=”,这个古怪的字符串包含和很多需要转义的字符。转换完的结果直接输出到标准输出了。

下面是输出结果:

<a title="#Hello? I&#39;m David=" href="http://example.com/#Hello?%20I%27m%20David=/hello?q=%23Hello%3f%20I%27m%20David%3d">#Hello? I&#39;m David=</a><script>var s = '#Hello? I\x27m David='</script>

我把四个变量转换的结果用红色粗体字标了出来。可以发现,虽然调用的时候给的是同一个值,转换之后却是不同的,下面列成一个表格方便比较:

位置 取值
HTML正文 #Hello? I&#39;m David=
属性取值 #Hello? I&#39;m David=
URL Path #Hello?%20I%27m%20David=
URL Query 取值 %23Hello%3f%20I%27m%20David%3d
Javascript 字符串 #Hello? I\x27m David=

具体的转换规则是按照 HTML/Javascript 的标准进行的,这里不细说了。

这样的方式,最大限度防止了书写模板的时候忘记进行转换或者选错转换函数,因为可以不用显示的转换了。

作者未必熟悉所有的 web 框架,欢迎留言参加讨论。