今天在做正则替换时,发现线上效果总是出问题了,查了半个多小时,想到了应该是因为HTML转义字符的问题,后来测试确实如此。


python中处理HTML字符的代码如下,仅供参考:

import cgi
import HTMLParser


def html_encode(s):
    return cgi.escape(s)


def html_decode(s):
    html_parser = HTMLParser.HTMLParser()
    return html_parser.unescape(s)