遭遇UTF-8编码转换后，空格变成问号的问题

首页 > 经验技巧, 网站相关 > 遭遇UTF-8编码转换后，空格变成问号的问题

遭遇UTF-8编码转换后，空格变成问号的问题

2010年3月14日 14,693 浏览数发表评论阅读评论

　　前些日子单位网站改版要求我将一个文学类子站转换一下后台，该子站由“翔宇”CMS系统生成，由于数据量不是很大，我便采用了简便的采集办法来转移数据，在转换过程中遭遇到UTF-8编码下的特殊空格问题，让我费了一番周折。

　　该子站页面内容为UTF-8编码，采集过来以后需要转换成GB2312编码，然后再写成静态文件。从设置采集规则到正式采集都非常顺利，页面内容被完整地抓取过来并存入数据库，不过内容中出现很多“问号”，这些“问号”就是UTF-8编码下的空格，如果不处理这些“问号”生成静态文件时会提示错误。我尝试用

1	Replace(content,"?"," ")

来进行替换，发现替换不成功，可见转换后的“?”号不是普通的“＆nbsp;”问号。我尝试用left函数单独取出这个字符，然后再转成ASCII码看看，发现的转换后的码值是“63”，而十进制的“63”不就是常规的“？”号吗？看来这个字符还不能进行ASCII转码，转换过就无法再还原回去了！

　　为了解决这个问题我查找了些资料，终于发现了问题的原因：在UTF-8编码里面存在一个特殊的字符，其编码是“0xC2 0xA0”，转换成字符的时候表现为一个半角空格，跟一般的半角空格（ASCII 0x20）不同的是它的宽度不会被压缩，所以排版中常能用到它。但是GB2312、Unicode之类并没有这样的字符，所以转换后会显示为“?”号，只是显示为问号而不是真正的问号，所以无法被替换！

　　既然通过采集已将内容转换成GB2312编码了，又无法使用常规的办法替换，网站迁移工作顿时陷入僵局。如果将“0xC2 0xA0”转换为GB2312编码的字符，然后再拿这个字符去替换，应该可以解决问题。说实在的，好久都没有搞ASP了，很多函数也都忘了，一时也找不到这样的转换函数，最后采用了一个笨法子解决了这个问题：

处理过程是这样的：

　　在正式采集之间，先临时采集一个页面，取出其中的“?”空格这个字符，并将该字符存入“缓存”中，然后就开始正式的采集工作了，每采到一个页面就拿“缓存”中的字符进行全文替换，替换成常规的“＆nbsp;”空格。速度稍微慢一点但效果很好！　

　　在写这篇文章之前我还在考虑这个问题，也可能是水平有限吧，转换函数始终搞不定，如果哪位高手看到本文不妨告之一二，谢谢！

原创文章如转载，请注明：转载自无花果的原创博客 [ http://wuhuaguo.lifeskillcn.com ]

本文链接地址: http://wuhuaguo.lifeskillcn.com/archives/253

分类: 经验技巧, 网站相关标签:

评论 (1) 发表评论

thanks

2010年10月12日19:54 | #1

回复 | 引用

遇到同样的问题，我是在做excel的VBA截取网页时遇到相同的问题，看了你的帖的到启发，也用你的法子，先读到缓存，再替换文本，搞定了！多了3行代码，不过还好！呵呵
thanks！

经验谈初学电脑之一：认识电脑你会在网上查找资料吗？

遭遇UTF-8编码转换后，空格变成问号的问题

相关文章：

站内搜索

历史存档

友情链接

遭遇UTF-8编码转换后，空格变成问号的问题

相关文章：

订阅博客

站内搜索

热门标签

历史存档

友情链接