如果需要转换的string中有英文符号，会无法转换 #9

moipa-cn · 2022-05-19T13:53:11Z

···
e.DOM.Find("p").Each(func(i int, s *goquery.Selection) {
text := s.Text()
result := mahonia.NewDecoder("gbk").ConvertString(text)
fmt.Println(result)
})
···
这是一段爬取代码，text里面保存的是gbk编码的字符串。
我发现只要这个text里面有英文的“”双引号，双引号里面的内容都没有被转码。
输出的结果类似于
···
我是正常的中文鈥満焐氖谴竺ā⒙躺氖切
···
后面的乱码就是在英文的双引号中的文字。
但如果我把整个html页面包括div，li标签等都打印出来，就可以转码正常。
代码类似于：
···
c.OnHTML("#ArtContent", func(e *colly.HTMLElement) {
result := mahonia.NewDecoder("gbk").ConvertString(string(e.Response.Body))
fmt.Println(result)
···
在这里result 是完全转换成中文了，没有乱码。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

如果需要转换的string中有英文符号，会无法转换 #9

如果需要转换的string中有英文符号，会无法转换 #9

moipa-cn commented May 19, 2022

如果需要转换的string中有英文符号，会无法转换 #9

如果需要转换的string中有英文符号，会无法转换 #9

Comments

moipa-cn commented May 19, 2022