hujiyi / blogcomments

0 stars 0 forks source link

在 .NET Core 的 HttpClient 爬虫中处理 GB2312/GBK 字符 | Hujy' Blog #13

Open hujiyi opened 4 years ago

hujiyi commented 4 years ago

https://hujiyi.github.io/2020/03/14/HttpClient-with-GB2312-GBK/

最近开始尝试使用 .NET Core 的 HttpClient 来学习写爬虫程序,第一步就遇到了某个使用 GB2312 编码的网页, 爬到的结果里面中文都是乱码, 于是想当然地在 Headers 里面添加了 "Content-Type: text/html; charset=utf-8", 却被无情地抛出一个不支持这个头部的异常,于是走了很多的弯路,才发觉,这个问题原来是 Ht