博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python requests库中文乱码问题汇总(编码)
阅读量:5235 次
发布时间:2019-06-14

本文共 426 字,大约阅读时间需要 1 分钟。

Python requests库中文乱码问题汇总(编码)

 

在用requests爬取网页时,经常会碰到网页的编码问题导致中文乱码

ç¹è²æå¡

这时首先查看页面源代码,看meta标签里的编码是什么,然后设置成相应的编码即可

 
response.encoding = 'utf-8'  # 设置编码
 

但有的时候设置meta标签查看的编码依然乱码,这是可以使用apparent_encoding查看真实编码

response.apparent_encoding

然后设置编码

response.encoding = 'utf-8'  # 设置编码

还有一种特殊情况,获得的编码是gb2312,这是设置编码为gb2312依然会乱码。

这是因为gb2312支持的汉字较gbk要少很多,所以有些gb2312的网页实际需要用gbk解码。

 

转载于:https://www.cnblogs.com/IMWU/p/10956124.html

你可能感兴趣的文章
二、create-react-app自定义配置
查看>>
Android PullToRefreshExpandableListView的点击事件
查看>>
系统的横向结构(AOP)
查看>>
linux常用命令
查看>>
NHibernate.3.0.Cookbook第四章第6节的翻译
查看>>
使用shared memory 计算矩阵乘法 (其实并没有加速多少)
查看>>
Django 相关
查看>>
git init
查看>>
训练记录
查看>>
IList和DataSet性能差别 转自 http://blog.csdn.net/ilovemsdn/article/details/2954335
查看>>
Hive教程(1)
查看>>
第16周总结
查看>>
C#编程时应注意的性能处理
查看>>
Fragment
查看>>
比较安全的获取站点更目录
查看>>
苹果开发者账号那些事儿(二)
查看>>
使用C#交互快速生成代码!
查看>>
UVA11374 Airport Express
查看>>
P1373 小a和uim之大逃离 四维dp,维护差值
查看>>
NOIP2015 运输计划 树上差分+树剖
查看>>