1.登陆网站,敞开开发者形式。
能够在阅读器中点击右键查看或许F12翻开开发者形式。
2.点选 NetWork,DOC,然后改写页面。
在 network 中挑选 doc,在恳求的 headers 中查找 cookie。
3.获取对应的 cookie 以及 user-agent。
4.在代码中添加到 headers 里边。
def getHTMLText(url): kv = { 'cookie': 'adsgadfafegadsgadsfaefasdfaewfadsfag' 'uaer-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36' } try: r = requests.get(url, headers=kv, timeout=30) r.raise_for_status() r.encoding = r.apparent_encoding return r.text except: return "gg"
实例扩展:
程序的结构设计
- 提交产品查找恳求,循环获取页面
- 关于每个页面,提取产品名称和价格信息
- 将信息输出
遇到问题
爬取成功,数据有问题
打印 html 文件,回来如下
<script type="text/javascript"> TRLang = { ERROR_NICK_BLANK: "请填写账户名", ERROR_PASSWORD_BLANK: "请输入暗码", ERROR_NICK_PASSWORD_BLANK: "请输入账户名和暗码", ERROR_CHECKCODE_BLANK: "请输入验证码", TIPS_REMEMBER_PASSWORD: "记住暗码", TIPS_NOT_REMEMBER_PSW_ON_PUBLIC: "不要在公共计算机记住暗码,避免账户被盗" }; </script>
到此这篇关于Python爬虫爬取产品失利处理办法的文章就介绍到这了,更多相关Python爬虫爬取产品失利内容请查找脚本之家曾经的文章或持续阅读下面的相关文章期望我们今后多多支撑脚本之家!