有一个小问题 如果爬取过程中遇到这样的 就是一段话没说完 需要再深一层的 点进去之后有分页的 应该怎么爬取
untitled8.zip
mongo 不会保存并且能成功,但是mysql会报错
老师我找了好久也不知道为啥报错,他没有改名成功,但是图片能成功下载
image.zip
报了这个错误 没有scrap有。contrib这个模块???
前面项目都可以运行 这个运行不了 模块应该都装了
老师怎么去除红色里面的文字
如果不去掉 得的的内容是这样的
控制台并未输出百度网页的html信息
老师我这个程序报了这个错误,怎么解决
23.猫眼电影1.zip
没学Django 和 Tornado框架 可以学这个和后面的阶段的内容的吗?
老师,我用的是火狐浏览器,我已经安装了selenium包,把火狐对应的driver也放到了Python环境中,可是却不能运行代码
老师,请问爬取页面之前,我们如何就能判断一个网站是动态渲染页面还是静态渲染页面?还是只能看它爬取之后的response.text的结果判断?
为什么老师说的话,和屏幕上显示的东西不一样啊,感觉说的快,写的慢
老师,本节中,爬取小说,其实小说网址已经换了,里面的标签内容也和视频中不一样,我的思路是,先爬取首页,从首页中提取所有小说章节中的url,然后重新yield Request(url)中(按顺序添加的)让他重新爬取与重新解析,但是爬下来的小说章节保存在文件中都是乱
scrapy爬取小说.zip
序的,求解!
from urllib.request import Request,urlopen import re def get_html(url): headers = { 'User-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3756.400 QQBrowser/10.5.4039.400' 'X-CSRF-Token: 0Jq5gyy1OYDW0iKKdDCnieaIPQoxCLHg'} req = Request(url, headers=headers) res = urlopen(req) return res.read().decode() def save_html(html,filename): pattern = r'<div class="content">\s*<span>\s*(.+)<span>' v=re.findall(pattern,html) with open(filename, 'w', encoding='utf-8') as f: # f.write(html) for i in v: f.write('\t'+i+'\n\n') def main(i,m): url = 'https://www.qiushibaike.com/text/{}'.format(i) html=get_html(url) filename = '第' + str(m+3) + '页段子.html' save_html(html, filename) if __name__ == '__main__': p_list=['','page/2/','page/3/'] m = 1 for i in p_list: main(i,m) m+=1
里边的换行符可以去掉吗 我用的中文办法,但是去不掉换行符,视频方法也不行
老师,关于验证码登录,我的代码没有问题,就是我不用session会话登录反而能登陆成功,用了session对象登录每次都登录不成功,求解!
云打码demo.zip
非常抱歉给您带来不好的体验!为了更深入的了解您的学习情况以及遇到的问题,您可以直接拨打投诉热线:
我们将在第一时间处理好您的问题!
关于
课程分类
百战程序员微信公众号
百战程序员微信小程序
©2014-2025百战汇智(北京)科技有限公司 All Rights Reserved 北京亦庄经济开发区科创十四街 赛蒂国际工业园网站维护:百战汇智(北京)科技有限公司 京公网安备 11011402011233号 京ICP备18060230号-3 营业执照 经营许可证:京B2-20212637