老师您好!我在这里爬虫的时候被反爬虫了,直接碰到了需要滑动验证,这可咋搞?
老师,这个怎么解决啊?前面加上了sudo还是不行的
老师这个怎么解决?它一直卡着不动,点其它地方也是移动不动,百度查了没结果
爬虫如何解决手机号收到的验证码,或者邮件收到的验证码,如何解决滑动验证码
老师,
这种怎么处理?我尝试过从源代码中点击href值去获取图片,结果是404,用的url是鼠标靠近href自己出现的url,将它复制到新窗口打开,结果是404
保存json文件使用的是.text还是.content??我试了,两种读取数据的方式保存为json文件后好像是一样的。
爬虫中处理带中文的url只能使用quote吗,requests库里没有其他方法吗
火狐放到Python根目录,谷歌放到Script文件夹内???
老师我在软件测试的视频中看到老师可以删除等待输入的竖线后面的字符,怎么实现的?
selenium如何解决重定向强制跳转网页这个问题?
老师,IE和Edge这两个的webdriver怎么设置的,我使用的是IE11, Edge 91.0.864.48,下载了对应的版本的Webdriver结果使用的时候报错
老师,你好!类似于当当网这种,要实现click(),却找不到搜索按键元素,想使用submit()也想不通,麻烦老师帮忙看下,谢谢!
ddw.7z
from fake_useragent import UserAgent import requests from lxml import etree # 发送请求 class Downloader(): def do_downloader(self,url): print(url) headers={"User-Agent":UserAgent().chrome} resp = requests.get(url,headers=headers) if resp.status_code == 200: resp.encoding = "utf-8" return resp.text # 数据解析 class Parser(): def do_parse(self,html): e = etree.HTML(html) contents = [div.xpath('string(.)').strip() for div in e.xpath('//div[@class="content"]')] urls = ['https://www.qiushibaike.com{}'.format(url) for url in e.xpath('//ul[@class="pagination"]/li/a/@href')] return contents,urls # 数据保存 class DataOutPut(): def do_save(self,datas): with open("F:/baizhan/wobushi/duanzi3.txt","a",encoding='utf-8') as f: for data in datas: f.write(data+"\n") # URL管理器 class URLManager(): def __init__(self): self.new_url = set() self.old_url = set() # 加入一个URL def add_new_url(self,url): if url is not None and url != '' and url not in self.old_url: self.new_url.add(url) # add添加 # 加入多个URL def add_new_urls(self,urls): for url in urls: self.add_new_url(url) # 获取一个URL def get_new_url(self): url = self.new_url.pop() # pop将new_url中的值取出 self.old_url.add(url) return url # 获取还有多个URL要爬取 def get_new_url_size(self): return len(self.new_url) # 获取是否还有URL要爬取 def have_new_url(self): return self.get_new_url_size() > 0 # 调度器 class Scheduler: def __index__(self): self.downloader = Downloader() self.parser = Parser() self.data_out_put = DataOutPut() self.url_manger = URLManager() def start(self,url): self.url_manger.add_new_url(url) # 将URL添加到任务列表 while self.url_manger.have_new_url(): url = self.url_manger.get_new_url() # 取出要爬取的URL html = self.downloader.do_downloader(url) # 获取网页 datas,urls = self.parser.do_parse(html) # 提取数据,datas数据,urls第二,三。。。页的URL或者是二级网页URL self.data_out_put.do_save(datas) self.url_manger.add_new_urls(urls) if __name__ == '__main__': scheduler = Scheduler() url = 'https://www.qiushibaike.com/text' scheduler.start(url)
老师,这个问题怎么改啊?看着和老师视频中的代码没出入呀
老师,我将里面的手机的url都提取出来了,这个时候我怎么进行深度爬虫。这个直接yield给start_requests不行啊,还是说要从写一个类似start_requests的方法?这个我到现在一点头绪都没有
老师:
webdriver.find_elements_by_xpath() 我通过这个获取到了a标签,我加上while循环,它一直在重复点击一个连接, 这个能不能支持循环遍历啊,点完一个点下一个。
非常抱歉给您带来不好的体验!为了更深入的了解您的学习情况以及遇到的问题,您可以直接拨打投诉热线:
我们将在第一时间处理好您的问题!
关于
课程分类
百战程序员微信公众号
百战程序员微信小程序
©2014-2025百战汇智(北京)科技有限公司 All Rights Reserved 北京亦庄经济开发区科创十四街 赛蒂国际工业园网站维护:百战汇智(北京)科技有限公司 京公网安备 11011402011233号 京ICP备18060230号-3 营业执照 经营许可证:京B2-20212637