老师,我一直有一个问题,不知道到底是什么原因,在这个爬虫视频教程中视频老师一共用了三次“cookies” 跳过密码登录;但是我为什么不行,我把登录后的网址复制到scrapy中,然后直接访问网址; 它不会报没有登录,请登录这个错误。而是把源代码直接打印出来,但是打印出来的源代码又不是 我复制的这个登录后的源代码,而是登录前的源代码;我换很多网址和账号,都不知道到底是为什么;
老师,就像这个,这是我大学学校的一个学习网址。我粘贴的这个网址(
http://trzy.edu.chinaacc.com/student/mycenter/wdzl.shtm
)是登录到我的账号信息里面去了的;可是我直接这样访问网址它居然不像视频中老师那样显示没有登录,请登录这样的话;二就是直接打印源代码,而这个源代码又根本就不是我这个网址当前的源代码; 从我们爬虫基础到scrapy到现在高级,一共用cookies跳过密码登录三次,但是每一次我都是报这个错误;希望老师你帮忙看一下,我实在不知道是什么原因;一直纠结个很长时间,这个查百度也都无法查
老师,为什么我这可以运行,但pycharm 说我没导包
老师,这个是啥意思,是配置环境不一样吗?
怎么才能弄成配置一样啊
老师,切换我自己IP地址后会有,访问浏览器会有这个错误
安装scrapy的时候报如图所示的错,是什么原因?
老师:
webdriver.find_elements_by_xpath() 我通过这个获取到了a标签,我加上while循环,它一直在重复点击一个连接, 这个能不能支持循环遍历啊,点完一个点下一个。
我运行后没反应我运行后没反应,是怎么一回事
这个next是必须要加上去的吗,edge浏览器上没有next,
老师,改不上,该如何调整
运行没有报错也没有出结果是什么情况?
怎么没有载荷
老师,你好,我按照代码文档写的代码运行出现以下出错,不知道什么原因,方便解答一下吗
from fake_useragent import UserAgent import requests from lxml import etree # 发送请求 class Downloader(): def do_download(self,url): print(url) headers = {'User-Agent' : UserAgent().chrome} resp = requests.get(url, headers=headers) if resp.status_code == 200: resp.encoding = 'utf-8' return resp.text # 数据分析 class Parser(): def do_parse(self,html): e = etree.HTML(html) # 写要爬取的内容的提取 contents = [div.xpath('string(.)').strip() for div in e.xpath('//div[@class="content"]')] urls = ['https://www.qiushibaike.com{}'.format(url) for url in e.xpath('//ul[@class="pagination"]/li/a/@href')] return contents,urls # 数据保存 class DataOutPut(): def do_save(self,datas): with open('duanzi2.txt','a',encoding='utf-8') as f: for data in datas: f.write(data + '\n') # URL管理器 class URLManager(): def __init__(self): self.new_url = set() self.old_url = set() # 加入一个url的方法 def add_new_url(self,url): if url is not None and url != '' and url not in self.old_url: self.new_url.add(url) # 加入多个url def add_new_urls(self,urls): for url in urls: self.add_new_url(url) # 获取一个url def get_new_url(self): url = self.new_url.pop() self.old_url.add(url) return url # 获取还有多少个url要爬取c def get_new_url_size(self): return len(self.new_url) # 获取是否还有url要爬取 def have_new_url(self): return self.get_new_url_size() > 0 # 调度器 class Scheduler: def __init__(self): self.downloader = Downloader() self.parser = Parser() self.data_out_put = DataOutPut() self.url_manger = URLManager() def start(self,url): self.url_manger.add_new_urls(url) while self.url_manger.have_new_url(): url = self.url_manger.get_new_url() html = self.downloader.do_download(url) datas,urls = self.parser.do_parse(html) self.data_out_put.do_save(datas) self.url_manger.add_new_urls(urls) # 主函数 if __name__ == '__main__': scheduler = Scheduler() url = 'https://www.qiushibaike.com/text/' scheduler.start(url)
老师,我将里面的手机的url都提取出来了,这个时候我怎么进行深度爬虫。这个直接yield给start_requests不行啊,还是说要从写一个类似start_requests的方法?这个我到现在一点头绪都没有
老师,这个还是打不开,我什么都没动啊?就按照视频一步步操作的,后期我还又在c盘装了一遍,也不好使。
一直显示下面这个
chmod: chmod '269953fb.0' to 100777: Read-only file system
报这个错可以不用命令行,直接在刚进去那个可视化界面根据给的路径找269953fb.0,长按打开属性直接改权限就行
非常抱歉给您带来不好的体验!为了更深入的了解您的学习情况以及遇到的问题,您可以直接拨打投诉热线:
我们将在第一时间处理好您的问题!
关于
课程分类
百战程序员微信公众号
百战程序员微信小程序
©2014-2025百战汇智(北京)科技有限公司 All Rights Reserved 北京亦庄经济开发区科创十四街 赛蒂国际工业园网站维护:百战汇智(北京)科技有限公司 京公网安备 11011402011233号 京ICP备18060230号-3 营业执照 经营许可证:京B2-20212637