会员可以在此提问,百战程序员老师有问必答
对大家有帮助的问答会被标记为“推荐”
看完课程过来浏览一下别人提的问题,会帮你学得更全面
截止目前,同学们一共提了 132647个问题
Python 全系列/第十六阶段:Python 爬虫开发/爬虫基础 406楼
Python 全系列/第十六阶段:Python 爬虫开发/爬虫基础(旧) 407楼

14_自动保持cookie的使用.zip

代码哪里错了,data里面没有next

Python 全系列/第十六阶段:Python 爬虫开发/爬虫基础 409楼
Python 全系列/第十六阶段:Python 爬虫开发/爬虫基础(旧) 410楼

from fake_useragent import UserAgent
import requests
from lxml import etree

#发送请求
class Downloader():
    def do_download(self,url):
        print(url)
        headers = {"User-Agent":UserAgent.chrome}
        resp = requests.get(url,headers=headers)
        #如果=200,则发送请求成功
        if resp.status_code == 200:
            resp.encoding='utf-8'
            return resp.text

#数据解析
class Parser():
    def do_parse(self,html):
        e = etree.HTML(html)
        #将网页信息string化才能输出,strip()两边去除空格
        contents = [div.xpath('string').strip() for div in e.xpath( '//div[@class="content"]')]
        urls = ['https://www.qiushibaike.com{}'.format(url) for url in e.xpath('//ul[@class="pagination"]/li/a/@href')]
        return contents,urls

#数据保存
class DataOutPut():
    def do_save(self,datas):
        with open('duanzii.txt','a',encoding='utf-8') as f:
            for data in datas:
                f.write(data+'\n')

#url管理器
class URLManger():
    #初始化
    def __init__(self):
        #新旧url可以让自己更清晰的分辨
        self.new_url=set()
        self.old_url=set()
    #加入一个Url
    def add_new_url(self,url):
        #严谨url不能为空,不能为空字符串,也不能在爬取过的url里面
        if url is not None and url !='' and url not in self.old_url:
            self.new_url.add(url)
    #加入多个Url
    def add_new_urls(self,urls):
        for url in urls:
            # 判断,直接调用上面的方法
            url = self.add_new_url(url)

    #获取一个Url
    def get_new_url(self):
        # 取出一个url并删除,pop表示删除
        url = self.add_new_url.pop()
        # 将用完的url加入old中,用来判断是否用过
        self.old_url.add(url)
        return url
    #获取还有多少个Url要爬取
    def get_new_url_siaze(self):
          return len(self.new_url)
    #获取是否还有多少Url要爬取
    def have_new_url(self):
        return self.get_new_url_siaze() > 0

#数据调度器,调度四个个类
class Scheduler:
    def __init__(self):
        self.downloader = Downloader()
        self.paser = Parser()
        self.data_out_put = DataOutPut()
        self.url_manager = URLManger()
    def start(self,url):
        self.url_manager.add_new_url(url)
        while self.url_manager.have_new_url():
            #去除url
            url = self.url_manager.get_new_url()
            #下载
            html= self.downloader.do_download(url)
            #解析,data当前页面的数据,urls以及要爬取的数据
            datas,urls = self.paser.do_parse(html)
            #处理上一步的data
            self.data_out_put.do_save(datas)
            #处理上一步的urls
            self.url_manager.add_new_urls(urls)


if __name__=='__main__':
    scheduler = Scheduler()
    url = 'https://www.qiushibaike.com/text/'
    scheduler.start(url)

image.png

这是完整代码,pop还是不行

Python 全系列/第十六阶段:Python 爬虫开发/爬虫反反爬- 411楼

File "d:\software\programminglanauageenvironment\pytho3.8.6\lib\runpy.py", line 194, in _run_module_as_main

    return _run_code(code, main_globals, None,

  File "d:\software\programminglanauageenvironment\pytho3.8.6\lib\runpy.py", line 87, in _run_code

    exec(code, run_globals)

  File "D:\software\python_env\alway_env\Scripts\scrapy.exe\__main__.py", line 4, in <module>

  File "D:\software\python_env\alway_env\lib\site-packages\scrapy\__init__.py", line 12, in <module>

    from scrapy.spiders import Spider

  File "D:\software\python_env\alway_env\lib\site-packages\scrapy\spiders\__init__.py", line 93, in <module>

    from scrapy.spiders.crawl import CrawlSpider, Rule

  File "D:\software\python_env\alway_env\lib\site-packages\scrapy\spiders\crawl.py", line 14, in <module>

    from scrapy.utils.spider import iterate_spider_output

  File "D:\software\python_env\alway_env\lib\site-packages\scrapy\utils\spider.py", line 5, in <module>

    from scrapy.utils.defer import deferred_from_coro

  File "D:\software\python_env\alway_env\lib\site-packages\scrapy\utils\defer.py", line 24, in <module>

    from scrapy.utils.reactor import is_asyncio_reactor_installed

  File "D:\software\python_env\alway_env\lib\site-packages\scrapy\utils\reactor.py", line 5, in <module>

    from twisted.internet import asyncioreactor, error

  File "D:\software\python_env\alway_env\lib\site-packages\twisted\internet\asyncioreactor.py", line 19, in <module>

    from twisted.internet.posixbase import (

  File "D:\software\python_env\alway_env\lib\site-packages\twisted\internet\posixbase.py", line 19, in <module>

    from twisted.internet import error, tcp, udp

  File "D:\software\python_env\alway_env\lib\site-packages\twisted\internet\tcp.py", line 38, in <module>

    from twisted.internet._newtls import (

  File "D:\software\python_env\alway_env\lib\site-packages\twisted\internet\_newtls.py", line 18, in <module>

    from twisted.protocols.tls import TLSMemoryBIOFactory, TLSMemoryBIOProtocol

  File "D:\software\python_env\alway_env\lib\site-packages\twisted\protocols\tls.py", line 42, in <module>

    from OpenSSL.SSL import Connection, Error, SysCallError, WantReadError, ZeroReturnError

  File "D:\software\python_env\alway_env\lib\site-packages\OpenSSL\__init__.py", line 8, in <module>

    from OpenSSL import SSL, crypto

  File "D:\software\python_env\alway_env\lib\site-packages\OpenSSL\SSL.py", line 19, in <module>

    from OpenSSL.crypto import (

  File "D:\software\python_env\alway_env\lib\site-packages\OpenSSL\crypto.py", line 3224, in <module>

    utils.deprecated(

这是什么原因?pip install cryptography==36.0.2换成这个版本以后报这个错误


Python 全系列/第十六阶段:Python 爬虫开发/scrapy框架使用 412楼
Python 全系列/第十六阶段:Python 爬虫开发/爬虫基础(旧) 413楼
Python 全系列/第十六阶段:Python 爬虫开发/爬虫基础(旧) 415楼
Python 全系列/第十六阶段:Python 爬虫开发/docker 容器扩展(旧) 416楼
Python 全系列/第十六阶段:Python 爬虫开发/爬虫基础(旧) 420楼

课程分类

百战程序员微信公众号

百战程序员微信小程序

©2014-2025百战汇智(北京)科技有限公司 All Rights Reserved 北京亦庄经济开发区科创十四街 赛蒂国际工业园
网站维护:百战汇智(北京)科技有限公司
京公网安备 11011402011233号    京ICP备18060230号-3    营业执照    经营许可证:京B2-20212637