有效沟通问答-【官方】百战程序员_IT在线教育培训机构

会员可以在此提问，百战程序员老师有问必答

对大家有帮助的问答会被标记为“推荐”
看完课程过来浏览一下别人提的问题，会帮你学得更全面

截止目前，同学们一共提了 133940个问题

老师，你好！类似于当当网这种，要实现click（），却找不到搜索按键元素，想使用submit（）也想不通，麻烦老师帮忙看下，谢谢！

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 691楼

from fake_useragent import UserAgent
import requests
from lxml import etree

# 发送请求
class Downloader():
    def do_downloader(self,url):
        print(url)
        headers={"User-Agent":UserAgent().chrome}
        resp = requests.get(url,headers=headers)
        if resp.status_code == 200:
            resp.encoding = "utf-8"
            return resp.text

# 数据解析
class Parser():
    def do_parse(self,html):
        e = etree.HTML(html)
        contents = [div.xpath('string(.)').strip() for div in e.xpath('//div[@class="content"]')]
        urls = ['https://www.qiushibaike.com{}'.format(url) for url in e.xpath('//ul[@class="pagination"]/li/a/@href')]
        return contents,urls

# 数据保存
class DataOutPut():
    def do_save(self,datas):
        with open("F:/baizhan/wobushi/duanzi3.txt","a",encoding='utf-8') as f:
            for data in datas:
                f.write(data+"\n")

# URL管理器
class URLManager():
    def __init__(self):
        self.new_url = set()
        self.old_url = set()
    # 加入一个URL
    def add_new_url(self,url):
        if url is not None and url != '' and url not in self.old_url:
            self.new_url.add(url)   # add添加
    # 加入多个URL
    def add_new_urls(self,urls):
        for url in urls:
            self.add_new_url(url)
    # 获取一个URL
    def get_new_url(self):
        url = self.new_url.pop()    # pop将new_url中的值取出
        self.old_url.add(url)
        return url
    # 获取还有多个URL要爬取
    def get_new_url_size(self):
        return len(self.new_url)
    # 获取是否还有URL要爬取
    def have_new_url(self):
        return self.get_new_url_size() > 0

# 调度器
class Scheduler:
    def __index__(self):
        self.downloader = Downloader()
        self.parser = Parser()
        self.data_out_put = DataOutPut()
        self.url_manger = URLManager()

    def start(self,url):
        self.url_manger.add_new_url(url)    # 将URL添加到任务列表
        while self.url_manger.have_new_url():
            url = self.url_manger.get_new_url()     # 取出要爬取的URL
            html = self.downloader.do_downloader(url)       # 获取网页
            datas,urls = self.parser.do_parse(html)     # 提取数据，datas数据，urls第二，三。。。页的URL或者是二级网页URL
            self.data_out_put.do_save(datas)
            self.url_manger.add_new_urls(urls)

if __name__ == '__main__':
    scheduler = Scheduler()
    url = 'https://www.qiushibaike.com/text'
    scheduler.start(url)

老师，这个问题怎么改啊？看着和老师视频中的代码没出入呀

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 692楼

老师，我将里面的手机的url都提取出来了，这个时候我怎么进行深度爬虫。这个直接yield给start_requests不行啊，还是说要从写一个类似start_requests的方法？这个我到现在一点头绪都没有

Python 全系列/第十六阶段：Python 爬虫开发/动态数据抓取 693楼

老师：

webdriver.find_elements_by_xpath()  我通过这个获取到了a标签，我加上while循环，它一直在重复点击一个连接，
这个能不能支持循环遍历啊，点完一个点下一个。

Python 全系列/第十六阶段：Python 爬虫开发/动态数据抓取 694楼

老师，你好！使用yield scrapy.Request推送数据，接收不到url，麻烦帮忙看一下，谢谢！

以下是代码文件

xiaoshuo1.zip

Python 全系列/第十六阶段：Python 爬虫开发/移动端爬虫开发- 695楼

请问老师，怎么加视频中老师的百度云呀，想我看课程资料复习用

Python 全系列/第十六阶段：Python 爬虫开发/移动端爬虫开发- 696楼

问题如下：

我想爬取淘宝的商品信息，但是爬不到，希望老师能检查一下我的代码，希望老师不要敷衍，拜托了

zongzi.py

from selenium import webdriver
import time
import random
from cook import TAO_USERNAME, TAO_PASSWORD
import csv


def search_product(keyword):
    """根据关键字搜索商品，解决登录"""
    # 输入关键字
    driver.find_element_by_xpath('//*[@id="q"]').send_keys(keyword)
    # 设置休息时间,随机休眠1—3秒钟
    time.sleep(random.randint(1, 3))
    # 点击搜索按钮
    driver.find_element_by_xpath('//*[@id="J_TSearchForm"]/div[1]/button').click()

    # 解决登录
    # 输入用户名
    driver.find_element_by_xpath('//*[@id="fm-login-id"]').send_keys(TAO_USERNAME)
    # 设置休息时间,随机休眠1—2秒钟
    time.sleep(random.randint(1, 2))
    # 输入密码
    driver.find_element_by_xpath('//*[@id="fm-login-password"]').send_keys(TAO_PASSWORD)
    # 设置休息时间,随机休眠1—2秒钟
    time.sleep(random.randint(1, 2))
    # 点击登录按钮
    driver.find_element_by_xpath('//*[@id="login-form"]/div[4]/button').click()

def parse_data():
    """解析数据"""
    # 获取所有想要的div标签
    divs = driver.find_elements_by_xpath('//div[@class="grid g-clearfix"]/div/div')

    # 二次提取
    for div in divs:
        try:
            title = div.find_element_by_xpath('.//div[@class="row row-2 title"]/a').text  # 名字
            price = div.find_element_by_xpath('.//strong').text + '元'  # 价格
            deal = div.find_element_by_xpath('.//div[@class="deal-cnt"]').text  # 付款人数
            name = div.find_element_by_xpath('.//div[@class="shop"]/a/span[2]').text  # 店铺
            location = div.find_element_by_xpath('.//div[@class="location"]').text  # 地址
            detail_url = div.find_element_by_xpath('.//div[@class="pic"]/a').text  # 详情页的URL
            print(title, price, deal, name, location, detail_url)

            # 保存文件
            with open('淘宝.csv', mode='a', encoding='utf-8', newline='') as f:
                csv_write = csv.writer(f) # 实例化csv模块写入对象
                csv_write.writerow([title, price, deal, name, location, detail_url])
        except:
            continue

word = input('请输入你要搜索商品的关键字：')
# 创建一个浏览器
driver = webdriver.Chrome()
# 绕过selenium的检测
driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument",
            {"source": """Object.defineProperty(navigator, 'webdriver', {get: () => undefined})"""})

# 执行自动化页面操作——输入要爬取得网站
driver.get('https://www.taobao.com/')
# 最大化窗口
driver.maximize_window()
# 设置浏览器的隐式等待
driver.implicitly_wait(10)

# 调用搜索商品的函数
search_product(word)
# 设置休息时间,随机休眠2-4秒钟
time.sleep(random.randint(2, 4))

# 获取前十页的数据
for page in range(100):
    print(f'\n============================正在抓取第{page + 1}数据=====================================')
    driver.get(f'https://www.taobao.com/search?a={word}&s={page * 44}')
# 调用数据解析函数
parse_data()
# 设置休息时间,随机休眠2-4秒钟
time.sleep(random.randint(2, 4))

cook.py

TAO_USERNAME = "用户"
TAO_PASSWORD = "密码"

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 697楼

from fake_useragent import UserAgent
import requests
from lxml import etree


# 发送请求类
class Downloader():
    def download(self,url):
        print(url)
        headers = {'User-Agent':UserAgent().chrome}
        resp = requests.get(url, headers = headers)
        if resp.status_code == 200:
            resp.encoding = 'utf-8'
            return resp.text

# 数据解析类
class Parser():
    def parse(self, html):
        e = etree.HTML(html)
        contents =[div.xpath('string(.)') for div in e.xpath('//div[@class="content"]')]
        urls = ['https://www.qiushibaike.com{}'.format(url) for url in e.xpath('//ul[@class="pagination"]/li/a/@href')]
        return contents, urls

# 数据保存类
class DataOutPut():
    def save(self, datum):
        with open('duanzi1.txt', 'a', encoding='utf-8') as f:
            for data in datum:
                f.write(data+'\n')


# URL管理器
class URLManager():
    def __init__(self):
        self.new_url = set()
        self.old_url = set()
    # 加入一个Url
    def add_new_url(self,url):
        if url is not None and url !='' and url not in self.old_url:
            self.new_url.add(url)
    # 加入多个Url
    def add_new_urls(self,urls):
        for url in urls:
            self.add_new_url(url)
    # 获取一个Url
    def get_new_url(self):
        url = self.new_url.pop()
        self.old_url.add(url)
        return url
    # 获取还有多少个Url要爬取
    def get_new_url_size(self):
        return len(self.new_url)
    # 获取是否还有Url要爬取
    def is_have_new_url(self):
        return self.get_new_url_size() > 0

# 调度器
class Scheduler():
    def __init__(self):
        self.downloader = Downloader()
        self.parser = Parser()
        self.data_out_put = DataOutPut()
        self.url_manager = URLManager()
    def start(self, url):
        self.url_manager.add_new_url(url)
        url = self.url_manager.get_new_url()
        html = self.downloader.download(url)
        datum, urls = self.parser.parse(html)
        self.data_out_put.save(datum)
        self.url_manager.add_new_url(urls)


if __name__ == '__main__':
    scheduler = Scheduler()
    url = 'https://www.qiushibaike.com/text/'
    scheduler.start(url)

老师您好！我这里出现这样的BUG请问怎么结局呀！

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 698楼

老师，运行之后没有显示出txt文件。怎么解决

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 699楼

import scrapy


class FashiSpider(scrapy.Spider):
    name = 'fashi'
    allowed_domains = ['biquge.com']
    start_urls = ['https://www.biquge.com.cn/book/10561/2029790.html']

    def parse(self, response):
        title = response.xpath('//h1/text()').extract_first()
        content = response.xpath('string(//div[@id="content"])').extract_first().strip().replace('    ', '\n')
        next_url = response.xpath('//div[@class="bottem1"]/a[3]/@href').extract_first()

        yield {
            'title': title,
            'content': content
        }

        yield scrapy.Request(response.urljoin(next_url), callback=self.parse)

爬取的内容只有第一章节的是不是因为爬取的url多了/book/10561/，

yield scrapy.Request('https://www.biquge.com.cn'+next_url, callback=self.parse)

但用这种方式也是无法爬取下个章节的。

Python 全系列/第十六阶段：Python 爬虫开发/移动端爬虫开发- 700楼

老师，我这个又又出问题了。。。我看网上说是我请求太过于频繁，但是我这边设置了请求频率还是不行啊

Python 全系列/第十六阶段：Python 爬虫开发/分布式爬虫 701楼

老师，如果要爬取票房数据该怎么办？拿到的HTML 票房数据没有显示（或者是加密了）

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 702楼

老师你好！为什么拿到具体电影的URL之后不需要转HTML就可以直接获取内容，而获取电影列表时需要把URL转HTML呢？

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 703楼

import scrapy


class ZonghengSpider(scrapy.Spider):
    name = 'zongheng'
    allowed_domains = ['zongheng.com']
    start_urls = ['http://www.zongheng.com/rank/details.html?rt=1&d=1&i=2&p=1']

    def parse(self, response):
        names = response.xpath('//div[@class="rank_d_b_name"]/@title').extract()
        authors = response.xpath('//div[@class="rank_d_b_cate"]/@title').extract()
        print(names)
        print(authors)
        books = []
        for name, author in zip(names, authors):
            books.append({
                'name': names,
                'author': authors
            })
        return books

scrapy crawl zongheng -o book.csv

为什么会运行好几遍？

Python 全系列/第十六阶段：Python 爬虫开发/移动端爬虫开发- 704楼

老师，我这个在本地可以运行，我布置到虚拟机上就一直报错这个，我还重新装载了一次虚拟机，redis的配置文件也都该过。还是不行，这个是为什么啊

Python 全系列/第十六阶段：Python 爬虫开发/分布式爬虫 705楼

同学您好