有效沟通问答-【官方】百战程序员_IT在线教育培训机构

会员可以在此提问，百战程序员老师有问必答

对大家有帮助的问答会被标记为“推荐”
看完课程过来浏览一下别人提的问题，会帮你学得更全面

截止目前，同学们一共提了 133940个问题

时间排序推荐排序

Python 全系列/第十六阶段：Python 爬虫开发/scrapy框架使用 871楼

之前用request爬取猫眼电影时，

由于猫眼把电影信息变成了动态获取，因此无法直接用源代码爬取。

现在通过selenium直接点进电影信息时发现，

即使首页面加了防检测，但只能在当前页面生效，打开的新页面window.navigator.wevdrive===True，依旧无法获取电影信息，因此仍无法用selenium获取多条电影信息。

因此通过request爬取电影目录，selenium爬取电影信息，总算是成功爬取了电影信息，目前猫眼评分转了码问题仍未解决

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from time import sleep
import requests
from fake_useragent import UserAgent
from lxml import etree
from queue import Queue
from threading import Thread


def get_film_list(page):
    film_list = []
    for i in range(page):
        url = f'https://www.maoyan.com/films/?showType=3&offset={30*i}'
        headers = {'User-Agent': UserAgent().chrome}
        resp = requests.get(url, headers = headers)
        html = etree.HTML(resp.text)
        films = html.xpath('//dd/div[@title]/a/@href')
        for film in films:
            film_list.append(film)
        sleep(1)
    return film_list


def get_film_data(film):
    url = f'https://www.maoyan.com{film}'
    options = webdriver.ChromeOptions()
    # 设置无头
    options.add_argument('--headless')
    # 防检测1
    options.add_experimental_option('excludeSwitches', ['enable-automation'])
    options.add_experimental_option('useAutomationExtension', False)

    service = Service(executable_path='./tools/chromedriver')
    chrome = webdriver.Chrome(service=service, options=options)
    chrome.implicitly_wait(2)

    # 防检测2
    chrome.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
        "source": """
            Object.defineProperty(navigator, 'webdriver', {
              get: () => false
            })
          """
    })

    chrome.get(url)
    name = chrome.find_element(By.XPATH, '//h1[@class="name"]').text
    type_ = [i.text for i in chrome.find_elements(By.XPATH, '//a[@class="text-link"]')]
    chrome.find_element(By.XPATH, '//div[@class="tab-title "]').click()
    actors = []
    for i in chrome.find_elements(By.XPATH, '//li[@class="celebrity actor"]/div/a'):
        if i.text and i.text not in actors:
            actors.append(i.text.strip())

    info = {'电影名': name, '类型': type_, '主演': actors}
    return info


def create_quere(list):
    q = Queue()
    for i in list:
        q.put(i)
    return q


class MyThread(Thread):
    def __init__(self, q):
        Thread.__init__(self)
        self.__q = q

    def run(self) -> None:
        while not self.__q.empty():
            film = self.__q.get()
            film_info = get_film_data(film)
            print(film_info)


if __name__ == '__main__':
    film_list = get_film_list(1)
    q = create_quere(film_list)
    for i in range(3):
        t = MyThread(q)
        t.start()

Python 全系列/第十六阶段：Python 爬虫开发/爬虫基础（旧） 872楼

mongo.zip

老师，我这个代码可以运行，但是数据不能够保存到mongo数据库中，这是为什么呢？

Python 全系列/第十六阶段：Python 爬虫开发/爬虫数据存储 873楼

我不用cookie也直接能登入啊，啥情况

urllib.request Requesturlopen
fake_useragent UserAgent

url = headers = {: UserAgent().random}
req = Request(url=headers)
reps = urlopen(req)
(reps.read().decode())

Python 全系列/第十六阶段：Python 爬虫开发/scrapy框架使用（旧） 874楼

火狐放到Python根目录，谷歌放到Script文件夹内？？？

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 875楼

为啥会出现第一次为None，第二次为0的情况，不应该都为0吗

Python 全系列/第十六阶段：Python 爬虫开发/scrapy框架使用 876楼

老师，请问，这个External Libraries是放什么的哦，为什么查看源码从这里面找，找的又是谁的源码呢，在视频第19分钟

Python 全系列/第十六阶段：Python 爬虫开发/scrapy 框架高级 877楼

代码:

import scrapy


class BizhizuSpider(scrapy.Spider):
    name = 'bizhizu'
    allowed_domains = ['bizhizu.cn']
    # start_urls = ['https://www.bizhizu.cn/pic/7097.html']
    start_urls=['https://www.bizhizu.cn/pic/7097-0.html']

    def parse(self, response):
        image_url=response.xpath('//div[@class="pic"]/a[@id="photoimg"]/img/@src').extract_first()
        print(image_url)
        image_name=response.xpath('string(//div[@class="txt"]/h1)').extract_first()
        print(image_name)
        yield{
            "image_url":image_url,
            "image_name":image_name
        }
        next_url=response.xpath('//div[@class="photo_next"]//a/@href').extract_first()
        yield scrapy.Request(next_url,callback=self.parse)

from scrapy.pipelines.images import ImagesPipeline
from scrapy import Request
class PicturePipeline(ImagesPipeline):
    def get_media_requests(self, item, info):
        yield Request(item["image_url"],meta={"name":item["image_name"]})
    def file_path(self, request, response=None, info=None,*,item=None):
        name=request.meta["name"].strip()
        name=name.replace("/","_")
        return name+'.jpg'

运行结果:

老师请问一下，为什么我在爬取淘女郎图片的时候，每次爬取的图片名称都是一样的，但是image_url是不同的，麻烦老师帮我看看程序哪里出问题了?

Python 全系列/第十六阶段：Python 爬虫开发/scrapy 框架高级 878楼

是pycharm的调试控制台和vscode不一样还是我打开错了？

Python 全系列/第十六阶段：Python 爬虫开发/爬虫基础 879楼

半夜突然醒来，闲着无聊敲了个爬虫的代码，用selenium实现一个自动登录之类的，代码如下所示：

"""
   用 selenium 实现对中国大学mocc的登录
   程序运行报错：正在处理中
"""
from selenium import webdriver
from time import sleep
fox = webdriver.Firefox()
url ='https://www.icourse163.org/member/login.htm?returnUrl=aHR0cHM6Ly93d3cuaWNvdXJzZTE2My5vcmcvaW5kZXguaHRt#/webLoginIndex'
fox.get(url)
sleep(3)

# 点击登录按钮,弹出登录界面
fox.find_element_by_css_selector('#auto-id-1628452551743').click()
sleep(1)
# 选择其他登录方式
fox.find_element_by_css_selector('#login-cnt > div > div > div > div.ux-login-set-scan-code_ft > span').click()
# 获取账号框和密码框，输入密码
fox.find_element_by_css_selector('#auto-id-1628452775609').send_keys('*************')
sleep(1)
fox.find_element_by_css_selector('#auto-id-1628452775612').send_keys('*************')
sleep(1)
fox.find_element_by_css_selector('#dologin').click()
sleep(1)

print(fox.current_url)
print(fox.page_source)
sleep(5)


sleep(2)
fox.quit()

报错信息如下：

C:\Users\Administrator\AppData\Local\Programs\Python\Python39\python.exe D:/pythonProject2/实战python网络爬虫/selenium的使用/selenium_03.py

Traceback (most recent call last):

File "D:\pythonProject2\实战python网络爬虫\selenium的使用\selenium_03.py", line 13, in <module>

fox.find_element_by_css_selector('#auto-id-1628452551743').click()

File "C:\Users\Administrator\AppData\Local\Programs\Python\Python39\lib\site-packages\selenium\webdriver\remote\webdriver.py", line 598, in find_element_by_css_selector

return self.find_element(by=By.CSS_SELECTOR, value=css_selector)

File "C:\Users\Administrator\AppData\Local\Programs\Python\Python39\lib\site-packages\selenium\webdriver\remote\webdriver.py", line 976, in find_element

return self.execute(Command.FIND_ELEMENT, {

File "C:\Users\Administrator\AppData\Local\Programs\Python\Python39\lib\site-packages\selenium\webdriver\remote\webdriver.py", line 321, in execute

self.error_handler.check_response(response)

File "C:\Users\Administrator\AppData\Local\Programs\Python\Python39\lib\site-packages\selenium\webdriver\remote\errorhandler.py", line 242, in check_response

raise exception_class(message, screen, stacktrace)

selenium.common.exceptions.NoSuchElementException: Message: Unable to locate element: #auto-id-1628452551743

无法定位到元素，敢问老师怎么处理？

进程已结束，退出代码为 1

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 880楼

什么你这docker服务已经开启了，你是开启了，我们怎么开

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬 881楼

为什么我跑完程序里面没有user-agent这个说明？

Python 全系列/第十六阶段：Python 爬虫开发/爬虫基础 882楼

from fake_useragent import UserAgent
import ssl
import requests
from lxml import etree

from time import sleep

def get_html(url):
    '''
    :param url: 要爬取的地址
    :return: 返回html
    '''
    headers = {"User_Agent": UserAgent().random}
    resp = requests.get(url,headers=headers)

    #status_code   返回状态码
    if resp.status_code == 200:
        resp.encoding='utf-8'
        return resp.text
    else:
        return None

def parse_list(html):
    '''
    :param html: 传递进来有一个电影列表的的html
    :return: 返回一个电影的url
    '''

    e = etree.HTML(html)
    # 解决验证CA
    # ssl._create_default_https_context = ssl._create_unverified_context
    list_url = ['https://www.qidian.com{}'.format(url)for url in e.xpath('//div[@class="book-img-box"]/a/@href')]
    return list_url

def parse_index(html):
    '''
    :param html: 传递一个有电影信息的html
    :return: 已经提取好的电影信息
    '''
    e = etree.HTML(html)
    name = e.xpath('//div/h1/span/a/text()')
    return name

def main():
    num = int(input("请输入要获取多少页："))
    for page in range(num):
        url = 'https://www.qidian.com/all?&page={}'.format(page+1)
        list_html = get_html(url)
        list_url = parse_list(list_html)
        for url in list_url:
            info_html = get_html(url)
            move = parse_index(info_html)
            print(move)

if __name__ == '__main__':
    main()

老师，您帮我看一下，为什么我这个最后返回的是空列表啊，我debug看了一下是这个出问题了。返回了空值，但是我使用插件看了看没问题啊

name = e.xpath('//div/h1/span/a/text()')

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 883楼

存在两个疑惑，希望老师可以答疑：

1、scrapy 是否可以理解为已经写好的框架类设计，而前面学习的动态UA，会话cookie在这里依旧有效（实现同样的功能，只是可能表现的方法不同）

2、对于选择器的概念还不是很明白，有没有更浅显直白的相关扩展资料来参考下

Python 全系列/第十六阶段：Python 爬虫开发/移动端爬虫开发- 884楼

老师为啥我按视频里的步骤做完了怎么还弹出来这个

Python 全系列/第十六阶段：Python 爬虫开发/移动端爬虫 885楼

同学您好