有效沟通问答-【官方】百战程序员_IT在线教育培训机构

会员可以在此提问，百战程序员老师有问必答

对大家有帮助的问答会被标记为“推荐”
看完课程过来浏览一下别人提的问题，会帮你学得更全面

截止目前，同学们一共提了 133940个问题

问题如下：

我想爬取淘宝的商品信息，但是爬不到，希望老师能检查一下我的代码，希望老师不要敷衍，拜托了

zongzi.py

from selenium import webdriver
import time
import random
from cook import TAO_USERNAME, TAO_PASSWORD
import csv


def search_product(keyword):
    """根据关键字搜索商品，解决登录"""
    # 输入关键字
    driver.find_element_by_xpath('//*[@id="q"]').send_keys(keyword)
    # 设置休息时间,随机休眠1—3秒钟
    time.sleep(random.randint(1, 3))
    # 点击搜索按钮
    driver.find_element_by_xpath('//*[@id="J_TSearchForm"]/div[1]/button').click()

    # 解决登录
    # 输入用户名
    driver.find_element_by_xpath('//*[@id="fm-login-id"]').send_keys(TAO_USERNAME)
    # 设置休息时间,随机休眠1—2秒钟
    time.sleep(random.randint(1, 2))
    # 输入密码
    driver.find_element_by_xpath('//*[@id="fm-login-password"]').send_keys(TAO_PASSWORD)
    # 设置休息时间,随机休眠1—2秒钟
    time.sleep(random.randint(1, 2))
    # 点击登录按钮
    driver.find_element_by_xpath('//*[@id="login-form"]/div[4]/button').click()

def parse_data():
    """解析数据"""
    # 获取所有想要的div标签
    divs = driver.find_elements_by_xpath('//div[@class="grid g-clearfix"]/div/div')

    # 二次提取
    for div in divs:
        try:
            title = div.find_element_by_xpath('.//div[@class="row row-2 title"]/a').text  # 名字
            price = div.find_element_by_xpath('.//strong').text + '元'  # 价格
            deal = div.find_element_by_xpath('.//div[@class="deal-cnt"]').text  # 付款人数
            name = div.find_element_by_xpath('.//div[@class="shop"]/a/span[2]').text  # 店铺
            location = div.find_element_by_xpath('.//div[@class="location"]').text  # 地址
            detail_url = div.find_element_by_xpath('.//div[@class="pic"]/a').text  # 详情页的URL
            print(title, price, deal, name, location, detail_url)

            # 保存文件
            with open('淘宝.csv', mode='a', encoding='utf-8', newline='') as f:
                csv_write = csv.writer(f) # 实例化csv模块写入对象
                csv_write.writerow([title, price, deal, name, location, detail_url])
        except:
            continue

word = input('请输入你要搜索商品的关键字：')
# 创建一个浏览器
driver = webdriver.Chrome()
# 绕过selenium的检测
driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument",
            {"source": """Object.defineProperty(navigator, 'webdriver', {get: () => undefined})"""})

# 执行自动化页面操作——输入要爬取得网站
driver.get('https://www.taobao.com/')
# 最大化窗口
driver.maximize_window()
# 设置浏览器的隐式等待
driver.implicitly_wait(10)

# 调用搜索商品的函数
search_product(word)
# 设置休息时间,随机休眠2-4秒钟
time.sleep(random.randint(2, 4))

# 获取前十页的数据
for page in range(100):
    print(f'\n============================正在抓取第{page + 1}数据=====================================')
    driver.get(f'https://www.taobao.com/search?a={word}&s={page * 44}')
# 调用数据解析函数
parse_data()
# 设置休息时间,随机休眠2-4秒钟
time.sleep(random.randint(2, 4))

cook.py

TAO_USERNAME = "用户"
TAO_PASSWORD = "密码"

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 421楼

老师，视频里的rules有两个规则，这两个规则的执行逻辑是下面这样吗？

如果第一个rule能筛选出来url，则不执行第二个rule，直接发送请求，然后对响应进行解析；如果第一个rule没有筛选出来，则执行第二个rule，如果能筛选出来url，发送请求，解析响应。

老师，是这样吗？

Python 全系列/第十六阶段：Python 爬虫开发/scrapy 框架高级 422楼

保存地址的name为空，还望老师看一下，使用视频老师的讲解会报 TypeError: unsupported operand type(s) for +: 'set' and 'str' 错误，所以自己写成了这样

Python 全系列/第十六阶段：Python 爬虫开发/scrapy 框架高级 423楼

捕获.JPG

老师，我用scrapy genspider middler httpbin.org创建文件的时候报这种错误

Python 全系列/第十六阶段：Python 爬虫开发/scrapy 框架高级 424楼

import requests
from fake_useragent import UserAgent
from bs4 import BeautifulSoup

def format_actors(a_list):
    actor_set=set()
    for a in a_list:
        actor_set.add(a.text.strip())
    return actor_set

def start():
    url = 'https://www.maoyan.com/films/1331230'
    headers = {"User-Agent":UserAgent().chrome}
    resp = requests.get(url,headers=headers)
    soup = BeautifulSoup(resp.text,'lxml')

    name = soup.select('h1.name')[0].text
    types = soup.select('li.ellipsis')[0].text
    actors_m = soup.select('li.celebrity actor>div>a')
    actors = format_actors(actors_m)
    print(f'电影名：{name},类型：{types},演员：{actors}')
   

if __name__ == "__main__":
    start()

老师，请问问题出在哪？报以下错误