有效沟通问答-【官方】百战程序员_IT在线教育培训机构

会员可以在此提问，百战程序员老师有问必答

对大家有帮助的问答会被标记为“推荐”
看完课程过来浏览一下别人提的问题，会帮你学得更全面

截止目前，同学们一共提了 133940个问题

老师，我给大家避个雷，我今天按照老师的代码一直测试，一直报错：No module named 'scrapy.contrib'卸载安装了这个模块都不行！最后只是将settings里面

ITEM_PIPELINES = {
   : }

修改成

ITEM_PIPELINES = {
   : }

我真是找了N长时间，我以为是python解释器出问题了，而是scrapy-1.6.0已删除scrapy.contrib耽误了居多时间在这里

Python 全系列/第十六阶段：Python 爬虫开发/scrapy 框架高级 766楼

老师，这里这个__index__与初始化方法__init__有什么不同呢。我网上找了资料发现关于这个的很少。所以请教您一下

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 767楼

from fake_useragent import UserAgent
import re
import requests
from bs4 import BeautifulSoup
from time import sleep

def get_html(url):
    '''
    :param url: 要爬取的地址
    :return: 返回html
    '''
    headers = {"User_Agent": UserAgent().random}
    resp = requests.get(url,headers=headers)

    #status_code   返回状态码
    if resp.status_code == 200:
        resp.encoding='utf-8'
        return resp.text
    else:
        return None

def parse_list(html):
    '''
    :param html: 传递进来有一个电影列表的的html
    :return: 返回一个电影的url
    '''

    soup = BeautifulSoup(html,'lxml')
    a_list = soup.select(".book-img-box > a")
    list_url = []
    for a in a_list:
        list_url.append(a.get('href'))
    # 解决验证CA
    # ssl._create_default_https_context = ssl._create_unverified_context
    list_url = ['https:{}'.format(url)for url in list_url]
    return list_url

def parse_index(html):
    '''
    :param html: 传递一个有电影信息的html
    :return: 已经提取好的电影信息
    '''
    soup = BeautifulSoup(html,'lxml')
    name = soup.find('h1','em')
    book = soup.find_all("a", class_="writer")[0].text
    return {'作者':name,'书名':book}

def main():
    num = int(input("请输入要获取多少页："))
    for page in range(num):
        url = 'https://www.qidian.com/all?&page={}'.format(page+1)
        list_html = get_html(url)
        list_url = parse_list(list_html)
        for url in list_url:
            info_html = get_html(url)
            move = parse_index(info_html)
            print(move)

if __name__ == '__main__':
    main()

老师，我这个匹配到h1下面的em标签啊，我网上也查了，也用calss匹配过。最后返回要么空，要么是错误的。

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 768楼

from fake_useragent import UserAgent
import ssl
import requests
from lxml import etree

from time import sleep

def get_html(url):
    '''
    :param url: 要爬取的地址
    :return: 返回html
    '''
    headers = {"User_Agent": UserAgent().random}
    resp = requests.get(url,headers=headers)

    #status_code   返回状态码
    if resp.status_code == 200:
        resp.encoding='utf-8'
        return resp.text
    else:
        return None

def parse_list(html):
    '''
    :param html: 传递进来有一个电影列表的的html
    :return: 返回一个电影的url
    '''

    e = etree.HTML(html)
    # 解决验证CA
    # ssl._create_default_https_context = ssl._create_unverified_context
    list_url = ['https://www.qidian.com{}'.format(url)for url in e.xpath('//div[@class="book-img-box"]/a/@href')]
    return list_url

def parse_index(html):
    '''
    :param html: 传递一个有电影信息的html
    :return: 已经提取好的电影信息
    '''
    e = etree.HTML(html)
    name = e.xpath('//div/h1/span/a/text()')
    return name

def main():
    num = int(input("请输入要获取多少页："))
    for page in range(num):
        url = 'https://www.qidian.com/all?&page={}'.format(page+1)
        list_html = get_html(url)
        list_url = parse_list(list_html)
        for url in list_url:
            info_html = get_html(url)
            move = parse_index(info_html)
            print(move)

if __name__ == '__main__':
    main()

老师，您帮我看一下，为什么我这个最后返回的是空列表啊，我debug看了一下是这个出问题了。返回了空值，但是我使用插件看了看没问题啊

name = e.xpath('//div/h1/span/a/text()')

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 769楼

老师请问这个如何解决，网上搜索的方法行不通

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 770楼

老师，是不是pycharm或者python版本不一样啊，我这边的不是视频的网址，而是百度的，我随便加了几个数字，pycharm直接会将错误信息打印出来！！！

Python 全系列/第十六阶段：Python 爬虫开发/scrapy框架使用（旧） 771楼

老师，这个是不是先掌握从网页提取的Cookie，然后账号密码的那个后面是不是还有一些其他手段爬取，因为我这个试了好多个网址，账号密码现在的都登录不上去

Python 全系列/第十六阶段：Python 爬虫开发/scrapy框架使用（旧） 772楼

老师，为什么我这个里有两个User-Agent，这个是不是意味着不在提供伪装。

from urllib.request import urlopen,Request

from fake_useragent import UserAgent
url = "
ua = UserAgent(verify_ssl=False) 
headers = {
    "User_Agent":ua.random
}

reuquest = Request(url,headers=headers)
resp = urlopen(reuquest)

info = resp.read().decode()

print(info)