有效沟通问答-【官方】百战未来_IT在线教育培训机构

会员可以在此提问，百战未来老师有问必答

对大家有帮助的问答会被标记为“推荐”
看完课程过来浏览一下别人提的问题，会帮你学得更全面

截止目前，同学们一共提了 135016个问题

老师这个软件有中文的吗，英文看不懂

Python全系列/第十六阶段：Python 爬虫开发/scrapy框架使用（旧） 691楼

这个引进aiohttp为啥显示错误啊

Python全系列/第十六阶段：Python 爬虫开发/爬虫基础（旧） 692楼

selenium webdriver
selenium.webdriver ActionChains
openpyxl workbook
base_urls = []
shop_names = []
m_names = []
prices = []
com_names = []
offers = []
driver_base(url):
    driver = webdriver.Chrome()
    driver.get(url)
    driver.set_window_size(=, =, =)
    driver.implicitly_wait()
    driver

p_url(driver,shop_page):
    input = driver.find_element_by_id()
    input.send_keys()
    botton = driver.find_element_by_xpath()
    botton.click()
    source = driver.find_element_by_xpath()
    target = driver.find_element_by_class_name()
    actions = ActionChains(driver)
    actions.drag_and_drop(source, target)
    actions.perform()
    base_url_0 = driver.find_elements_by_xpath()
    num (,(base_url_0)):
        base_urls.append(base_url_0[num].get_attribute())
    shop_page != :
        pn_next = driver.find_element_by_class_name()
        pn_next.click()
        shop_page = shop_page - :
            source = driver.find_element_by_xpath()
            target = driver.find_element_by_class_name()
            actions = ActionChains(driver)
            actions.drag_and_drop(source, target).perform()
            base_url_1 = driver.find_elements_by_xpath()
            num (, (base_url_1)):
                base_urls.append(base_url_1[num].get_attribute())
            base_url_1.clear()
        :
            (.format( shop_page))
        :
            (.format(shop_page))
    base_urls_1 = ((base_urls))
    (.format((base_urls_1)), , base_urls_1)
    base_urls_1

p_data(base_urls_1):
    y_num = (base_urls_1)
    href base_urls_1:
        y_num =y_num - (.format(y_num))
        href_driver = webdriver.Chrome()
        href_driver.get(href)
        href_driver.set_window_size(=, =, =)
        :
            shop_name = href_driver.find_element_by_xpath()
            shop_name = shop_name.text
            m_name = href_driver.find_element_by_xpath()
            m_name = m_name.text
            price = href_driver.find_element_by_xpath()
            price = price.text
            com_num = href_driver.find_element_by_xpath()
            com_num = com_num.text
            offer = href_driver.find_element_by_id()
            offer = offer.text
            shop_names.append(shop_name)
            m_names.append(m_name)
            prices.append(price)
            com_names.append(com_num)
            offers.append(offer)
            href_driver.close()
        :
            ()
    :
            save_data(shop_names, m_names, prices, com_names, offers)


save_data(shop_names,m_names,prices,com_names,offers):
    wb = workbook.Workbook()
    ws = wb.active
    ws.append([])
    ws.append([,, , , ,])
    n ((offers)):
        ws.append([n + ,shop_names[n],m_names[n],prices[n],com_names[n],offers[n]])
    wb.save()

__name__ == :
    shop_page = (())
    url = driver = driver_base(url)
    base_urls_1 = p_url(driver,shop_page)
    p_data(base_urls_1)
    driver.close()

Python全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 693楼

老师，这个Android5是安装不了软件？

Python全系列/第十六阶段：Python 爬虫开发/移动端爬虫开发- 694楼

老师，爬取豆瓣电影时，

如果想提高访问效率，limit=20可以改成200，那么前面的start规则是不是也就变了，是不是每次不在增加20了？

Python全系列/第十六阶段：Python 爬虫开发/爬虫基础（旧） 695楼

界面也不一样

Python全系列/第十六阶段：Python 爬虫开发/scrapy框架使用（旧） 696楼

老师，分布式的3种写法中，我怎么感觉第一种写法要修改的代码最少，最容易理解，执行效率最高，不需要麻烦的手动lpush操作。其次是第二种写法。至于第三种写法，我怎么感觉crawlspider的方式并不比spider好用

Python全系列/第十六阶段：Python 爬虫开发/分布式爬虫 697楼

scrapy02.rar

无法获取url

Python全系列/第十六阶段：Python 爬虫开发/scrapy框架使用（旧） 698楼

老师，我自己的代码和资料里的代码都会出现百度安全验证

这是我的代码

代码1：

from urllib.request import urlopen,Request
from fake_useragent import UserAgent
from urllib.parse import quote
# args = '尚学堂'
# print(quote(args)) #%E5%B0%9A%E5%AD%A6%E5%A0%82 #通过它转换中文、汉字
args = input('请输入要搜索的内容：')
ua = UserAgent()
url = f'https://www.baidu.com/s?wd={quote(args)}'
headers = {
    'User-Agent':ua.chrome
}
req = Request(url,headers = headers)
resp = urlopen(req)
print(resp.read().decode())

Python全系列/第十六阶段：Python 爬虫开发/爬虫基础（旧） 699楼

Python全系列/第十六阶段：Python 爬虫开发/scrapy框架使用 700楼

为什么我这里创建成功但是却没有那个页面，不知道问题出在哪里

Python全系列/第十六阶段：Python 爬虫开发/移动端爬虫开发- 701楼

老师，我自己的代码和资料里的代码都会出现百度安全验证

这是我的代码

代码2：

from urllib.request import urlopen,Request
from fake_useragent import UserAgent
from urllib.parse import urlencode

args = input('请输入要搜索的内容：')
parms = {
    'wd':args
}
# print(urlencode(parms)) #把汉字转换成编码

ua = UserAgent()
# url = f'https://www.baidu.com/s?{urlencode(parms)}'
url = f'http://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=%E5%A4%A9%E6%B0%94&fenlei=256&oq=%25E5%25B0%259A%25E5%25AD%25A6%25E5%25A0%2582&rsv_pq=f7b1202800024f69&rsv_t=be31f9qpyyfaaH6RH8MnYIeBOdXAk6TR5wmyOGLEFbhe13o7aWCkqzMvXBs&rqlang=cn&rsv_enter=1&rsv_dl=tb&rsv_btype=t&rsv_sug3=8&rsv_sug1=6&rsv_sug7=100&rsv_sug2=0&inputT=1987&rsv_sug4=1987'
# print(url)

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.5005.63 Safari/537.36 Edg/102.0.1245.39'
}
req = Request(url,headers = headers)
resp = urlopen(req)
print(resp.read().decode())

Python全系列/第十六阶段：Python 爬虫开发/爬虫基础（旧） 702楼

xiaoshuo.rar

老师，我执行完，只能取到第一章，麻烦帮忙看看什么原因？

Python全系列/第十六阶段：Python 爬虫开发/移动端爬虫开发- 703楼

import scrapy


class FashiSpider(scrapy.Spider):
    name = 'fashi'
    allowed_domains = ['biquge.com']
    start_urls = ['https://www.biquge.com.cn/book/10561/2029790.html']

    def parse(self, response):
        title = response.xpath('//h1/text()').extract_first()
        content = response.xpath('string(//div[@id="content"])').extract_first().strip().replace('    ', '\n')
        next_url = response.xpath('//div[@class="bottem1"]/a[3]/@href').extract_first()

        yield {
            'title': title,
            'content': content
        }

        yield scrapy.Request(response.urljoin(next_url), callback=self.parse)

爬取的内容只有第一章节的是不是因为爬取的url多了/book/10561/，

yield scrapy.Request('https://www.biquge.com.cn'+next_url, callback=self.parse)

但用这种方式也是无法爬取下个章节的。

Python全系列/第十六阶段：Python 爬虫开发/移动端爬虫开发- 704楼

老师，我爬取豆瓣电影代码如下：

from urllib.request import Request
from urllib.request import urlopen
from random import choice
from time import sleep


def get_html(url):
    user_agnet_list = [
        # 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)\
        #  Chrome/80.0.3987.132 Safari/537.36'
        # 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)123456',
        # 'Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11',
        # 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; TencentTraveler 4.0)',
        # 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; The World)',
        # 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SE 2.X MetaSr 1.0; SE 2.X MetaSr 1.0; \
        # .NET CLR 2.0.50727; SE 2.X MetaSr 1.0)',
        # 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)',
        # 'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50(KHTML, like Gecko)\
        #  Version/5.1 Safari/534.50'
        'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'
    ]
    choice_agent = choice(user_agnet_list)
    headers = {
        'User-Agent': choice_agent
    }
    request = Request(url, headers=headers)
    response = urlopen(request)
    return response.read().decode()


def save_html(html, filename):
    with open(filename, 'a', encoding='utf-8') as f:
        f.writelines(html)


def main():
    i = 0
    base_url = 'https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action=&start={}&limit=20'
    while True:
        url = base_url.format(i * 20)
        html = get_html(url)
        if html == '[]':  # 返回值为[]时表示遍历完成，退出循环
            break
        else:
            print(html)
            save_html(html, 'a.html')
            i += 1
            sleep(3)
    # html=get_html(base_url)
    # print(html)


if __name__ == '__main__':
    main()

刚开始运行还能运行，后面运行提示：

是不是被封ip了？如何解决？

Python全系列/第十六阶段：Python 爬虫开发/爬虫基础（旧） 705楼

同学您好