有效沟通问答-【官方】百战程序员_IT在线教育培训机构

会员可以在此提问，百战程序员老师有问必答

对大家有帮助的问答会被标记为“推荐”
看完课程过来浏览一下别人提的问题，会帮你学得更全面

截止目前，同学们一共提了 133940个问题

已解决，换源就能成功设置。。。。。

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬 106楼

import asyncio
import aiohttp

INDEX_URL = 'https://spa5.scrape.center/api/book/?limit= 18&offset={offset}/'
DETAIL_URL = 'https://spa5.scrape.center/api/book/{id}/'
CONCURRENCY = 5
PAGE_NUM=100
PAGE_LIMIT=18

semaphore = asyncio.Semaphore(CONCURRENCY)
session = None


async def scrape_api(url):
    async with semaphore:
        async with session.get(url) as resp:
            return await resp.json()

async def scrape_index(page):
    url = INDEX_URL.format(offset = PAGE_NUM*(page-1))
    return await scrape_api(url)

# async def scrape_index(id):
#     url = DETAIL_URL.format(id = {id}')
#     return await scrape_api(url)


async def main():
    global session
    session = aiohttp.ClientSession()
    scrpae_index_tasks=[asyncio.ensure_future(scrape_index(page)) for page in range(1,5)]
    results = await asyncio.gather(*scrpae_index_tasks)

if __name__ == '__main__':
    loop=asyncio.new_event_loop()
    asyncio.set_event_loop(loop)
    loop.run_until_complete(main())

报以下错误,要怎么关闭session呢?

Python 全系列/第十六阶段：Python 爬虫开发/scrapy框架使用（旧） 107楼

老师

1、selenium的获取URL方法

from time import sleep
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

driver = webdriver.Chrome()
driver.maximize_window()

driver.get('http://www.baidu.com')
sleep(2)
try:
    driver.find_element_by_id('kw').send_keys('汽车之家')
    driver.find_element_by_id('su').click()
    '''延时操作，访问页面'''
    driver.implicitly_wait(10)
    # WebDriverWait(driver,10).until(EC.presence_of_element_located((By.XPATH,'//div[@id="1"]/h3/a'))).send_keys(Keys.ENTER)
    driver.find_element_by_xpath('//div[@id="1"]/h3/a').send_keys(Keys.ENTER)    # 或者 Keys.RETURN
    '''页面相关操作'''
    driver.implicitly_wait(10)
    a = driver.current_url
    print(a)

except Exception as e:
    print(e)

finally:
    sleep(10)
    driver.quit()

这个方法为什么获取不到当前访问页面的URL？比如这里成功通过百度，跳转到了汽车之家的官网，调用这个方法打印的是百度搜索页面的URL，还是说这个方法本来就是这样？如何获取到当前页面的url呢？

2、selenium获取页面源代码

获取源代码应该也是根据他当前获取的URL的源代码吧，比如这里只能获取百度搜索页面的的URL，所以打印的也是百度搜索页面的源码

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 108楼

老师这个问题怎么解决？为什么lxml导入不了etree

import requests
from lxml import etree

if __name__ == '__main__':
    tree = etree('sogou.html')

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 109楼

那个fake_useragent文件夹是要放在vscode的工作区间里吗

Python 全系列/第十六阶段：Python 爬虫开发/爬虫基础 110楼

老师这种是啥原因呀

Python 全系列/第十六阶段：Python 爬虫开发/爬虫基础 111楼

http://codecampus.itbaizhan.com:8000/

无法访问：该网站未根据工信部相关法律规则在腾讯云进行备案。

Python 全系列/第十六阶段：Python 爬虫开发/Python爬虫基础与应用 112楼

报错信息:Unclosed client session

client_session: <aiohttp.client.ClientSession object at 0x000001CE5B0E4310>

Unclosed connector

connections: ['[(<aiohttp.client_proto.ResponseHandler object at 0x000001CE5B0DFC40>, 260068.0), (<aiohttp.client_proto.ResponseHandler object at 0x000001CE5B0DFBE0>, 260068.265), (<aiohttp.client_proto.ResponseHandler object at 0x000001CE5B0DF940>, 260068.562), (<aiohttp.client_proto.ResponseHandler object at 0x000001CE5B0DF8E0>, 260068.656)]']

connector: <aiohttp.connector.TCPConnector object at 0x000001CE5B0E4130>

Python 全系列/第十六阶段：Python 爬虫开发/scrapy框架使用（旧） 113楼

import requests
from lxml import etree

if __name__ == '__main__':
    tree = etree.parse('sogou.html')

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 114楼

老师，运行docker run -p 8050:8050 scrapinghub/splash
命令时成功，浏览器访问url报错

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬 115楼

程序包无效是为什么啊？老师就是拓展插件的那个

Python 全系列/第十六阶段：Python 爬虫开发/爬虫基础（旧） 116楼

明明和老师一样的为什么还报错啊

Python 全系列/第十六阶段：Python 爬虫开发/scrapy框架使用（旧） 117楼

老师代码没问题哇，为啥是无效的认证凭据

Python 全系列/第十六阶段：Python 爬虫开发/Python爬虫基础与应用 118楼

这是为什么？

Python 全系列/第十六阶段：Python 爬虫开发/爬虫基础 119楼

re.compile()怎么用啊？只会用match()、search()、findall()、sub()

Python 全系列/第十六阶段：Python 爬虫开发/爬虫基础 120楼

同学您好