已解决,换源就能成功设置。。。。。
import asyncio import aiohttp INDEX_URL = 'https://spa5.scrape.center/api/book/?limit= 18&offset={offset}/' DETAIL_URL = 'https://spa5.scrape.center/api/book/{id}/' CONCURRENCY = 5 PAGE_NUM=100 PAGE_LIMIT=18 semaphore = asyncio.Semaphore(CONCURRENCY) session = None async def scrape_api(url): async with semaphore: async with session.get(url) as resp: return await resp.json() async def scrape_index(page): url = INDEX_URL.format(offset = PAGE_NUM*(page-1)) return await scrape_api(url) # async def scrape_index(id): # url = DETAIL_URL.format(id = {id}') # return await scrape_api(url) async def main(): global session session = aiohttp.ClientSession() scrpae_index_tasks=[asyncio.ensure_future(scrape_index(page)) for page in range(1,5)] results = await asyncio.gather(*scrpae_index_tasks) if __name__ == '__main__': loop=asyncio.new_event_loop() asyncio.set_event_loop(loop) loop.run_until_complete(main())
报以下错误,要怎么关闭session呢?
老师
1、selenium的获取URL方法
from time import sleep from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.common.keys import Keys from selenium.webdriver.support.wait import WebDriverWait from selenium.webdriver.support import expected_conditions as EC driver = webdriver.Chrome() driver.maximize_window() driver.get('http://www.baidu.com') sleep(2) try: driver.find_element_by_id('kw').send_keys('汽车之家') driver.find_element_by_id('su').click() '''延时操作,访问页面''' driver.implicitly_wait(10) # WebDriverWait(driver,10).until(EC.presence_of_element_located((By.XPATH,'//div[@id="1"]/h3/a'))).send_keys(Keys.ENTER) driver.find_element_by_xpath('//div[@id="1"]/h3/a').send_keys(Keys.ENTER) # 或者 Keys.RETURN '''页面相关操作''' driver.implicitly_wait(10) a = driver.current_url print(a) except Exception as e: print(e) finally: sleep(10) driver.quit()
这个方法为什么获取不到当前访问页面的URL?比如这里成功通过百度,跳转到了汽车之家的官网,调用这个方法打印的是百度搜索页面的URL,还是说这个方法本来就是这样?如何获取到当前页面的url呢?
2、selenium获取页面源代码
获取源代码应该也是根据他当前获取的URL的源代码吧,比如这里只能获取百度搜索页面的的URL,所以打印的也是百度搜索页面的源码
老师这个问题怎么解决?为什么lxml导入不了etree
import requests from lxml import etree if __name__ == '__main__': tree = etree('sogou.html')
那个fake_useragent文件夹是要放在vscode的工作区间里吗
老师这种是啥原因呀
http://codecampus.itbaizhan.com:8000/
无法访问:该网站未根据工信部相关法律规则在腾讯云进行备案。
报错信息:Unclosed client session
client_session: <aiohttp.client.ClientSession object at 0x000001CE5B0E4310>
Unclosed connector
connections: ['[(<aiohttp.client_proto.ResponseHandler object at 0x000001CE5B0DFC40>, 260068.0), (<aiohttp.client_proto.ResponseHandler object at 0x000001CE5B0DFBE0>, 260068.265), (<aiohttp.client_proto.ResponseHandler object at 0x000001CE5B0DF940>, 260068.562), (<aiohttp.client_proto.ResponseHandler object at 0x000001CE5B0DF8E0>, 260068.656)]']
connector: <aiohttp.connector.TCPConnector object at 0x000001CE5B0E4130>
import requests from lxml import etree if __name__ == '__main__': tree = etree.parse('sogou.html')
老师,运行docker run -p 8050:8050 scrapinghub/splash命令时成功,浏览器访问url报错
程序包无效是为什么啊?老师就是拓展插件的那个
明明和老师一样的为什么还报错啊
老师代码没问题哇,为啥是无效的认证凭据
这是为什么?
re.compile()怎么用啊?只会用match()、search()、findall()、sub()
非常抱歉给您带来不好的体验!为了更深入的了解您的学习情况以及遇到的问题,您可以直接拨打投诉热线:
我们将在第一时间处理好您的问题!
关于
课程分类
百战程序员微信公众号
百战程序员微信小程序
©2014-2025百战汇智(北京)科技有限公司 All Rights Reserved 北京亦庄经济开发区科创十四街 赛蒂国际工业园网站维护:百战汇智(北京)科技有限公司 京公网安备 11011402011233号 京ICP备18060230号-3 营业执照 经营许可证:京B2-20212637