老师,帮我看下是什么原因呢?是被反爬了吗?
代码:
from urllib.request import Request,urlopen from fake_useragent import UserAgent from urllib.parse import quote args = input('请输入品牌:') url = 'https://sh.58.com/ershouche/?key={quote(args)}' headers = {'User-Agent':UserAgent().chrome} req = Request(url,headers = headers) resp = urlopen(req) print(resp.read().decode())
问题:
老师我用xshell安装了docker,在powershell上用不了docker.
老师,这里这个__index__与初始化方法__init__有什么不同呢。我网上找了资料发现关于这个的很少。所以请教您一下
这个登录窗怎么解决,试了一下前面的弹窗没成功不行,手动关闭了后面能正常运行,想问一下在代码里怎么解决,是前面的多层框架吗?
这个报错是哪个方面的问题,一用这个包就会报错,不用导包就正常
老师,反检测只能适用第一个选项卡的页面吗?我的程序是从虎牙直播的主页开始的,点击英雄联盟分类后,跳转到直播页面(在一个新的选项卡中打开的),然后,在这里检测到window.navigator.webdriver为true。这样里面的数据就爬取不到了。所以怎么解决这个问题呢?
from selenium import webdriver from selenium.webdriver import ChromeOptions from selenium.webdriver.common import action_chains from selenium.webdriver.common.action_chains import ActionChains import time url = 'https://www.huya.com/' option = webdriver.ChromeOptions() option.add_experimental_option("excludeSwitches", ['enable-automation','enable-logging']) option.add_experimental_option('useAutomationExtension', False) driver = webdriver.Chrome(options=option) driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", { "source": """ Object.defineProperty(navigator, 'webdriver', { get: () => false }) """ }) driver.get(url) time.sleep(1) # 点击分类中的英雄联盟 # driver.find_element_by_id('hy-nav-category').click() fenlei = driver.find_element_by_id('hy-nav-category') # 分类tag shubiao = ActionChains(driver) shubiao.move_to_element(fenlei).perform() # 鼠标移动到分类上 time.sleep(2) lol = driver.find_element_by_xpath("//div[@class='nav-expand-list nav-expand-game']/dl[1]/dd[1]") # 英雄联盟tag shubiao.click(lol).perform() time.sleep(2) # 等待页面渲染 zhubo = driver.find_elements_by_xpath("//ul[@id='js-live-list']/li/span/span[@class='avatar fl']/i") print(zhubo) print(len(zhubo)) print(type(zhubo)) for i in zhubo: print(i) print(type(i)) print(i.text())
老师,我的tesseract环境配好了,cmd里面也能运行,但是pycharm终端里面还是报错
老师,我有2个问题,麻烦帮忙解答,谢谢!
如何实现爬虫过程中将数据从redis中保存到mongo中,或者自动实现爬取结束后数据从redis中转移到mongo中,而不是再手动运行一个.py文件从redis中导出数据到mongo中
如何将数据从redis或mongo中导出到本地文件。
老师,如图这种弹窗的登录方式,好像没有找到对应请求的地址啊?
老师,为什么我这个里有两个User-Agent,这个是不是意味着不在提供伪装。
from urllib.request import urlopen,Request from fake_useragent import UserAgent url = " ua = UserAgent(verify_ssl=False) headers = { "User_Agent":ua.random } reuquest = Request(url,headers=headers) resp = urlopen(reuquest) info = resp.read().decode() print(info)
能不能说一下在pycharm环境下运行crawlspider需要修改什么设置?
就比如在pycharm环境下使用callback需要将scrapy.Request中的设置
dont_filter: bool = False改为True
否则callback不执行一样。
案例分析是静态的,那动态的页面实战有何不一样
出现了这样的错误 明明已经安装了scrapy-redis
但是运行的时候报错说是没有这个模块
设置完代理后, 模拟器连接有问题是什么情况
from urllib.request import Request,build_opener,urlopen from fake_useragent import UserAgent from urllib.parse import urlencode from urllib.request import HTTPCookieProcessor login_url="https://www.mypianku.net/user/login/" form_data={ "user":"18628906572", "password":"x..k.d$2000$" } headers={ "User-Agent":UserAgent().random} req=Request(login_url,headers=headers,data=urlencode(form_data).encode()) opener=build_opener() resp=opener.open(req) #---------------------------登录成功-------------------- url="https://www.mypianku.net/user/account/" headers={ "User-Agent":UserAgent().random, "Cookie":"_pk_id.1.f469=6d7b76987328fd10.1626832666.; d_c=d_1412928085; vrg_sc=4bb1ca6010ff37986d716442a23afa73; vrg_go=1; pyad=2; player123=%E6%B2%90%E6%B5%B4%E4%B9%8B%E7%8E%8BHD%23%23%2Fpy%2FlNmZxwmZsBTZ_1.html%23%235812%23%2394%24%24%E4%B8%80%E8%B7%AF%E6%83%8A%E5%96%9C%E6%AD%A3%E7%89%87%23%23%2Fpy%2FlNmZoRWMp1WM_1.html%23%23271%23%234%24%24%E4%B8%80%E8%B7%AF%E6%83%8A%E5%96%9C%E9%AB%98%E6%B8%85%23%23%2Fpy%2FlNGbrBTZ2wmY_1.html%23%23477%23%238%24%24%E6%B3%95%E5%8C%BB%E7%A7%A6%E6%98%8E2%E6%B8%85%E9%81%93%E5%A4%AB%E7%AC%AC2%E9%9B%86%23%23%2Fpy%2FlNGbmZjY3YmN_2.html%23%231479%23%2368%24%24%E6%B3%95%E5%8C%BB%E7%A7%A6%E6%98%8E%E7%AC%AC03%E9%9B%86%23%23%2Fpy%2FlRmNkdmZsRmN_3.html%23%23837%23%2342%24%24%E4%BA%BA%E5%86%8D%E5%9B%A7%E9%80%94%E4%B9%8B%E6%B3%B0%E5%9B%A7%E6%AD%A3%E7%89%87%23%23%2Fpy%2FlNmZkRjYjlDa_1.html%23%231206%23%2319%24%24%E9%80%9F%E5%BA%A6%E4%B8%8E%E6%BF%80%E6%83%853%EF%BC%9A%E4%B8%9C%E4%BA%AC%E6%BC%82%E7%A7%BBHD1280%E9%AB%98%E6%B8%85%E4%B8%AD%E5%AD%97%E7%89%88%23%23%2Fpy%2FlNWZ5wWb2ADb_1.html%23%23783%23%2313%24%24%E9%80%9F%E5%BA%A6%E4%B8%8E%E6%BF%80%E6%83%856HD1280%E9%AB%98%E6%B8%85%E4%B8%AD%E8%8B%B1%E5%8F%8C%E5%AD%97%E7%89%88%23%23%2Fpy%2FlNWZ5wWb2MzZ_1.html%23%235487%23%2370%24%24%E7%88%B1%E6%83%85%E5%85%AC%E5%AF%93%E7%AC%AC02%E9%9B%86%23%23%2Fpy%2FlRWZ3kGatNDZ_2.html%23%235%23%230%24%24; _pk_ref.1.f469=%5B%22%22%2C%22%22%2C1628861961%2C%22https%3A%2F%2Fcn.bing.com%2F%22%5D; _pk_ses.1.f469=1; PHPSESSID=iihse8vlb216gg5fdg3gp1enr2; Pianku_auth=06c5N-Pw7RaPoL7AOK2gZ9aIXMWGJb9xfbzdsIoHXUhn5Z-bGs1l68_Lhs7og6jww6iG_WLRbyEnhRXTbu_vthptMBgPXAm5yYV9rJlFKV2fnCs086hqg2uotFTErgHhyApWJTPsdVY19PwZJf_HwhyE7FcC83swIfUitbx_hsbqF2XVCp-zj5IU12U; Pianku_cookietime=95b9iaLnS9KECMWRwUf-834BhwpxfnYShmmwOys_Yp0DjXcSV_C1" } request=Request(url,headers=headers) response=urlopen(request) print(response.read().decode())
老师,请问导入下面这行代码是什么意思呢? from urllib.request import HTTPCookieProcessor
非常抱歉给您带来不好的体验!为了更深入的了解您的学习情况以及遇到的问题,您可以直接拨打投诉热线:
我们将在第一时间处理好您的问题!
关于
课程分类
百战程序员微信公众号
百战程序员微信小程序
©2014-2026百战汇智(北京)科技有限公司 All Rights Reserved 北京亦庄经济开发区科创十四街 赛蒂国际工业园网站维护:百战汇智(北京)科技有限公司 京公网安备 11011402011233号 京ICP备18060230号-3 营业执照 经营许可证:京B2-20212637