有效沟通问答-【官方】百战程序员_IT在线教育培训机构

from urllib.request import Request,urlopen
from fake_useragent import UserAgent
from urllib.parse import quote

args = input('请输入品牌：')

url = 'https://sh.58.com/ershouche/?key={quote(args)}'
headers = {'User-Agent':UserAgent().chrome}
req = Request(url,headers = headers)
resp = urlopen(req)

print(resp.read().decode())

问题：

Python全系列/第十六阶段：Python 爬虫开发/爬虫基础（旧） 721楼

老师我用xshell安装了docker,在powershell上用不了docker.

Python全系列/第十六阶段：Python 爬虫开发/爬虫反反爬 722楼

老师，这里这个__index__与初始化方法__init__有什么不同呢。我网上找了资料发现关于这个的很少。所以请教您一下

Python全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 723楼

这个登录窗怎么解决，试了一下前面的弹窗没成功不行，手动关闭了后面能正常运行，想问一下在代码里怎么解决，是前面的多层框架吗？

Python全系列/第十六阶段：Python 爬虫开发/爬虫基础 724楼

这个报错是哪个方面的问题，一用这个包就会报错，不用导包就正常

Python全系列/第十六阶段：Python 爬虫开发/爬虫基础（旧） 725楼

老师，反检测只能适用第一个选项卡的页面吗？我的程序是从虎牙直播的主页开始的，点击英雄联盟分类后，跳转到直播页面（在一个新的选项卡中打开的），然后，在这里检测到window.navigator.webdriver为true。这样里面的数据就爬取不到了。所以怎么解决这个问题呢？

from selenium import webdriver
from selenium.webdriver import ChromeOptions
from selenium.webdriver.common import action_chains
from selenium.webdriver.common.action_chains import ActionChains
import time


url = 'https://www.huya.com/'
option = webdriver.ChromeOptions()
option.add_experimental_option("excludeSwitches", ['enable-automation','enable-logging'])
option.add_experimental_option('useAutomationExtension', False)
driver = webdriver.Chrome(options=option)
driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
  "source": """
    Object.defineProperty(navigator, 'webdriver', {
      get: () => false
    })
  """
})
driver.get(url)
time.sleep(1)
# 点击分类中的英雄联盟
# driver.find_element_by_id('hy-nav-category').click()
fenlei = driver.find_element_by_id('hy-nav-category')  # 分类tag
shubiao = ActionChains(driver)
shubiao.move_to_element(fenlei).perform() # 鼠标移动到分类上
time.sleep(2)
lol = driver.find_element_by_xpath("//div[@class='nav-expand-list nav-expand-game']/dl[1]/dd[1]")  # 英雄联盟tag
shubiao.click(lol).perform()
time.sleep(2) # 等待页面渲染
zhubo = driver.find_elements_by_xpath("//ul[@id='js-live-list']/li/span/span[@class='avatar fl']/i")
print(zhubo)
print(len(zhubo))
print(type(zhubo))
for i in zhubo:
    print(i)
    print(type(i))
    print(i.text())

Python全系列/第十六阶段：Python 爬虫开发/爬虫基础（旧） 726楼

老师，我的tesseract环境配好了，cmd里面也能运行，但是pycharm终端里面还是报错

Python全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 727楼

老师，我有2个问题，麻烦帮忙解答，谢谢！

如何实现爬虫过程中将数据从redis中保存到mongo中,或者自动实现爬取结束后数据从redis中转移到mongo中，而不是再手动运行一个.py文件从redis中导出数据到mongo中
如何将数据从redis或mongo中导出到本地文件。

Python全系列/第十六阶段：Python 爬虫开发/分布式爬虫 728楼

老师，如图这种弹窗的登录方式，好像没有找到对应请求的地址啊？

Python全系列/第十六阶段：Python 爬虫开发/爬虫基础（旧） 729楼

老师，为什么我这个里有两个User-Agent，这个是不是意味着不在提供伪装。

from urllib.request import urlopen,Request

from fake_useragent import UserAgent
url = "
ua = UserAgent(verify_ssl=False) 
headers = {
    "User_Agent":ua.random
}

reuquest = Request(url,headers=headers)
resp = urlopen(reuquest)

info = resp.read().decode()

print(info)

Python全系列/第十六阶段：Python 爬虫开发/scrapy框架使用（旧） 730楼

能不能说一下在pycharm环境下运行crawlspider需要修改什么设置？

就比如在pycharm环境下使用callback需要将scrapy.Request中的设置

dont_filter: bool = False改为True

否则callback不执行一样。

Python全系列/第十六阶段：Python 爬虫开发/scrapy框架使用 731楼

案例分析是静态的，那动态的页面实战有何不一样

Python全系列/第十六阶段：Python 爬虫开发/爬虫基础 732楼

出现了这样的错误明明已经安装了scrapy-redis

但是运行的时候报错说是没有这个模块

Python全系列/第十六阶段：Python 爬虫开发/分布式爬虫 733楼

设置完代理后, 模拟器连接有问题是什么情况

Python全系列/第十六阶段：Python 爬虫开发/移动端爬虫 734楼

from urllib.request import Request,build_opener,urlopen
from fake_useragent import UserAgent
from urllib.parse import urlencode
from urllib.request import HTTPCookieProcessor

login_url="https://www.mypianku.net/user/login/"
form_data={
    "user":"18628906572",
    "password":"x..k.d$2000$"
}
headers={
    "User-Agent":UserAgent().random}
req=Request(login_url,headers=headers,data=urlencode(form_data).encode())
opener=build_opener()
resp=opener.open(req)


#---------------------------登录成功--------------------


url="https://www.mypianku.net/user/account/"

headers={
    "User-Agent":UserAgent().random,
    "Cookie":"_pk_id.1.f469=6d7b76987328fd10.1626832666.; d_c=d_1412928085; vrg_sc=4bb1ca6010ff37986d716442a23afa73; vrg_go=1; pyad=2; player123=%E6%B2%90%E6%B5%B4%E4%B9%8B%E7%8E%8BHD%23%23%2Fpy%2FlNmZxwmZsBTZ_1.html%23%235812%23%2394%24%24%E4%B8%80%E8%B7%AF%E6%83%8A%E5%96%9C%E6%AD%A3%E7%89%87%23%23%2Fpy%2FlNmZoRWMp1WM_1.html%23%23271%23%234%24%24%E4%B8%80%E8%B7%AF%E6%83%8A%E5%96%9C%E9%AB%98%E6%B8%85%23%23%2Fpy%2FlNGbrBTZ2wmY_1.html%23%23477%23%238%24%24%E6%B3%95%E5%8C%BB%E7%A7%A6%E6%98%8E2%E6%B8%85%E9%81%93%E5%A4%AB%E7%AC%AC2%E9%9B%86%23%23%2Fpy%2FlNGbmZjY3YmN_2.html%23%231479%23%2368%24%24%E6%B3%95%E5%8C%BB%E7%A7%A6%E6%98%8E%E7%AC%AC03%E9%9B%86%23%23%2Fpy%2FlRmNkdmZsRmN_3.html%23%23837%23%2342%24%24%E4%BA%BA%E5%86%8D%E5%9B%A7%E9%80%94%E4%B9%8B%E6%B3%B0%E5%9B%A7%E6%AD%A3%E7%89%87%23%23%2Fpy%2FlNmZkRjYjlDa_1.html%23%231206%23%2319%24%24%E9%80%9F%E5%BA%A6%E4%B8%8E%E6%BF%80%E6%83%853%EF%BC%9A%E4%B8%9C%E4%BA%AC%E6%BC%82%E7%A7%BBHD1280%E9%AB%98%E6%B8%85%E4%B8%AD%E5%AD%97%E7%89%88%23%23%2Fpy%2FlNWZ5wWb2ADb_1.html%23%23783%23%2313%24%24%E9%80%9F%E5%BA%A6%E4%B8%8E%E6%BF%80%E6%83%856HD1280%E9%AB%98%E6%B8%85%E4%B8%AD%E8%8B%B1%E5%8F%8C%E5%AD%97%E7%89%88%23%23%2Fpy%2FlNWZ5wWb2MzZ_1.html%23%235487%23%2370%24%24%E7%88%B1%E6%83%85%E5%85%AC%E5%AF%93%E7%AC%AC02%E9%9B%86%23%23%2Fpy%2FlRWZ3kGatNDZ_2.html%23%235%23%230%24%24; _pk_ref.1.f469=%5B%22%22%2C%22%22%2C1628861961%2C%22https%3A%2F%2Fcn.bing.com%2F%22%5D; _pk_ses.1.f469=1; PHPSESSID=iihse8vlb216gg5fdg3gp1enr2; Pianku_auth=06c5N-Pw7RaPoL7AOK2gZ9aIXMWGJb9xfbzdsIoHXUhn5Z-bGs1l68_Lhs7og6jww6iG_WLRbyEnhRXTbu_vthptMBgPXAm5yYV9rJlFKV2fnCs086hqg2uotFTErgHhyApWJTPsdVY19PwZJf_HwhyE7FcC83swIfUitbx_hsbqF2XVCp-zj5IU12U; Pianku_cookietime=95b9iaLnS9KECMWRwUf-834BhwpxfnYShmmwOys_Yp0DjXcSV_C1"
}
request=Request(url,headers=headers)
response=urlopen(request)
print(response.read().decode())

老师，请问导入下面这行代码是什么意思呢?
from urllib.request import HTTPCookieProcessor

Python全系列/第十六阶段：Python 爬虫开发/scrapy框架使用（旧） 735楼

同学您好