有效沟通问答-【官方】百战程序员_IT在线教育培训机构

会员可以在此提问，百战程序员老师有问必答

对大家有帮助的问答会被标记为“推荐”
看完课程过来浏览一下别人提的问题，会帮你学得更全面

截止目前，同学们一共提了 133940个问题

时间排序推荐排序

老师，能否将课件共享一下，视频讲的有点快，想看一下文字描述

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 271楼

老师这个分布式爬虫虽然就改了些代码，但是我还是听不太懂，先放着

再学一段时间后再学可以吗，这样会不会影响后面学习呀

Python 全系列/第十六阶段：Python 爬虫开发/scrapy框架使用 272楼

Tomcat是什么？？？？？？？？？

Python 全系列/第十六阶段：Python 爬虫开发/docker容器扩展-旧20230925 273楼

老师，请问，用xpath提取，这里的[2]是表示什么哦

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 274楼

代码:

mport requests
from bs4 import BeautifulSoup
from fake_useragent import UserAgent
from time import sleep
def get_url(url):
    proxies={"http":"http://61.135.155.82:443"}
    headers={"User-Agent":UserAgent().random}
    # sleep(2)
    resp=requests.get(url,headers=headers,proxies=proxies,timeout=5)
    resp.encoding="utf-8"
    if resp.status_code==200:
        return resp.text
    else:
        return None
def parse_list(html):
    soup=BeautifulSoup(html,'lxml')
    movie_list=["http://maoyan.com{}".format(a.get('href')) for a in soup.select('dl[class="movie-list"] dd>div[class="movie-item film-channel"]>a')]
    return movie_list
def parse_index(html):
    soup=BeautifulSoup(html,'lxml')
    title=soup.select('div[class="movie-brief-container"]>h1')
    # type=soup.select('div[class="movie-brief-container"]>ul>li>a')
    print(title[0].text)
    # print(type[0].text)
def main():
    url="https://maoyan.com/films?showType=3&offset=0"
    html=get_url(url)
    movie_list=parse_list(html)
    for url in movie_list:
        # print(url)
        html=get_url(url)
        parse_index(html)
if __name__=="__main__":
    main()

运行结果:

老师请问一下，为什么我的程序timeout错误，网上说要设置一个timeout时间，我设置了一个timeout=5可是还是报错，请问这是什么原因?麻烦老师帮我看一下

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 275楼

为啥打不开网页？

Python 全系列/第十六阶段：Python 爬虫开发/移动端爬虫 276楼

老师我问一下为啥加载时间有点长啊，但是运行是能运行完成的

Python 全系列/第十六阶段：Python 爬虫开发/爬虫基础 277楼

老师，xpath2.0.2_0 这个软件，我操作显示无效

Chrome 网上应用店，我也打不开

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 278楼

为什么二次请求什么都没有抓到

Python 全系列/第十六阶段：Python 爬虫开发/爬虫基础 279楼

老师讲课中总是说是不是啊，我们没学过，怎么知道是不是

Python 全系列/第十六阶段：Python 爬虫开发/docker容器扩展-旧20230925 280楼

这是为什么

2023-12-29 15:16:42 [scrapy_fake_useragent.middleware] INFO: Error loading User-Agent provider: scrapy_fake_useragent.providers.FakeUserAgentProvider

2023-12-29 15:16:42 [scrapy_fake_useragent.middleware] INFO: Unable to load any of the User-Agent providers

2023-12-29 15:16:42 [scrapy_fake_useragent.middleware] INFO: Using '<class 'scrapy_fake_useragent.providers.FixedUserAgentProvider'>' as the User-Agent provider

2023-12-29 15:16:42 [scrapy_fake_useragent.middleware] INFO: Error loading User-Agent provider: scrapy_fake_useragent.providers.FakeUserAgentProvider

2023-12-29 15:16:42 [scrapy_fake_useragent.middleware] INFO: Unable to load any of the User-Agent providers

2023-12-29 15:16:42 [scrapy_fake_useragent.middleware] INFO: Using '<class 'scrapy_fake_useragent.providers.FixedUserAgentProvider'>' as the User-Agent provider

Python 全系列/第十六阶段：Python 爬虫开发/scrapy框架使用 281楼

小伙伴们，他秘钥有俩个f=d.a.enc.Utf8.parse("Dt8j9wGw%6HbxfFn");用这个秘钥就解出来了

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬 282楼

老师，这个html代码是不是有问题？

Python 全系列/第十六阶段：Python 爬虫开发/爬虫基础 283楼

老师，视频的操作比语音快好几秒，听起来有些就错过了

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 284楼

from urllib.request import Request,build_opener,HTTPCookieProcessor
from urllib.parse import urlencode
from fake_useragent import UserAgent
from http.cookiejar import MozillaCookieJar
import ssl
def get_cookie():
    url = 'https://rl.mail.qq.com/cgi-bin/getinvestigate?sid=ucPJvMl86d29Q1wC'
    headers={
        'User-Agent':UserAgent().chrome
    }
    data = {
        'user': '523531642',
        'password': '*********'
    }
    context = ssl._create_unverified_context()
    res = Request(url,headers=headers,data=urlencode(data).encode())
    cookiejar = MozillaCookieJar()
    handler = HTTPCookieProcessor(cookiejar)
    opener = build_opener(handler)
    resp = opener.open(res)
    cookiejar.save('cookie.text',ignore_discard=True,ignore_expires=True)
def use_cookie():
    info_url='https://mail.qq.com'
    headers = {
        'User-Agent': UserAgent().chrome
    }
    context = ssl._create_unverified_context()
    res = Request(info_url, headers=headers, data=urlencode(headers).encode())
    cookiejar = MozillaCookieJar()
    cookiejar.load('cookie.text',ignore_expires=True,ignore_discard=True)
    handler = HTTPCookieProcessor(cookiejar)
    opener = build_opener(handler)
    resp = opener.open(res)
    print(resp.read())
if __name__ == '__main__':
    get_cookie()
    #use_cookie()

老师这个qq邮箱是https 我保存的的cookie文件为什么不行

是登录的url有问题吗？老师我的代码有问题吗？

# Netscape HTTP Cookie File
# http://curl.haxx.se/rfc/cookie_spec.html
# This is a generated file!  Do not edit.

.mail.qq.com   TRUE   /  FALSE     qm_sk  
.mail.qq.com   TRUE   /  FALSE     qm_ssum    
.qq.com    TRUE   /  FALSE     qm_sk  
.qq.com    TRUE   /  FALSE     qm_ssum

Python 全系列/第十六阶段：Python 爬虫开发/scrapy框架使用（旧） 285楼

同学您好