有效沟通问答-【官方】百战程序员_IT在线教育培训机构

会员可以在此提问，百战程序员老师有问必答

对大家有帮助的问答会被标记为“推荐”
看完课程过来浏览一下别人提的问题，会帮你学得更全面

截止目前，同学们一共提了 133940个问题

老师你好，文档中缺少本章节的资料.......................

Python 全系列/第十六阶段：Python 爬虫开发/动态数据抓取 1006楼

老师，我爬取豆瓣电影代码如下：

from urllib.request import Request
from urllib.request import urlopen
from random import choice
from time import sleep


def get_html(url):
    user_agnet_list = [
        # 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)\
        #  Chrome/80.0.3987.132 Safari/537.36'
        # 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)123456',
        # 'Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11',
        # 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; TencentTraveler 4.0)',
        # 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; The World)',
        # 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SE 2.X MetaSr 1.0; SE 2.X MetaSr 1.0; \
        # .NET CLR 2.0.50727; SE 2.X MetaSr 1.0)',
        # 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)',
        # 'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50(KHTML, like Gecko)\
        #  Version/5.1 Safari/534.50'
        'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'
    ]
    choice_agent = choice(user_agnet_list)
    headers = {
        'User-Agent': choice_agent
    }
    request = Request(url, headers=headers)
    response = urlopen(request)
    return response.read().decode()


def save_html(html, filename):
    with open(filename, 'a', encoding='utf-8') as f:
        f.writelines(html)


def main():
    i = 0
    base_url = 'https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action=&start={}&limit=20'
    while True:
        url = base_url.format(i * 20)
        html = get_html(url)
        if html == '[]':  # 返回值为[]时表示遍历完成，退出循环
            break
        else:
            print(html)
            save_html(html, 'a.html')
            i += 1
            sleep(3)
    # html=get_html(base_url)
    # print(html)


if __name__ == '__main__':
    main()

刚开始运行还能运行，后面运行提示：

是不是被封ip了？如何解决？

Python 全系列/第十六阶段：Python 爬虫开发/爬虫基础（旧） 1007楼

老师，爬取豆瓣电影时，

如果想提高访问效率，limit=20可以改成200，那么前面的start规则是不是也就变了，是不是每次不在增加20了？

Python 全系列/第十六阶段：Python 爬虫开发/爬虫基础（旧） 1008楼

2020-03-14 16:33:59 [scrapy.utils.log] INFO: Scrapy 2.0.0 started (bot: rockstone)
2020-03-14 16:33:59 [scrapy.utils.log] INFO: Versions: lxml 4.5.0.0, libxml2 2.9.5, cssselect 1.1.0, parsel 1.5.2, w3lib 1.21.0, Twisted 19.10.0, Python 3.7.6 (tags/v3.7.6:43364
a7ae0, Dec 19 2019, 00:42:30) [MSC v.1916 64 bit (AMD64)], pyOpenSSL 19.1.0 (OpenSSL 1.1.1d 10 Sep 2019), cryptography 2.8, Platform Windows-10-10.0.18362-SP0
2020-03-14 16:33:59 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.selectreactor.SelectReactor
2020-03-14 16:33:59 [scrapy.crawler] INFO: Overridden settings:
{'BOT_NAME': 'rockstone',
'NEWSPIDER_MODULE': 'rockstone.spiders',
'ROBOTSTXT_OBEY': True,
'SPIDER_MODULES': ['rockstone.spiders']}
2020-03-14 16:33:59 [scrapy.extensions.telnet] INFO: Telnet Password: 12ce7d6c067a2499
2020-03-14 16:33:59 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
'scrapy.extensions.telnet.TelnetConsole',
'scrapy.extensions.logstats.LogStats']
2020-03-14 16:33:59 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware',
'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
'scrapy.downloadermiddlewares.retry.RetryMiddleware',
'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
'scrapy.downloadermiddlewares.stats.DownloaderStats']
2020-03-14 16:33:59 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
'scrapy.spidermiddlewares.referer.RefererMiddleware',
'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
'scrapy.spidermiddlewares.depth.DepthMiddleware']
2020-03-14 16:33:59 [scrapy.middleware] INFO: Enabled item pipelines:
[]
2020-03-14 16:33:59 [scrapy.core.engine] INFO: Spider opened
2020-03-14 16:33:59 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2020-03-14 16:33:59 [scrapy.extensions.telnet] INFO: Telnet console listening on 127.0.0.1:6023
2020-03-14 16:33:59 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://www.baidu.com/robots.txt> (referer: None)
2020-03-14 16:33:59 [scrapy.downloadermiddlewares.robotstxt] DEBUG: Forbidden by robots.txt: <GET http://www.baidu.com/>
2020-03-14 16:33:59 [scrapy.core.engine] INFO: Closing spider (finished)
2020-03-14 16:33:59 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/exception_count': 1,
'downloader/exception_type_count/scrapy.exceptions.IgnoreRequest': 1,
'downloader/request_bytes': 223,
'downloader/request_count': 1,
'downloader/request_method_count/GET': 1,
'downloader/response_bytes': 676,
'downloader/response_count': 1,
'downloader/response_status_count/200': 1,
'elapsed_time_seconds': 0.350322,
'finish_reason': 'finished',
'finish_time': datetime.datetime(2020, 3, 14, 8, 33, 59, 677262),
'log_count/DEBUG': 2,
'log_count/INFO': 10,
'response_received_count': 1,
'robotstxt/forbidden': 1,
'robotstxt/request_count': 1,
'robotstxt/response_count': 1,
'robotstxt/response_status_count/200': 1,
'scheduler/dequeued': 1,
'scheduler/dequeued/memory': 1,
'scheduler/enqueued': 1,
'scheduler/enqueued/memory': 1,
'start_time': datetime.datetime(2020, 3, 14, 8, 33, 59, 326940)}
2020-03-14 16:33:59 [scrapy.core.engine] INFO: Spider closed (finished)

老师我这个按照百度那个测试没有返回的html信息

Python 全系列/第十六阶段：Python 爬虫开发/移动端爬虫开发- 1009楼

老师我这个按照百度那个测试没有返回的html信息

Python 全系列/第十六阶段：Python 爬虫开发/移动端爬虫开发- 1010楼

老师为什么我直接安装scrapy 显示安装成功了

Python 全系列/第十六阶段：Python 爬虫开发/移动端爬虫开发- 1011楼

老师，如何控制爬取的页数，为什么我的代码直接爬取了所有章节，并不是5页。

Python 全系列/第十六阶段：Python 爬虫开发/移动端爬虫开发- 1012楼

老师，这是我爬取京东联盟的源码，由于爬取所有的商品信息，例如牙膏有23749这是理论数据值，

但是实际爬取发现，当爬取到9500条时数据便替换成了其他的数据，如下图，但是我换了另外一个ip进行测试，发现当我从96页开始请求（一页一百条数据），同样也不是牙膏的商品数据，不知道到到底是理论数据不对的问题，还是遭遇了特别的反爬虫，只有牙膏和牙刷数据不对，其他的数据是没有问题（总共有五种商品），具体信息看附件

然后面试跟我反馈有以下几点问题：

说我的爬取没有使用价格区分（这里没有理解他的意思）
牙膏和牙刷数据不全（这里就是上面的那个问题）
爬取的逻辑不对

解决方法我只能针对第三个问题进行改进，如采用scrapy-redis进行爬取，效率更高，由于没有form_data表单中的searchUUID没有更改（可能是这被反爬了），所以可以更改searchUUID，但是这些理论上只是不完美，逻辑问题上想不出其他的问题。

恳请老师指点！谢谢！

requests
json
time

url=headers={
: ,
: ,
: ,
: ,
:,
:,
:,
:,
:,
:,
:,
:,
:,
:,
:,
:,
}
cat3ids=[,,,,]name={
    :,
    :,
    :,
    :,
    :}
proxy=[,
,
,
,
,
,
,
,
,
]
cat3id cat3ids:
    (.format(name[(cat3id)]))
    payload_data={:,:,:,:{:,:,:cat3id,:,:,:,:,:,:,:,:,:,:}}
    resp=requests.post(url,=json.dumps(payload_data),=headers,={:proxy[]})
    totalCount=resp.json()[][][]f=(.format(name[(cat3id)]),,=)
    i (totalCount//):
        (.format(i+))  payload_data1 = {: i+, : , : ,
                        : {: , : , : cat3id, : ,
                                 : , : , : , : , : , : ,
                                 : , : , : }}
        resp = requests.post(url, =json.dumps(payload_data1), =headers,={:proxy[]})
        contents=resp.json()[][]
        content contents:
            skuname=content[][]
            count=content[][]
            f.write(.format(,,name[(cat3id)],skuname,count))

        time.sleep()
()
    time.sleep()
    payload_data2 = {: (totalCount//)+, : totalCount%, : ,
                     : {: , : , : cat3id, : ,
                              : , : , : , : , : , : ,
                              : , : , : }}
    resp = requests.post(url, =json.dumps(payload_data2), =headers,={:proxy[]})
    contents2 = resp.json()[][]
    content2 contents2:
        skuname2 = content2[][]
        count2 = content2[][]
        f.write(.format(, , name[(cat3id)], skuname2, count2))
    f.close()

Python 全系列/第十六阶段：Python 爬虫开发/动态数据抓取 1013楼

from urllib.request import Request,build_opener,HTTPCookieProcessor
from urllib.parse import urlencode
from fake_useragent import UserAgent
from http.cookiejar import MozillaCookieJar
import ssl
def get_cookie():
    url = 'https://rl.mail.qq.com/cgi-bin/getinvestigate?sid=ucPJvMl86d29Q1wC'
    headers={
        'User-Agent':UserAgent().chrome
    }
    data = {
        'user': '523531642',
        'password': '*********'
    }
    context = ssl._create_unverified_context()
    res = Request(url,headers=headers,data=urlencode(data).encode())
    cookiejar = MozillaCookieJar()
    handler = HTTPCookieProcessor(cookiejar)
    opener = build_opener(handler)
    resp = opener.open(res)
    cookiejar.save('cookie.text',ignore_discard=True,ignore_expires=True)
def use_cookie():
    info_url='https://mail.qq.com'
    headers = {
        'User-Agent': UserAgent().chrome
    }
    context = ssl._create_unverified_context()
    res = Request(info_url, headers=headers, data=urlencode(headers).encode())
    cookiejar = MozillaCookieJar()
    cookiejar.load('cookie.text',ignore_expires=True,ignore_discard=True)
    handler = HTTPCookieProcessor(cookiejar)
    opener = build_opener(handler)
    resp = opener.open(res)
    print(resp.read())
if __name__ == '__main__':
    get_cookie()
    #use_cookie()

老师这个qq邮箱是https 我保存的的cookie文件为什么不行

是登录的url有问题吗？老师我的代码有问题吗？

# Netscape HTTP Cookie File
# http://curl.haxx.se/rfc/cookie_spec.html
# This is a generated file!  Do not edit.

.mail.qq.com   TRUE   /  FALSE     qm_sk  
.mail.qq.com   TRUE   /  FALSE     qm_ssum    
.qq.com    TRUE   /  FALSE     qm_sk  
.qq.com    TRUE   /  FALSE     qm_ssum

Python 全系列/第十六阶段：Python 爬虫开发/scrapy框架使用（旧） 1014楼

老师，能不能帮下忙，这是我的一个面试题，实在不知道怎么解决了

https://data.weibo.com/index/newindex?visit_type=trend&wid=1091324264913&dateGroup=3month

要访问这个地址获取中间搜索词为病毒的30天数据，但是他的web端关闭了，只能在手机端上去解决，但是手机端又有ajax请求我实在是解决不了了，拜托拜托

Python 全系列/第十六阶段：Python 爬虫开发/爬虫数据存储 1015楼

老师，如何爬取移动端的数据，我fidder现在已经能够抓到移动端的数据，但是不知道代码这些应该怎么写

Python 全系列/第十六阶段：Python 爬虫开发/动态数据抓取 1016楼

from urllib.request import urlopen
from urllib.request import Request
url = "http://www.baidu.com/"
heards = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) 123456"}
#封装url#
req = Request(url, heards=heards)
#发送请求#
resp = urlopen(req)


print(resp.read().decode())

老师这个报错是什么原因？TypeError: __init__() got an unexpected keyword argument 'heards'

Python 全系列/第十六阶段：Python 爬虫开发/爬虫基础（旧） 1017楼

老师这里一直在报错，实在不知道该怎么解决了，网上说要重启服务器，可是我已经重启了很多次了，端口号也改了就是不知道问题在哪里

这是改了链接的问题