有效沟通问答-【官方】百战程序员_IT在线教育培训机构

会员可以在此提问，百战程序员老师有问必答

对大家有帮助的问答会被标记为“推荐”
看完课程过来浏览一下别人提的问题，会帮你学得更全面

截止目前，同学们一共提了 133940个问题

时间排序推荐排序

xiaoshuo.rar

老师，我执行完，只能取到第一章，麻烦帮忙看看什么原因？

Python 全系列/第十六阶段：Python 爬虫开发/移动端爬虫开发- 781楼

老师，这个问题这么解决的，好像一直都存在的，获取下来都是因为转码的问题提

Python 全系列/第十六阶段：Python 爬虫开发/爬虫基础（旧） 782楼

import requests
from fake_useragent import UserAgent

url = 'https://www.baidu.com/s?'
args = {
    'wd': '快代理'
}
resp = requests.get(url, params=args, headers={"User-Agent": UserAgent().random})
resp.encoding = 'utf-8'
print(resp.text)

老师，请问出现这种报错要怎么解决，在网上查的方法是

但试过之后还是没用

Python 全系列/第十六阶段：Python 爬虫开发/scrapy框架使用（旧） 783楼

捕获.JPG

老师，我用scrapy genspider middler httpbin.org创建文件的时候报这种错误

Python 全系列/第十六阶段：Python 爬虫开发/scrapy 框架高级 784楼

老师，这个问题是怎么解决的啊，是软件的问题吗

Python 全系列/第十六阶段：Python 爬虫开发/爬虫基础（旧） 785楼

老师，为什么加了两个 Rule之后会默认先使用第一个，然后后面一直使用第二个呢

Python 全系列/第十六阶段：Python 爬虫开发/scrapy 框架高级 786楼

老师，凡是网上能看到的信息都可以用爬虫爬到吗？那不能看到的呢，比如网站所有用户的联系方式

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 787楼

安装成功了lxml，但是导包etree的时候就出错，说是lxml是一个包不是一个模块，包的__init__里面没有etree

Python 全系列/第十六阶段：Python 爬虫开发/爬虫基础（旧） 788楼

老师请问为什么我下载的boot2docker.iso是个压缩文件啊?我解压缩以后没有得到老师视频中的光盘印象文件?

Python 全系列/第十六阶段：Python 爬虫开发/动态数据抓取 789楼

import requests
from lxml import etree

if __name__ == '__main__':
    tree = etree.parse('sogou.html')

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 790楼

老师这个问题怎么解决？为什么lxml导入不了etree

import requests
from lxml import etree

if __name__ == '__main__':
    tree = etree('sogou.html')

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 791楼

2021-03-20T07:43:45.126+0800 [initandlisten] MongoDB starting : pid=6844 port=27017 dbpath=d:\mongodb_64\db 64-bit host=LAPTOP-MSSFAU8A

2021-03-20T07:43:45.130+0800 [initandlisten] targetMinOS: Windows 7/Windows Server 2008 R2

2021-03-20T07:43:45.132+0800 [initandlisten] db version v2.6.5

2021-03-20T07:43:45.132+0800 [initandlisten] git version: e99d4fcb4279c0279796f237aa92fe3b64560bf6

2021-03-20T07:43:45.132+0800 [initandlisten] build info: windows sys.getwindowsversion(major=6, minor=1, build=7601, platform=2, service_pack='Service Pack 1') BOOST_LIB_VERSION=1_49

2021-03-20T07:43:45.132+0800 [initandlisten] allocator: system

2021-03-20T07:43:45.132+0800 [initandlisten] options: { storage: { dbPath: "d:\mongodb_64\db" } }

2021-03-20T07:43:45.132+0800 [initandlisten] exception in initAndListen: 10296

*********************************************************************

ERROR: dbpath (d:\mongodb_64\db) does not exist.

Create this directory or give existing directory in --dbpath.

See http://dochub.mongodb.org/core/startingandstoppingmongo

*********************************************************************

, terminating

2021-03-20T07:43:45.133+0800 [initandlisten] dbexit:

2021-03-20T07:43:45.133+0800 [initandlisten] shutdown: going to close listening sockets...

2021-03-20T07:43:45.133+0800 [initandlisten] shutdown: going to flush diaglog...

2021-03-20T07:43:45.133+0800 [initandlisten] shutdown: going to close sockets...

2021-03-20T07:43:45.133+0800 [initandlisten] shutdown: waiting for fs preallocator...

2021-03-20T07:43:45.133+0800 [initandlisten] shutdown: lock for final commit...

2021-03-20T07:43:45.133+0800 [initandlisten] shutdown: final commit...

2021-03-20T07:43:45.134+0800 [initandlisten] shutdown: closing all files...

2021-03-20T07:43:45.135+0800 [initandlisten] closeAllFiles() finished

2021-03-20T07:43:45.135+0800 [initandlisten] dbexit: really exiting now

老师请问一下，为什么我这里是连接失败，我的命令都和老师输入的一样

Python 全系列/第十六阶段：Python 爬虫开发/爬虫数据存储 792楼

老师我用xpathhelper结果是我想要得

但是我复制到代码中得到的又不一样了

这是为什么呢？

Python 全系列/第十六阶段：Python 爬虫开发/移动端爬虫开发- 793楼

代码:

import scrapy


class BizhizuSpider(scrapy.Spider):
    name = 'bizhizu'
    allowed_domains = ['bizhizu.cn']
    # start_urls = ['https://www.bizhizu.cn/pic/7097.html']
    start_urls=['https://www.bizhizu.cn/pic/7097-0.html']

    def parse(self, response):
        image_url=response.xpath('//div[@class="pic"]/a[@id="photoimg"]/img/@src').extract_first()
        print(image_url)
        image_name=response.xpath('string(//div[@class="txt"]/h1)').extract_first()
        print(image_name)
        yield{
            "image_url":image_url,
            "image_name":image_name
        }
        next_url=response.xpath('//div[@class="photo_next"]//a/@href').extract_first()
        yield scrapy.Request(next_url,callback=self.parse)

from scrapy.pipelines.images import ImagesPipeline
from scrapy import Request
class PicturePipeline(ImagesPipeline):
    def get_media_requests(self, item, info):
        yield Request(item["image_url"],meta={"name":item["image_name"]})
    def file_path(self, request, response=None, info=None,*,item=None):
        name=request.meta["name"].strip()
        name=name.replace("/","_")
        return name+'.jpg'

运行结果:

老师请问一下，为什么我在爬取淘女郎图片的时候，每次爬取的图片名称都是一样的，但是image_url是不同的，麻烦老师帮我看看程序哪里出问题了?

Python 全系列/第十六阶段：Python 爬虫开发/scrapy 框架高级 794楼

from fake_useragent import UserAgent
import requests
from lxml import etree
from time import sleep

def get_html(url):
    #传递要爬取的地址
    #返回html
    headers= {"User-Agent":UserAgent().chrome}
    resp = requests.get(url,headers=headers)
    sleep(2)
    if resp.status_code == 200:
        return resp.text
    else:
        return None

def parse_list(html):
    #传递进来一个有电影列表的html
    #返回一个电影列表的url
    e = etree.HTML(html)
    list_url = ['https://maoyan.com/{}'.format(url) for url in e.xpath('//div[@class="movie-item-hover"]/a/@href')]
    return list_url

def pares_index(html):
    #传递进来一个有电影信息的html
    #返回已提取好的电影信息
    e = etree.HTML(html)
    name = e.xpath('//h1[@class="name"]/text()')
    type = e.xpath('//li[@class="ellipsis"]/a[1]/text()')
    actors = e.xpath('//li[@class="celebrity actor"]/div[@class="info"]/a/text()')
    actors = format_data(actors)
    return {"name":name,"type":type,"actors":actors}

#去重
def format_data(actors):
    actor_set = set()
    for actor in actors:
        actor_set.add(actor.strip())
    return actor_set

def main():
    num = int(input("请输入要获取多少页："))
    for page in range(num):
        url = 'https://maoyan.com/films?showType=3&offset={}'.format(page*30)
        list_html = get_html(url)
        list_url = parse_list(list_html)
        for url in list_url:
            info_html = get_html(url)
            movie = pares_index(info_html)
            print(movie)

if __name__ == '__main__':
    main()

老师，我运行后出现如上报错，然后我尝试修改了一下代码如下。

但是执行后出来的效果如下图，求帮助。

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 795楼

同学您好