会员可以在此提问,百战程序员老师有问必答
对大家有帮助的问答会被标记为“推荐”
看完课程过来浏览一下别人提的问题,会帮你学得更全面
截止目前,同学们一共提了 133306个问题
Python 全系列/第十五阶段:Python 爬虫开发/分布式爬虫 706楼
Python 全系列/第十五阶段:Python 爬虫开发/分布式爬虫 709楼

xiaoshuo.zip

老师,这个您帮我看一下,我根据视频老师的稍微改了一下。做了一个深度爬虫。有以下几个问题:

1,为什么我这个爬取的一直是所以小说的第一章。不应该是爬取完成一个在爬取下个小说吗?还是说要在我最后一次的yield使用一个while循环。

2,这么多小说怎么分批保存到不同的txt文本。

Python 全系列/第十五阶段:Python 爬虫开发/移动端爬虫开发- 712楼

from fake_useragent import UserAgent
import requests
from lxml import etree
from time import sleep


def get_html(url):
    '''
    :param url:  要爬取的地址
    :return:  返回html
    '''
    headers = {"User-Agent": UserAgent().chrome}
    resp = requests.get(url, headers=headers)
    if resp.status_code == 200:
        resp.encoding = 'utf-8'
        return resp.text
    else:
        return None


def parse_list(html):
    '''
    :param html: 传递进来一个有电影列表的html
    :return: 返回一个电影列表的url
    '''

    e = etree.HTML(html)
    list_url = ['http://maoyan.com{}'.format(url) for url in e.xpath('//div[@class="movie-item film-channel"]/a/@href')]
    return list_url


def pares_index(html):
    '''
    :param html: 传递进来一个有电影信息的html
    :return: 已经提取好的电影信息
    '''
    e = etree.HTML(html)
    name = e.xpath('//h1[@class="name"]/text()')
    type = e.xpath('//li[@class="ellipsis"]/a[1]/text()')
    actors = e.xpath('//div[@class="celebrity-group"][2]/ul[@class="celebrity-list clearfix"]/li/div/a/text()')
    actors = format_data(actors)
    return {"name": name, "type": type, "actors": actors}


def format_data(actors):
    actor_set = set()
    for actor in actors:
        actor_set.add(actor.strip())
    return actor_set


def main():
    num = int(input('请输入要获取多少页:'))
    for page in range(num):
        url = 'http://maoyan.com/films?showType=3&offset={}'.format(page*30)
        list_html = get_html(url)
        list_url = parse_list(list_html)

        for url in list_url:
            info_html = get_html(url)
            movie = pares_index(info_html)
            print(movie)


if __name__ == '__main__':
    main()

运行的时候没有反应

image.png

Python 全系列/第十五阶段:Python 爬虫开发/爬虫反反爬- 713楼

老师,我在使用多线程爬取文件的时候,会出现文件写入不全,然后我在写入文件的的时候加入锁,但是发现还写入不全,您帮我看一下!

from threading import Thread,Lock
import requests
from lxml import etree
from fake_useragent import UserAgent
from queue import Queue
class Spider(Thread):
    def __init__(self,url_queue,lock):
        Thread.__init__(self)
        self.url_queue = url_queue
        self.lock = lock

    def run(self):
        while not self.url_queue.empty():
            url = self.url_queue.get()
            print(url)
            headers = {'User-Agent':UserAgent().chrome}
            resp = requests.get(url,headers=headers)
            e = etree.HTML(resp.text)
            contents = [div.xpath('string(.)').strip() for div in e.xpath('//div[@class="content"]')]
            #加入锁
            self.lock.acquire()
            with open('qiushi.text', 'a', encoding='utf-8')as f:
                for content in contents:
                    f.write(content+'\n')
            self.lock.release()
if __name__ == '__main__':
    base_url = 'https://www.qiushibaike.com/text/page/{}/'
    lock = Lock()
    url_queue = Queue()
    for num in range(1,14):
        url_queue.put(base_url.format(num))
    for i in range(6):
        spider = Spider(url_queue,lock)
        spider.start()


Python 全系列/第十五阶段:Python 爬虫开发/爬虫反反爬- 714楼

from threading import Thread
import requests
from lxml import etree
from fake_useragent import UserAgent
from queue import Queue    #引入一个队列,传输url


class Spider(Thread):
    def __init__(self, url_queue):
        Thread.__init__(self)
        self.url_queue = url_queue

    def run(self):
        while not self.url_queue.empty():
            url = self.url_queue.get()
            print(url)
            headers = {'User-Agent': UserAgent().chrome}
            resp = requests.get(url, headers=headers)
            e = etree.HTML(resp.text)
            dates = [div.xpath('string(.)').strip() for div in e.xpath('//div[@class="th200"]/text()')]  #如果这里这样写会报错:
            Maxtemps =e.xpath('//div[@class="th140"][1]/text()')   #如果这样写,取的数据不是base_url中的数据。
            Mintemps =e.xpath('//div[@class="th140"][2]/text()')
            Weathers =e.xpath('//div[@class="th140"][3]/text()')
            Windirs = e.xpath('//div[@class="th140"][4]/text()')
            for date, Maxtemp, Mintemp, Weather, Windir in zip(dates, Maxtemps, Mintemps, Weathers, Windirs):
                contents=[date, Maxtemp, Mintemp, Weather, Windir]
            with open('qixiang.txt', 'a', encoding='utf-8')as f:  # 'a'是追加的意思,文档打开放在文档写的前面。只打开一次。
                for content in contents:
                    f.write(content + '\t''\t''\t''\n')          # 问题:1.这里并没有追加新的内容,而是把当前页面重复加入;2.效果应该是打印某年某一个月全部数据:一行,字段之间有空格,每行换行。


if __name__ == '__main__':
    base_url = 'http://lishi.tianqi.com/zhengzhou/2011{}.html/'
    url_queue = Queue()
    for num in range(1, 13):
        if num <10:
           url_queue.put(base_url.format("%02d" % num))
        else:
            url_queue.put(base_url.format(num))

    for num in range(3):
        spider = Spider(url_queue)
        spider.start()

老师:我模仿多线程的程序讲解,爬取http://lishi.tianqi.com/zhengzhou/网站上的气象数据,想选择相应的年,月,爬取对应的数据。程序运行后的问题是:

1.没有爬取指定页面

base_url = 'http://lishi.tianqi.com/zhengzhou/2011{}.html/'

2.没有正确保存数据

没有追加新的内容,而是把当前页面重复加入;2.效果应该是打印某年某一个月全部数据:一行,字段之间有空格,每行换行。

3.取当面页面的数据时,会报错

[div.xpath('string(.)').strip() for div

我已经反复看教学视频,上网查资料,不知道问题在哪里,请老师帮助修改一下代码,谢谢!

Python 全系列/第十五阶段:Python 爬虫开发/爬虫反反爬- 718楼

课程分类

百战程序员微信公众号

百战程序员微信小程序

©2014-2025百战汇智(北京)科技有限公司 All Rights Reserved 北京亦庄经济开发区科创十四街 赛蒂国际工业园
网站维护:百战汇智(北京)科技有限公司
京公网安备 11011402011233号    京ICP备18060230号-3    营业执照    经营许可证:京B2-20212637