有效沟通问答-【官方】百战程序员_IT在线教育培训机构

from threading import Thread
import requests
from lxml import etree
from fake_useragent import UserAgent
from queue import Queue    #引入一个队列，传输url


class Spider(Thread):
    def __init__(self, url_queue):
        Thread.__init__(self)
        self.url_queue = url_queue

    def run(self):
        while not self.url_queue.empty():
            url = self.url_queue.get()
            print(url)
            headers = {'User-Agent': UserAgent().chrome}
            resp = requests.get(url, headers=headers)
            e = etree.HTML(resp.text)
            dates = [div.xpath('string(.)').strip() for div in e.xpath('//div[@class="th200"]/text()')]  #如果这里这样写会报错：
            Maxtemps =e.xpath('//div[@class="th140"][1]/text()')   #如果这样写，取的数据不是base_url中的数据。
            Mintemps =e.xpath('//div[@class="th140"][2]/text()')
            Weathers =e.xpath('//div[@class="th140"][3]/text()')
            Windirs = e.xpath('//div[@class="th140"][4]/text()')
            for date, Maxtemp, Mintemp, Weather, Windir in zip(dates, Maxtemps, Mintemps, Weathers, Windirs):
                contents=[date, Maxtemp, Mintemp, Weather, Windir]
            with open('qixiang.txt', 'a', encoding='utf-8')as f:  # 'a'是追加的意思,文档打开放在文档写的前面。只打开一次。
                for content in contents:
                    f.write(content + '\t''\t''\t''\n')          # 问题：1.这里并没有追加新的内容，而是把当前页面重复加入；2.效果应该是打印某年某一个月全部数据：一行，字段之间有空格，每行换行。


if __name__ == '__main__':
    base_url = 'http://lishi.tianqi.com/zhengzhou/2011{}.html/'
    url_queue = Queue()
    for num in range(1, 13):
        if num <10:
           url_queue.put(base_url.format("%02d" % num))
        else:
            url_queue.put(base_url.format(num))

    for num in range(3):
        spider = Spider(url_queue)
        spider.start()

老师：我模仿多线程的程序讲解，爬取 http://lishi.tianqi.com/zhengzhou/网站上的气象数据，想选择相应的年，月，爬取对应的数据。程序运行后的问题是：

1.没有爬取指定页面

base_url = 'http://lishi.tianqi.com/zhengzhou/2011{}.html/'

2.没有正确保存数据

没有追加新的内容，而是把当前页面重复加入；2.效果应该是打印某年某一个月全部数据：一行，字段之间有空格，每行换行。

3.取当面页面的数据时，会报错

[div.xpath('string(.)').strip() for div

我已经反复看教学视频，上网查资料，不知道问题在哪里，请老师帮助修改一下代码，谢谢！

Python全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 985楼

老师想问一下，这个找不到引用是什么原因

Python全系列/第十六阶段：Python 爬虫开发/爬虫基础 986楼

可以在手机上生成Appium Setting 点击时闪退，且python代码运行不了

Python全系列/第十六阶段：Python 爬虫开发/移动端爬虫 987楼

代码:

代码.zip

老师请问一下，为什么我写的爬取房子网站的程序，爬取不下来房子的价格，其他的信息都可以爬取下来，可是只有价格爬不下来，麻烦老师帮我看看出了问题?

运行结果:

屏幕截图 2021-03-24 145431.png

Python全系列/第十六阶段：Python 爬虫开发/动态数据抓取 988楼

老师，本讲中，通过程序提取出来的文本里，还有<br/>这个的代码，怎么能把这样的代码也去掉，只保留文本？

Python全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 989楼

老师结果输出的是这样的，有什么问题吗

Python全系列/第十六阶段：Python 爬虫开发/爬虫基础 990楼

同学您好