有效沟通问答-【官方】百战程序员_IT在线教育培训机构

会员可以在此提问，百战程序员老师有问必答

对大家有帮助的问答会被标记为“推荐”
看完课程过来浏览一下别人提的问题，会帮你学得更全面

截止目前，同学们一共提了 133940个问题

时间排序推荐排序

使用docker toolbox安装docker，请问老师报这个错应该怎么处理

yuyyuuuyuyu

Python 全系列/第十六阶段：Python 爬虫开发/动态数据抓取 781楼

提取t，然后工具解析失败了，

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬 782楼

老师，请问，我第一次爬取的时候，数据库中只有一页的内容，但是我把close_spider这个函数注释掉或者加个等待，就可以爬取3页的数据，这种情况是不是在数据还没有保存完，连接就关闭了

Python 全系列/第十六阶段：Python 爬虫开发/爬虫数据存储 783楼

老师 第一的运行结果为啥是空值,而第二个就能运行出来

from lxml import etree
import  requests
url="https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4"
headers={ 'Host':'book.douban.com',
  'Upgrade-Insecure-Requests':'1',
   'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36'
}
req = requests.get(url=url,headers=headers)
content = req.text
content_dict=etree.HTML(content)    #格式化
title_list = content_dict.xpath(r'div[2]/h2/a/@title')

for title in title_list:
    print(title)

from lxml import etree
import  requests
url="https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4"
headers={ 'Host':'book.douban.com',
  'Upgrade-Insecure-Requests':'1',
   'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36'
}
req = requests.get(url=url,headers=headers)
content = req.text
content_dict=etree.HTML(content)    #格式化
title_list = content_dict.xpath(r'div[2]/h2/a/@title')

content_dict_allli = content_dict.xpath(r'//*[@id="subject_list"]/ul/li')  #拿到列表
info_all = ''

for li in content_dict_allli:
   # 书名/标题
    title_list = li.xpath(r'div[2]/h2/a/@title')    #取标签里的内容，注意地址是相对地址，不能直接拿来用 （注：和bs4不一样）
    title =title_list[0]
    title=title.replace(" ",'')
    print(title)

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 784楼

老师，这个是不是先掌握从网页提取的Cookie，然后账号密码的那个后面是不是还有一些其他手段爬取，因为我这个试了好多个网址，账号密码现在的都登录不上去

Python 全系列/第十六阶段：Python 爬虫开发/scrapy框架使用（旧） 785楼

提取t,工具解析失败了

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬 786楼

2.打开开发者模式，把它拖到谷歌浏览器的程序拓展里

3.就出现这种情况

4.放到搜狗浏览器可以使用，把打开方式改成谷歌也没用

Python 全系列/第十六阶段：Python 爬虫开发/爬虫基础（旧） 787楼

docker 的讲解文档在哪里？还有，现在下载的都是3.5版本了，有没有新的视频

Python 全系列/第十六阶段：Python 爬虫开发/动态数据抓取 788楼

老师，这个怎么办呢

Python 全系列/第十六阶段：Python 爬虫开发/scrapy框架使用 789楼

老师为啥这里不用.+贪婪模式

而要用.+?加了个问号咧???????????

Python 全系列/第十六阶段：Python 爬虫开发/爬虫基础（旧） 790楼

老师你好！这是一个什么问题？

Python 全系列/第十六阶段：Python 爬虫开发/分布式爬虫 791楼

代码:

from selenium import webdriver
from selenium.webdriver.common.by import By
from time import sleep
options=webdriver.ChromeOptions()
options.add_argument('--headless')
chrome=webdriver.Chrome(options=options)
url="https://www.lagou.com/zhaopin/Python/?filterOption=3&sid=9146e755a7bf4f6dac59edd3e7d43127"
sleep(2)
chrome.get(url)
html=chrome.page_source
print(html)
while True:
    job = chrome.find_elements(By.XPATH, '//div[@class="p_top"]//h3')
    point = chrome.find_elements(By.XPATH, '//span[@class="add"]//em')
    salary = chrome.find_elements(By.XPATH, '//div[@class="li_b_l"]//span[@class="money"]')
    company = chrome.find_elements(By.XPATH, '//div[@class="company_name"]/a')
    industry = chrome.find_elements(By.XPATH, '//div[@class="industry"]')
    n = len(job)
    with open(r"job5.txt", "a", encoding="utf-8") as f:
        for i in range(n):
            f.write((job[i].text).strip())
            f.write("\t")
            f.write((point[i].text).strip())
            f.write("\t")
            f.write((salary[i].text).strip())
            f.write("\t")
            f.write((company[i].text).strip())
            f.write("\t")
            f.write((industry[i].text).strip())
            f.write("\n")
    if html.find('page_no') != -1:
        chrome.find_element_by_class_name('page_no').click()
        sleep(3)
    else:
        break
chrome.quit()

运行结果:

高级爬虫工程师（）  杭州滨江区 丁香园    医疗丨健康企业服务 轮及以上 人
开发工程师    上海长宁区 信飞数科信用飞首付游   科技金融 轮 人
开发工程师    上海徐汇区 问卷网众言科技   工具类产品 轮 人
开发   上海徐汇区 问卷网众言科技   工具类产品 轮 人
开发工程师    北京知春路 天眼查    数据服务｜咨询 不需要融资 人
开发工程师    东莞东莞市东莞美信   汽车丨出行 上市公司 人以上
开发工程师    杭州余杭区 和骏出行   移动互联网 天使轮 人
开发工程师    上海徐汇区 上海江煦信息科技   软件服务｜咨询 不需要融资 人
开发工程师    杭州西湖区 涂鸦智能   物联网智能硬件 轮 人以上
高级开发工程师  上海长宁区 信飞数科信用飞首付游   科技金融 轮 人
开发工程师    上海张江  仑动科技   企业服务人工智能 未融资 少于人
开发工程师    广州白云区 东莞美信   汽车丨出行 上市公司 人以上
开发工程师    深圳前海  易博天下   软件服务｜咨询 上市公司 人
开发工程师    广州海珠区 派客朴食   移动互联网电商 不需要融资 人
上海浦东新北纬三十度  电商平台 未融资 人
高级爬虫工程师（） 杭州滨江区 丁香园    医疗丨健康企业服务 轮及以上 人
开发工程师    上海长宁区 信飞数科信用飞首付游   科技金融 轮 人
开发工程师    上海徐汇区 问卷网众言科技   工具类产品 轮 人
开发   上海徐汇区 问卷网众言科技   工具类产品 轮 人
开发工程师    北京知春路 天眼查    数据服务｜咨询 不需要融资 人
开发工程师    东莞东莞市东莞美信   汽车丨出行 上市公司 人以上
开发工程师    杭州余杭区 和骏出行   移动互联网 天使轮 人
开发工程师    上海徐汇区 上海江煦信息科技   软件服务｜咨询 不需要融资 人
开发工程师    杭州西湖区 涂鸦智能   物联网智能硬件 轮 人以上
高级开发工程师  上海长宁区 信飞数科信用飞首付游   科技金融 轮 人
开发工程师    上海张江  仑动科技   企业服务人工智能 未融资 少于人
开发工程师    广州白云区 东莞美信   汽车丨出行 上市公司 人以上
开发工程师    深圳前海  易博天下   软件服务｜咨询 上市公司 人
开发工程师    广州海珠区 派客朴食   移动互联网电商 不需要融资 人
上海浦东新北纬三十度  电商平台 未融资 人

问题:

老师请问一下，我使用的是selenium来爬取拉勾网上的关于python的职位，第一页中的数据是从高级python爬虫工程师(Insight)15k-25k到python上海.浦东新区15k-30k，当我爬取完一页以后我就用chrome中的click方法点击进入下一页继续爬取，我使用的是while True循环来实现的，可是为什么当我点击进入下一页以后爬取的还是第一页的15条数据，每次都是在重复爬取第一页的15条数据，麻烦老师帮我看看我的代码哪里出错了?

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 792楼

老师你好！为什么拿到具体电影的URL之后不需要转HTML就可以直接获取内容，而获取电影列表时需要把URL转HTML呢？

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 793楼

问题：无法安装Twisted

源码：

[root@matt Twisted-19.7.0]# python3 setup.py install
Traceback (most recent call last):
  File "setup.py", line 11, in <module>
    import setuptools
  File "/usr/python-3.8.0/lib/python3.8/site-packages/setuptools/__init__.py", line 20, in <module>
    from setuptools.dist import Distribution, Feature
  File "/usr/python-3.8.0/lib/python3.8/site-packages/setuptools/dist.py", line 35, in <module>
    from setuptools import windows_support
  File "/usr/python-3.8.0/lib/python3.8/site-packages/setuptools/windows_support.py", line 2, in <module>
    import ctypes
  File "/usr/python-3.8.0/lib/python3.8/ctypes/__init__.py", line 7, in <module>
    from _ctypes import Union, Structure, Array
ModuleNotFoundError: No module named '_ctypes'

按照网上的讲法安装了libffi-devel，但是还是不行，执行python3 setuplpy install 还是有错，说没有模块：_ctypes

Python 全系列/第十六阶段：Python 爬虫开发/分布式爬虫 794楼

老师这个getee的文档资料地址是多少啊

Python 全系列/第十六阶段：Python 爬虫开发/爬虫基础（旧） 795楼

同学您好