会员可以在此提问,百战程序员老师有问必答
对大家有帮助的问答会被标记为“推荐”
看完课程过来浏览一下别人提的问题,会帮你学得更全面
截止目前,同学们一共提了 132647个问题
Python 全系列/第十六阶段:Python 爬虫开发/爬虫反反爬 782楼
Python 全系列/第十六阶段:Python 爬虫开发/爬虫反反爬- 783楼
Python 全系列/第十六阶段:Python 爬虫开发/爬虫基础(旧) 784楼
Python 全系列/第十六阶段:Python 爬虫开发/动态数据抓取 785楼
Python 全系列/第十六阶段:Python 爬虫开发/爬虫反反爬 786楼

老师 第一的运行结果为啥是空值,而第二个就能运行出来

from lxml import etree
import  requests
url="https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4"
headers={ 'Host':'book.douban.com',
  'Upgrade-Insecure-Requests':'1',
   'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36'
}
req = requests.get(url=url,headers=headers)
content = req.text
content_dict=etree.HTML(content)    #格式化
title_list = content_dict.xpath(r'div[2]/h2/a/@title')

for title in title_list:
    print(title)
from lxml import etree
import  requests
url="https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4"
headers={ 'Host':'book.douban.com',
  'Upgrade-Insecure-Requests':'1',
   'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36'
}
req = requests.get(url=url,headers=headers)
content = req.text
content_dict=etree.HTML(content)    #格式化
title_list = content_dict.xpath(r'div[2]/h2/a/@title')

content_dict_allli = content_dict.xpath(r'//*[@id="subject_list"]/ul/li')  #拿到列表
info_all = ''

for li in content_dict_allli:
   # 书名/标题
    title_list = li.xpath(r'div[2]/h2/a/@title')    #取标签里的内容,注意地址是相对地址,不能直接拿来用 (注:和bs4不一样)
    title =title_list[0]
    title=title.replace(" ",'')
    print(title)


Python 全系列/第十六阶段:Python 爬虫开发/爬虫反反爬- 788楼
Python 全系列/第十六阶段:Python 爬虫开发/爬虫反反爬 790楼
Python 全系列/第十六阶段:Python 爬虫开发/动态数据抓取 792楼
Python 全系列/第十六阶段:Python 爬虫开发/scrapy框架使用 793楼
Python 全系列/第十六阶段:Python 爬虫开发/爬虫基础(旧) 794楼

课程分类

百战程序员微信公众号

百战程序员微信小程序

©2014-2025百战汇智(北京)科技有限公司 All Rights Reserved 北京亦庄经济开发区科创十四街 赛蒂国际工业园
网站维护:百战汇智(北京)科技有限公司
京公网安备 11011402011233号    京ICP备18060230号-3    营业执照    经营许可证:京B2-20212637