老师,本节中,爬取小说,其实小说网址已经换了,里面的标签内容也和视频中不一样,我的思路是,先爬取首页,从首页中提取所有小说章节中的url,然后重新yield Request(url)中(按顺序添加的)让他重新爬取与重新解析,但是爬下来的小说章节保存在文件中都是乱
scrapy爬取小说.zip
序的,求解!
from fake_useragent import UserAgent import re import requests from bs4 import BeautifulSoup from time import sleep def get_html(url): ''' :param url: 要爬取的地址 :return: 返回html ''' headers = {"User_Agent": UserAgent().random} resp = requests.get(url,headers=headers) #status_code 返回状态码 if resp.status_code == 200: resp.encoding='utf-8' return resp.text else: return None def parse_list(html): ''' :param html: 传递进来有一个电影列表的的html :return: 返回一个电影的url ''' soup = BeautifulSoup(html,'lxml') a_list = soup.select(".book-img-box > a") list_url = [] for a in a_list: list_url.append(a.get('href')) # 解决验证CA # ssl._create_default_https_context = ssl._create_unverified_context list_url = ['https:{}'.format(url)for url in list_url] return list_url def parse_index(html): ''' :param html: 传递一个有电影信息的html :return: 已经提取好的电影信息 ''' soup = BeautifulSoup(html,'lxml') name = soup.find('h1','em') book = soup.find_all("a", class_="writer")[0].text return {'作者':name,'书名':book} def main(): num = int(input("请输入要获取多少页:")) for page in range(num): url = 'https://www.qidian.com/all?&page={}'.format(page+1) list_html = get_html(url) list_url = parse_list(list_html) for url in list_url: info_html = get_html(url) move = parse_index(info_html) print(move) if __name__ == '__main__': main()
老师,我这个匹配到h1下面的em标签啊,我网上也查了,也用calss匹配过。最后返回要么空,要么是错误的。
老师我安装python执行export PATH=$PATH:/usr/local/python3/bin/命令怎么没有反应呢?接下里如何配置,如何创建python虚拟机?
这里__name__=='__main__'是什么意思呀
为什么运行后打印的是空啊
我的天,下载这,下载那,安装什么配件都是国外的,以后不能用怎么办?
import requests from fake_useragent import UserAgent import re url='http://toutiao.sogou.com/mil.html' headers={ 'User-Agent':UserAgent().chrome } resp=requests.get(url,headers=headers) # print(resp.text) pattern=r'<li><a target="_blank" pbtag="0b656ba00776b52db08559461e34ebe6.mil2" href="https://junshi.china.com/qd/sgnr/top/">中华网军事</a></li>' result=re.findall(pattern,resp.text) print(result)
爬取出来的是空的,为什么???
老师 为什么我直接安装scrapy 显示安装成功了
谷歌浏览器在国内很多情况都访问不了怎么解决么
老师您好,我现在导入ssl模块里面的ssl._create_unverified_dontext()函数,但是提示我没有这个模块。还是说python3.7版本以后取消了,并且我直接能抓取到12306的网址信息
老师这个章节没画面啊 黑屏了
老师,导出csv是这样的格式,有什么办法导成正常的表格样式吗,就是把‘name’放在第一行去
老师这个下载插件这里进不去
求教啊,老师,解压软件也换了好几个,网上搜索的资源下载下来的也不能用。
//td[@class="date bold center"]/text()'
我用xpath读取了class的text,但是text为空的怎么能拿到,不然我拿到的数据不对称
非常抱歉给您带来不好的体验!为了更深入的了解您的学习情况以及遇到的问题,您可以直接拨打投诉热线:
我们将在第一时间处理好您的问题!
关于
课程分类
百战程序员微信公众号
百战程序员微信小程序
©2014-2025百战汇智(北京)科技有限公司 All Rights Reserved 北京亦庄经济开发区科创十四街 赛蒂国际工业园网站维护:百战汇智(北京)科技有限公司 京公网安备 11011402011233号 京ICP备18060230号-3 营业执照 经营许可证:京B2-20212637