爬取一次之后就不能爬取了,建议爬取的时候在请求头里增加cookie属性,
def text_bs4(): url = "https://www.maoyan.com/films" headers = {'User-Agent': UserAgent().firefox, "Cookie": 'uuid_n_v=v1; uuid=8236EB905E8611EEB2C88F0E1D778D2976602F68457842108D4B5999AAA9AC1B; ' '_csrf=95caf440d93adc2cf97b85c916a33ea5d547aa09c22e33e4109c0771222dc415; ' '_lx_utm=utm_source%3DBaidu%26utm_medium%3Dorganic; ' '_lxsdk_cuid=18adf587d66c8-037b0eb95fbfca-26031e51-1bcab9-18adf587d66c8; ' '_lxsdk=8236EB905E8611EEB2C88F0E1D778D2976602F68457842108D4B5999AAA9AC1B; ' 'Hm_lvt_703e94591e87be68cc8da0da7cbd0be2=1695964233; ' 'Hm_lpvt_703e94591e87be68cc8da0da7cbd0be2=1695965039; ' '__mta=142327309.1695964233411.1695964233411.1695965039712.2; ' '_lxsdk_s=18adf587d67-d26-b7b-f21%7C%7C4'} resp = requests.get(url, headers=headers) soup = BeautifulSoup(resp.text, 'lxml') names = [div.text.strip('\n') for div in soup.select("div.channel-detail.movie-item-title")] score = [div.text for div in soup.select("div.channel-detail.channel-detail-orange")] with open('猫眼bs4.txt', 'w', encoding='utf-8') as f: for n, s in zip(names, score): print(n, s ,file=f)
设置好了下载中间件为啥没用呢老师
老师,本节中,爬取小说,其实小说网址已经换了,里面的标签内容也和视频中不一样,我的思路是,先爬取首页,从首页中提取所有小说章节中的url,然后重新yield Request(url)中(按顺序添加的)让他重新爬取与重新解析,但是爬下来的小说章节保存在文件中都是乱
scrapy爬取小说.zip
序的,求解!
from fake_useragent import UserAgent import re import requests from bs4 import BeautifulSoup from time import sleep def get_html(url): ''' :param url: 要爬取的地址 :return: 返回html ''' headers = {"User_Agent": UserAgent().random} resp = requests.get(url,headers=headers) #status_code 返回状态码 if resp.status_code == 200: resp.encoding='utf-8' return resp.text else: return None def parse_list(html): ''' :param html: 传递进来有一个电影列表的的html :return: 返回一个电影的url ''' soup = BeautifulSoup(html,'lxml') a_list = soup.select(".book-img-box > a") list_url = [] for a in a_list: list_url.append(a.get('href')) # 解决验证CA # ssl._create_default_https_context = ssl._create_unverified_context list_url = ['https:{}'.format(url)for url in list_url] return list_url def parse_index(html): ''' :param html: 传递一个有电影信息的html :return: 已经提取好的电影信息 ''' soup = BeautifulSoup(html,'lxml') name = soup.find('h1','em') book = soup.find_all("a", class_="writer")[0].text return {'作者':name,'书名':book} def main(): num = int(input("请输入要获取多少页:")) for page in range(num): url = 'https://www.qidian.com/all?&page={}'.format(page+1) list_html = get_html(url) list_url = parse_list(list_html) for url in list_url: info_html = get_html(url) move = parse_index(info_html) print(move) if __name__ == '__main__': main()
老师,我这个匹配到h1下面的em标签啊,我网上也查了,也用calss匹配过。最后返回要么空,要么是错误的。
老师我安装python执行export PATH=$PATH:/usr/local/python3/bin/命令怎么没有反应呢?接下里如何配置,如何创建python虚拟机?
这里__name__=='__main__'是什么意思呀
为什么运行后打印的是空啊
我的天,下载这,下载那,安装什么配件都是国外的,以后不能用怎么办?
import requests from fake_useragent import UserAgent import re url='http://toutiao.sogou.com/mil.html' headers={ 'User-Agent':UserAgent().chrome } resp=requests.get(url,headers=headers) # print(resp.text) pattern=r'<li><a target="_blank" pbtag="0b656ba00776b52db08559461e34ebe6.mil2" href="https://junshi.china.com/qd/sgnr/top/">中华网军事</a></li>' result=re.findall(pattern,resp.text) print(result)
爬取出来的是空的,为什么???
老师 为什么我直接安装scrapy 显示安装成功了
谷歌浏览器在国内很多情况都访问不了怎么解决么
老师您好,我现在导入ssl模块里面的ssl._create_unverified_dontext()函数,但是提示我没有这个模块。还是说python3.7版本以后取消了,并且我直接能抓取到12306的网址信息
老师这个章节没画面啊 黑屏了
老师,导出csv是这样的格式,有什么办法导成正常的表格样式吗,就是把‘name’放在第一行去
老师这个下载插件这里进不去
非常抱歉给您带来不好的体验!为了更深入的了解您的学习情况以及遇到的问题,您可以直接拨打投诉热线:
我们将在第一时间处理好您的问题!
关于
课程分类
百战程序员微信公众号
百战程序员微信小程序
©2014-2025百战汇智(北京)科技有限公司 All Rights Reserved 北京亦庄经济开发区科创十四街 赛蒂国际工业园网站维护:百战汇智(北京)科技有限公司 京公网安备 11011402011233号 京ICP备18060230号-3 营业执照 经营许可证:京B2-20212637