这个all_a里没有东西,长度为0?
jdk安装包下载好点击没反应啊
老师,我在分布式里面加入了splash。然后在windows上抓取没问题,但是在linux上跑就出现这个问题,这是为什么啊?
from fake_useragent import UserAgent import requests from pyquery import PyQuery from time import sleep def get_html(url): headers = {'User-Agent': UserAgent().chrome} resp = requests.get(url, headers=headers) sleep(3) if resp.status_code == 200: resp.encoding = 'utf-8' return resp.text else: return None def get_list(html): pq = PyQuery(html) all_a = pq('div>a[data-act="movies-click"]') return [a.get("href") for a in all_a] def get_index(html): pq = PyQuery(html) # 电影标题 name = pq('h1.name').eq(0).text() # 电影类型 types = pq('a.text-link').eq(0).text() # 参演人员 actors_m = pq('li.celebrity.actor>div>.name') actor = format_actors(actors_m) return f"电影名:{name} \n 类型:{types} \n 演员:{actor} \n" def format_actors(a_list): actors_set = set() for a in a_list: actors_set.add(a.text.strip()) return actors_set def start(): num = int(input("输入获取多少页数据:")) for i in range(num): url = f'https://www.maoyan.com/films?offset={i * 30}' html = get_html(url) # 请求内容 all_href = get_list(html) # 使用PuQuery解析 for a in all_href: url_ = f'https://maoyan.com{a}' index_html = get_html(url_) info = get_index(index_html) print(info) if __name__ == '__main__': start()
老师,每次获取到第八个,都会出错,index超范围之内的
猫眼把信息都变成动态获取了,这个signKey是不是加密了,有什么办法解密呢,不行的话我找豆瓣电影练习,豆瓣那边没有这个加密
老师,你好,在User-Agent那里,可以导入fake_useragent模块然后random一下吗
用xpath helper可以找到, 但是在scrapy中的xpath就找不到什么情况, 老师视频里也是这个情况——网页我改过。xpath 直接复制的,但是还是出不来数据
老师,每次爬取到第八个的时候总是出错,index超范围,或者这样
我也是一样的出现下面这个问题
网页中下来找不到视频中说的searchword
为什么我什么都爬不到,直接退出了
from urllib.request import Request,urlopenfrom urllib.parse import quotedef get_html(url): headers={ "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36 QIHU 360SE" } request=Request(url,headers=headers) response=urlopen(request) return response.read().decode()def save_html(html,filename): with open('filname.hyml','w',encoding='utf_8') as f: f.write(html)def main(): for i in range(3): url='https://tieba.baidu.com/f?kw=%E8%B5%9B%E5%8D%9A%E6%9C%8B%E5%85%8B2077' html=get_html(url) filename='第'+str(i+1)+'页.html' save_html(html)if __name__=="__name__": main()
请求完之后就是这个样子,跟老师视频里的内容不一样
调试模式自己就停止了,而且爬取不到任何数据
虚拟机的安装包在哪呀
一直这个提示
更换目录还是这个提示?????????????????????????????????????????????????????????????????????????
非常抱歉给您带来不好的体验!为了更深入的了解您的学习情况以及遇到的问题,您可以直接拨打投诉热线:
我们将在第一时间处理好您的问题!
关于
课程分类
百战程序员微信公众号
百战程序员微信小程序
©2014-2025百战汇智(北京)科技有限公司 All Rights Reserved 北京亦庄经济开发区科创十四街 赛蒂国际工业园网站维护:百战汇智(北京)科技有限公司 京公网安备 11011402011233号 京ICP备18060230号-3 营业执照 经营许可证:京B2-20212637