老师,是不是pycharm或者python版本不一样啊,我这边的不是视频的网址,而是百度的,我随便加了几个数字,pycharm直接会将错误信息打印出来!!!
selenium webdriver selenium.webdriver.chrome.service Service selenium.webdriver.common.by By time ()s () driver webdriver.(s) driver.() time.() driver.(By.ID,).() time.() driver.(By.ID,).() time.() driver.() __name__ ()
我这个可以输入内容 但是搜索不了 直接报错是为什么呢。。。
import json from fake_useragent import UserAgent from jsonpath import jsonpath import requests url = 'http://www.lagou.com/lbs/getAllCitySearchLabels.json' headers = {'User_Agent': UserAgent().edge} resp = requests.get(url,headers=headers) print(resp.text)
为什么打印的结果和视频不一样,视频中是json格式,我自己的是html格式
urllib.request Request,urlopen urllib.parse quote get_html(url): headers={ : } request=Request(url,=headers) response=urlopen(request) response.read().decode() save_html(html,): (,,=) f: f.write(html) main(): i (): url=html=get_html(url) =+(i+)+save_html(html) __name__==: main()
这个all_a里没有东西,长度为0?
jdk安装包下载好点击没反应啊
老师,我在分布式里面加入了splash。然后在windows上抓取没问题,但是在linux上跑就出现这个问题,这是为什么啊?
from fake_useragent import UserAgent import requests from pyquery import PyQuery from time import sleep def get_html(url): headers = {'User-Agent': UserAgent().chrome} resp = requests.get(url, headers=headers) sleep(3) if resp.status_code == 200: resp.encoding = 'utf-8' return resp.text else: return None def get_list(html): pq = PyQuery(html) all_a = pq('div>a[data-act="movies-click"]') return [a.get("href") for a in all_a] def get_index(html): pq = PyQuery(html) # 电影标题 name = pq('h1.name').eq(0).text() # 电影类型 types = pq('a.text-link').eq(0).text() # 参演人员 actors_m = pq('li.celebrity.actor>div>.name') actor = format_actors(actors_m) return f"电影名:{name} \n 类型:{types} \n 演员:{actor} \n" def format_actors(a_list): actors_set = set() for a in a_list: actors_set.add(a.text.strip()) return actors_set def start(): num = int(input("输入获取多少页数据:")) for i in range(num): url = f'https://www.maoyan.com/films?offset={i * 30}' html = get_html(url) # 请求内容 all_href = get_list(html) # 使用PuQuery解析 for a in all_href: url_ = f'https://maoyan.com{a}' index_html = get_html(url_) info = get_index(index_html) print(info) if __name__ == '__main__': start()
老师,每次获取到第八个,都会出错,index超范围之内的
猫眼把信息都变成动态获取了,这个signKey是不是加密了,有什么办法解密呢,不行的话我找豆瓣电影练习,豆瓣那边没有这个加密
老师,你好,在User-Agent那里,可以导入fake_useragent模块然后random一下吗
用xpath helper可以找到, 但是在scrapy中的xpath就找不到什么情况, 老师视频里也是这个情况——网页我改过。xpath 直接复制的,但是还是出不来数据
老师,每次爬取到第八个的时候总是出错,index超范围,或者这样
我也是一样的出现下面这个问题
网页中下来找不到视频中说的searchword
非常抱歉给您带来不好的体验!为了更深入的了解您的学习情况以及遇到的问题,您可以直接拨打投诉热线:
我们将在第一时间处理好您的问题!
关于
课程分类
百战程序员微信公众号
百战程序员微信小程序
©2014-2025百战汇智(北京)科技有限公司 All Rights Reserved 北京亦庄经济开发区科创十四街 赛蒂国际工业园网站维护:百战汇智(北京)科技有限公司 京公网安备 11011402011233号 京ICP备18060230号-3 营业执照 经营许可证:京B2-20212637