老师,请问这里怎么错了? 只能爬取第一章,设置断点发现到了yield那里直接就结束了, 不会再返回执行第二章的解析,并且通过debug发现我的下一章的url是有的, 但是就是到不了解析第二章的parse中
老师用的什么插件进行提示的
不知道老师,有没有解决验证的好办法,分享一下
尝试了好多办法都不行,还是提示ModuleNotFoundError: No module named '_ctypes'
b'{"msg": "\\u8bf7\\u8f93\\u5165\\u8d26\\u53f7\\u5bc6\\u7801", "code": -2, "data": ""}'
运行出来的为什么是这个结果?
第5行不传驱动路径能够成功,传了驱动路径反而不成功,报错如下:
老师~~~
我用xpath插件可以找到电影名字,但是复制到python里返回的就是空列表了,这是为什么呀
import requests from fake_useragent import UserAgent from lxml import etree from urllib.parse import urlencode # type_name和type24要符合豆瓣的既有组合,否则显示的电影类型会有问题 args = { 'type_name': '喜剧', 'type':'24' } url = "https://movie.douban.com/typerank?{0}&interval_id=100:90&action=".format(urlencode(args)) print(url) headers={"User-Agent":UserAgent().random} proxies = {"http": "http://111.206.37.161:80"} resp=requests.get(url,headers=headers,proxies=proxies,timeout=1) e=etree.HTML(resp.text) print(e) movie=e.xpath('//div[@class="movie-name"]/span[@class="movie-name-text"]/a/text()') print(movie)
老师,您好,把插件移过去显示禁用标志,请问这是为什么呀
import requests from fake_useragent import UserAgent url = "http://www.baidu.com" import os def get_header(): location = os.getcwd() + '/fake_useragent.json' ua = UserAgent(path=location) return ua.random params = { "wd":"快代理" } resp = requests.get(url,params=params,headers = {"User-Agent":get_header()}) resp.encoding = "utf-8" print(resp.text)
老师,视频中代码跑完后,在run结果中搜索能搜到快代理,我的结果跑出来,搜快代理都不到,那为啥没报错呢
from urllib.request import Request, build_opener, ProxyHandler from fake_useragent import UserAgent url = 'http://httpbin.org/get' headers = {"User-Agent": UserAgent().chrome} req = Request(url, headers=headers) # handler = ProxyHandler({'http': '103.45.147.157:16817'}) opener = build_opener(handler) resp = opener.open(req) print(resp.read().decode())
老师 我这个proxy无论写什么都是返回主机的IP 空字符串也是本机IP 为什么??
from my_fake_useragent import UserAgent from bs4 import BeautifulSoup from time import sleep import requests url = 'https://maoyan.com/films/1218188' headers = {"User_Agent":UserAgent().random()} proxies = {"http":"http://175.155.71.22:1133"} resp = requests.get(url,headers=headers,proxies=proxies) resp.encoding='utf-8' soup = BeautifulSoup(resp.text,'lxml') name = soup.select('h1.name')[0].text #电影名 ename = soup.select('div.ename')[0].text #英文名 type = soup.select('li.ellipsis>a')[0].text #电影类型 director = soup.select('li.celebrity > div >a')[0].text #导演 actors = soup.select('li.celebrity actor>a') #演员 intor = soup.select('span.dra') actor_set = set() for actor in actors: print(actor.text.stirp()) print(name,ename,type,director,intor)
老师我这是爬取猫眼电影的你好李焕英,我的IP被禁止访问,我用了代理也不行,我试了多个免费高匿代理,还是不行,老师帮我看看,是我代码有问题吗?
我也有这个问题,尝试点击ID为“search_icon”的元素时,浏览器实际上已经将点击事件传递给了另一个元素,即ID为“id_qrcode_popup_container”的元素,该怎么解决?
anaconda要自己安装和配置咯
老师,麻烦您帮忙看一下这个是什么原因,我打印斗罗大陆的内容,但是只打印了一章程序就停止了, 刚刚开始接触这个,也不会看,看不出来问题。麻烦老师帮帮忙
first_xiaoshuo04.zip
from fake_useragent import UserAgent import requests import parsel #确定url url ='https://uland.taobao.com/sem/tbsearch?refpid=mm_26632258_3504122_32538762&keyword=%E6%B7%98%E5%AE%9D&clk1=336e7eebf578863c3d669b4cd1020b7d&upsid=336e7eebf578863c3d669b4cd1020b7d' headers = { 'User-Agent':"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36" } response = requests.get(url,headers = headers) print(response.text) html_data = parsel.Selector(response.text) name=html_data.xpath('//div[@class="pc-items-item-title pc-items-item-title-row2"]/span[@class="title-text"]/text()').get() dollars=html_data.xpath('//div[@class="price-con"]/span[3]/text()').get() print(name) print(dollars)无法提取网页的内容
非常抱歉给您带来不好的体验!为了更深入的了解您的学习情况以及遇到的问题,您可以直接拨打投诉热线:
我们将在第一时间处理好您的问题!
关于
课程分类
百战程序员微信公众号
百战程序员微信小程序
©2014-2025百战汇智(北京)科技有限公司 All Rights Reserved 北京亦庄经济开发区科创十四街 赛蒂国际工业园网站维护:百战汇智(北京)科技有限公司 京公网安备 11011402011233号 京ICP备18060230号-3 营业执照 经营许可证:京B2-20212637