老师,请问,我想复制部分内容自己做笔记,但是给的资料中pdf中的文字,为什么复制到wps中变成这种,字体有大有小,重新设置都没有用,然后网页的页字不见了,查找网页两个字,又是两个框框
就是运行不出来
import requests login ='http://www.chaojiying.com/user/login/' img ="http://www.chaojiying.com/public/default/images/content_login/img_login.jpg" headers={ "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36" } #创建session对象 session =requests.session() #第一次获取登陆页面 resp = session.get(login,headers=headers) #获取验证码 img_resp=session.get(img,headers=headers) #保存验证码 with open("code.jpg","wb") as f: f.write(img_resp.content) code=input("输入:") date={ 'user': 'jingrunping', 'pass': '456363', 'imgtxt':code, 'act': '1' } #登陆操作 login_resp=session.post(login,headers=headers,date=date) print(login_resp.text)
from urllib.request import urlopen from urllib.request import Request from random import choice url = "https://www.baidu.com/" user_agents=[ "ua1","ua2","ua3" ] # print(choice(user_agents)) #定义user_Agent变量 headers = { "User-Agent": choice(user_agents) } #封装request对象 req = Request(url,headers=headers) print(req.get_header("User-agent")) #发送请求 # resp = urlopen(req) # print(resp.read().decode())
print(req.get_header("User-agent"))
这句中,User-agent和User-Agent大写与小写有什么区别吗?而且这块不是应该与headers语句的中User-Agent一致吗?
爬取小说第一章节内容
爬取步骤
进入第一章:复制url
然后就是发的截图的代码步骤如下
运行后发现,也不报错,什么都不显示
老师可以分享一下软件安装吗 ,官网下载不了
老师为什么用find_element_by_link_text找不到元素,用xpathhelper都能找到文本
老师好,请问这个b具体表示什么意思?是按照什么方式编码呢?在python里面是b,是不是意味着不同语言爬取的html文本的编码方式也不同呢?
为什么UserAgent不实例化对象可以直接使用啊?不应该是UserAgent().chrome吗,我不这样写就会报错
证书问题解决不了,这部分内容很难进行下去
#老师我这改良版的,根据输入的页数来爬取多少页的 import requests from fake_useragent import UserAgent import re def test_re(): page = int(input('请输入您想要爬取网页的页数:')) offset = (page - 1) * 30 #设置url地址 url = f'https://www.maoyan.com/films?showType=3&offset={offset}' #设置请求头 headers = {'User-Agent':UserAgent().chrome} #发送请求 resp = requests.get(url,headers=headers) #解析数据 names = re.findall('<div class="channel-detail movie-item-title" title="(.+?)">',resp.text) scores =[ get_score(data) for data in re.findall('<div class="channel-detail channel-detail-orange">(.+?)</div>',resp.text)] #打印结果 for n,s in zip(names,scores): print(f'电影:{n} 评分:{s}') def get_score(data): if data != '暂无评分': data = '.'.join(re.findall('\d+',data)) return data if __name__ == '__main__': test_re()
pycharm中怎么点开断点的错误地方code吗 图中红色部分
老师你看我上传的三张图片,我得谷歌浏览器版本和那个下载网站的版本里对不上,没有我得那个谷歌版本,还是相似的版本也可以啊?再有就是我随便打开了一个,里面是32位的,我得是64位的,这个有冲突么?
from selenium import webdriver from time import sleep # 构造一个浏览器 chrome = webdriver.Chrome() url = 'https://www.huya.com/l' chrome.get(url) sleep(3) temp1 = chrome.find_elements_by_class_name('nick') temp2 = chrome.find_elements_by_class_name('js-num') # 主播名字 names = [temp.text.strip() for temp in temp1] # 主播人气 counts = [temp.text.strip() for temp in temp2] temp3 = sorted(zip(names, counts), key=lambda s: s[1], reverse=True) for name, count in temp3: print(name, ':', count) chrome.quit()
老师您好,我这个代码的意思是想按主播的观看人数从大到小输出(只爬了第一页的数据),但是输出的结果却不正确,我不知道哪写错了
meta是什么意思 作用是什么 怎么用 每次遇到这种类型的东西 也不介绍 不说 直接用 我们又不会 不知道 不应该说清楚嘛?
老师麻烦帮我看下这个实操作业为什么抓不下来数据
taobao.rar
非常抱歉给您带来不好的体验!为了更深入的了解您的学习情况以及遇到的问题,您可以直接拨打投诉热线:
我们将在第一时间处理好您的问题!
关于
课程分类
百战程序员微信公众号
百战程序员微信小程序
©2014-2025百战汇智(北京)科技有限公司 All Rights Reserved 北京亦庄经济开发区科创十四街 赛蒂国际工业园网站维护:百战汇智(北京)科技有限公司 京公网安备 11011402011233号 京ICP备18060230号-3 营业执照 经营许可证:京B2-20212637