有效沟通问答-【官方】百战程序员_IT在线教育培训机构

会员可以在此提问，百战程序员老师有问必答

对大家有帮助的问答会被标记为“推荐”
看完课程过来浏览一下别人提的问题，会帮你学得更全面

截止目前，同学们一共提了 133940个问题

老师，请问，https://www.taobao.com/robots.txt ，课堂上老师讲的这个网站是做什么用哦

Python 全系列/第十六阶段：Python 爬虫开发/爬虫基础（旧） 886楼

老师，请问，将Proxy-SwitchyOmega_v2.3.16.crx这个文件，拖拽上来写的程序包无效，是需要重新下载一个安装包吗

Python 全系列/第十六阶段：Python 爬虫开发/爬虫基础（旧） 887楼

from urllib.request import urlopen,Request
from urllib.parse import quote

arg = "尚学堂"
# print(quote(arg))

url = "https://www.baidu.com/s?wd={}".format(quote(arg))
#设置UA变量
headers = {
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) 123456"
}
#封装request对象
req = Request(url,headers=headers)
#发送请求
response = urlopen(req)
#打印内容
print(response.read().decode())

Python 全系列/第十六阶段：Python 爬虫开发/爬虫基础（旧） 888楼

老师，我的data里还有一个参数，我用同样的方法增加参数传进去，执行没报错，但好像也没登录成功字样。另外，地址栏输入的网址和Requset URL的地址完全不一样，如下图

地址栏的是http://IP地址/webpages/login.html

Python 全系列/第十六阶段：Python 爬虫开发/爬虫基础（旧） 889楼

老师，我们的课程有讲xml方面的知识吗？？？？

Python 全系列/第十六阶段：Python 爬虫开发/爬虫基础（旧） 890楼

selenium webdriver
time
requests
re
lxml etree
fake_useragent UserAgent

url = header = {: UserAgent().chrome}
opt = webdriver.ChromeOptions()
driver = webdriver.Chrome(=opt)
driver.get(url)
time.sleep()
content = driver.find_element_by_xpath()
content.click()
contents = driver.find_element_by_xpath()
(contents.text)

我用了selenium的click方法，该网址的url点击该xpath是不变的，但是我重新拿到的HTML还是没有点击过之前的

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 891楼

//td[@class="date bold center"]/text()'

我用xpath读取了class的text，但是text为空的怎么能拿到，不然我拿到的数据不对称

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 892楼

老师，我想问一下，像零基础的人学习哪一块更容易找到这方面的工作，课程太多，短时间内可能没法学完，想尽快学习完好换工作，可以推荐一下主要先学哪几章节吗，谢谢

Python 全系列/第十六阶段：Python 爬虫开发/爬虫基础（旧） 893楼

import requests
import re



url = 'http://xiaohua.zol.com.cn/lengxiaohua/'
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0'
}
a = requests.get(url, headers=headers)


out = re.findall(r'<div class="summary-text">\s*(<p>)*\s*(.*)',a.text)
# out1 = re.split('<br>',out)
a.encoding='gbk'
for i in out:
    print(i)

网页上面显示所有的文本信息都在summary-text里面，但是只搜索summary-text，出现的结果是目录，每一个text找不到下一级的文本信息。里面有很多<p>不知道怎么处理，尝试下改的代码只能提取出每一个故事的第一行

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 894楼

print(response1.read()）

为什么在在后面加入decode（），报出错误

print(response1.read().decode())

Python 全系列/第十六阶段：Python 爬虫开发/scrapy框架使用（旧） 895楼

noval.zip

老师帮我看下，为什么我的代码同一篇文章会输出两次

Python 全系列/第十六阶段：Python 爬虫开发/移动端爬虫开发- 896楼

from fake_useragent import UserAgent
import requests
import parsel

#确定url
url ='https://uland.taobao.com/sem/tbsearch?refpid=mm_26632258_3504122_32538762&keyword=%E6%B7%98%E5%AE%9D&clk1=336e7eebf578863c3d669b4cd1020b7d&upsid=336e7eebf578863c3d669b4cd1020b7d'
headers = {
    'User-Agent':"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36"
}
response = requests.get(url,headers = headers)
print(response.text)
html_data = parsel.Selector(response.text)
name=html_data.xpath('//div[@class="pc-items-item-title pc-items-item-title-row2"]/span[@class="title-text"]/text()').get()
dollars=html_data.xpath('//div[@class="price-con"]/span[3]/text()').get()
print(name)
print(dollars)无法提取网页的内容

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 897楼

老师~~~

我用xpath插件可以找到电影名字，但是复制到python里返回的就是空列表了，这是为什么呀

import requests
from fake_useragent import UserAgent
from lxml import etree
from urllib.parse import urlencode

# type_name和type24要符合豆瓣的既有组合，否则显示的电影类型会有问题
args = {
    'type_name': '喜剧',
    'type':'24'
}
url = "https://movie.douban.com/typerank?{0}&interval_id=100:90&action=".format(urlencode(args))
print(url)

headers={"User-Agent":UserAgent().random}
proxies = {"http": "http://111.206.37.161:80"}

resp=requests.get(url,headers=headers,proxies=proxies,timeout=1)
e=etree.HTML(resp.text)
print(e)

movie=e.xpath('//div[@class="movie-name"]/span[@class="movie-name-text"]/a/text()')
print(movie)

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 898楼

老师，

节日快乐~

请问课件上用的etree.parse 和代码实例里的etree.HTML的应用场景有什么区别呢？

我自己随便找了个网页爬取数据parse和html方法都无法使用，请问问题出在哪里呢？

import requests
from fake_useragent import UserAgent
from lxml import etree
url='http://lishishangdejintian.51240.com/'
headers={'User-Agent':UserAgent().random}
proxies={
            "http":"http://61.135.186.80:80"
}
resp=requests.get(url,headers=headers,proxies=proxies,timeout=1)
# resp.encoding='utf-8'
print(resp.text)
e = etree.HTML(resp)
# print(e)
# test = e.xpath('//ul[@class="list"]')
# print(test)

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 899楼

meta是什么意思作用是什么怎么用每次遇到这种类型的东西也不介绍不说直接用我们又不会不知道不应该说清楚嘛？

Python 全系列/第十六阶段：Python 爬虫开发/scrapy 框架高级 900楼

同学您好