有效沟通问答-【官方】百战程序员_IT在线教育培训机构

会员可以在此提问，百战程序员老师有问必答

对大家有帮助的问答会被标记为“推荐”
看完课程过来浏览一下别人提的问题，会帮你学得更全面

截止目前，同学们一共提了 133940个问题

#!/usr/bin/env python
# coding:utf-8

import requests
from hashlib import md5


class Chaojiying_Client(object):

    def __init__(self, username, password, soft_id):
        self.username = username
        password = password.encode('utf8')

        self.password = md5(password).hexdigest()
        self.soft_id = soft_id
        self.base_params = {
            'user': self.username,
            'pass2': self.password,
            'softid': self.soft_id,
        }
        self.headers = {
            'Connection': 'Keep-Alive',
            'User-Agent': 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0)',
        }


    def PostPic(self, im, codetype):
        """
        im: 图片字节
        codetype: 题目类型 参考 http://www.chaojiying.com/price.html
        """
        params = {
            'codetype': codetype,
        }
        params.update(self.base_params)
        files = {'userfile': ('ccc.jpg', im)}
        r = requests.post('http://upload.chaojiying.net/Upload/Processing.php', data=params, files=files,
                          headers=self.headers)
        return r.json()


    def ReportError(self, im_id):
        """
        im_id:报错题目的图片ID
        """
        params = {
            'id': im_id,
        }
        params.update(self.base_params)
        r = requests.post('http://upload.chaojiying.net/Upload/ReportError.php', data=params, headers=self.headers)
        return r.json()

def get_code(filename,code_type=1902):
    chaojiying = Chaojiying_Client('dearzyq', '123456', '906030')  # 用户中心>>软件ID 生成一个替换 96001
    im = open(filename, 'rb').read()  # 本地图片文件路径 来替换 a.jpg 有时WIN系统须要//
    resp = chaojiying.PostPic(im,code_type)   # 1902 验证码类型  官方网站>>价格体系 3.4+版 print 后要加()
    return resp.get('pic_str')

if __name__ == '__main__':
    print(get_code('a.jpg'))
    
   #图片识别不出来

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 946楼

File "D:/pycharmfile/爬虫/第一个爬虫.py", line 9, in <module>

print(info.decode('utf-8'))

UnicodeEncodeError: 'gbk' codec can't encode character '\xbb' in position 22462: illegal multibyte sequence

按照格式源代码写的啊就是开头写了#coding 为什么这样怎么解决

Python 全系列/第十六阶段：Python 爬虫开发/爬虫基础（旧） 947楼

requests
hashlib md5


Chaojiying_Client():

    (usernamepasswordsoft_id):
        .username = username
        password = password.encode()

        .password = md5(password).hexdigest()
        .soft_id = soft_id
        .base_params = {
            : .username: .password: .soft_id}
        .headers = {
            : : }


    (imcodetype):
        params = {
            : codetype}
        params.update(.base_params)
        files = {: (im)}
        r = requests.post(=params=files=.headers)
        r.json()


    (im_id):
        params = {
            : im_id}
        params.update(.base_params)
        r = requests.post(=params=.headers)
        r.json()

(filenamecode_type=):
    chaojiying = Chaojiying_Client()  im = (filename).read()  resp = chaojiying.PostPic(imcode_type)   resp.get()

__name__ == :
    (get_code())

验证码识别不出来

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 948楼

requests
hashlib md5


Chaojiying_Client():

    (usernamepasswordsoft_id):
        .username = username
        password = password.encode()

        .password = md5(password).hexdigest()
        .soft_id = soft_id
        .base_params = {
            : .username: .password: .soft_id}
        .headers = {
            : : }


    (imcodetype):
        params = {
            : codetype}
        params.update(.base_params)
        files = {: (im)}
        r = requests.post(=params=files=.headers)
        r.json()


    (im_id):
        params = {
            : im_id}
        params.update(.base_params)
        r = requests.post(=params=.headers)
        r.json()

(filenamecode_type=):
    chaojiying = Chaojiying_Client()  im = (filename).read()  resp = chaojiying.PostPic(imcode_type)   resp.get()

__name__ == :
    (get_code())

老师，这个哪里有问题啊，照着老师的敲下来的，识别不出来验证码。

打印出来的结果为空

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 949楼

老师，假如有一个htnl页面如下：

<script src="jquery-1.9.1.js" type="text/javascript" charset="utf-8"></script>
<!DOCTYPE html>
<html>
<head>
	<meta charset="utf-8">
	<title>简历</title>
	<style>
		
	</style>

<script type="text/javascript" charset="utf-8">
	function func(ths){
	        ***********
		alert(ths)
		
	}

</script>

</head>  
<body>
	<a id="link" onclick="func(this，2)"data-type="4" href="">点我有惊喜</a>
</body>
</html>

点击a标签后经过func(this，2)返回了一些数据，假如我知道这个函数的实现，我在里该怎么伪造函数里的参数this呢？

Python 全系列/第十六阶段：Python 爬虫开发/scrapy 框架高级 950楼

老师，如您所说换一个网址就好了，但是试第二次的时候就又被拒绝了。

服务器拒绝爬虫后，咱还有什么办法么？

Python 全系列/第十六阶段：Python 爬虫开发/爬虫基础（旧） 951楼

老师，这个云打码平台是不是倒闭了，官网进不去了。

这一节是不是可以重新更新一下课程

Python 全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 952楼

老师，下面这个代码是为了下载搜狐登录界面的验证码图片，但是我换了几种方式发送请求，打印resp.text都是得到：

{"body":"","message":"Bad Request","status":400}，但是打印的验证码图片链接又可以访问，这是为啥呢？

具体代码如下：

import execjs
import requests

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36',
    'Referer': 'https://sohu.com/'}

# 获得验证码链接中的pagetoken和random参数
def get_form_data():
    js_callback = """var randomName = function(prefix) {
                nonce = (new Date).getTime();
                return "passport403" + "_" + prefix + nonce++
            }"""

    ctx = execjs.compile(js_callback)
   
    random_ = ctx.call('randomName', 'sdk')

    js_pagetoken = """
        var pagetoken = (new Date).getTime()+1
        return pagetoken
    """
    ctx_page = execjs.compile(js_pagetoken)
    pagetoken = str(ctx_page.call(js_pagetoken))
    return (pagetoken, random_)


pagetoken, random_ = get_form_data()

url = f"https://v4.passport.sohu.com/i/captcha/picture?pagetoken={pagetoken}&random={random_}"
# 发送请求
resp = requests.get(url,headers=headers)
print(resp.text)
# {"body":"","message":"Bad Request","status":400}
print(url)

Python 全系列/第十六阶段：Python 爬虫开发/动态数据抓取 953楼

老师，我访问百度之后，直接返回了：urllib.error.URLError: <urlopen error [WinError 10061] 由于目标计算机积极拒绝，无法连接。

Python 全系列/第十六阶段：Python 爬虫开发/爬虫基础（旧） 954楼

老师，视频里的rules有两个规则，这两个规则的执行逻辑是下面这样吗？

如果第一个rule能筛选出来url，则不执行第二个rule，直接发送请求，然后对响应进行解析；如果第一个rule没有筛选出来，则执行第二个rule，如果能筛选出来url，发送请求，解析响应。

老师，是这样吗？

Python 全系列/第十六阶段：Python 爬虫开发/scrapy 框架高级 955楼

novel.zip

老师，上面是我的项目文件，我在执行时爬取下来的内容章节不是顺序的，里面有爬取下来之后的结果，在novel.txt里，他的顺序是第1章，第49章，第48章.........，这是由于并行运行导致的吗？还是什么原因，该怎么解决呢？谢谢老师！

Python 全系列/第十六阶段：Python 爬虫开发/移动端爬虫开发- 956楼

程序包无效是为什么啊？老师就是拓展插件的那个

Python 全系列/第十六阶段：Python 爬虫开发/爬虫基础（旧） 957楼

老师，下面这个图是我登陆虾米之后的数据：

如果我用requests.post(url = url, data = data, headers = headers)发送请求,post里面的data是指上面图中xmgid,xm_sg_tk，cna,gid等数据吗？我看视频中使用的dada一般是{'username':xxxx, 'password':xxxxx}，那虾米这个访问登录后的页面是用{'username':xxxx, 'password':xxxxx}这种形式吗？麻烦老师了，这个地方还是不太懂data传的参数是啥

Python 全系列/第十六阶段：Python 爬虫开发/scrapy框架使用（旧） 958楼

老师，您好，post请求，传给Request的data在哪里找呢，是浏览器里Request headers下面的内容还是Query string parameters下面的内容，或者是别的地方的内容？

Python 全系列/第十六阶段：Python 爬虫开发/scrapy框架使用（旧） 959楼

用pycharm运行代码，结果fidder上面抓不到相应的包，配置我是按照教程进行的

Python 全系列/第十六阶段：Python 爬虫开发/爬虫基础（旧） 960楼

同学您好