有效沟通问答-【官方】百战程序员_IT在线教育培训机构

会员可以在此提问，百战程序员老师有问必答

对大家有帮助的问答会被标记为“推荐”
看完课程过来浏览一下别人提的问题，会帮你学得更全面

截止目前，同学们一共提了 134510个问题

时间排序推荐排序

from urllib.request import Request,build_opener

from fake_useragent import UserAgent

from urllib.parse import urlencode

from urllib.request import HTTPCookieProcessor

login_url = 'https://www.bilibili.com/page-proxy/game-nav.html'

form_data = {

"user":"15212123250",

"password":"2742558764"

}

headers = {

"User-Agent":UserAgent().random,

}

req = Request(login_url, headers=headers, data=urlencode(form_data))

handler = HTTPCookieProcessor()

opener = build_opener(handler)

resp = opener.open(req)

info_url = "https://www.bilibili.com/"

req = Request(info_url, headers=headers)

resp = opener.open(req)

print(resp.read().decode())

Python全系列/第十六阶段：Python 爬虫开发/scrapy框架使用（旧） 31楼

老师，我在使用多线程爬取文件的时候，会出现文件写入不全，然后我在写入文件的的时候加入锁，但是发现还写入不全，您帮我看一下！

from threading import Thread,Lock
import requests
from lxml import etree
from fake_useragent import UserAgent
from queue import Queue
class Spider(Thread):
    def __init__(self,url_queue,lock):
        Thread.__init__(self)
        self.url_queue = url_queue
        self.lock = lock

    def run(self):
        while not self.url_queue.empty():
            url = self.url_queue.get()
            print(url)
            headers = {'User-Agent':UserAgent().chrome}
            resp = requests.get(url,headers=headers)
            e = etree.HTML(resp.text)
            contents = [div.xpath('string(.)').strip() for div in e.xpath('//div[@class="content"]')]
            #加入锁
            self.lock.acquire()
            with open('qiushi.text', 'a', encoding='utf-8')as f:
                for content in contents:
                    f.write(content+'\n')
            self.lock.release()
if __name__ == '__main__':
    base_url = 'https://www.qiushibaike.com/text/page/{}/'
    lock = Lock()
    url_queue = Queue()
    for num in range(1,14):
        url_queue.put(base_url.format(num))
    for i in range(6):
        spider = Spider(url_queue,lock)
        spider.start()

Python全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 32楼

老师，课程里面有or，那有没有类似于and的语法呢？

Python全系列/第十六阶段：Python 爬虫开发/scrapy框架使用 33楼

'''
出现中文乱码的问题，编码形式改为‘utf-8’；
出现\u这种问题，照着dumps()方法中的ensure_ascii=False进行修改。
'''
import json

str_1 = '{"name":"战狼3"}'
print(type(str_1))        # 返回<class 'str'>
print(str_1)        #返回{"name":"战狼3"}


print('----str_1 to obj_1----')
# 把Json格式字符串解码转换成Python对象
obj_1 = json.loads(str_1)
print(obj_1)      # 返回{'name': '战狼3'}
print(type(obj_1))        # 返回<class 'dict'>  


print('----obj_1 to str_2----')
# 实现python类型转化为json字符串，返回⼀个str_2对象
str_2 = json.dumps(obj_1)     # str_2返回Unicode编码
# str_2 = json.dumps(obj_1,ensure_ascii=False)      # 将ensure_ascii=False，可使Unicode编码转为原生编码
print(str_2)        # 未将ensure_ascii=False，则返回{"name": "\u6218\u72fc3"}
# print(str_2)        # 将ensure_ascii=False，则返回{"name": "战狼3"}
print(type(str_2))      # 返回<class 'str'>


print('----obj_1 to file----')
# obj_1 to file，将Python内置类型序列化为json对象后写⼊⽂件
json.dump(obj_1,open('movie.txt','w',encoding='utf-8',ensure_ascii=False))       # 写文件movie.txt


print('----file to obj_2----')
# file to obj_2，读取⽂件中json形式的字符串元素 转化成python类型
obj_2 = json.load(open('movie.txt',encoding='utf-8'))
print(obj_2)        # encoding = 'utf-8'，返回{'name': '战狼3'}
print(type(obj_2))      # 返回<class 'dict'>

老师，你好，我测试了一下这个错误点一个是在开头注释的\u，然后还有写movie文件中的ensure_ascii=False,好像是无效的关键字参数，那我写在注释里的\u为什么是错的，然后还有‘写文件’中出现这样的情况怎么把它改成中文。对于这个编码之间的转换不太了解，试着掌握很多次了，可印象还是不深刻。

Python全系列/第十六阶段：Python 爬虫开发/爬虫基础（旧） 34楼

视频模糊得都没法看了，还有就是讲得好绕

Python全系列/第十六阶段：Python 爬虫开发/移动端爬虫 35楼

老师这个安装完后，使用终端出现这个错误，怎么解决啊

Python全系列/第十六阶段：Python 爬虫开发/移动端爬虫 36楼

老师，这个开启百度安全验证了，怎么解决。。。。。。

Python全系列/第十六阶段：Python 爬虫开发/爬虫基础（旧） 37楼

老师这怎么切换linux默认的python版本啊

Python全系列/第十六阶段：Python 爬虫开发/scrapy框架使用（旧） 38楼

老师，import都能找出ImagesPipline，但是运行之后报错，找不到这个文件

Python全系列/第十六阶段：Python 爬虫开发/scrapy框架使用（旧） 39楼

Python全系列/第十六阶段：Python 爬虫开发/移动端爬虫 40楼

这个url地址返回的

这个好像才是老师说的成功的

但是开发者模式里显示的post请求不是发送的上面那个url地址吗？

Python全系列/第十六阶段：Python 爬虫开发/爬虫基础 41楼

给的MT管理器版本显示错误信息，然后我下载了2.15.7-clone的版本

chmod 777 269953fb.0

命令不行

Python全系列/第十六阶段：Python 爬虫开发/移动端爬虫 42楼

老师你好：

请问老师这个红框里面的是啥意思？

Python全系列/第十六阶段：Python 爬虫开发/爬虫反反爬- 43楼

想要获取的网址：

https://www.nasdaq.com/market-activity/stocks/aapl/historical#.UWdnJBDMhHk

使用urllib爬取数据，用ajax抓取不到数据

"""获得动态数据"""

from urllib.request import Request, urlopen


url = 'https://api.nasdaq.com/api/quote/AAPL/historical?assetclass=stocks&fromdate=2021-03-11&limit=18&todate=2021-04-11'
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36"
}
req = Request(url, headers=headers)
# 发送请求
resp = urlopen(req)
# 用info 接受响应
info = resp.read().decode()
print(info)

请老师指教，不要用Selenium爬取数据，用urllib爬取数据

Python全系列/第十六阶段：Python 爬虫开发/爬虫基础（旧） 44楼

Python全系列/第十六阶段：Python 爬虫开发/爬虫基础 45楼

同学您好