会员可以在此提问,百战程序员老师有问必答
对大家有帮助的问答会被标记为“推荐”
看完课程过来浏览一下别人提的问题,会帮你学得更全面
截止目前,同学们一共提了 133306个问题

老师,我爬取糗事百科前三页的结果是这样的,是什么情况?

!DOCTYPE html
PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<meta http-equiv="X-UA-Compatible" content="chrome=1,IE=edge">
<meta name="renderer" content="webkit" />
<meta name="applicable-device" content="pc">



<meta name="domain_verify" content="pmrgi33nmfuw4ir2ejyws5ltnbuweyljnnss4y3pnurcyithovuwiir2ejqwmyrtguzdgobsmezdgnbyheywcmzthbrdmmtemu4tamrqg5rtmirmej2gs3lfknqxmzjchiytkmrzgq4demjugaydcnd5">

附上代码:

from urllib.request import urlopen,Request
from urllib.parse import quote
def get_html(url):
    headers={
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36'
    }
    response=Request(url,headers=headers)
    info=urlopen(response)
    content=info.read().decode()
    return content
def save_html(content,filename):
    with open('./爬虫结果/'+filename+'.html','w',encoding='utf-8') as f:  #'r'模式用'gbk'编码,'w'模式用'utf-8'编码
        f.write(content)
def main():
    num=3
    url0=url='https://www.qiushibaike.com/8hr/page/{}/'
    for i in range(num):
        url=url0.format(i+1)
        html=get_html(url)
        filename='糗事百科的第{}页内容'.format(i+1)
        save_html(html,filename)
if __name__=='__main__':
    main()


Python 全系列/第十五阶段:Python 爬虫开发/爬虫基础(旧) 1021楼
Python 全系列/第十五阶段:Python 爬虫开发/爬虫基础 1022楼

图片.png

Python 全系列/第十五阶段:Python 爬虫开发/爬虫基础 1023楼
Python 全系列/第十五阶段:Python 爬虫开发/scrapy框架使用 1024楼
Python 全系列/第十五阶段:Python 爬虫开发/scrapy框架使用(旧) 1025楼
Python 全系列/第十五阶段:Python 爬虫开发/爬虫反反爬 1026楼
Python 全系列/第十五阶段:Python 爬虫开发/scrapy 框架高级 1027楼

屏幕截图 2021-03-20 074704.png

2021-03-20T07:43:45.126+0800 [initandlisten] MongoDB starting : pid=6844 port=27017 dbpath=d:\mongodb_64\db 64-bit host=LAPTOP-MSSFAU8A

2021-03-20T07:43:45.130+0800 [initandlisten] targetMinOS: Windows 7/Windows Server 2008 R2

2021-03-20T07:43:45.132+0800 [initandlisten] db version v2.6.5

2021-03-20T07:43:45.132+0800 [initandlisten] git version: e99d4fcb4279c0279796f237aa92fe3b64560bf6

2021-03-20T07:43:45.132+0800 [initandlisten] build info: windows sys.getwindowsversion(major=6, minor=1, build=7601, platform=2, service_pack='Service Pack 1') BOOST_LIB_VERSION=1_49

2021-03-20T07:43:45.132+0800 [initandlisten] allocator: system

2021-03-20T07:43:45.132+0800 [initandlisten] options: { storage: { dbPath: "d:\mongodb_64\db" } }

2021-03-20T07:43:45.132+0800 [initandlisten] exception in initAndListen: 10296

*********************************************************************

 ERROR: dbpath (d:\mongodb_64\db) does not exist.

 Create this directory or give existing directory in --dbpath.

 See http://dochub.mongodb.org/core/startingandstoppingmongo

*********************************************************************

, terminating

2021-03-20T07:43:45.133+0800 [initandlisten] dbexit:

2021-03-20T07:43:45.133+0800 [initandlisten] shutdown: going to close listening sockets...

2021-03-20T07:43:45.133+0800 [initandlisten] shutdown: going to flush diaglog...

2021-03-20T07:43:45.133+0800 [initandlisten] shutdown: going to close sockets...

2021-03-20T07:43:45.133+0800 [initandlisten] shutdown: waiting for fs preallocator...

2021-03-20T07:43:45.133+0800 [initandlisten] shutdown: lock for final commit...

2021-03-20T07:43:45.133+0800 [initandlisten] shutdown: final commit...

2021-03-20T07:43:45.134+0800 [initandlisten] shutdown: closing all files...

2021-03-20T07:43:45.135+0800 [initandlisten] closeAllFiles() finished

2021-03-20T07:43:45.135+0800 [initandlisten] dbexit: really exiting now

老师请问一下,为什么我这里是连接失败,我的命令都和老师输入的一样

屏幕截图 2021-03-20 074835.png

Python 全系列/第十五阶段:Python 爬虫开发/爬虫数据存储 1028楼
Python 全系列/第十五阶段:Python 爬虫开发/爬虫基础 1029楼
Python 全系列/第十五阶段:Python 爬虫开发/scrapy框架使用 1030楼
Python 全系列/第十五阶段:Python 爬虫开发/爬虫基础(旧) 1031楼
Python 全系列/第十五阶段:Python 爬虫开发/scrapy框架使用 1032楼
Python 全系列/第十五阶段:Python 爬虫开发/爬虫反反爬 1033楼
Python 全系列/第十五阶段:Python 爬虫开发/移动端爬虫开发- 1034楼

image.png

Python 全系列/第十五阶段:Python 爬虫开发/scrapy框架使用 1035楼

课程分类

百战程序员微信公众号

百战程序员微信小程序

©2014-2025百战汇智(北京)科技有限公司 All Rights Reserved 北京亦庄经济开发区科创十四街 赛蒂国际工业园
网站维护:百战汇智(北京)科技有限公司
京公网安备 11011402011233号    京ICP备18060230号-3    营业执照    经营许可证:京B2-20212637