python爬虫抓取晋江网一篇小说

最新推荐文章于 2025-11-24 23:30:53 发布

原创

最新推荐文章于 2025-11-24 23:30:53 发布 · 1.4w 阅读

标签

#python #爬虫

收录于

本文介绍了使用Python的requests和BeautifulSoup库爬取晋江网一篇小说的过程，包括获取免费章节标题和链接，以及正文内容的抓取。虽然爬取思路简单，但小说正文的正则匹配相对复杂。

这几天学了python的requests库和BeautifulSoup,闲来爬取晋江网一篇小说。

1.过程分析：

这里写图片描述

（1）获取全部免费章节的标题和链接（前23章），后面的章节是vip收费，没有账号充值无法爬取
（2）进入每章的链接爬取小说正文
其实爬取得思路比较简单，稍微复杂的是小说正文的正则匹配

2.代码实现：

# coding: utf-8

import requests
from bs4 import BeautifulSoup as bs
import re

start_url = "http://www.jjwxc.net/onebook.php?novelid=1857985"
res = requests.get(start_url)
res.encoding = "utf-8"
soup = bs(res.content,

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Gavin_CHEN929

关注关注

8
点赞
踩
45

收藏

觉得还不错? 一键收藏
6
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

python爬虫实践--晋江小说书籍分析

qq_45886782的博客

03-12

1万+

python@ljr 初心：寒假在家看小说，看着看着想自己写，然后申了几次没过，打算把榜单文章拿来好好分析一下，做个高大上的词云看看方向什么的。但我不会爬虫，只听说过，就上网搜别人的代码，但是别人的代码不满足我的需求，我看不懂也改不了。 python爬虫实践凭着一口我也是程序人的志气（主要恰好学了python），自己去搜了怎么写爬虫，把视频看了一遍，过了下大概思路，然后看第二遍，注意一些细节，跟着一步一步地做自己的（主要是用他的思路和跟着写一点语句），最后就把晋江上我需要的数据搞出来了。（默默夸一句，b

6 条评论您还未登录，请先登录后发表或查看评论

【零基础学爬虫】学Python的第一周，自己编写用Python爬取vip小说付费章节，实现小说自由！

python03011的博客

06-05

9797

【零基础学爬虫】学Python的第一周，自己编写用Python爬取vip小说付费章节，实现小说自由！

python使用requests和lxml爬取晋江小说的免费章节

weixin_42292586的博客

07-20

4009

使用python的reques和lxml中的etree，xpath的方式爬取晋江文学上的小说免费章节，最后合成txt文档

scrapy爬取晋江免费小说（章节）+ cookie爬vip章节

mt233的博客

02-09

3万+

思路：先打开晋江任意一篇小说的第一章，然后爬取该章节的名字、内容，以及该小说的名字，下一章节的链接；利用下一章节的链接实现重复的爬取，其中章节的名字、内容、小说名字存储在item字典中；最后将爬取到的内容进行整理写入txt文件。其实也可以在目录页提取各个章节的链接进行爬取，实现的是前一种方法。 1.创建项目创建Scrapy项目，在shell中使用scrapy startproject命令： s...

python晋江文学城数据分析（一）——爬虫（BeautifulSoup正则）

kpl_22b的博客

04-06

8764

回忆性文章，其实过程中遇到过很多问题和困难，但暂时只想起这些了。待改善的地方：1）爬取太慢，爬取250页花费近10个小时，看网上有多进程、多线程可以加快爬虫时间，之后有时间当学习改进；2）正则表达式不够精确，部分详情页爬取出来不是目的数据，因为错误的数据量不多，后续数据处理采取了直接删除的办法，之后可以在爬虫阶段尝试改进；

【Python】Python爬取小说标题及内容——晋江文学网

Li_Jiaqian的博客

05-11

1万+

1.在晋江文学网（http://www.jjwxc.net/）上选定一篇不需要会员付费的小说（http://www.jjwxc.net/onebook.php?novelid=2443908）；2.在目录页获取各章节名称以及各章内容的url；3.前往各章url获取文章内容，为了纯粹只获取内容，观察页面构局，使用正则表达式，筛选出需要的内容；4.开始爬取，并将内容写入txt文件中，屏幕更新下载进度。...

爬虫-晋江小说排行榜收藏数、字数、风格

一只瞪着你的小饕餮柠檬精的博客

06-07

5396

基于网络爬虫和SpringBoot框架的晋江文学小说小型网站项目

weixin_45890771的博客

04-27

2388

基于网络爬虫和SpringBoot框架的晋江文学小说小型网站项目

weixin_39779928的博客

02-10

5934

作者：黑黄条纹的野喵简书专栏：https://www.jianshu.com/u/7cabd1cbad0d喜欢看小说的骚年们都知道，总是有一些小说让人耳目一新，不管是仙侠还是玄幻，前面更了几十章就成功圈了一大波粉丝，成功攀上飙升榜，热门榜等各种榜，扔几个栗子出来：新笔趣阁是广大书友最值得收藏的网络小说阅读网,网站收录了当前......我就不打广告了(其他满足下文条件的网站也行，之前已经有做过简单爬...

Python爬虫实战爬取网络中的小说_手机怎么爬虫晋江做txt

m0_61549674的博客

04-26

991

Python 爬虫网文实战

zm030的博客

08-30

2249

爬虫网站为晋江文学城上一部免费观看的网络小说，纯小白练习，欢迎各位大佬指点

Python手记-9：Python LXML库XPath的爬取晋江书目

热门推荐

成屿的专栏

05-07

4万+

1. lxml库 lxml是功能最丰富且易于使用的库，用于处理Python语言中的XML和HTML，还可实现WEB爬取，官文参考：https://lxml.de/，完整的PDF文档下载链接https://lxml.de/lxmldoc-4.5.0.pdf，但是阅读起来……em……怪自己不够聪明的样子。 Linux下安装lxml库：[root@chengyu ~]# pip3 instal...

用python简易制作晋江城小说下载器（GUI+爬虫+多线程）

国民小跟班的博客

10-25

2417

import requests from bs4 import BeautifulSoup import re import os import pandas as pd #0.获取网页基本信息 def get_html(url): headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; rv:70.0)"+"Gecko/20100...

python实战项目12：采集晋江文学城小说数据

lyccomcn的博客

05-30

2271

本次数据采集的目标是晋江文学城小说数据，采集的流程包括寻找数据接口、发送请求获取响应、解析数据和持久化存储，先来看一下数据情况，完整代码附后：

超简单的JAVA爬虫爬取晋江小说的简介和评论

果子狸要好好活着

03-28

7411

Java爬取晋江书城的某个分类下小说的简介和评论写在前面，一开始是因为书荒又找不到自己喜欢的，就打算去晋江书城看看，结果排在前面的也不是我的菜，一本本挑又嫌太麻烦就打算把数据爬下来慢慢的看。分析了一下晋江的网页，发现可以爬下来的数据有书名、作者、类型、简介、标签、收藏、下载、点赞数、评论等，而我已经在晋江的网页上做过分类筛选，且萝卜白菜各有所爱，收藏和下载量高的也不能代表就是我喜欢的，所以我最

python晋江爬虫_python爬虫之小说爬取

weixin_39713833的博客

11-23

1710

废话不多说，直接进入正题。今天我要爬取的网站是起点中文网，内容是一部小说。首先是引入库from urllib.request importurlopenfrom bs4 import BeautifulSoup然后将网址赋值html=urlopen("http://read.qidian.com/chapter/dVQvL2RfE4I1/hJBflakKUDMex0RJOkJclQ2.html")...

python爬虫脚本（获取小说）

2302_81731997的博客

12-01

885

2.获取小说章节内容。

Python 爬虫：晋江文学城数据爬取 —— 元素定位与实战解析