python爬虫数据解析-css选择器

最新推荐文章于 2026-05-03 13:45:32 发布

原创

最新推荐文章于 2026-05-03 13:45:32 发布 · 813 阅读

·

0

·

标签

#python

本文介绍了Python爬虫中数据解析的概念，包括结构化、半结构化和非结构化数据，并深入讲解了HTML的基础知识，如HTML骨架格式、标签关系，以及CSS选择器的使用，包括标签选择器、类选择器、ID选择器等。

数据解析

结构化数据

结构化的数据是指可以使用关系型数据库表示和存储，表现为二维形式的数据。一般特点是：数据以行为单位，一行数据表示一个实体的信息，每一行数据的属性是相同的。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jIC2hGv9-1597472766582)(assets/1560577029244.png)]

半结构化数据

非关系模型的、有基本固定结构模式的数据，例如日志文件、XML文档、JSON文档等。

http://www.bejson.com/jsoneditoronline/ 这个也是json文件。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wYCisbJ2-1597472766584)(assets/1560577066541.png)]

非结构化数据

顾名思义，就是没有固定结构的数据。各种文档、图片、视频/音频等都属于非结构化数据。对于这类数据，我们一般直接整体进行存储，而且一般存储为二进制的数据格式。

能看懂的就是结构化的数据，看不懂的，就是非结构化数据

HTML

HTML 指的是超文本标记语言 (Hyper Text Markup Language)是用来描述网页的一种语言。
H（很）T（甜）M（蜜）L（啦）
HTML 不是一种编程语言，而是一种标记语言 (markup language)
标记语言是一套标记标签 (markup tag)

所谓超文本，有2层含义：

因为它可以加入图片、声音、动画、多媒体等内容（**超越文本限制 **）
不仅如此，它还可以从一个文件跳转到另一个文件，与世界各地主机的文件连接（**超级链接文本 **）。

<h1> 我是一个大标题 </h1>

一句话说出他们:

网页是由网页元素组成的，这些元素是利用html标签描述出来，然后通过浏览器解析，就可以显示给用户了。

门外汉眼中的效果页面

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GvYQ9lBx-1597472766585)(assets/image-20200513220539356.png)]

爬虫工程是中的页面

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GE65JzRO-1597472766587)(assets/image-20200513220729793.png)]

HTML骨架格式

日常生活的书信，我们要遵循共同的约定。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Rw30dvrC-1597472766588)(assets/mess.png)]

同理：HTML 有自己的语言语法骨架格式：（要遵循，要专业）要求务必非常流畅的默写下来。。

<html>   
    <head>     
        <title></title>
    </head>
    <body>
    </body>
</html>

html骨架标签总结

标签名	定义	说明

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。