数据解析
结构化数据
结构化的数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据。一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jIC2hGv9-1597472766582)(assets/1560577029244.png)]
半结构化数据
非关系模型的、有基本固定结构模式的数据,例如日志文件、XML文档、JSON文档等。
http://www.bejson.com/jsoneditoronline/ 这个也是json文件。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wYCisbJ2-1597472766584)(assets/1560577066541.png)]
非结构化数据
顾名思义,就是没有固定结构的数据。各种文档、图片、视频/音频等都属于非结构化数据。对于这类数据,我们一般直接整体进行存储,而且一般存储为二进制的数据格式。
能看懂的就是结构化的数据,看不懂的,就是非结构化数据
HTML
- HTML 指的是超文本标记语言 (Hyper Text Markup Language)是用来描述网页的一种语言。
- H(很)T(甜)M(蜜)L(啦)
- HTML 不是一种编程语言,而是一种标记语言 (markup language)
- 标记语言是一套标记标签 (markup tag)
所谓超文本,有2层含义:
- 因为它可以加入图片、声音、动画、多媒体等内容(**超越文本限制 **)
- 不仅如此,它还可以从一个文件跳转到另一个文件,与世界各地主机的文件连接(**超级链接文本 **)。
<h1> 我是一个大标题 </h1>
一句话说出他们:
网页是由网页元素组成的 , 这些元素是利用html标签描述出来,然后通过浏览器解析,就可以显示给用户了。
门外汉眼中的效果页面
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GvYQ9lBx-1597472766585)(assets/image-20200513220539356.png)]
爬虫工程是中的页面
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GE65JzRO-1597472766587)(assets/image-20200513220729793.png)]
HTML骨架格式
日常生活的书信,我们要遵循共同的约定。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Rw30dvrC-1597472766588)(assets/mess.png)]
同理:HTML 有自己的语言语法骨架格式:(要遵循,要专业) 要求务必非常流畅的默写下来。。
<html>
<head>
<title></title>
</head>
<body>
</body>
</html>
html骨架标签总结
| 标签名 | 定义 | 说明 |
|---|---|---|

本文介绍了Python爬虫中数据解析的概念,包括结构化、半结构化和非结构化数据,并深入讲解了HTML的基础知识,如HTML骨架格式、标签关系,以及CSS选择器的使用,包括标签选择器、类选择器、ID选择器等。

1681

被折叠的 条评论
为什么被折叠?



