python爬虫数据解析-css选择器

本文介绍了Python爬虫中数据解析的概念,包括结构化、半结构化和非结构化数据,并深入讲解了HTML的基础知识,如HTML骨架格式、标签关系,以及CSS选择器的使用,包括标签选择器、类选择器、ID选择器等。

数据解析

结构化数据

结构化的数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据。一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jIC2hGv9-1597472766582)(assets/1560577029244.png)]

半结构化数据

非关系模型的、有基本固定结构模式的数据,例如日志文件、XML文档、JSON文档等。

http://www.bejson.com/jsoneditoronline/ 这个也是json文件。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wYCisbJ2-1597472766584)(assets/1560577066541.png)]

非结构化数据

顾名思义,就是没有固定结构的数据。各种文档、图片、视频/音频等都属于非结构化数据。对于这类数据,我们一般直接整体进行存储,而且一般存储为二进制的数据格式。

能看懂的就是结构化的数据,看不懂的,就是非结构化数据

HTML

  • HTML 指的是超文本标记语言 (Hyper Text Markup Language)是用来描述网页的一种语言。
  • H(很)T(甜)M(蜜)L(啦)
  • HTML 不是一种编程语言,而是一种标记语言 (markup language)
  • 标记语言是一套标记标签 (markup tag)

所谓超文本,有2层含义:

  1. 因为它可以加入图片、声音、动画、多媒体等内容(**超越文本限制 **)
  2. 不仅如此,它还可以从一个文件跳转到另一个文件,与世界各地主机的文件连接(**超级链接文本 **)。
<h1> 我是一个大标题 </h1>

一句话说出他们:

网页是由网页元素组成的 , 这些元素是利用html标签描述出来,然后通过浏览器解析,就可以显示给用户了。

门外汉眼中的效果页面

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GvYQ9lBx-1597472766585)(assets/image-20200513220539356.png)]

爬虫工程是中的页面

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GE65JzRO-1597472766587)(assets/image-20200513220729793.png)]

HTML骨架格式

日常生活的书信,我们要遵循共同的约定。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Rw30dvrC-1597472766588)(assets/mess.png)]

同理:HTML 有自己的语言语法骨架格式:(要遵循,要专业) 要求务必非常流畅的默写下来。。

<html>   
    <head>     
        <title></title>
    </head>
    <body>
    </body>
</html>
html骨架标签总结
标签名 定义 说明
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值