五、清洗和组织数据

至此,获得了一段目标的 HTML 代码,但还没有把数据提取出来,接下来在 PyCharm中输入以下代码: 代码运行结果如图 3-2-18 所示。
首先明确要提取的数据是标题和链接,标题在<a>标签中,提取标签的正文用 get_text()方法。链接在<a>标签的 href 属性中,提取标签中的 href 属性用 get()方法,在括号中指定要提取的属性数据,即 get(href)。 从图 3-2-18 中可以发现,文章的链接中有一个数字 ID。下面用正则表达式提取这个 ID。需要使用的正则符号如下: ● \ d 匹配数字 ● + 匹配前一个字符 1 次或多次 在 Python 中调用正则表达式时使用 re 库,这个库不用安装,可以直接调用。在 PyCharm 中输入以下代码: 运行结果如图 3-2-19 所示。
这里使用 re 库的 findall 方法,第一个参数表示正则表达式,第二个参数表示要提取的文本。