五、清洗和组织数据

至此，获得了一段目标的 HTML 代码，但还没有把数据提取出来，接下来在 PyCharm中输入以下代码：

代码运行结果如图 3-2-18 所示。

首先明确要提取的数据是标题和链接，标题在＜a＞标签中，提取标签的正文用 get_text()方法。链接在＜a＞标签的 href 属性中，提取标签中的 href 属性用 get()方法，在括号中指定要提取的属性数据，即 get（href）。从图 3-2-18 中可以发现，文章的链接中有一个数字 ID。下面用正则表达式提取这个 ID。需要使用的正则符号如下： ● \ d 匹配数字 ● + 匹配前一个字符 1 次或多次在 Python 中调用正则表达式时使用 re 库，这个库不用安装，可以直接调用。在 PyCharm 中输入以下代码：