使用 BeautifulSoup 处理 kindle 导出的 HTML 笔记

导航

问题描述

我用手机端的 kindle App 看完一本书，标注了一些重要句子和段落，想整理一下发表到博客上，于是使用电子邮件方式导出了 HTML 格式的笔记。但是遇到了问题：1、原文件中包含了 CSS 代码，无法直接复制到 WordPress 的文章编辑页中（会被自动去掉），格式很乱；2、某些笔记项是空的，需要把这些多余部分去掉，如果手动删除这些零碎的 HTML 代码，会非常麻烦。

于是，我准备写一段 Python 程序，将笔记文件转换为纯 HTML 文档（去掉 CSS，仍然保持结构清晰），并且去掉多余的空白笔记项。

这个程序中，主要会用到 BeautifulSoup 模块，我曾在爬虫项目中用过，非常适合处理 HTML 和 XML 文件。这里是 Beautiful 的官方中文文档。

本程序中，以处理《我敢在你怀里孤独》的笔记为例，且此 HTML 文件位于脚本文件的同级目录下。

下面开始记录程序编写步骤。最终完整程序见文章底部。

1、构建程序框架

第一步，写好程序框架，读取原笔记文件的内容，封装成 soup 对象。打印 soup 对象，确认一切正常。

#!/usr/bin/env python
# encoding: utf-8

from bs4 import BeautifulSoup

# 防止中文乱码
import sys
reload(sys)
sys.setdefaultencoding('utf-8')


def main():
    filename = '我敢在你怀里孤独 - Notebook.html'
    with open(filename) as f:
        filecontent = f.read()
    soup = BeautifulSoup(filecontent, 'lxml')
    print soup

if __name__ == '__main__':
    main()

2、提取关键信息

观察 HTML 代码可以发现，笔记信息都包含在 <div class=”bodyContainer”> 标签下，所以我们只关心这个标签下的内容。把上面获取 soup 对象的语句改为

soup = BeautifulSoup(filecontent, 'lxml').find('div', {'class': 'bodyContainer'})

运行一下，发现包含 CSS 代码的无用部分都已经不见了。输出的结果大概是这个样子（只贴出了一部分）：

<div class="bodyContainer">
<div class="notebookFor">
                笔记本导出
            </div>
<div class="bookTitle">
                我敢在你怀里孤独
            </div>
<div class="authors">
                刘若英
            </div>
<div class="citation">
</div>
<hr/>
<div class="sectionHeading">
    推荐序 全在一杯里
</div><div class="noteHeading">
    标注(<span class="highlight_yellow">黄色</span>) - 位置 27
</div>
<div class="noteText">
    我喜欢刘若英，不是她某一个阶段，而是整场花开的过程。读这本书，奶茶只有一杯，冷冷热热，醇醇淡淡，全在一杯里。
</div><div class="sectionHeading">
    推荐序 孤独力──情感高度成熟的指标
</div><div class="noteHeading">
    标注(<span class="highlight_yellow">黄色</span>) - 位置 67
</div>
<div class="noteText">
    一般的观念里，孤独这个字让我们想到的是悲伤、无奈、无助……负面的情绪。然而温尼科特所讲的自在独处，特别是在别人面前还是可以留在自己的孤独里的能力，反而是一个人情感高度成熟的指标。
</div><div class="noteHeading">
    标注(<span class="highlight_yellow">黄色</span>) - 位置 68
</div>
<div class="noteText">
</div><div class="sectionHeading">
    我还想要继续，这样矛盾的人生！
</div><div class="noteHeading">
    标注(<span class="highlight_yellow">黄色</span>) - 位置 127
</div>
<div class="noteText">
    事实上，以事情的本质来说，这世上没有所谓“平凡”的事。
</div><div class="noteHeading">
    标注(<span class="highlight_yellow">黄色</span>) - 位置 128
</div>
<div class="noteText">
    事情只有“多数人做”或是“少数人做”，“做得到”或是“做不到”，“愿意做”或是“不愿意做”的差别而已。结婚生子这件事，也许符合了“多数人做”、“愿意做”，而我刚好也“做得到”而已。这件对大部分人来说（也许）算是稀松平常的事，却有可能是我生命中将面临的最大挑战。因为结婚、生子，对我来说是“最最不平凡，也最最具有挑战的事情”。
</div><div class="noteHeading">
    标注(<span class="highlight_yellow">黄色</span>) - 位置 144
</div>
<div class="noteText">
    人不会真心羡慕自己从未真正感受过的事物。
</div><div class="noteHeading">
    标注(<span class="highlight_yellow">黄色</span>) - 位置 144
</div>
<div class="noteText">
</div><div class="noteHeading">
    标注(<span class="highlight_yellow">黄色</span>) - 位置 169
</div>
<div class="noteText">
</div><div class="noteHeading">
    标注(<span class="highlight_yellow">黄色</span>) - 位置 169
</div>
<div class="noteText">
</div><div class="noteHeading">
    标注(<span class="highlight_yellow">黄色</span>) - 位置 171
</div>
<div class="noteText">
</div><div class="noteHeading">
    标注(<span class="highlight_yellow">黄色</span>) - 位置 174
</div>
<div class="noteText">
</div>

还是比较乱，需要进一步处理。

3、提取有用信息

上面代码中的有用的 div 有：

bookTitle，书名
authors，作者
sectionHeading，区块标题，（整理为 h4）
noteText，具体的笔记项（空白项除外），（整理为有序列表）

noteHeading 的内容我不需要，可以忽略。

书名和作者信息很容易得到：

    bookTitle = '《%s》' % soup.find('div', {'class': 'bookTitle'}).string.strip()
    authors = soup.find('div', {'class': 'authors'}).string.strip()
    info = 'bookTitle: %s
\nauthor(s): %s
' % (bookTitle, authors)
    print info

难点在于如何获取区块标题和笔记内容（其实也没有多难）。我的想法是，遍历所有的 div，把感兴趣的内容格式化之后，存到一个叫做 notes 的字符串变量里。代码如下：

    notes = ''
    for iterDiv in soup.find_all('div'):
        # 排除空项
        if iterDiv.text.isspace():
            pass
        # 注意，iterDiv['class'] 是一个列表
        elif iterDiv['class'][0] == 'sectionHeading':
            # 从第二次开始，每次遇到 sectionHeading，都要加上有序列表的结尾标签
            if notes != '':
                notes += '  </ol>\n'
            notes += '<h4>%s</h4>\n  <ol>\n' % iterDiv.text.strip()
        elif iterDiv['class'][0] == 'noteText':
            notes += '    <li>%s</li>\n' % iterDiv.text.strip()
    notes += '  </ol>\n'
    print notes

运行之后，一切正常。

4、输出结果

现在把结果组合一下，然后输出为新的 html 文件。

    with open('notesOutput.html', 'w') as f:
        finalContent = '%s\n<hr/>%s' % (info, notes)
        f.write(finalContent)
        print '输出完毕'

输出结果大致如下（以下为部分内容）：

bookTitle: 《我敢在你怀里孤独》<br/>
author(s): 刘若英<br/>
<hr/><h4>推荐序 全在一杯里</h4>
  <ol>
    <li>我喜欢刘若英，不是她某一个阶段，而是整场花开的过程。读这本书，奶茶只有一杯，冷冷热热，醇醇淡淡，全在一杯里。</li>
  </ol>
<h4>推荐序 孤独力──情感高度成熟的指标</h4>
  <ol>
    <li>一般的观念里，孤独这个字让我们想到的是悲伤、无奈、无助……负面的情绪。然而温尼科特所讲的自在独处，特别是在别人面前还是可以留在自己的孤独里的能力，反而是一个人情感高度成熟的指标。</li>
  </ol>
<h4>我还想要继续，这样矛盾的人生！</h4>
  <ol>
    <li>事实上，以事情的本质来说，这世上没有所谓“平凡”的事。</li>
    <li>事情只有“多数人做”或是“少数人做”，“做得到”或是“做不到”，“愿意做”或是“不愿意做”的差别而已。结婚生子这件事，也许符合了“多数人做”、“愿意做”，而我刚好也“做得到”而已。这件对大部分人来说（也许）算是稀松平常的事，却有可能是我生命中将面临的最大挑战。因为结婚、生子，对我来说是“最最不平凡，也最最具有挑战的事情”。</li>
    <li>人不会真心羡慕自己从未真正感受过的事物。</li>
    <li>现在回想起来，祖父母给我的教育重点，并非考试要考几分，或是要如何如何之类的规范，他们给予我很大的自由，但也清楚地告诉我，哪些事不能做，或是哪些事该怎么做，换句话来说，他们在意的是“规矩”、是“教养”。</li>
    <li>在规矩的范围内，我可以自由地过自己的生活，就算在人群中，也可以安安静静、人畜无害地独处。我又何必无故逼自己逃亡？</li>
    <li>就像突然学会骑脚踏车的快感般，从此我迷恋上一个人的旅行。一直到现在。</li>
    <li>从那之后，我一直维持着独居的生活状态二十几年。叔本华曾经说过类似的话，“要么孤独，要么庸俗”，言下之意他非常享受孤独，认为唯有孤独可以带来精彩与伟大。这道理我真的懂得。</li>
    <li>在不同的时代，人需要不同的印记，以证明自己达到某种被定义的标准，成为被接受的某种人。</li>
    <li>到现在，我并不在意物质上的辛苦，只有自己一个人也无所谓，每天都吃一样的餐点也不在乎，只要生活有趣，那一天的生活就值回票价。</li>
    <li>每隔一段时间，我就把在外面的东西搬回家里，那对我来说，也许就是所谓“旅程的完结”。然后在家里，重新打包整装，准备再出发，从这角度来看，家又是“旅程的起点”。这些过程很重要。</li>
    <li>若没有“家”这根据地，旅行只是无尽的漂流吧！但对某些人来说，所谓“家”这个地方，只是有个固定收账单、各类信件、包裹的地点。</li>
    <li>这也是我的矛盾，我既期待浪迹天涯，又觉得有个固定的家是件重要的事。因为，我们最终都需要有“回去”的地方。</li>
    <li>我希望永远握有自己最终的选择权。如同我的人生最重要的一句话“选择我所能承受的”。如果，将自己关在家里算是“自囚”，那也是我自己的选择。只要我想，随时可以释放自己；只要我想，随时可以改变那样的状态。“嘿！我握有主控权喔！”我可以开心地对自己这样说。</li>
    <li>当然会有海浪，当然会有黑夜，即便我们能欣赏它的美，也会有孤单，害怕不被了解的时候。别怕，虽然我知道你不怕，因为我们都会陪伴你，不管有声无声的。</li>
    <li>我知道你不怕，因为你清楚世界的变化，而你总保留了一块没有变，最纯粹的初衷与梦想。</li>
  </ol>
<h4>请不要在我身边灵魂出窍X卢广仲</h4>
  <ol>
    <li>在MSN的年代，我们可以用文字喝酒聊天聊整晚，喝到醉躺卧榻到天亮。MSN当时的内容比较深刻，看着绿灯的闪烁，等待文字的出现，甚至从对方的昵称、反应时间去猜测想象对方的状态，却又保有自己。比现在任何一种通讯方式都浪漫。广仲说，现在就算是因为工作需求装了LINE，但还是坚持关成静音，好让他不会时时被讯息干扰。想要看手机的时候再看，保有自己对接收讯息的主导权。</li>
    <li>“我们常常忘了自己是人，不是讯息接收器”，网络、脸书、媒体，接收讯息的时间永远都不够，感觉很热闹，“当我发现我是孤独的时候，反而是种很好的状态，孤独可以让你更强壮。”广仲说。就因为现在人和人之间的连结太多元也太频繁，独处反倒变得珍贵，成了意识上得一直去寻找的一种平静。</li>

至此，一开始的目标已经实现了。整个程序源码如下：

#!/usr/bin/env python
# encoding: utf-8

from bs4 import BeautifulSoup

import sys
reload(sys)
sys.setdefaultencoding('utf-8')


def main():
    filename = '我敢在你怀里孤独 - Notebook.html'
    with open(filename) as f:
        filecontent = f.read()
    soup = BeautifulSoup(filecontent, 'lxml').find('div', {'class': 'bodyContainer'})
    #  print soup

    # 获取书名与作者信息
    bookTitle = '《%s》' % soup.find('div', {'class': 'bookTitle'}).text.strip()
    authors = soup.find('div', {'class': 'authors'}).text.strip()
    info = 'bookTitle: %s<br/>\nauthor(s): %s<br/>' % (bookTitle, authors)
    print info

    # 获取笔记列表
    notes = ''
    for iterDiv in soup.find_all('div'):
        # 排除空项
        if iterDiv.text.isspace():
            pass
        # 注意，iterDiv['class'] 是一个列表
        elif iterDiv['class'][0] == 'sectionHeading':
            # 从第二次开始，每次遇到 sectionHeading，都要加上有序列表的结尾标签
            if notes != '':
                notes += '  </ol>\n'
            notes += '<h4>%s</h4>\n  <ol>\n' % iterDiv.text.strip()
        elif iterDiv['class'][0] == 'noteText':
            notes += '    <li>%s</li>\n' % iterDiv.text.strip()
    notes += '  </ol>\n'
    #  print notes

    with open('notesOutput.html', 'w') as f:
        finalContent = '%s\n<hr/>%s' % (info, notes)
        f.write(finalContent)
        print '输出完毕'


if __name__ == '__main__':
    main()

5、更进一步

为了方便以后的使用，本程序还可以改进。感兴趣的朋友可以做进一步研究，我偷懒不折腾了。比如：

现在源文件路径是写死在程序中的，可改为从命令行获取参数
利用 alias 把程序调用做成一个自定义命令
……

Python

使用 BeautifulSoup 处理 kindle 导出的 HTML 笔记

问题描述

1、构建程序框架

2、提取关键信息

3、提取有用信息

4、输出结果

5、更进一步

为了方便以后的使用，本程序还可以改进。感兴趣的朋友可以做进一步研究，我偷懒不折腾了。比如：

You may also like...

发表回复取消回复

Python

使用 BeautifulSoup 处理 kindle 导出的 HTML 笔记

问题描述

1、构建程序框架

2、提取关键信息

3、提取有用信息

4、输出结果

5、更进一步

为了方便以后的使用，本程序还可以改进。感兴趣的朋友可以做进一步研究，我偷懒不折腾了。比如：

You may also like...

生成 requirements.txt

用守护进程保护服务器上的 MySQL

去除图片浅色背景（Java 实现）

发表回复 取消回复

发表回复取消回复