Python 使用 OpenCC 做简繁转换

需求:将简体中文转换为台湾繁体

在 v2ex 上发现一个开源项目:OpenCC,目测可以满足需求。

记录下安装和使用方式

一、(可选)OpenCC 的安装和使用

brew install opencc

安装完成后,在命令行输入 opencc,即可运行交互式翻译程序

➜ ~ opencc
出租车
出租車

opencc 命令行工具还可直接翻译文本文件,需要可以研究下

二、安装和使用 OpenCC 的 Python 包

pip install opencc

就是一个 convert 函数,使用方法举例:

In [1]: import opencc

In [2]: opencc.convert('出租车', config='s2t.json')
Out[2]: '出租車'

In [3]: opencc.convert('出租车', config='s2twp.json')
Out[3]: '計程車'

In [4]: opencc.convert('出租車')
Out[4]: '出租车'

附上各种配置:

  • s2t.json Simplified Chinese to Traditional Chinese 簡體到繁體
  • t2s.json Traditional Chinese to Simplified Chinese 繁體到簡體
  • s2tw.json Simplified Chinese to Traditional Chinese (Taiwan Standard) 簡體到臺灣正體
  • tw2s.json Traditional Chinese (Taiwan Standard) to Simplified Chinese 臺灣正體到簡體
  • s2hk.json Simplified Chinese to Traditional Chinese (Hong Kong Standard) 簡體到香港繁體(香港小學學習字詞表標準)
  • hk2s.json Traditional Chinese (Hong Kong Standard) to Simplified Chinese 香港繁體(香港小學學習字詞表標準)到簡體
  • s2twp.json Simplified Chinese to Traditional Chinese (Taiwan Standard) with
  • Taiwanese idiom 簡體到繁體(臺灣正體標準)並轉換爲臺灣常用詞彙
  • tw2sp.json Traditional Chinese (Taiwan Standard) to Simplified Chinese with Mainland
  • Chinese idiom 繁體(臺灣正體標準)到簡體並轉換爲中國大陸常用詞彙
  • t2tw.json Traditional Chinese (OpenCC Standard) to Taiwan Standard 繁體(OpenCC 標準)到臺灣正體
  • t2hk.json Traditional Chinese (OpenCC Standard) to Hong Kong Standard 繁體(OpenCC 標準)到香港繁體(香港小學學習字詞表標準)