入门 PYTHON 脚本编程
- Python
- 2018-08-21
- 177热度
- 0评论
导航
—— 以处理国际化问题为例
本文目标:
- 介绍 Python 语言
- 用自动化脚本辅助日常工作的思想
- 读完之后,可快速上手,编写简单的脚本程序
- 为以后学习“机器学习”等 Python 擅长的领域做铺垫
一、抛出应用问题
国际化文件中,只有中文翻译是全的,英文和繁体翻译有缺失。现在需要给每个 key 都加上翻译。
解决流程
后面详述。
二、Python 基础
写在前面
- Python 是一种解释型、面向对象、动态数据类型的高级程序设计语言。
- Python 开源、跨平台,社区活跃,类库非常多。
- Python 易于入门,功能强大。常被比作“胶水”和“万金油”。
- Python 分 Python2 和 Python3 两个版本,差别不大,本文基于 Python3。
- “人生苦短,我用 Python!”
运行一个 HelloWorld
print("Hello World")
(演示)
基本语法
详见廖雪峰教程。这里主要说一下与 Java 差异较大的地方。
- 解释型语言,只能在运行时发现错误
- 有一个交互式 shell(类似 node)
- 包管理器:pip
- 变量是动态类型
- 每行一句话,不建议使用分号
- 单引号、双引号、三引号
- 用缩进表示语句块
- 与或非:and、or、not
常用数据结构
1) list(列表),常用操作:切片
In [1]: l = [1, 2, 3, 4, 5]
In [2]: l[1:3]
Out[2]: [2, 3]
2) tuple(元组,不可变列表)
3) map(字典)
4) set(集合),常用操作:去重
In [3]: l = [1, 1, 1, 2, 2, 3]
In [4]: set(l)
Out[4]: {1, 2, 3}
最常见语法糖
1) 多变量赋值
In [5]: a, b, c = 1, 2, "john"
In [6]: a
Out[6]: 1
In [7]: b
Out[7]: 2
In [8]: c
Out[8]: 'john'
2) With 语句(简化异常处理)
In [9]: with open('update.properties') as f:
...: content = f.read()
3) 列表推导式(轻量级循环)
In [11]: l2 = [n for n in l if n > 1]
In [12]: l2
Out[12]: [2, 2, 3]
模块机制
类似 Java 中 jar 包里的 Class,用 import 导入。我们后面将大量使用第三方模块及内建模块来实现业务功能。
In [13]: import os
In [14]: os.listdir()
Out[14]:
['update_en_US.properties',
'update_zh_TW.properties',
'update.properties',
'update_zh_CN.properties',
'.git']
三、国际化脚本程序演示
(源码地址)
四、国际化脚本程序剖析
主要包含以下内容:
- 模块使用
- 文件IO
- 文本处理
- 简单爬虫
主结构
#!/usr/bin/env python3
# encoding: utf-8
import os
import collections
import ipdb
import codecs
import opencc
import translater
def main():
base = os.getcwd()
locale_CN = None
locale_TW = None
locale_EN = None
for file in os.listdir(base):
if file.endswith('zh_CN.properties'):
locale_CN = file
continue
if file.endswith('zh_TW.properties'):
locale_TW = file
continue
if file.endswith('en_US.properties'):
locale_EN = file
continue
if not locale_CN or not locale_TW or not locale_EN:
print('没有找到对应的国际化文件,请检查!')
return
map_CN = get_kvmap_in_locale_file(locale_CN)
process_TW(map_CN, locale_TW)
process_EN(map_CN, locale_EN)
下面进行分解
0) 用到的模块
- os,与操作系统有关的功能
- collections,提供一些特殊的集合
- codecs,编码转换
- opencc,台湾繁体翻译
- requests,发起网络请求
第三方模块的安装步骤,略。百度可搜,顺便熟悉 pip 的使用。
1) 将国际化文件读取为 map
def get_kvmap_in_locale_file(file):
kvmap = collections.OrderedDict()
with open(file) as f:
content = f.read()
contentList = content.splitlines()
for line in contentList:
# ipdb.set_trace()
if not line or line.startswith('#'):
continue
if '=' not in line:
print('!!!\n', line)
k, v = line.split('=', 1)
k = k.strip()
kvmap[k] = v
return kvmap
2) 爬虫调用百度翻译接口进行英文翻译(封装为 translater 模块)
#!/usr/bin/env python3
import requests
# 中译英
def zh2en(content):
data = {
'from': 'zh',
'to': 'en',
'query':content,
}
return _translate(data)
# 英译中
def en2zh(content):
data = {
'from': 'en',
'to': 'zh',
'query':content,
}
return _translate(data)
def _translate(data):
# 手机版api
url = 'http://fanyi.baidu.com/basetrans'
headers = {"User-Agent":"Mozilla/5.0 (Linux; Android 5.1.1; Nexus 6 Build/LYZ28E) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Mobile Safari/537.36"}
response = requests.post(url,data,headers=headers)
result = response.json()['trans'][0]['dst']
return result
if __name__=="__main__":
print(zh2en('你好,世界'))
print(en2zh('Hello, world'))
3) 处理英文翻译
def process_EN(map_CN, locale_EN):
# 处理英文翻译
map_EN = get_kvmap_in_locale_file(locale_EN)
error_keys = []
result_EN = ''
for k, v in map_EN.items():
if not v and map_CN[k]:
try:
v_CN = codecs.decode(map_CN[k], 'unicode_escape')
v = translater.zh2en(v_CN)
print(k, v_CN, v)
except Exception as e:
print(str(e))
error_keys.append(k)
result_EN += k + '=' + v + '\n'
with open(locale_EN, 'w') as f:
f.write(result_EN)
print('请手动处理以下英文key: ')
for k in error_keys:
print(k)
4) 处理台湾翻译
def process_TW(map_CN, locale_TW):
# 处理台湾翻译
map_TW = get_kvmap_in_locale_file(locale_TW)
error_keys = []
result_TW = ''
for k, v in map_TW.items():
if not v and map_CN[k]:
try:
v_CN = codecs.decode(map_CN[k], 'unicode_escape')
v_TW = opencc.convert(v_CN, config='s2twp.json')
v_TW = codecs.encode(v_TW, 'unicode_escape').decode()
v = v_TW.upper().replace('\\U', '\\u')
except Exception as e:
print(str(e))
error_keys.append(k)
result_TW += k + '=' + v + '\n'
with open(locale_TW, 'w') as f:
f.write(result_TW)
print('请手动处理以下key: ')
for k in error_keys:
print(k)
五、新增 addtrans 命令
在 .bashrc 或 .zshrc 中,加入别名:
alias addtrans='/Users/plough/codes/增加翻译/addtrans.py'
这样就能像第三步的程序演示里那样调用了。
六、答疑
1) 为什么使用 OpenCC,而不是百度翻译?
- 百度翻译是直译,台湾繁体除了字体改变,某些词汇也有变化。OpenCC 的转换效果更好。(现在的百度翻译已经变得更智能了)
- 演示第三方类库的使用
2) Python 的用途?
Python 是“万金油”,至少有以下应用:
- 自动化脚本;
- web 后台;
- 科学计算;
- 数据挖掘;
- 机器学习;
- 图像处理;
- 游戏编程;
- 爬虫;
- GUI 编程;
- 嵌入式编程
Python 是“胶水”,可以把其他语言编写的程序串联起来。所以有无限的扩展性。
3) Python 效率低下?
一般来说,解释型语言,效率比不上 C++/Java。
但是 Python 有自己的解决方案:
- 第一次运行时,会编译出 .pyc 文件,再次运行速度会变快;
- 如果有必要,关键部分,可以用 C 语言扩展。
4) 脚本常见用途?
自动化,自动化,自动化!
当你发现经常在做一些机械、重复的事情时,就可以考虑写成脚本。简单列一些用途:
- 处理国际化问题
- 找出项目源码 js 里多余的逗号
- 文本处理
- 系统管理
- 自动化运维、自动化测试
- 定时任务
- 爬取数据
- 抢月饼