Skip to content

PythonでUnicode正規化と全角半角変換

Posted on:2019年3月13日 at 00:00

jaconv をインストール

pip install jaconv

how to use

import jaconv
hoge = jaconv.h2z('カブシキガイシャチワワ')
print(hoge)


カブシキガイシャチワワ

jaconv.normalize('㈱チワワ', 'NFKC')

(株)チワワ

jaconv.normalize('カブシキガイシャチワワ', 'NFKC')

カブシキガイシャチワワ

jaconv.normalize('海海神神', 'NFC')
海海神神

jaconv.h2z(jaconv.normalize('カブシキガイシャチワワ123123', 'NFC'))
'カブシキガイシャチワワ123123'

jaconv.z2h(jaconv.h2z(jaconv.normalize('カブシキガイシャチワワ〜123123−海海神神㈱', 'NFC')),kana=False,digit=True)
'カブシキガイシャチワワー123123-海海神神㈱'

unicode 正規化だけなら Python 標準ライブラリの unicodedata を使っても良いかも。 jaconv も内部で unicodedata 呼び出してる。 その場合は、日本語特有の記号に気をつけた方が良い。

参考

pypi jaconv docs.python.org unicodedata