Notes on pykakasi, mecab-python3, etc.

Published: 2019 - 7 - 15Category:Tech BlogTags:

Slug:

/blog/Notes on pykakasi, mecab-python3, etc.

packages

requirements.txt

pykakasi==1.0
mecab-python3==0.7
python-Levenshtein==0.12.0

pykakasi

usage

H is hiragana, K is katakana, A is alphabet

import pykakasi.kakasi as kakasi

kakasi = kakasi()
kakasi.setMode("H","a") # default: Hiragana -> Roman
kakasi.setMode("K","a") # default: Katakana -> Roman
kakasi.setMode("J","a") # default: Japanese -> Roman
kakasi.setMode("r","Hepburn") # default: use Hepburn Roman table
kakasi.setMode("s", True) # default: Separator
kakasi.setMode("C", True) # default: Capitalize
conv = kakasi.getConverter()  # instantiate Converter
result = conv.do(text)  # romanize

mecab-python

Python wrapper for MeCab.

MeCab
on
docker

Dockerfile

RUN apt-get update \
    && apt-get install -y mecab \
    && apt-get install -y libmecab-dev \
    && apt-get install -y mecab-ipadic-utf8\
    && apt-get install -y git\
    && apt-get install -y make\
    && apt-get install -y curl\
    && apt-get install -y xz-utils\
    && apt-get install -y file\
    && apt-get install -y sudo\
    && apt-get install -y wget

RUN git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git\
    && cd mecab-ipadic-neologd\
    && bin/install-mecab-ipadic-neologd -n -y

RUN apt-get install -y software-properties-common vim
RUN add-apt-repository ppa:jonathonf/python-3.6
RUN apt-get update

RUN apt-get install -y build-essential python3.6 python3.6-dev python3-pip python3.6-venv
RUN python3.6 -m pip install pip --upgrade
RUN pip install mecab-python3

Output format

Surface form\tPart of speech,Part of speech sub-classification 1,Part of speech sub-classification 2,Part of speech sub-classification 3,Conjugation type,Conjugated form,Base form,Reading,Pronunciation

Output
result
processing

import MeCab
text = "慶應義塾大学湘南藤沢キャンパス"
T = MeCab.Tagger("")

Tuple of surface form + other information

parsed = [[l.split('\t')[0], tuple(l.split('\t')[1].split(','))] for l in T.parse(text).splitlines()[:-1]]

[['慶應義塾', ('名詞', '固有名詞', '組織', '*', '*', '*', '慶應義塾', 'ケイオウギジュク', 'ケイオーギジュク')],
 ['大学', ('名詞', '一般', '*', '*', '*', '*', '大学', 'ダイガク', 'ダイガク')],
 ['湘南', ('名詞', '固有名詞', '地域', '一般', '*', '*', '湘南', 'ショウナン', 'ショーナン')],
 ['藤沢', ('名詞', '固有名詞', '地域', '一般', '*', '*', '藤沢', 'フジサワ', 'フジサワ')],
 ['キャンパス', ('名詞', '一般', '*', '*', '*', '*', 'キャンパス', 'キャンパス', 'キャンパス')]]

Tuple of all information

Split all at once with re

import re
parsed = [tuple(re.split(r"[\t,]", l)) for l in T.parse(text).splitlines()[:-1]]

[('慶應義塾', '名詞', '固有名詞', '組織', '*', '*', '*', '慶應義塾', 'ケイオウギジュク', 'ケイオーギジュク'),
 ('大学', '名詞', '一般', '*', '*', '*', '*', '大学', 'ダイガク', 'ダイガク'),
 ('湘南', '名詞', '固有名詞', '地域', '一般', '*', '*', '湘南', 'ショウナン', 'ショーナン'),
 ('藤沢', '名詞', '固有名詞', '地域', '一般', '*', '*', '藤沢', 'フジサワ', 'フジサワ'),
 ('キャンパス', '名詞', '一般', '*', '*', '*', '*', 'キャンパス', 'キャンパス', 'キャンパス')]

MeCab:
Wakati-gaki
(Word
separation)

import MeCab
wakati = MeCab.Tagger("-Owakati")
wakati.parse("慶應義塾大学湘南藤沢キャンパス").split()

Chasen
style

chasen = MeCab.Tagger("-Ochasen")
print(chasen.parse("pythonが大好きです"))

python　python　　python　名詞-固有名詞-組織
が　　　ガ　　　　が　　　助詞-格助詞-一般
大好き　ダイスキ　大好き　名詞-形容動詞語幹
です　　デス　　　です　　助動詞　特殊・デス　基本形
EOS

Others

Output reading with -Oyomi option. However, words are not separated.

atsuya koba

Notes on pykakasi, mecab-python3, etc.

packages

pykakasi

mecab-python

MeCab
on
docker

Output
result
processing

MeCab:
Wakati-gaki
(Word
separation)

Chasen
style

Others

Read more articles

Published: Stabilizing Document Vector Inference with Doc2Vec

Trends in Music Generation Models and Possibilities for Musical Experience Design (2021)

Setting up a VS Code development environment for Processing (Mac)

Notes on pykakasi, mecab-python3, etc.

packages

pykakasi

mecab-python

MeCabondocker

Outputresultprocessing

MeCab:Wakati-gaki(Wordseparation)

Chasenstyle

Others

Read more articles

Published: Stabilizing Document Vector Inference with Doc2Vec

Trends in Music Generation Models and Possibilities for Musical Experience Design (2021)

Setting up a VS Code development environment for Processing (Mac)

MeCab
on
docker

Output
result
processing

MeCab:
Wakati-gaki
(Word
separation)

Chasen
style