日本語入力システム

出典: 謎の百科事典もどき『エンペディア(Enpedia)』
ナビゲーションに移動 検索に移動

日本語入力システムとは、日本語の漢字かな交じり文を入力するためのインプットメソッドである。

概要[編集]

  • 使用文字数が数百を超える言語の文章を入力する際には、全ての文字に一つのキーを当てはめるキーボードは非現実的であるため、複数のキーの操作で一文字を入力するなどの仕組みが必要となった。
  • 日本語の入力方法で現在主流なのは、かな漢字変換である。これが最初に実現したのは、JW-10である。
これは1編集者の私見。(編集者:早朝の掃除屋さん)

東芝の JW-1 を嚆矢とし、京大学派ではパターン認識[注 1]で著名な長尾真の率いる京大学派が覇を競い(Wnn は京セラに引き継がれている)、百花繚乱の時代があったが、いかんせん日本語文法の枠から出られなかったという憾みがある。
日本語の形態素解析を真面目に研究する奴は、日本語の文法を「生得的で自明なもの」とは考えず、そこには何か確固たる法則があり、一般の人はそれを感得はしていと考える。ところが自閉

  • 三歳くらいまで発話しないことが多くある。
  • 赤ちゃん語を話さない。
  • 喋りはじめると、いきなり大人のような話し方をする。
  • 自閉症児は方言をあまり話さない。

とかいった傾向があり、日本語文法に対する親和性が高いらしいことが知られている。 そんなわけで日本語の記述文法はそれなりに精度の高いもの(ただし、8ビットとか16ビットのCPU でメモリサイズが数百Kbとかのマシンで動かそうと思うと大変なのだが)がすでに動いており「漢字かな交じり文」と「ひらがな文字列」の相互変換くらいなら軽くこなすシステムもあった。
ただし、トレードシークレットなどの問題もあってお互いに情報交換をする機会がなかっため、商業化は困難であった。その後バブル景気崩壊後の「失われた二十年」もあって(rStone-JEを除いては)製品化には至らなかった。

機能[編集]

この節は執筆の途中です この節はまだ執筆途中です。加筆、訂正して下さる協力者を募集中!

入力[編集]

この節は執筆の途中です この節はまだ執筆途中です。加筆、訂正して下さる協力者を募集中!

変換[編集]

この節は執筆の途中です この節はまだ執筆途中です。加筆、訂正して下さる協力者を募集中!

辞書[編集]

この節は執筆の途中です この節はまだ執筆途中です。加筆、訂正して下さる協力者を募集中!

学習機能[編集]

ユーザーの変換・確定結果を記憶し、それに基づいて入力予測を変更する仕組み。

これは1編集者の私見。(編集者:naidepne(Talk))


入力予測の質は高まるどころか落ちるうえに、プライバシーにも悪いため、無効化をおすすめする。

一覧[編集]

名称 種別 開発元 ライセンス 料金 対応OS 備考
ATOK  かな漢字変換  Just System プロプライエタリ サブスクリプション[1] Windows, macOS, GNU/Linux, Android, iOS
Baidu IME かな漢字変換 Baidu プロプライエタリ 無料 Windows
Google 日本語入力  かな漢字変換  Google プロプライエタリ 無料 Windows, macOS, ChromeOS, Android, iOS
Microsoft IME かな漢字変換 Microsoft プロプライエタリ 無料 Windows
mozc かな漢字変換 Google BSD 無料 Windows, macOS, GNU/Linux, Android, ChromiumOS
Simeji かな漢字変換 Baidu プロプライエタリ 無料 Android, iOS
VJE かな漢字変換 バックス プロプライエタリ 有料 Unix系, MS-DOS, NEXTSTEP, Windows, PalmOS 2005年に開発終了
ことえり かな漢字変換 Apple プロプライエタリ 無料 macOS 2013年に開発終了 後継は日本語入力プログラム (macOS)
日本語入力プログラム (macOS) かな漢字変換 Apple プロプライエタリ 無料 macOS

批判[編集]

これは1編集者の私見。(編集者:早朝の掃除屋さん)

日本語を母語としない非・ネイティブの日本語使用者からすると、「電子テキストとしての漢字かな交じり文の入力」というのは絶望的に難しい。
まず、音訓がわからないので国語辞典が引けない。それ以前に、その後が国語辞典に載っているか、のっていたとしてどのページに載っているのかの推測に手間がかかる「ガイジン」なんだから漢字から勉強しろというのか? いちいち漢和辞典を引いてから国語辞典を引けというのか? 日本人はそんなに底意地の悪い人種なのか?と思われても、仕方のないことである。
たとえば「冷」という漢字があったとして、

  • 冷(さ)ます
  • 冷(つめ)たい
  • 冷(ひ)える

の区別がつけづらい。「日」は「ひ」「び」「ぴ」「にち」「じつ」の読みがあるが、小学校の教科書の漢字表には「にっ」の音は入っていないため音便とも関係するため、「日本」よ読みもむつかしく、「にほん」か「にっぽん」も区別しづらい「日比谷(ひびや)から日本大学(にほんだいがく)を経て日本電気(にっぽんでんき)に入社」のルビをコンピューターに振らせることができるだろうか?という問題がある。
現代ではインンターネットが普及しているため、「電子テキストとしての漢字かな交じり文」というデータが目の前にある。そうなるとそのぶぶんをクリップボードにコピーして別ウィンドウを開けば国語辞典データとぶっつけて読みの表示するくらい現代のパソコンの性能から考えると、そう難しくはない。
Mac SE が知られるようになった 1991 年には、デスク・アクセサリー(プログラム領域 32Kb、データ領域 32Kb)として rStone-JE が動いていた(作者は島田正雄)なのだが、注目したのはアップル・コンピュータ・ジャパンの「ことえり」チームとアスキーの出版技術部(日本語TEXで知られる)およびソフトウェアの開発部門(VJE-γ開発部隊)だけであった。
そんなわけで、いまや Microsoft や Apple や Google の開発した日本語入力システムを、「なんだこの変換精度の低さは。日本人を馬鹿にしているのかぁぁあ!」と思いながら使っている日本人もいるわけである。

技術的な対策[編集]

これは1編集者の私見。(編集者:早朝の掃除屋さん)

てっとり早い対策はとりあえず三つある。

  • 辞書には長めに登録する
  • 漢字かな交じり文のテキストの解析精度を上げ、その出現頻度から辞書の頻度情報の重みづけを行なう
  • 単漢字入力の優先度を下げる

である。
「やまのうえにはながさきました」を変換するときに「花が咲k」を登録しておけば「鼻が裂きました」が出てくるのは最長一致法を採用していれば候補としてはうんと下の方になる。この手法は「山の上に花が咲きました動詞」として一九八十年代から知られていた。ただし「変換候補の重みづけは本当に最長一致法だけでいいのか?」という問題が別にあり、「山の上には菜が咲きました」のどちらを取るかという話がある。
めったに使わない辞書登録語はあらかじめ優先順位を下げておく。
単漢字は、「夜露死苦」はまるごと辞書登録するとかユーザが「よつゆ+し+く」と打つか単漢字として入力するか判断してくれとあらかじめお願いするというのが親切である。
ついでながら、Wnn で用いられた「いま使ったよ bit」というものもあり、最近使われた語を優先するといった手法もある。これを、「一度入力したんだからコピペすればいいのにまた入力しているのだから、前に出した候補は間違っていたのだろう」と考えてわざわざ別の項を優先する」などというお節介をする日本語入力システムもある。

文法的な対策[編集]

これは1編集者の私見。(編集者:早朝の掃除屋さん)

これ以外の「てっとり早くない」方法としては、とにかくデータを集めて「どの語とどの語が同一文書に出てきやすいか」をマハラノビスの距離かなにかを使ってベクトル化し、近そうな語の優先度を上げるという手がある。そこまでやらなくても、専門語辞書をいくつも用意しておいて、どれかに引っかかったらその辞書の優先度を上げればいいだけである。地名や人名などは同一地方、同一業種の人物は続けて出てきやすいことは容易に想像できるし、音楽用語・料理用語・数学者名を含む数学用語・物理用語・化学用語などは個別に作成し、同一表記のものは一つだけ定時すればよい。「さいとうひでお」は「齋藤秀雄」「斎藤秀雄」でよく、「音楽家ですか、評論家ですか?」は気にしなくてよい。
また、「開くか、閉じるか」の原則などは別になんとする。「受け取り」「受取り」「受取」はあるが「受け取」はないみたいなことを真面目に考える開発者がいるかどうか、という話ではある。

プライバシー[編集]

これは1編集者の私見。(編集者:naidepne(Talk))


プライバシーを重視している場合は、OpenSnitchNetGuardなどのファイアウォールを使用して、mozcのネットワーク接続を禁じたうえで、mozcを使用することをおすすめする。Android版mozcは、[2]から入手でき、NetGuardは、[3]から入手できる。OpenSnitchの入手方法については、「OpenSnitch」を参照。

その他[編集]

これは1編集者の私見。(編集者:早朝の掃除屋さん)

文法と辞書は、意外なことに区別する必要がない。なぜ別になっているかというと、「接続テーブル法」という方法で文法を処理を行なっているシステムが過去(現在も?)にあったたため、文法を精密にしようと思うとテーブルがむやみに膨らんでしまう。
これを解消するために文法専用の記述言語を用意して辞書と一緒にし、それを敬語・文語・口語的に崩れた形・方言などもストレスなく使える。たとえば小説の中で二人の人物大阪弁と東京弁で喋っていてもいいし、平版時代・鎌倉時代・江戸時代・明治・昭和・令和と六人で話をしていてもいい。ただし「そのための文法スクリプトと辞書を一人で作れ」と言われたら無茶振りでしかない。

脚注[編集]

注釈[編集]

  1. 郵便番号の読み取りシステムなど。

出典[編集]

関連項目[編集]

Wikipedia-logo.pngウィキペディアの生真面目ユーザーたちが日本語入力システムの項目をおカタく解説しています。