fc2ブログ

Uncharted Territory

自分が読んで興味深く感じた英文記事を中心に取り上げる予定です

RSS     Archives
 

「教師なし学習」が示唆するもの

 
今回のエントリーは素人談義ですので、取り扱い注意でよろしくお願いします。下記の本を読んだのですが、自分の読みたい情報を自分勝手に読み込んでしまっている可能性があるからです。


記号創発ロボティクス 知能のメカニズム入門 (講談社選書メチエ)記号創発ロボティクス 知能のメカニズム入門 (講談社選書メチエ)
(2014/06/11)
谷口 忠大

商品詳細を見る


この本はロボットが知能を持てるか、知能とはどういうことかを考察しているのですが、第三章の「自ら言葉を学ぶ知能」が興味深かったのでご紹介します。

Yutaの問題関心は、読解でよく言われる「ゆっくり読んで分からないものは速く読んでも分からない」という主張です。自分は精読を完全否定する立場ではないですが、構文や単語知識を駆使して精読を主張する人が速読多読の人になっているのをほとんどみかけない状況を考慮すると、このもっともらしいモデルが自分には説得力があるとは思えないのです。だからといって、「読めるようになるには読むしかない」というYutaの経験に基づいた主張が説得力をもったものではないのも理解しています。精読派には、脳みそ空っぽの精神論者と思われてしまっているかもしれません。

本で紹介されていた論文はあくまで、「単語の区切りがどこになるかを推定するに足るだけの情報が、文章それ自体の中に潜んでいる」ことにすぎませんが、「読めるようになるには読むしかない」という方向性に近いと思えてならないのです。

単語の区切りというのは言語取得が済んだわれわれには当然のことと思えます。

ほら、おにぎりですよ

上記の分があれば、「ほら/おにぎり/ですよ」のように区切ることができます。ただ、言語知識がなく、音声だけを聞いた場合には「ほらお/にぎ/りで/すよ」というように区切る可能性だってあるのですよね。

単語知識があるから、文章を意味のかたまりとして区切ることができる、となると、単語知識をまず覚えないといけないという立場になりやすいです。これは、単語学習派、構文学習派の考えに近いのではないでしょうか。

「単語知識を持っていないと与えられた文を形態素解析できないという問題」に対して、「単語知識を前提としない形態素解析の理論」があるそうです。それが以下の論文です。

ベイズ階層言語モデルによる教師なし形態素解析

論文の概要を読んでもなんのこっちゃですが、ここでの「教師なし」とは、与えられたデータ以外の外的な情報を使わないことだそうです。本では、「与えられた文書の単語の区切りと単語に関する確率的な知識である言語モデルを、与えられた文書だけから同時に推定する手法を提案して、それが既存の形態素解析器に劣らない性能を出すことを示した。」と説明していました。

概要
本論文では, 教師データや辞書を必要とせず, あらゆる言語に適用できる教師なし形態素解析器および言語 モデルを提案する. 観測された文字列を, 文字 n グラム-単語 n グラムをノンパラメトリックベイズ法の枠組 で統合した確率モデルからの出力とみなし, MCMC 法と動的計画法を用いて, 繰り返し隠れた「単語」を 推定する. 提案法は, あらゆる言語の生文字列から直接, 全く知識なしに Kneser-Ney と同等に高精度にス ムージングされ, 未知語のない n グラム言語モデルを構築する方法とみなすこともできる. 話し言葉や古文を含む日本語, および中国語単語分割の標準的なデータセットでの実験により, 提案法の有 効性および効率性を確認した.
キーワード: 形態素解析, 単語分割, 言語モデル, ノンパラメトリックベイズ法, MCMC

Abstract
This paper proposes a novel unsupervised morphological analyzer of arbitrary language that does not need any supervised segmentation nor dictionary. Assuming a string as the output from a nonpara- metric Bayesian hierarchical n-gram language model of words and characters, “words” are iteratively estimated during inference by a combination of MCMC and an efficient dynamic programming. This model can also be considered as a method to learn an accurate n-gram language model directly from characters without any “word” information.
Keywords: Word segmentation, Language Modeling, Nonparametric Bayes, MCMC

Alice in Wonderlandの例が以下ですが、(a)のデータが辞書や参照資料を使わなくても(b)のように区切れています。

lastly,shepicturedtoherselfhowthissamelittlesisterofhe rswould,intheafter-time,beherselfagrownwoman;andh owshewouldkeep,throughallherriperyears,thesimplean dlovingheartofherchildhood:andhowshewouldgathera boutherotherlittlechildren,andmaketheireyesbrightan deagerwithmanyastrangetale,perhapsevenwiththedre amofwonderlandoflongago:andhowshewouldfeelwitha lltheirsimplesorrows,andfindapleasureinalltheirsimple joys,rememberingherownchild-life,andthehappysumm erdays.
(a) 学習データ (部分).

last ly , she pictured to herself how this same little sister of her s would , inthe after - time , be herself agrown woman ; and how she would keep , through allher ripery ears , the simple and loving heart of her child hood : and how she would gather about her other little children ,and make theireyes bright and eager with many a strange tale , perhaps even with the dream of wonderland of longago : and how she would feel with all their simple sorrow s , and find a pleasure in all their simple joys , remember ing her own child - life , and thehappy summerday s .
(b) 単語分割結果. 辞書は一切使用していない.
図 12: “Alice in Wonderland ” の単語分割.

最後に, 提案法は東洋語だけでなく, 西欧語やアラ ビア語にもそのまま適用することができる. 図 12 に, 空白をすべて削除した “Alice in Wonderland ” の学 習テキストと, そこから推定した単語分割を示す. この学習テキストは 1,431 文, 115,961 文字と非常に小さいにもかかわらず, 教師なしで驚くほど正確な単語 分割が得られている. また, last-ly, her-s など接尾辞 が自動的に分離されていることに注意されたい. こ うした結果は屈折や複合語の多いドイツ語, フィンラ ンド語等の解析に特に有用だと考えられる.

英文読解のモデルにいきなり適用するのは無理解で強引かもしれません。それに、単語知識なんて不要だという乱暴な議論をしたいのではありません。単語知識があれば分析がスムーズになるでしょう。今回のはあくまで他の資料を使わずに単語区切りが可能だと示しているにすぎませんが、「読むことによって読めるようになる」可能性を示す論考ではないかと思いました。



スポンサーサイト



Comment


    
プロフィール

Yuta

Author:Yuta
FC2ブログへようこそ!




最新トラックバック

月別アーカイブ


FC2カウンター

検索フォーム



ブロとも申請フォーム

QRコード
QR