Google,Nグラム・ビューワーを使ってみましたか?~『カルチャロミクス;文化をビッグデータで計測する』Eエイデン氏×Bミシェル氏(2016)
エイデン氏、ミシェル氏はビックサイエンスデータの研究家、
Googleがスキャンした大量の書籍(過去、数世紀ぶん! )から、各年に発行された本に使われている単語・フレーズの使用頻度をグラフに示す「グーグル・Nグラム・ビューワー」。この技術の登場で、文献をビッグデータとして活用するまったく新しい人文科学が誕生した。Nグラム・ビューワーを実現に導いたふたりの科学者が、その誕生の経緯と、どのように活用され、何がわかるようになったか、その意義を解説。彼らが「カルチャロミクス」と名づけた、文献をビッグデータとして利用するこの新しい研究を紹介する。
ロボット歴史学者
世界中の主要な図書館のすべての蔵書を片端から読んでいくロボットがあったとしよう。こいつときたら、読む速さもロボットならではの超高速な上に、絶対に間違いを犯さない超高性能のメモリを利用して、本の中に出てきた単語を一つ残らず記憶してしまう。そんな博識のロボット学者がいたら、そこから何を学べるだろう?(11ページ)
Nグラム
グーグル・ブックス中での単語の出現頻度提示だけをしたらどうだろう?・・・我々が思いついたのは、グーグル・ブックスをもとに、英語の本に登場するすべての語や句の記録一式を作り出すことだった。こうした語と句はコンピュータ科学の分野では一風変わった「Nグラム」という用語を使って表されることがある。単語はいずれも1グラムで、円周率を表す3.14159も1グラムになる、・・・the united state of Americaは5グラムである。(94ページ)
JapanとChinaを比較してみると、、、Google Ngram Viewer
Nグラム・ビューワーから何がわかるか?
名声の大きさや知名度の高さといったものに関係する重要な側面の一つに、人々がその人物の名を口にする頻度があるからだ。しかも本の中で言及される頻度は重要である。そして、本の中での言及とくれば、まさしくnグラムが役に立つ。(130ページ)
カルチャロミクス
本書のカルチャロミクスとはNグラム・ビューワーという観測装置を使って数百年に渡る言語、文化、歴史の研究方法である。過去200年以上の間どんな単語が本に登場したかを調べることで、英語の変化、名声の獲得プロセス、社会の学習・忘却の過程などをグラフ化する。著者は「人間の文化は一見すると明確な変化の仕方をし、人々が集団として共有する未来の様相を予測できるように見える場合がある」(39ページ)という。
英語で検索すれば英語圏のみの頻度であり、母集団にバイアスがかかるのは当然である。しかし面白い。日本語バージョンが無いのが残念である。まずNグラム・ビューワーで単語を実際にサーチしてみることをお勧めします。
蛇足
人名=名声とは儚いもの、100年後には誰も知らない。
こちらもどうぞ