言語学の研究をググってするというのはありなんだろうか?
2007.10.24
たったいまNHKで、「極め付け・幕開け」は誤っており、「極め付き・幕開き」の方が正しい言い方だという話をしていた。文化庁の調査によると、「極め付き」は6割ぐらいの人が、「幕開き」は9割以上の人が間違った言い方をしているという。言葉なんて人間が決めるものなんだから、大半の人が使い始めた段階で「そちらを正しい使い方」と認めてしまうべきだと私は思っているが、今日のテーマはそれではなく、この「文化庁の調査」とGoogleの検索結果の比較。
Googleでそれぞれの言葉を検索して、見つかったページ数を調べる。
極め付け:極め付き=121,000:103,000 (54%が誤用)
幕開け:幕開き=1,880,000:56,100 (97%が誤用)
文化庁の調査結果ととても近い。こうなってくると、言語学を選考している学生が、Googleで調査したデータに基づいて卒論を書くというのは十分有りのような気がするがどうなんだろう。
ぜんぜんアリだと思いますよ。
七夕:七タ(←カタカナのた)
とかの比較とかをとってみたりすると新しい分野になるでしょうか。
Posted by: hg | 2007.10.24 at 05:15
2001年頃、日本語学の卒論を書いていましたが、当時の担当教授は用例収集に検索エンジンを使うことを推奨していましたよ。もっとも、私のテーマは顔文字だったので、なかなかそうも行きませんでしたが。
Posted by: chiecco009 | 2007.10.24 at 07:38
これは「ぐぐっただけでも文化庁の調査と同じ結果が得られた」のではなくて、「文化庁もぐぐってた」てことではないかな。
Posted by: 4ws | 2007.10.24 at 08:39
言語学とはちょっと離れてしまうかもしれませんが、
Paul Vitanyi and Rudi Cilibrasi, Automatic Meaning Discovery Using Google.
http://www.cwi.nl/~paulv/papers/amdug.pdf
というレポートはありますね。
NGD(Normalized Google Distance)という値を、ググった結果のページ数で作り、語の関連性を求めています。
The Normalised Google Distance
http://blogoscoped.com/archive/2005-01-27-n48.html
Google's search for meaning
http://technology.newscientist.com/article/mg18524846.100.html
Posted by: ymikasa | 2007.10.24 at 08:40
要するに、昔は言語学者が手作業で集めて作ってたコーパスが、現代ではgoogleが自動的に作ってくれるという話でしょ?
http://en.wikipedia.org/wiki/Corpus_linguistics
Posted by: 通りすがり | 2007.10.24 at 16:11
初めてコメントします。
上の方も指摘されているように、既にgoogleはコーパスといって差し支えないぐらいになってきています。確か、自然言語の統語解析(parsing)についてのカンファレンスをgoogleが開催していたように記憶しています。
Posted by: m | 2007.10.24 at 17:48
World Wide Web conferenceにおいても、ウェブ上のスパムページが急増し、それに対処するための技術的な方策の研究に特化したワークショップが開催されています。
スパムといえばメールスパムが有名ですが、すでに世界を飛び交うメールの無視できない量がスパムです。仮にメールの本文をコーパスとして利用したとすれば、スパムメッセージの文面によって標準的に利用されている言語を規定することになりますが、多くの人はそれを受け入れることはできないでしょう。
Google の検索結果をコーパスとして無邪気に受け入れることも危険になりつつあると思います。少なくともなんらかの人為的なフィルタを介することが求められるでしょう。ある意味でいえば Google のランキングもある種の機械的なフィルタではあるのですが。
ただ、Google のランキングに用いられている自然言語処理の結果を元に自然言語の基礎研究を行う場合の基礎的な裏付けがどこにあるのか奇妙な図式ではあると思います。まるで数学の循環論法のようです。本格的な基礎研究には手作業で作成したコーパスを利用してもらいたいものです。
Posted by: (わ) | 2007.10.24 at 19:35
ただ、検索ワードが実は固有名詞(登録商標など)だったり、ヒットした結果に引用文が多かったり(引用する側は誤用してない)、などというノイズが入りうるので、そこは充分に注意しなければいけませんね。
Posted by: Butchi | 2007.10.24 at 19:38
コメントと posted by の対応が崩れているようです。私は(わ)なのですが、「World Wide Web ...」というコメントを投稿したところ、これは「m」さんのコメントということになり、代わりに「ただ、検索ワードが...」というコメントが私のものという表示になってします。このコメントを投稿すると投稿者が「ただ、検索ワードが...」を投稿された方になりそうな予感。
Posted by: (わ) | 2007.10.24 at 20:29
すみません。ひどい勘違いでした。できれば、わたしの二つのコメントを削除していただくと嬉しいです。ごめんなさい。
Posted by: (わ) | 2007.10.24 at 20:30
わたしはちょっと否定的な考えです・・
Googleに限らず検索サイトは必ずなんらかのNGワードなりのフィルタを介してるので
既に人為的な作為がなされているはずです
公開もされてないと思うのですがどうでしょう?
そのほかに,文章を書くときに本人は正しく変換してるつもりがちょっと間違ったまま
IMEの変換されたものを使ってしまっている場合というのも無視できない気がするのです
恐らく手書きなら知ってる場合は間違いようがないのでこういう誤字は防げていると思われます
ちょっと違うのかもしれませんが「初音ミク」画像検索問題とかを見ても検索サイトの結果を
鵜呑みにするのは危険な気がします
ただ,比較対照として用いるのは面白いかもしれません
Posted by: humu | 2007.10.24 at 20:40
ガーーーーンン!36年間、「極め付け・幕開け」で合ってると思っていました。
いや~もうGoogleさんには日頃からお世話になりっぱなしですよ。
"intarnet"や"gogle"などでも結構な数ヒットしますし、誤字・誤用の類を詳しく調査してみると面白いかもしれませんね。
あとは新語・造語の類をどう読むか。
昔だったら「ウルティマ」か「アルティマ」か、最近だと「アジャックス」か「エージャックス」か、とか。
Posted by: Dyun | 2007.10.24 at 21:53
中島さん、金曜日ビックサイトでiPhoneについて講演されるようですね。楽しみにしています。
Posted by: wanwangorogoro | 2007.10.25 at 09:16
はじめてコメントします。
それだけ「ある意味リアルな世界」を十分に反映している場となったという事でしょうか。
ただ「ある意味」な分、条件限定付きですが・・・。
Posted by: kazuya | 2007.10.25 at 09:26
「文章を書く際、自信の無い表現のチェックに Google Searchをコーパス的に利用する」くらいの用途であれば問題ない、というかこれに勝るリソースは無いようにも思いますが。言語学の研究はさすがに、(わ)さんもおっしゃっておられるように厳しいかと。ブラックボックスの部分が大きすぎて、結論の根拠についてのトレーサビリティが確保出来ないですね。検索フロントも、コンコーダンサとは似て非なるものですし。
個人的には、国立国語研究所のKOTONOHAプロジェクト(日本語では初の、1億語規模の書き言葉均衡コーパスの構築プロジェクト)に期待しています。前川先生、がんばってください。
Posted by: tetsu | 2007.10.25 at 19:43
ネットユーザーと実際の社会というそれぞれの集団の年齢分布男女分布等が近ければ調査にも使えるかも知れませんが、この分布が異なっていればネットユーザーという集合は社会の縮図にはなりえず、統計的な調査そのものが成り立ちません。まずはネットユーザーの年齢分布・男女分布・地域分布などを正確に調査する必要がありそうです。
Posted by: bob | 2007.10.25 at 22:35
気まぐれで書いたら、こんなに伸びていたとは...
確かに、Googleをコーパスとして使うには「サンプリング手法にバイアスがかかっているのではないか」
という恐れを感じるのも分かります。
しかし、「言語学者が必死こいて作ってきたコーパスには、サンプル上のバイアスがかかってないという
保証がどこにあるのか?」
まぁ、完璧なサンプリングとか完全にバイアスフリーのデータなんて、現実には存在し得ないから
あくまで程度問題ですけどね。それにコーパスの方が、話者の個人情報までデータベースに
入れることができる点、Googleコーパスとは別物ですけどね。
Posted by: 通りすがり | 2007.10.26 at 04:00
言語学の分野によるでしょうね。
比率が問題になる分野では難しいかもしれません。ただし今まで作られてきたコーパスはたいてい新聞や文学作品が中心で、「推敲」された文章をもとに作られてきました。当然私たちが普段話している言葉とは差があります。Googleは当然ブログなどの話し言葉も多く含まれるので、完璧ではないが今までのコーパスよりも優れている、と私は考えています。言語学とは「いい言葉」を求めるものではなく、「その時代に使われている自然な言葉」を記述、説明するための分野ですから。
そして私のような統語系の分野では、比率よりも「こういった文を使う人間がいるのかどうか」が問題になるので、違うサイトから数十件のヒットがあれば認められることになります。英語の場合、ネイティブじゃないかもしれないという心配がありますが、日本語では現在のところそこまでこれは問題になっていません。
Posted by: M | 2007.10.30 at 16:30