Twitterと言語処理について考えてみる

Twitterと言語処理につて自分なりに考えてみる.

まずはTwitterの特徴について考える.

1.Tweet
 Tweetの文章は今まで自然言語処理で扱ってきたブログやWebページとは異なり,文字数が圧倒的に少ない.そのため,主語の省略が非常に多く扱いづらい.解析できれば,呟いているユーザーの特徴がわかる.

2.フォロワー
 ユーザーがどんな人に興味を持っているのか.どんな人から興味を持たれているのかがわかる.
また,フォローしている人数が少なく,フォローされている人数が多いならば,そのユーザーは非常に影響力を持った人だと判断できる.

3.プロフィール
 たいていの人は「○○/××/△△」の形で書いている.プロフィールの文字数が限られているため,検索に引っかかりやすくするための方法である.

4.公式RT
 公式RTとはリツイートであり,人に知ってもらいと思ったときにされやすい.つまり,公式RTされればされるほど重要な情報を持ったtweetと判断できる.

5.非公式RT
 人のツイートにRTをつけ,自分のコメントを書く.そのため,感想が書かれやすく,付け足したコメントだけでは何を言っているのか判断できない.

6.リスト
リストによってどのユーザーがどんな人間なのか判断できる.例えば,「titech]というリストには東工大の関係者が入っている.これはアンカーテキストと同じ効果を持つ.

7.ハッシュタグ
何かイベントがあったときに,そのイベントに関するtweetハッシュタグをつけられることが多い,ハッシュタグによって誰がこのイベントに参加しているのか,ユーザーの興味などが分かる.

8.リプライ
リプライは会話の性質を持っている.あるユーザー間で多くリプライされているほど,その人たちの関係は密だとわかる.逆に全くリプライをしていないのであれば関係は希薄である.

他にもさまざまな着眼点はある.例えば,フォローした順番が早ければ早いほど,それは有名人か,仲の良い友達であるかのどっちかある.Twitterには色々な特徴があるため,研究しやすいかもしれない.

3月に行われた言語処理学会では,日常のtweetから肥満や病気などの兆候を発見するという研究があった.例えば,夜に「ラーメン食べた」や「焼肉なう」のようなtweetを多くしているのであれば,その人は太っていく可能性がある.この研究がガンの早期発見を可能にするのではないかと思う.
また,他の研究として,tweetの盛り上がりにより動画を編集するという研究もあった.例えば,日本シリーズにおいて「森野タイムリー」といったtweetが同時に多くされたならば中日が点を入れたとわかる.中日ファンにとってはロッテの攻撃シーンはあまり見たくないので,中日が押しているときだけの動画を見たいはずである.ただし,「ホームラン来た」というtweetを見ただけではどちらのホームランかわからないので,判別する必要がある.


ここからは個人的な興味です.
tweetから飲食店の情報を取得することを考えてみる.
今,「一風堂」について調べてみたところ,

Photo: 僕はだいたい白丸です。 (Taken with Instagram at 一風堂 COLLECTION 恵比寿店) http://tumblr.com/xzl1yqz17g

いいなぁ(´・ω・`) QT @Azy441: 最終退室からのラーメンなう(@ 一風堂 SHIROMARU-BASE 大森店) http://ow.ly/4rbTI

I'm at 一風堂 名古屋栄ブロッサ店 (名古屋市東区東桜1-1-10 ブロッサB1F, Nagoya-city) http://4sq.com/ehhDgl

このようにfoursqureで現在地を知らせたり,「一風堂なう」というtweetが多かった.感想は非公式RTを使って「おいしそう」ぐらいである.
今回,検索できたtweetの中には店の評判が書かれている情報は一つもなかった.一蘭についても検索してみたが,一風堂と同じ結果だった.

この結果からTwiiterは評判情報の解析の研究には不適切なのかなぁと感じた.Twitterに関する研究はもっとリアルタイム性を活かした研究が向いている気がする.

もう少し考えてみます.

Twitterの神々 新聞・テレビの時代は終わった (現代ビジネスブック)Twitterの神々 新聞・テレビの時代は終わった (現代ビジネスブック)
(2010/12/21)
田原 総一朗

商品詳細を見る