せんせい、もうちょっと学習してね

ブログ通信簿というのを、先週やってみたら、こういう通知が。

……小学四年生女子!
自分の意見がしっかりしてる女の子、主張のわりには影響力は並、けどお気楽さも並なので気にしてないっちゃー気にしてない、気にしてるといえば気にしてる、文化祭実行委員とはいえ四年生だから雑用のようなもの、それなりにこなしてはいるもののマメさも並、上級生との接触が多いので年上慣れはして落ち着いて見られるけど、人をひっぱっていけるような力はない、ひとりで絵を描いたりが好きなんです、っていう……
妄想を、いたしまして、おえかきしたのが↓。「ymd-yの日記ちゃん」。

……めがねっこが描きたかっただけだろう!っていうつっこみはともかく。
昨日、更新したので再度チャレンジ。

……あんまり変わらんかった。ってか、介護ってのは、どこが誤認されたんだろう。
謎生物がよく喋ってたから一人称「僕」多用だったんだけど、それでも女の子なんだなってのはともかく、十歳というのはいぶかしい。そんなに子どもっぽいかあ?って疑問なんだけど、性別はともかく、年齢のほうは言葉遣いや語彙では判定していない、のかな?

男性・女性にそれぞれ特有の表現や、20代のブログで多い「就職活動」といった表現から性別や年代を推定する技術、ブログへのリンク数や記事掲載数などからブロガーの影響度を数値化する「EigenRumor」などを利用している。

http://www.itmedia.co.jp/news/articles/0807/23/news083.html

どういうアルゴリズムなんだろう。
性別のほうは「不詳」ってのがあるんだけど、年齢にはないっぽい。……ので、この、いくつぐらいの人が使いそうなことばや話題、ってやつがひっかかったら、年齢を足していく、その初期値が十歳なんじゃないかと、仮説を立てたんですけど、それもなんかひどいな。単純に足していったら明らかにおかしいじゃん、とは思う。まあ、足し方を気をつければ……そして、年齢は積み重ねていくもの、という思想(?)を採用するなら、それはそれ、かなあ、とも思う。えーと、歳をとっていくと、できることが増える、っていう。失うものはない、っていう。だから年齢を引き算しない、と。けど、そうしたら、その年代特有の話題ってやつのサンプルを、かなり少なくしか設定してないらしい、ってことになっちゃうけど。たしかに私は、なんの話をしているのか、っていうのが、名詞だけ取り出してもよくわからないような書き方をしてるけど、固有名詞だってそこそこ出てくる、はず、なんだけどなー。やっぱりどこかで引き算されてるのか……。二十代の話題と四十代の話題があったら、判定は二十代になるのか三十代になるのか四十代になるのか?
まあ、中の人のプロフィールそのものじゃないよ、っていう注意書きは、あるけど。

ブログ性別とブログ年齢は、ブログに書かれた内容や言葉遣いなどから自動的に推定されます。例えば、実際には20代の方でも、40代がよく話題にする内容を書いていると40代と判定されます。また、言葉遣いが女性っぽいと女性となります。 実際のブログ作者のプロフィールを示すものではありません。

http://blogreport.labs.goo.ne.jp/desc.rb