« someone keeps stealing my letters | top | 読書の記録 »
2004年12月25日
gumonji日記
私は、gumonji のデータベースを調べていた。
データベースの中には、約5600の日記と、約900のコメントと、約12000の写真があり、
テキストの合計量は2MBであった。
この量を単行本に換算すると、約4冊に相当する。
私は、これは読める量だと思った。
テキストを読みやすくするためのツールを作り、
合計10時間ぐらいを使って、すべての日記を読んだ。
日記の内容は、私が想像していたものよりもはるかに濃いものだった。
今回は5600個の日記を読むのに10時間かかったが、
それほど複雑でないツールを使ってうまく日記を選べば、
300個ぐらいに絞りこむことができそうだ。
すべてを読む中で、いくつかの事を考えたので、ここに書いておく。
1) 人数が増えても、日記に含まれる情報量は、
日記を書いている人数に比例して増えることはない。
それはおそらく log(人数)に比例する。
2) 日記に含まれる重要な単語を検索してスコアをつけることによって、
かなり効率よく絞りこめるかもしれない。
3) 日記を書く人が、自分で自分の指向性をあらかじめ設定しておくのも良いかもしれない。
たとえば、今回日記を読んだ限りでは、以下のような類型ができたが、
日記を書く人が、以下の情報を、自分のプロフィールに設定できるようにする。
N/R = Natural / Roleplay = 90% / 10%
F/L = Follower / Leader = 80% / 20%
I/O = Inside system / Outside system = 70% / 30%
C/A = Conservative / Progressive = 60% / 40%
以上の情報を使って絞りこみを最適化する。
4) 日記を書くときのヒントを豊富にすると良いかもしれない。
たとえば以下のようなものを組みあわせる。
* 日記のタイトルに絵文字を選ぶ。
* 2chのAAのようなものにテキストを埋めこむ。
* 空欄を含むテンプレートの文章を使う。
* 日記の種類を選択できるようにする(アイデア、不満、要望、報告、お知らせ など)。
5)頻度や回数などの情報も、もちろん使える。
開発チームが、すべての日記に実質的に目を通し続けることは、
それほど不可能なことではないのかもしれない。
最後に、私は、今回の記事をniftyの自動翻訳の結果がほぼ完璧
になるように調整しながら書いた。
いかがだっただろうか?
----- 以下は、自動翻訳の出力。 -----
I was investigating the database of gumonji.
About 12000 photograph was in the database with about 5600 diary and about 900 comment,
and the amount of sum totals of a text was 2MB.
When this quantity is converted into a book, it is equivalent to about four volumes.
I thought that this was the quantity which can be read.
The tool for making a text easy to read was made,
about a total of 10 hours was used, and all the diaries were read.
A tool is here.
The contents of a diary were far deeper than what I was imagining.
Although it took 10 hours to read 5600 diaries this time,
if a diary is well chosen using the tool which is not so complicated,
it narrows down to about 300 pieces.
Since some things were considered while reading all, it writes here.
1) Even if the number increases, the amount of information included
in a diary does not increase in proportion to the number which is
writing the diary. it -- probably -- It is proportional to log (number).
2) By searching the important word contained in a diary and
attaching a score, it may extract quite efficiently and may put.
3) It may also be good that those who write a diary set up
their directivity beforehand personally.
For example, although the following types were made as long as
the diary was read this time, those who write a diary enable it to
set it as their profile.
N/R = Natural / Roleplay = 90% / 10%
F/L = Follower / Leader = 80% / 20%
I/O = Inside system / Outside system = 70% / 30%
C/A = Conservative / Progressive = 60% / 40%
It optimizes narrowing down using the above information.
4) It may be good to enrich the hint when writing a diary.
For example, the following is combined.
* Choose a pictorial symbol as the title of a diary.
* Embed a text at a thing like AA of 2ch.
* Use the text of the template containing a blank.
* Enable it to choose the kind of diary
(idea, dissatisfaction, request, report, and information etc.).
5), of course, information, such as frequency and
the number of times, can also be used.
It may not be so impossible for a development team to continue
looking over all diaries substantially.
I wrote to the last, adjusting this report so that the
result of the automatic translation of nifty may become nearly perfect.
How was it?
----- The following is the output of automatic translation. -----
Posted by ringo : 2004年12月25日 20:26
トラックバック
このエントリーのトラックバックURL:
http://www.ce-lab.net/blog/mt-tb.cgi/637
言及リンクのないトラックバックは受け付けない設定にしています。
トラックバックスパムがあまりに多いための処置なので、ご了承ください。


