phaの日記

パーティーは終わった

圧縮新聞の英語版、Mashed Newsを作ってみた



僕が前に作った、その日の最新ニュースをマルコフ連鎖でミックスして圧縮した文章を生成するという、 圧縮新聞 圧縮新聞 Twitter版(@asshuku)というプログラムがあるのですが、その英語版を作ってみました。

内容は日本語版と同じで、その日の最新ニュースをとってきて、それをマルコフ連鎖の仕組みでミックスして圧縮して文章を作り出すというものです。ざっと眺めるだけでその日起こった事件が何となくわかる可能性がありますが保証はしません。よかったら使ってみてください。


作るにあたっては、基本的には日本語版の仕組みをそのまま使ったので、それほど労力はかかってないです。そもそもこのマルコフ連鎖で文章を作るという仕組みは、プログラムは文章の意味は全く理解していなくて、文章の中の単語の繋がりのパターンを真似しているだけなんですよね(だからそれっぽいけど意味不明な文章ができあがる)。

プログラムに文章の意味を理解させようと思うと無茶苦茶大変ですが、単語の繋がりかただけを見るのなら、かなり簡単。そもそも僕が文章の意味を理解していなくてもプログラムを書ける。なので、僕は日本語ネイティブスピーカーで英語も片言くらいしか喋れないけど、圧縮新聞の英語版でもフランス語版でもロシア語版でも何でも作ろうと思ったら作れます。

しかも日本語の場合は単語と単語の間にスペースがないのでプログラムにどこからどこまでが一つの単語かを理解させるのに形態素解析という仕組みを使って文章を単語の単位に分解しないといけないんですが、英語だと最初から単語と単語の間はスペースで区切られてるので、むしろ日本語よりも楽だったりします。

まあ問題は、僕が英語にそれほど堪能でないので、Mashed Newsによって作り出された文章がどれくらいおかしいかがいまいちわかりにくいというところですね。。。英語のネイティブスピーカーの人にとって面白ければいいのですが。


なお、Mashed Newsを完成までこぎつけられたのは、圧縮新聞を気に入ってくれて英語版を作ることを薦めてくれて、英語版の解説文なども書いてくれた@nkmtsymのおかげです。ありがとー。