Tag: Perl

data dari KBBI Daring

先日書いたように、KBBI Daringで公開されている辞書データのエントリはダウンロードできた。親項目で4万近いエントリがあり、KBBI Daringの置いてあるサーバが偶にアクセスできない(落ちてる?)ようなので、その追込項目をカウントするスクリプトを書いても時間のかかる処理はできなさそう。それならデータを全部ローカルにダウンロードしてから処理すれば良いじゃん、ということになった。(というか、そういう言い訳にする。意味は汲み取られたし。)

Read More

Kamus Besar Bahasa Indonesia における見出しの数

Kamus Besar Bahasa Indonesia (インドネシア語大辞典、以下KBBI)の第3版にもとづいたデータベースがWebで公開され検索できるという話は昨年2月に書いた。更に、先月は出たばかりの第4版を買ったことも記した。 第4版の前書きによると、第3版でおおよそ78,000だった見出し(lema)が90,049に増えたという。見出しのうち、親項目(lema pokok)が41,250、追込項目(sublema)が48,799だそうだ。(ちなみに親項目、追込項目という用語は広辞苑第5版の凡例から取った。) そこで浮かんだのが、Web版は、第3版の見出し項目全てを網羅していないことは分かっている(例えばA(2)が欠落している)のだが、どれくらい欠落しているだろうかという疑問だ。Web版では親項目のみで引けるので、一方で書籍の78,000の見出しのうち親項目の数を調べて、他方で、スクリプトでも書いてWeb版から親項目のリストを引っこ抜いて数えて比較すれば良い。で、第3版の前書きを見ようと思ったら、ない。第2版はあるのだけれども、第3版が手元にない。どこに行ってしまったのか?誰か持っている人がいたら、前書き見て教えてください…。 Web版から調べた見出し親項目の数は、35,975。第4版の数から類推して、それほど欠落はしてなさそうだが、親項目と追込項目の比率が同じとも限らないのでやはり分からない…。これ以上やるには、Web版から追込項目まで含めた数を出すことだが、今日はそんな気力はなかった。

Read More