November 26, 2007

傳送至 Kindle
互動式隨選列印/另存成 PDF

[黑客人生]Babylon 用的國語辭典、英漢辭典檔案

最近在做的事通常都不是一天內可以完成的,所以都沒甚麼時間部落格。總之,這兩天弄了 Babylon 的字典檔,如果有需要的人也可以拿去用:

  • 教育部國語辭典 (19.4MB)
    這個檔案的原始資料來源是一個朋友用程式去教育部國語辭典網站取得的,據說內容應該已經更新到所謂的「第五版」,也就是跟重編國語辭典修訂本一致,祇是少了些拼音而已。我稍早另外有弄一個較舊的版本 (v0.1, 15.7MB),資料來源則是從 CDic 裡面拿出來的,有興趣的人可以拿去比較一下兩個不同來源的資料異同。
  • CDic 中英字典 (4.1MB)
    這個就是把 CDic 中英字典的字典檔轉換過來的,除了有英漢字典外,也有中文單字的解釋,可以補國語辭典之不足。

這兩份字典檔我都已經上傳到 Babylon 的字典庫了,但是不知道要經過多久的審核纔會出現(也有可能根本不出現,畢竟其實著作權都不是那麼正當的;儘管我都有保留對原始著作權人的著作聲明)。

有興趣的朋友可以在我的工作區找到我用來製作上述字典檔的相關檔案及原始檔案,所以妳也可以拿回去自己加以改善(因為這兩個字典檔大概都還是不夠完美)。當然,到時候如果能夠來讓我知道妳所做的改良、把檔案傳回來給我之類的,更是感謝萬分。

喔,對了,順便補充一下,編譯字典檔用的 Babylon Glossary Builder 有點怪怪的,我如果用 GUI 來編譯字典檔,就一定會遇到錯誤而無法完成;若改用命令列來編譯的話則可以順利完成。然而,我用 BuilderWizard.exe /help 指令看到的說明,跟他的線上說明卻有所出入,所以我最後用來編譯字典檔時,用的參數是 -build 而不是 /build(其實我沒有試過 /build 啦,也許也是會動的……)

(+) 於 所發表 | 顯示版本變更: 1.4 |
[創用 CC 授權條款]
Babylon 用的國語辭典、英漢辭典檔案〉由 Jedi 製作,所有內容如無特別聲明,一律以創用 CC 姓名標示 3.0 台灣版授權條款釋出。
相關文章:
歷史上的今天:
迴響
[ 1 : 靜態鏈結 ]

另外就是,如果有人不喜歡看到上述的資料可以被取得,也可以跟我說一聲……

Jedi 發表於 November 26, 2007 03:13 AM
[ 2 : 靜態鏈結 ]

謝謝了! 有國語辭典真是好方便.

由 Samuel 發表於 November 26, 2007 05:41 AM
[ 3 : 靜態鏈結 ]

請教一下, 那個 Babylon 的程式是要連線才可以查單字的吧?應該沒辦法把資料庫一起安裝在硬碟來離線查詢?

查英文的程式已多不勝數了, 可以查國語辭典的 CDic 倒是不錯, 我對於國字的查詢反而比較有需要。DOS 時常用的 CView 相當程度上取代了中文系統的使用頻率, 原來早就有 Windows 版本了, 可惜這麼晚才看到, 都已安裝了其他替代的程式了。 :p

《著作權法》有相關的重製規定, 不過「合理範圍」不知如何取捨?

“第50條 以中央或地方機關或公法人名義公開發表之著作,在合理範圍內,得重製或公開播送。”

這一條應該可以討論轉用於 Babylon 等線上辭典的情形。

“第51條 供個人或家庭為非營利之目的,在合理範圍內,得利用圖書館及非供公眾使用之機器重製已公開發表之著作。”

如果只用於 CDic 在自己的電腦上查詢, 那?問題點好像還是都在於「全文擷取」上。

維克拉倫 發表於 November 26, 2007 06:48 AM
[ 4 : 靜態鏈結 ]

Babylon 除了某些部分(智慧翻譯、Wikipedia、匯率轉換等)外,都是可以離線使用的。

Jedi 發表於 November 26, 2007 09:35 AM
[ 5 : 靜態鏈結 ]

想一想還是低調一點好了……

Jedi 發表於 November 26, 2007 11:15 AM
[ 6 : 靜態鏈結 ]

嗯?站內的檔案連結消失了... 該不會是我亂提法條所害的吧? :p

話說回來, 像這種用公家經費所做的教育資源, 應該越開放越好, 反正也不用於營利, 並且民營字典商也把它當作辭庫來源, 若直接讓民眾可以下載檔案自由運用的話, 它的傳播效果也會更廣。

維克拉倫 發表於 November 27, 2007 04:54 AM
[ 7 : 靜態鏈結 ]

想用Babylon Glossary Builder編一個自己用的西中片語字典, 使用 excel 檔, 但不清處如何定義欄位...可以指導一下嗎?!

由 W. Zhang 發表於 December 8, 2007 08:29 PM
[ 8 : 靜態鏈結 ]

我會建議用純文字,不要用 Excel 檔案,編譯的速度會快上不少,而且比較不會遇到問題。

然而,在 Excel 檔案的前提下,我會建議你看一下自訂模版 (customize template 之類的) 那邊,大概就會知道他的欄位定義是做甚麼用的。他有個 preview 的按鈕,你可以隨時按按看,就會知道自己正在做些甚麼。

Jedi 發表於 December 10, 2007 04:10 AM
[ 9 : 靜態鏈結 ]

謝!

由 Si 發表於 December 20, 2007 06:57 PM
[ 10 : 靜態鏈結 ]

我對Babylon的詞庫製作很有興趣,可否將國語辭典、英漢辭典檔案的原始檔以及製作流程分享?

由 Allan Chiang 發表於 May 11, 2008 10:22 AM
[ 11 : 靜態鏈結 ]

製作方法……就看我文中最後兩個鏈結。

國語辭典、英漢辭典的原始檔案應該都有著作財產權的問題,沒辦法公然放出來,你可以先去戳教育部,等他們點頭了一切好談。

Jedi 發表於 May 11, 2008 08:36 PM
[ 12 : 靜態鏈結 ]

http://blog.xuite.net/fg_wang/twblog/309827601
該文章寫了:
中華民國教育部《重編國語辭典修訂本》、《國語辭典簡編本》與《國語小字典》相關資料採「創用CC-姓名標示- 禁止改作 臺灣3.0版授權條款」釋出。本授權條款允許使用者重製、散布、傳輸著作(包括商業性利用),但不得修改該著作,使用時必須遵照「使用說明」之內容要求。
所以那些字典檔現在應該可以放出來了

由 EAD 發表於 June 2, 2015 05:23 AM
[ 13 : 靜態鏈結 ]

嗯,對,但是其實已經沒有什麼價值了,萌典專案整理的資料更完整也更值得採用。

Jedi 發表於 June 2, 2015 06:02 PM
給我迴響吧!
個人資訊








是否記住個人資訊?



請依上圖輸入檢核碼:
迴響





Jedi.org: 部落格 | Weblog | 三太子 | 討論 | MTBook | 網頁親和力 | 深入親和力 | 簡報原力:AV | 履歷 | + | @ | Flickr | Lytro | tumblr | NSFW