clock December 24,2023


(圖/ 數位發展部)

在全球人工智慧(AI)加速發展之際,數位發展部今(24)日宣布「臺灣主權AI訓練語料庫」正式上線,整合高品質正體中文語料,支援AI模型訓練更貼近臺灣的語言使用、文化內涵與生活情境,提升模型對本土語意的理解與辨識能力,回應我國社會與產業發展需求。

數位發展部指出,目前已有超過200個政府機關參與語料建置與釋出,上架逾2,000筆資料集、總量超過6億tokens,內容涵蓋語言、文化、教育、生物、地理環境等多元領域,並納入具臺灣文化特色的高品質資料,作為AI模型理解臺灣社會的重要訓練素材。

MGBOX


(圖/ 數位發展部)

文化部與教育部亦參與語料提供。文化部表示,上架的公共藝術及文化資產相關資料集,展現臺灣多元且豐富的藝文樣貌,可作為AI學習臺灣文化內容的重要基礎;教育部則指出,其提供的語言辭典資料涵蓋臺語、客語與國語等,有助於強化AI模型在用詞精準度與語意理解上的表現。

為兼顧資料釋出與使用的法制安全,數位發展部並與經濟部智慧財產局合作,推出《臺灣主權AI訓練語料授權條款-第1版》,為語料使用提供明確授權依據,降低逐案協商著作權的行政成本,減少AI訓練可能衍生的智慧財產爭議,藉此加速主權AI的研發與應用。


(圖/ 數位發展部)

數位發展部進一步說明,該語料庫也串接政府資料開放推動十餘年的成果,將既有的文本開放資料同步整合,使用者可依需求查詢與下載所需語料,提升資料可近性與應用效率。

未來,語料庫內容將持續擴充,逐步從中央機關延伸至地方政府與民間機構,透過公私協力模式,擴大臺灣主權AI的發展基礎。數位發展部也邀請AI模型訓練者與相關研究單位,至語料庫平台(https://taic.moda.gov.tw)申請使用,以臺灣語料打造更理解臺灣的AI應用。

國立中正大學碩士在職專班招生資訊

鋒爆新聞

(文/ 呂佳佳)

關注我們

你的選擇?

vote-image

2025台灣跨年 哪裡過?

0%
0%
0%
0%
50%
0%
0%
50%
0%
0%
0%
0%
0%

Top Categories