近日,天津市數(shù)據(jù)局在2024世界智能產(chǎn)業(yè)博覽會(huì)上發(fā)布天津市第一批行業(yè)高質(zhì)量數(shù)據(jù)集,高新區(qū)申報(bào)的16個(gè)數(shù)據(jù)集全部入選,全市占比五分之一。
首批共發(fā)布37家單位的80個(gè)行業(yè)數(shù)據(jù)集,高新區(qū)5家企業(yè)申報(bào)的16個(gè)數(shù)據(jù)集全部入選,包括:先進(jìn)計(jì)算與關(guān)鍵軟件(信創(chuàng))海河實(shí)驗(yàn)室的兒科下顎智齒牙胚分割數(shù)據(jù)集(NKUT)等12個(gè)數(shù)據(jù)集、慧醫(yī)谷中醫(yī)藥科技(天津)股份有限公司的中醫(yī)舌脈診標(biāo)注數(shù)據(jù)集、天津恒達(dá)文博科技股份有限公司的恒達(dá)文博文旅·科普基礎(chǔ)數(shù)據(jù)集、天地偉業(yè)技術(shù)有限公司的人車結(jié)構(gòu)化數(shù)據(jù)集、中廣新型媒體研究院有限公司的多模態(tài)情感數(shù)據(jù)集(EMD_1)等。
高質(zhì)量數(shù)據(jù)集是人工智能模型訓(xùn)練、推理和驗(yàn)證的關(guān)鍵基礎(chǔ),是按照特定標(biāo)準(zhǔn),依次開展數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)歸類和數(shù)據(jù)標(biāo)注等智能化處理,并具備更新和維護(hù)機(jī)制的數(shù)據(jù)集合。本次高新區(qū)入選的16個(gè)數(shù)據(jù)集主要集中在醫(yī)療健康、文化旅游、交通運(yùn)輸與城市治理等多個(gè)領(lǐng)域,包含圖形圖像、文本、音頻、視頻、3D模型等多種模態(tài)。其中,恒達(dá)文博文旅·科普基礎(chǔ)數(shù)據(jù)集為國(guó)內(nèi)首次公開發(fā)布,數(shù)據(jù)集規(guī)模超300TB,已支撐訓(xùn)練了基于ChatGLM等先進(jìn)架構(gòu)的大語(yǔ)言模型,并應(yīng)用于圖像識(shí)別、古文字識(shí)別、文物病害識(shí)別等專用模型。
天津市數(shù)據(jù)局貫徹落實(shí)《“數(shù)據(jù)要素×”三年行動(dòng)計(jì)劃(2024-2026年)》,開展數(shù)據(jù)集征集工作,旨在促進(jìn)高質(zhì)量數(shù)據(jù)集建設(shè)經(jīng)驗(yàn)分享和產(chǎn)業(yè)合作。高新區(qū)網(wǎng)信辦按照天津市數(shù)據(jù)局、濱海新區(qū)數(shù)據(jù)局相關(guān)工作要求,第一時(shí)間發(fā)動(dòng)各行業(yè)主管部門、聯(lián)系重點(diǎn)企業(yè),通過多種渠道形式通知、動(dòng)員、指導(dǎo)區(qū)內(nèi)企事業(yè)單位積極參加了本次申報(bào)。下一步,高新區(qū)將進(jìn)一步對(duì)接服務(wù)相關(guān)行業(yè)領(lǐng)域企事業(yè)單位,摸底區(qū)內(nèi)各行業(yè)數(shù)據(jù)集資源,挖掘打造更多應(yīng)用場(chǎng)景,促進(jìn)相關(guān)企業(yè)、科研機(jī)構(gòu)等圍繞高質(zhì)量數(shù)據(jù)集開展產(chǎn)業(yè)合作,加快數(shù)據(jù)要素深度賦能區(qū)域經(jīng)濟(jì)發(fā)展。