智慧檔案管理與大數(shù)據(jù)解決方案的領(lǐng)航者,讓信息價(jià)值超越期待
電 話:18937133779
網(wǎng) 址:http://pepperpics.com
郵 箱:zboao@qq.com
本文看點(diǎn)
音視頻檔案整理、利用的難點(diǎn)?
音視頻檔案智慧利用系統(tǒng)功能?
浙江省檔案館取得了哪些成效?
引言
信息時(shí)代,人們對(duì)數(shù)據(jù)的利用提出了更高的要求,對(duì)音視頻檔案的利用也越來越普遍。但目前音視頻檔案的整理工作,往往僅限于著錄一些簡(jiǎn)單的主題、責(zé)任者、文件格式等條目信息,無法涵蓋音視頻檔案的核心要素,更不用說全部信息內(nèi)容,無法實(shí)現(xiàn)真正意義上的數(shù)據(jù)化。用戶通過計(jì)算機(jī)檢索音視頻檔案時(shí),僅能看到有限的著錄信息,要想真正了解內(nèi)容則需要打開音視頻檔案逐一觀看、收聽,這無疑給音視頻檔案的采集、整理、著錄和利用工作造成了極大不便。
目前國(guó)內(nèi)各省市檔案館在音視頻檔案的整理、利用方面,普遍存在以下主要問題:
1.音視頻文件整理過程中,需要打開文件逐一聽取或觀看才能區(qū)分內(nèi)容;大量音視頻相同屬性封裝格式編碼、碼率等重復(fù)填寫;
2.音視頻文件著錄過程中,題名著錄項(xiàng)至少需要完整觀看或聽取一遍才能判定,處理效率低、速度慢;
3.音視頻檔案利用過程中,音視頻的內(nèi)容無法通過有限著錄條目得以體現(xiàn);
4.在查找特定人物的視頻檔案時(shí),存在只能通過人工查閱進(jìn)行定位、分類、整理的困難。
據(jù)悉,浙江省檔案館目前館藏?cái)?shù)字音視頻檔案129GB、錄音錄像檔案數(shù)字化成果736GB,音視頻檔案的高效整理、便捷利用一直是個(gè)難題。業(yè)內(nèi)專家一致認(rèn)為,實(shí)現(xiàn)音視頻檔案的文本化,是盤活音視頻檔案最有效且可行的途徑。而人工智能在音視頻領(lǐng)域的發(fā)展應(yīng)用,使得音視頻檔案的文字離線轉(zhuǎn)寫、檔案征集實(shí)時(shí)轉(zhuǎn)寫、規(guī)范化著錄成為可能。
人工智能技術(shù)在音視頻檔案
整理利用中的應(yīng)用研究
2019年8月6日,國(guó)家檔案局科技項(xiàng)目《人工智能技術(shù)在音視頻檔案整理利用中的應(yīng)用研究》在浙江正式啟動(dòng)。該課題由科大訊飛與浙江省檔案館共同組建項(xiàng)目組開展合作研究。歷時(shí)一年,于2020年6月底完成產(chǎn)品研發(fā)館內(nèi)應(yīng)用部署。9月3日,項(xiàng)目成果由課題負(fù)責(zé)人浙江省檔案館副館長(zhǎng)鄭金月、科大訊飛智慧檔案業(yè)務(wù)部總經(jīng)理張海劍正式在浙江發(fā)布。
該課題結(jié)合人工智能技術(shù)在音視頻的應(yīng)用,利用科大訊飛基于RNN(循環(huán)神經(jīng)網(wǎng)絡(luò)模型)獨(dú)創(chuàng)的深度全序列卷積神經(jīng)網(wǎng)絡(luò)(Deep Fully Convolutional Neural Network,DFCNN)語(yǔ)音識(shí)別框架研究對(duì)音視頻檔案的整理、利用展開研究,圍繞以下三個(gè)方面進(jìn)行攻關(guān):
1.實(shí)現(xiàn)音視頻檔案采集的實(shí)時(shí)識(shí)別與轉(zhuǎn)譯,形成音視頻文件和對(duì)應(yīng)的數(shù)字全文內(nèi)容;針對(duì)館藏離線歷史音視頻檔案,研究如何將長(zhǎng)時(shí)語(yǔ)音轉(zhuǎn)譯為文字、以數(shù)字形式輸出全文內(nèi)容;
2.輔助人工對(duì)音視頻檔案進(jìn)行整理、著錄,自動(dòng)識(shí)別內(nèi)容中的相關(guān)著錄項(xiàng);
3.實(shí)現(xiàn)字幕文件與音視頻同步播放,播放時(shí)實(shí)時(shí)顯示字幕;管理利用時(shí),點(diǎn)擊每一段文字,便能夠播放對(duì)應(yīng)的原始音頻,輔助音視頻檔案的檢索。
目前,浙江省檔案館正在利用“訊飛音視頻檔案智慧利用系統(tǒng)”對(duì)館藏口述史、新聞聯(lián)播、會(huì)議檔案等音視頻內(nèi)容進(jìn)行編輯整理。該系統(tǒng)將作為浙江省首個(gè)應(yīng)用人工智能技術(shù)的專業(yè)聲像檔案管理平臺(tái)融入浙江省智慧檔案館建設(shè)中。
訊飛音視頻檔案
智慧利用系統(tǒng)的功能特色
1.音視頻檔案全文數(shù)據(jù)化,開啟數(shù)字記錄管理新模式。
音視頻檔案智慧利用系統(tǒng)可根據(jù)預(yù)先設(shè)置的規(guī)則與條件,自動(dòng)將音頻、視頻拆分成主題不同的片段,利用音頻轉(zhuǎn)寫技術(shù)及文本分析技術(shù),實(shí)現(xiàn)對(duì)音視頻檔案數(shù)據(jù)化結(jié)果的內(nèi)容要素的自動(dòng)提取、人工標(biāo)注、完成部分著錄項(xiàng)的著錄,同時(shí)還具備視頻打點(diǎn)、拆條等功能。
音視頻檔案的全文數(shù)據(jù)化,主要通過語(yǔ)音識(shí)別、自然語(yǔ)言理解NLP等人工智能技術(shù)來解決當(dāng)前音視頻檔案的管理難點(diǎn),滿足檔案管理人員對(duì)音視頻內(nèi)容自動(dòng)編目的需求。
該系統(tǒng)同時(shí)實(shí)現(xiàn)了對(duì)視頻進(jìn)行人像數(shù)據(jù)提取,為后期檔案查詢利用奠定基礎(chǔ)。最終形成一套聲像檔案智慧管理模塊,方便音視頻檔案的快捷歸檔利用。
2.建立關(guān)鍵人物庫(kù),實(shí)現(xiàn)檔案數(shù)據(jù)的智能挖掘聚合。
在檔案數(shù)據(jù)保存上,音視頻檔案智慧利用系統(tǒng)打破了傳統(tǒng)音視頻文件單一存儲(chǔ)模式,實(shí)現(xiàn)音視頻檔案的有序存儲(chǔ)。
針對(duì)傳統(tǒng)的目錄+原文的存儲(chǔ)方式,新增了人物信息存儲(chǔ),通過預(yù)置相關(guān)人物人臉數(shù)據(jù),在后臺(tái)視頻處理時(shí)進(jìn)行比對(duì),輸出視頻人物信息標(biāo)注,打造“視頻+音頻+文字+人臉+目錄”創(chuàng)新存儲(chǔ)模式。
利用人臉識(shí)別技術(shù),在館藏聲像檔案存儲(chǔ)過程中,檢測(cè)提取人臉,建立視頻人臉庫(kù)。通過對(duì)比政要/明星人臉庫(kù),完成視頻人物標(biāo)注,同時(shí)支持“1vN”人臉檢測(cè),關(guān)聯(lián)視頻所在事件文本信息。人臉庫(kù)的建立,加速視頻文件內(nèi)容的快速檢索利用。
3.音視頻檔案智慧利用,實(shí)現(xiàn)文字+圖像檢索。
在音視頻檔案的檢索利用方面,音視頻檔案智慧利用系統(tǒng)實(shí)現(xiàn)了“文字+圖像”的雙重檢索。
傳統(tǒng)的文字檢索僅能查詢到檔案題名、標(biāo)簽等目錄信息,音視頻檔案智慧利用系統(tǒng)則在全文數(shù)據(jù)化的基礎(chǔ)上,實(shí)現(xiàn)了音視頻轉(zhuǎn)寫后文本信息的定位,真正做到全文檢索、內(nèi)容檢索。
而圖像檢索則可以自動(dòng)根據(jù)上傳圖片匹配人物人臉信息,并在視頻中給予出現(xiàn)次數(shù)與時(shí)間軸標(biāo)記,視頻轉(zhuǎn)寫后可自動(dòng)提取標(biāo)注人物信息,人物信息會(huì)自動(dòng)定位到視頻片段,再次對(duì)視頻圖像進(jìn)行結(jié)構(gòu)化處理,結(jié)構(gòu)化存儲(chǔ)。
結(jié)語(yǔ)
音視頻檔案智慧利用系統(tǒng)針對(duì)音視頻檔案的特殊性,以突出特色為重點(diǎn),利用最新聲像技術(shù)、手段和方法,提高聲像檔案管理利用水平,保存最直觀的歷史發(fā)展和建設(shè)成果的永久記憶,為政府和社會(huì)大眾提供更高效、優(yōu)質(zhì)的信息共享利用服務(wù)。
浙江省檔案館副館長(zhǎng)鄭金月認(rèn)為,將人工智能應(yīng)用于音視頻檔案的整理、利用,最顯著的成效體現(xiàn)在:音視頻檔案文本化輸出、通過文本內(nèi)容檢索音視頻、通過人臉識(shí)別檢索音視頻,大大提高了可用性和檢索效率。1小時(shí)的音視頻檔案如果人工整理成文本,需要4-5個(gè)小時(shí);而使用人工智能語(yǔ)音識(shí)別技術(shù),只需10分鐘!
撰文:孟修竹
編輯:安新宇