您的位置 > 首頁 > 商業智能 > 清華大學自然語言處理與社會人文計算研究中心成立!

清華大學自然語言處理與社會人文計算研究中心成立!

來源:雷鋒網 | 2019-07-08 | 發布:經管之家

雷鋒網 AI 科技評論按:2019 年 7 月 1 日,清華大學人工智能研究院自然語言處理與社會人文計算研究中心成立儀式暨學術報告與開元成功發布會在清華大學 FIT 樓舉行。這是繼知識智能研究中心、聽覺智能研究中心、基礎理論研究中心、智能機器人研究中心、智能人機交互研究中心、智能信息獲取研究中心、視覺智能研究中心之后成立的第八個研究中心。清華大學副校長、清華大學人工智能研究院管委會主任尤政院士,清華大學人工智能研究院院長張鈸院士出席成立儀式并共同為中心揭牌。清華大學人工智能研究院院長助理朱軍教授主持了成立儀式。

尤政院士與張鈸院士為中心揭牌

尤政院士與張鈸院士致辭

尤政院士在致辭中指出,自然語言處理一直以來都是計算機科學領域的一個重要方向,也被稱為「人工智能皇冠上的明珠」,是人工智能技術當下和未來發展的戰略制高點。而清華大學作為國內最早開展自然語言處理的單位之一,經過四十年的不懈努力,已經發展成國內外自然語言處理研究的一方重鎮。因此,中心的成立對于推動清華大學人工智能的深入發展具有十分重要的意義。

將自然語言處理與社會科學及人文科學相結合,具有大跨度學科交叉的性質。這既是人工智能研究本身的積極拓展,也是對傳統學科在人工智能時代的守正出新。希望中心能夠凝聚清華自然語言處理研究力量,加強與人文社科學科的交叉合作,開展具有世界水平的自然語言處理基礎理論研究和關鍵技術創新,服務于清華與國家的人工智能發展戰略。

尤政院士致辭

張鈸院士代表清華大學人工智能研究院致辭。他指出語言是人類智能的重要標志,機器自然語言理解是人工智能的終極目標。清華大學在自然語言處理方面有著深厚的研究積淀,1978 年成立人工智能與智能控制教研組時,自然語言處理就是其中的重要研究方向之一,在黃昌寧教授領導下迅速發展成為國內領軍的研究單位。

新成立的中心將致力于實現自然語言處理與人文社科的深度融合,不僅僅是將人工智能技術融入人文社科領域,更需要從語言、社會學、人文學等人文社科的多個角度來反觀人類智能的本質,這是研究院人工智能基礎研究的重要組成部分。希望中心再接再厲,在自然語言處理與社會學、人文學的交叉研究上形成特色,引領我國自然語言處理和社會人文計算研究領域的發展。

張鈸院士致辭

致辭結束后,尤政院士與張鈸院士共同為自然語言處理與社會人文計算研究中心揭牌,并向清華大學人工智能研究院常務副院長孫茂松教授頒發了中心主任聘書。研究中心同時聘請了中國中文信息學會原理事長、中國工程院院士倪光南,滑鐵盧大學講座教授、加拿大皇家科學院院士李明,微軟亞洲研究院副院長、國際計算語言學會會長周明,英國帝國理工學院數據科學研究所所長、英國皇家工程院院士郭毅可為學術顧問。

孫茂松教授被聘為中心主任

自然語言處理與社會人文計算研究中心

語言是人類區別于其他動物的根本標志,沒有語言,人類的思維也就無從談起。自然語言處理旨在讓計算機掌握理解與處理人類語言的能力,體現了人工智能的最高任務與境界,只有當計算機具有處理語言的能力時,機器才可能通過圖靈測試。

自然語言處理與社會人文計算研究中心將緊密圍繞人類語言所體現的人類智能本質,重點研究魯棒、可解釋的自然語言處理方法與技術,深入探索語言理解與生成技術在社會人文計算領域的應用,努力建設以中文為核心、覆蓋多種語言、從詞法到篇章的全流程自然語言處理技術框架與計算平臺,力爭產出以智能創作、智能語言學習、智能教育、智能司法為代表的、具有國際學術影響力、重大民生意義的社會人文計算研究成果。

中心的前身是清華大學計算機系自然語言處理課題組,早在上個世紀七十年代末就在黃昌寧教授的帶領下從事自然語言處理研究工作,是國內開展相關研究最早、深具影響力的科研單位,同時也是中國中文信息學會(全國一級學會)計算語言學專業委員會的掛靠單位,孫茂松教授現任該專業委員會的主任。

中心成立儀式合影

主要研究方向

面向多粒度語言單元的統一語義表示框架;

從詞法到篇章的全流程自然語言處理技術體系;

數據與知識融合的多語言機器翻譯技術;

知識指導的自然語言深度理解與智能推理技術;

跨模態自然語言學習與處理結束

以自然語言處理為主要支撐手段的社會人文計算,包括智能創作、智能語言學習、智能教育、智能司法、智能傳播、智能音樂等。

代表性成果

1.THUMT—數據驅動的機器翻譯(已開源)

劉洋副教授向我們介紹了該開源成果 THUMT——它是一個是一個基于深度學習的機器翻譯系統。該系統使用了數據驅動的機器翻譯技術,具備良好的語言無關性,在具備訓練數據的條件下可以迅速為新語種部署系統。支持漢語、英語、日語、俄語、西班牙語、葡萄牙語、德語、法語、阿拉伯語、維吾爾語等關鍵語言的機器翻譯系統,應用于外交部、新疆公檢法等政府重要部門和搜狗、百度、捷通華聲等互聯網企業,在大規模多語言信息深度分析處理和高效服務方面做出貢獻,相關產品廣泛應用于互聯網、金融、能源、電信、交通等行業領域。

本次開源成果公布了在 TensorFlow 平臺上開發的新版本,采用了主流的 Transformer 模型,集成了目前最新的神經機器翻譯技術,具有訓練速度快(支持多機多卡并行)、顯存占用低(支持單精度浮點數計算)、翻譯性能高(與國際機器翻譯開源軟件相比位居前列)、易于可視化分析(支持層級相關反饋算法)等優點。此外還開放了 70 萬句對的句級對齊漢英平行語料庫和 4 萬句對的詞級對齊漢英平行語料庫。

項目網址:thumt.thunlp.org

在線翻譯系統網址:translate.thumt.cn

劉洋副教授介紹開源成果 THUMT

2.THUAIPoet—基于深度學習的中文詩歌自動生成系統(已開源)

矣曉沅博士生(清華大學特等獎金獲得者,獲「中國網事,感動 2018」第三季度網絡感動人物)介紹了開源成果 THUAIPoet。

THUAIPoet(九歌)是一個基于深度學習神經網絡技術的中文詩歌自動生成系統,支持集句詩、絕句、藏頭詩、詞等不同體裁詩歌的在線生成。曾參加過中央電視臺 CCTV-1《機智過人》節目,與人類詩人同臺競技,取得了幾乎可與人媲美的效果。

此次成果發布開源了系統中的無監督風格詩歌生成模型 StylisticPoetry 源碼(相關論文發表于 EMNLP 2018),能夠在無標注數據集上進行任意數量的風格解耦控制。此外還發布兩個人工標注的詩歌數據集(詩歌質量數據集和詩歌情緒數據集),以及國內外詩歌生成相關的主要論文列表。

GitHub 網址:github.com/thunlp-aipoet 

九歌 APP 網址:jiuge.thunlp.cn

矣曉沅博士生介紹開源成果 THUAIPoet 

3.THUPM—知識指導的自然語言預訓練模型(已開源)

2018 年起,以 BERT 為代表的模型,能夠利用大規模無標注文本學習預訓練模型,在自然語言處理各重要任務上均取得顯著性能提升,引起學術界和產業界的廣泛關注。實際上,文本中往往包含豐富的人類知識,如實體間復雜關系等。已有預訓練模型無法考慮知識圖譜中的結構化知識。中心團隊認為,結構化知識可以指導預訓練模型,提升模型對文本中低頻實體的理解能力。因此,提出一種融合知識圖譜實體表示和相應預測任務的預訓練模型(ERNIE),闡述該模型的論文已經被 ACL 2019 錄用。

會上劉知遠副教授對開源成果 OpenCLaP 作了介紹。OpenCLaP(Open Chinese Language Pre-trained Model Zoo)是一個多領域中文預訓練模型倉庫。通過在多領域大規模中文文本的預訓練,這些預訓練模型可以在下游任務上進行微調以提高任務性能。

本次開源成果公布了基于法律文本和百度百科千萬級文檔的預訓練模型,支持最大 512 長度的文本輸入適配多種任務需求。未來還將持續加入更多更強的預訓練模型,如增加更多訓練語料,引入大規模知識,使用全詞覆蓋策略等。

GitHub 網址:github.com/thunlp/OpenCLaP 

項目網址:zoo.thunlp.org

劉知遠副教授介紹開源成果 OpenCLaP

4. 融合大規模知識的中文語義表示學習方法 

為了實現面向現實空間、網絡空間和認知空間中的互聯網海量文本、語言知識和世界知識等多源異質信息的深度理解與計算,在孫茂松教授擔任首席科學家的國家重點基礎研究計劃項目支持下,中心團隊提出融合大規模知識的中文語義表示學習方法體系,在融合語言知識的語言單元表示學習和世界知識表示學習方面提出多種高效算法。

在自然語言處理重要國際期刊和會議發表 40 余篇論文,被 MIT、CMU、 Google、 Facebook 等研究機構列為代表方法,獲得引用超過 4000 次, 相關開源算法獲得近 2 萬星標關注。

5. 大規模結構化知識的自動獲取技術

為了從海量自由文本中自動抽取結構化知識,支撐復雜場景下的自然語言處理的知識需求,中心團隊面向實體關系抽取等關鍵知識獲取任務,開展了深入技術研究和數據集合構建。創造性地提出了句子級別選擇注意力機制、對抗訓練機制等技術方案,有效緩解了遠程監督訓練數據的噪音問題,并能夠更好地利用跨語言訓練數據。

團隊還面向多種挑戰場景構建大規模標注數據集合,例如面向少次學習的 FewRel 數據集,面向文檔級關系抽取的 DocRED 數據集等。相關研究成果在自然語言處理重要國際期刊和會議發表 10 余篇論文,被 MIT、CMU、UCB 等研究機構列為代表方法。

6. 基于自然語言處理技術的法律智能

 法律智能旨在利用人工智能技術輔助法律行業,提升司法行政事業各環節的智能化水平,緩解案多人少矛盾,避免同案不同判現象,是我國推進全面依法治國戰略布局的關鍵支撐技術。

中心研究團隊深入研究智慧司法任務,提出了全面的技術規范流程,提出的要素式多任務判決預測、要素判決預測、神經網絡信息抽取等技術,為法律智能提供了更加高效魯棒的解決方案;構建大規模數據集用于訓練構建機器學習模型,組織了國內首個法律智能挑戰賽,吸引國內外超過 600 支隊伍參加,刑期預測任務準確率從最初的 30% 提升至 78%,極大推動了我國法律智能研究與應用的發展;團隊與法學院合作開展「計算法學」碩士項目,并于 2018 年首次招生, 受到社會各界廣泛關注。

前沿學術報告會

李明:第二代對話機器人

李明院士做了題為《第二代對話機器人》的特邀報告。

報告指出缺乏理解能力、缺乏學習能力、被動地「人云亦云」是第一代聊天機器人的主要缺陷,其原因在于目前的深度學習技術還不具備理解和使用人類語言所必需的概念抽象和邏輯推理能力。他認為實現理解和學習是第二代聊天機器人的主要目標,機器人只有通過自動學習和社會參與才能獲得不斷地成長,從而具備更強的運用人類語言的能力。

李明院士做特邀報告

周明:關于神經網絡自然語言處理的思考

周明博士做了題為《關于神經網絡自然語言處理的思考》的特邀報告。

報告對基于神經網絡的自然語言處理的研究進展進行了系統地回顧與總結,指出自然語言處理目前面臨著深度學習計算成本高昂、大規模標注數據稀缺、難以實現真正的理解與推理等關鍵挑戰。他認為未來應當從計算能力、數據資源、模型算法、系統應用、人才培養、交叉合作等六個方面進一步推動自然語言處理的發展。

周明博士做特邀報告

雷鋒網(公眾號:雷鋒網) AI 科技評論 雷鋒網

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

本文已經過優化顯示,查看原文請點擊以下鏈接:
查看原文:https://www.leiphone.com/news/201907/ddNfbbdigxdiPpKh.html

看圖學經濟more

院校點評more

京ICP備11001960號  京ICP證090565號 京公網安備1101084107號 論壇法律顧問:王進律師知識產權保護聲明免責及隱私聲明   主辦單位:人大經濟論壇 版權所有
聯系QQ:2881989700  郵箱:[email protected]
合作咨詢電話:(010)62719935 廣告合作電話:13661292478(劉老師)

投訴電話:(010)68466864 不良信息處理電話:(010)68466864
澳洲幸运8开奖网app