【澳门新葡萄京app下载】国内外23个语料库推荐,构建新型的历时复合语料库

20世纪语言学研商,从索绪尔起始,获得比十分的大的进展。此中在章程和工具层面的腾飞,以语言质感库的研制与运用最具标识性意义。随着今世微处理机技能的迈入,单语语言材质库研制从20世纪中叶开发银行,现今已助力语言学钻探获得广大新硕果。双语语言材料库尽管迟至20世纪90时期上路,但趋向很强,推动了双语对照、翻译及双语词典研编等风姿浪漫多元研究。

境内可外用免费语言材料库下载财富集中澳门新葡萄京app下载 1

 

(风姿浪漫卡塔尔国 国家语言文字工委
1.国家语言文字工委现代汉语语言质地库
今世中文通用平衡语言材料库现在再一次开放网络查询了。重开后的在线搜索速度更加快,作用更加强,同期提供找出结果下载。现代中文语料库在线提供无偿检索的语言材质约2003万字,为分词和词性标明语言材质。

2.西汉中文语言材料库
网址现在还扩展了黄金年代亿字的太古汉语生语言材质,探究西汉中文的也足以去询问和下载。相同的时候,还提供了分词、词性注解软件、词频总括、字频总结软件,基于国家语言文字工委语言材质库的字频词频总括结果和宣告的词表等,以供就学研商语言文字的团长同学利用。
 
 (二卡塔尔(قطر‎ 北大总结语言学研商所
《人民早报》标记语言材质库
《人民晚报》标记语言材质库中二分之一的语言质地(一九九七年上八个月卡塔尔(英语:State of Qatar)共1300万字已经通过《人民论坛网》新闻消息基本公开提供许可使用权。个中七个月的语言材质(1999年10月卡塔尔近200万字在互联互连网拆穿,供自由下载。
 
(三卡塔尔国 北京语言大学
中文国际教育技艺研究开发中央:HSK动态作文语料库
言语商量所:东方之珠口语语言质感查询系统(B J K Y)
 
(四)江西宗旨研讨院
中研院语言材料库WWW版全数机能均开花利用,但为防主机能源耗用过剧及顾及数据传输之实际约束,暂以检索结果为限量的标准:院内检索限四万行数据,院外检索限七千行数据。

1.今世中文平衡语言材质库
特意针对语言剖判而设计的,各种文句都依词断开,并标示词类。语言材料的收罗也尽或然做到今世国语分配在差异的主旨和语式上,是现代汉语无穷多的说话中八个代表性的样板。现成语言材料库主要针对语言分析而规划,由中央研商院音讯所、语言所词库小组变成,内包括简单介绍、使用验证,现行反革命的语言质感库是4.0的本子。

2.古汉语语言材质库
 古粤语语料库饱含以下三个语料库: 上古中文、中古国语(含大藏经卡塔尔国、近代中文、别的、出土文献。部分数量取自史语所汉籍全文数据库,故两个间略有重迭。此语言材料库之出土文献语言质感库,全体取自史语所汉朝竹简小组所创制的数据库。

3.近代普通话标记语言材质库
为应汉语史琢磨必要而创立的语言材料库。近来素语言质地库所搜集的语言材质已含盖上古中文(先秦至西魏)、中古华语(东魏魏晋南北朝)、近代汉语(唐五代过后)大多数的重大语言质地,并己时有时无盛开利用;在标志语言质地库方面,上古汉语及近代华语都已经有意气风发对语言材料形成标记的干活,并视结果稳步提供上线检索。

 

4.树图数据库
「中文句結構樹資料庫」(Sinica Treebank Version 3.0卡塔尔国富含了6個檔案,61,087個汉语樹圖,361,834個詞,是中心切磋院詞庫小組從中心商量院平衡語料庫 (Sinica Corpus卡塔尔(قطر‎中抽出句子,經由電腦解析成結構樹,並加以人工更正、檢驗後所得的成果。在中文句結構樹中,笔者們標示了国文句語意和語法的訊息。从今以后生可畏「汉语句結構樹資料庫」近来開放網上檢索及資料移轉,以供學者專家在中文句法、語意關係商讨參考之用。另有1000個句結構樹開放下載。

 

5.中国和英国双语知识本体词网
组合词网,知识本体,与世界标识的词汇知识库。

 

6.搜文解字
含有「搜词寻字」、「工学之美」、「游戏解除嫌疑」、「古文字的世界」几个单元,可由零部件、部首、字、音、词互查,并可查询在四书、老、庄、宋词中的出处,及直接接入到出处,阅读原来的书文。

7.文国寻找宝藏记
在搜文解字的底子之上,以中文军事学习者为对象,进一层将字、词、音的搜寻效用与国编、华康、南一等三种版本的国立小学国语课本结合,与唐诗八百首、宋词六百首、红楼、水浒传等文化艺术典籍结合,提供网络上国语言文字工作学习的资料。

 

8.唐诗四百首
以国中、小学学子为关键选用对象,提供吟唱、美术、书法等多媒体数据,文字数据报含小编生平、读音标明、翻译、疏解、评注、传说出处等资料;检索点包涵作者、诗题、诗句、综合材质、体裁分类等;检索结果能够列出全文,并选用标示相关之文字及多媒体数据。并提供了后生可畏套可以自行检查格律、韵脚、批阅和修改的「依韵入诗格律自动物检疫查评定索引传授系统」,帮衬孩子们依韵作诗,援救导师批阅和修改习作。

 

9.汉籍电子文献
包含整部25史 整部阮刻13经、当先二〇〇三万字的海南史料、1000万字的大正藏以致其余精髓。

 

10.红楼互连网教研数据基本
元智大学中华夏儿女民共和国文化艺术网络种类研商室所付出的「网络展书读—中国法学互联网种类」,为研讨为主总监罗凤珠先生主持,红楼是此中一个子系统,其余还包涵善本书、诗经、西楚诗词、作诗填词等子系统。此网站为本国Internet最大中夏族民共和国历史学商量数据库,提供客户最完全的华夏文化艺术钻探数据。
 
(五)中夏族民共和国海洋大学
1.中夏族民共和国地质大学文件语料库检索系统

2.在线分词标明系统

3.新词语商量财富库

4.音录制语料检索系统

 
(六)塞维莱切斯特务工作人士业高校
哈工业大学音讯找出商讨室对外分享语言材质库财富
该语言材质库为汉英双语语言材质库,10万对齐双语句对,文本文件格式,同义词词林增添版,77,343条用语,秉承《同义词词林》的编辑风格,同不时间利用五级编码连串,多文书档案自动文章摘要语言材质库,三十八个核心,文本文件格式,同生机勃勃核心下是同一事件的不等广播发表,汉语依存树库,不带关系5万句,带关系1万句,LTML化,分词、词性、句法部分人工表明,能够图形化查看,问答系统难点集,6264句,已注解难点项目,LTML化,分词、词性、句法、词义、浅层语义等程序管理获得,单文书档案自动文章摘要语言材质库,211篇,分差异体裁,LTML化,文章摘要句标明,分词、词性、句法、词义、浅层语义、文本分类、指代消解等程序管理拿到。
 
(七)南开东军事和政院学
华语均衡语言材质库TH-ACorpus:
 
(八)香岛教院
言语资源音讯科学大旨及其语料库实验室
自壹玖玖贰年早前,以「共时」模式管理了超过的雅量中文语言材料,通过精细的才干,积攒众多标准的总括数据,创立了LIVAC (Linguistic Variation in Chinese Speech Communities卡塔尔(قطر‎共时语言质地库。本语言材质库最大特点是接纳「共时性」视窗情势,严格地依期分别收载来自多地的定量同类语言材质,可供各类客观的可比商讨,方便有关的音信科技(science and technology卡塔尔(قطر‎发展与运用。别的,语言材质库又兼任了「历时性」,方便各个区域职员客观地洞察与研讨视窗内的有代表性的语言发展完备动态。
 
(九)中科院计算技艺钻探所
跨语言语言材质库
眼前的双语句对数据库中有约180,000对已对齐的中国和英国语句子。 本数据库协理简单的中西班牙语查询服务。 查询结果满含句对数码、普通话句子、西班牙语句子、句对来自。
 
(十)汉语语言财富联盟
中文语言能源联盟
(Chinese Linguistic Data Consortium,简单的称呼ChineseLDC卡塔尔(英语:State of Qatar)的创建。ChineseLDC是收到本国高等学校,应用切磋机构和公司参加的开放式语言财富联盟。其指标是建设成能表示前几天中文音讯管理水平的,通用的普通话语言音讯知识库。ChineseLDC 将建设和征集中文新闻管理所须求的各样语言财富,蕴含词典,语言材质库,数据,工具等。在确立和综采语言能源的根基上,分发财富,促成统黄金时代的正规化和专门的学业,推荐给顾客,并且针对中文音信管理领域的关键手艺建构评测机制,为汉语新闻管理的科学商讨和利用开荒提供帮忙。(之所以排行这么后,是因为是国家出资的项目,却没有何样无需付费财富。)

国外语言材料库财富(链接皆可用,内有语言质地库简要介绍)

  1. 杨百翰大学
     
    杨百翰大学语言材料库 Davies教授开辟的语言材质库统大器晚成检索平台,整合了U.S.A.现代克罗地亚语语言材质库、美利坚联邦合众国野史保加列阿拉伯语语言材料库、美利坚合众国时期杂志语言材质库、BNC、加泰罗尼亚语言材质库、República Portuguesa语言材质库等6个语言质感库的财富。该网址每月有60,000人的使用量,只怕是当前最广泛运用的网络语言质地库。  
  2. 联合国官方资料库
    联合国文件数据库(提供80万份八种语言平行文书档案)
    本文件系统满含了一九九四年的话联合国印发的具有专业公文。不过,联合国的最早文件也慢慢增加到本系统。本文件系统也提供从一九四三年的话联合国民代表大会会、安理会、经济及社会理事会和托处理事委员会通过的装有决议。本系统不提供音信稿、联合国出版物、联合国左券汇编或新闻部印发的音讯资料。由东瀛赠送的3万多份数字化文件已被扩大进正式文件系统。  
  3. 兰开斯特大学
    兰开斯特中文语料库 (LCMC卡塔尔(英语:State of Qatar)
    应学术界对免费对大伙儿开放的平衡的今世汉语语言材质库的急需的场地下筹建的。 LCMC 语言材质库是由兰开斯特高校语言学系担任的并赢得英帝国经社研讨委员会捐助(项目代号:RES-000-2二〇一一5)的钻探项目。 LCMC语言材质库是与 Freiburg-LOB Corpus of British English (即FLOB卡塔尔平行对应的国语语言材质库,它推向我们从事中文的单语和英汉双语的对待钻探。通过该网站能够免费索取LCMC预料用于研商之用。  
  4. 言语开放典藏社会群众体育(OLAC)
    OLAC(Open Language Archives Community) rate)、多数言语能源并不是以文字为底工、不分明是还是不是有建议适当软件,以至所建议的提出是或不是浓重…等难点。OLAC由此诞生。藉由下列步骤举办创办世界性语言能源的捏造教室:针对语言资源数字典藏发展一致性的执行指点;发展网络上保有互操作性且提供存取相关语言能源的积存器(Repositories)和劳务基本。简单介绍可以参见  
  5. SKETCHENGINE多语言语言材质库
    www.sketchengine.co.uk
    各样邮箱能够挂号二次,无需付费期是四个月,无需付费期过了就再登记三个邮箱,再登记二次。当中普通话语言材质库是向来不加工的生语言材质库,使用价值十分的小。关键是内部的意大利共和国语语言材质库实际上是原先要结账才具运用的BNC,能够能够利用。   
  6. COCA———U.S.今世意国语语言材料库(Corpus of Contemporary A2merican English卡塔尔(قطر‎

    由米国B righam Young University的M ark Davies教授开辟的高达3.6亿词汇的美利坚联邦合众国新星今世立陶宛语语言质感库,是当今世界上最大的德文平衡语言材质库。与其余语言质感库分化的是它是无需付费在线供我们使用,给整个世界德军事学习者带给了福音,是不行多得的五个韩法学习财富,也是洞察United States希伯来语应用和扭转的叁个绝佳窗口。

国内外语言材料库建设一览

北大语言新闻工程系捷译双语语言材质库Web对齐工具(自动+手动)开放注册
做客地址在
文档:
假诺有须求者能够给  yjs@pkucat.com 老师写信申请,表明身份和理由就能够。

已评释可用的英汉平行语言材料库(部分卡塔尔(英语:State of Qatar)

--TEC

翻译语言材质库方面则以United Kingdom金奈大学财经政法学院(UMIST卡塔尔翻译商讨大旨1994年创办的社会风气上先是个翻译语言材料库( Translational EnglishCorpus , TEC卡塔尔(قطر‎最为有名。该语言材质库首要采摘从多个国家语言翻译成罗马尼亚语的文书,近些日子原来就有上千万词的语料(目的是5 千万词卡塔尔(قطر‎ ,分小说(大约占据80 %卡塔尔(英语:State of Qatar) 传记、报纸和杂志4 个子库。它并不供给必得双语对齐。
该库不唯有对语言材质进行了附码表明,还满含好些个超语言音信的标号,如对翻译情状(满含译者姓名、性别、民族、专业、翻译方向等卡塔尔国、翻译方式、翻译类型、源语、原书情形、出版社等等均朝气蓬勃风度翩翩予以申明。

--北大双语语言材料库
北大总计语言学切磋所的双语语言质感库,英汉对齐的语句原来就有5万多对,并开拓了相应的对齐工具和双语语言材质库管理软件。正在这里基本功上做汉英对照短语库,测度规模将达数十万条。

--中国和英国双语在线(主管)测量检验开通
网址为

--紅樓夢漢英平行語料庫

-- The Babel English-Chinese Parallel Corpus

The Babel English-Chinese Parallel Corpus,which was created on our research project Contrasting English and Chinese (ESRC Award Reference RES-000-23-0553),consists of 327 English articles and their translations in Mandarin Chinese. Of these 115 texts (121,493 English tokens plus 135,493 Chinese tokens) were collected from the World of English between October 2000 and February 2001 while the remaining 212 texts (132,140 English tokens plus 151,969 Chinese tokens) were collected from Time from September 2000 to January 2001. The corpus contains a total of 544,095 words (253,633 English words and 287,462 Chinese tokens). Here is a list of the titles of the articles included in the corpus.

The corpus is tagged for part of speech and aligned at the sentence level. The English texts were tagged using the CLAWS C7 tagset while Chinese texts were tagged using the Peking University tagset. Sentence alignment was done automatically and corrected by hand. The corpus is also marked for paragraph and sentence. But different markup systems were adopted for the two subcorpora. For the component of the World of English, sentences were marked consecutively throughout whereas for Time, sentences were marked within each paragraph.

The Babel parallel corpus can be accessed via the ParaConc Web or MySql interface (both hosted at The Institute of Education, Singapore). Users can search in either English or Chinese texts. The concordancer returns matched whole sentences and their translations as well as the their locations. At the bottom of the resulting concordance page is a query report that indicate the query strings and distribution of matches. Users can also specify the format the output concordances as POS-tagged or plain texts.

--上海武大语言工程研究所日前有JDEST,LOB,BROWN,CLEC四个语料库共计700万词可供英特网搜索, 并能够对寻觅和总结数据结果下载.

--The Translational English Corpus (TEC)

--English Chinese Parallel Concordancer (E-C Concord)
The Hong Kong Institute of Education.
Project leader: Dr. Wang Lixun. Program designers: Chris Greaves, Wang Lixun

--Academia Sinica Balanced Corpus of Modern Chinese 中心研讨院今世普通话平衡语言材质库

--Lancaster Corpus of Mandarin Chinese

may be changed to

--People's Daily 2000 corpus
some related information here

--A Parallel Corpus of Chinese Legal Texts 中國法例文本漢英平行語料庫

--语言材质库语言学与乌Crane语教育教学。华师范大学海外语言文化大学语言材质库语言学钻探室

语言材质库工具

北京外语高校语言材料库语言学沙龙
Beiwai Corpus Research Group (CRG)

Corpus tools developed by group members
Chi-square and loglikelihood Calculator, (卡方查验和对数似然率计算工具)
TreeTagger for Windows, (语料库词性评释工具TreeTagger的Windows分界面)
Colligator 1.0 & 2.0, (语言质地库类联接剖析工具)
PatternBuilder 1.0, (赋码语料库检索援助理工科程师具)
The Edinburgh Associative Thesaurus (EAT卡塔尔国 for Windows,(圣Diego联想词库Windows查询工具)
Wordlist Tools 1.0 Beta,(词表分析工具)
My Good Old Blackboard,(笔者的电子黑板)
BFSU Stanford Parser 1.0,(Republika Hrvatska语自动句法解析工具)。
BFSU Stanford POS Tagger 1.0,(葡萄牙语自动词性赋码工具)。
澳门新葡萄京app下载,BFSU Sentence Collector 1.0,(例句提取工具)。
BFSU NewWord 马克尔 1.0,(生词注解工具)。
BFSU Sentence Segmenter 1.0,(丹麦语自动分句工具)。
Web Colligator。
Collocator 1.0: A collocation extraction tool,(搭配深入分析工具)。
Log-likelihood ratio calculator,(对数似然率总结器)。
Readability Analyzer 1.0 ,(保加阿伯丁语文本可读性深入分析工具)。

Other free corpus tools
AntConc: A free concordancer(跟WordSmith首要功用相近的语料库索引工具)
Range: Vocabulary coverage tools(基于底表的各自词汇度量工具)

语言质地库检索软件Paraconc 和Multiconcord:

Paraconc由Barlow制作(该软件的演示版可在网络下载),该软件的特点是足以扩充多达各种语言的还要招来,或许是贰个原稿的多少个译本的查找。那大器晚成软件的风味是足以灵活定义语言、索引行的深浅、标明符号的隐显,何况帮衬通配符检索。

Multiconcord也是多个在Windows窗口下运维的软件。这种软件和Paraconc在寻找作用上经常,但寻觅结果在表现格局上区别。此外,Paraconc能够搜索纯文本格式的文书;Multiconcord 则供给二个Minimark 程序来压低水准地方统一标准记文本,如< p > (段落卡塔尔(قطر‎ 和< s > (句子)。

 

 

 

 

语言材料库研制存在的标题

【新书推荐】《语料库与翻译》

Original 2017-04-06 管新潮 陶友兰 现代外语研究

 澳门新葡萄京app下载 2

语言材质库与翻译

澳门新葡萄京app下载 3

 管新潮  陶友兰  著

(交大高校出版社,2017)

目录

 

第1章 绪论

1.1 语料库的源于与前行

1.1.1 语料库的概念

1.1.2代表性语言材质库及其特性

1.2 语言材质库的品种

1.2.1 单语与双语(多语)类型

1.2.2 平行与可比类型

1.2.3 通用与专用处目

1.2.4 单向与双向(多向)类型

1.2.5 小结

1.3 语言质感库语言学与翻译学

1.3.1 语言质地库语言学

1.3.2 语言材质库翻译学

1.4 本书概要

本章亮点:

l  对负有代表性的18种语言材质库进行了概述

l  对各类语言材质库类型的概念与效果开展了证实

l  对语言材质库语言学和语言材质库翻译学进行了实用性介绍

第2章 语料库本事和翻译才干

2.1 引言

2.2 语言质感库技术

2.2.1 语言材质格式转变工具

2.2.2 语言材质降噪工具

2.2.3 语言材质对齐工具

2.2.4 语料库检索和解析工具

2.2.5 难题与张望

2.3 翻译技巧

2.3.1 文书档案管理类工具

2.3.2 源文希图类工具

2.3.3 译文处理类工具

2.3.4 翻译管理类工具

2.3.5 语言材质量管理理类工具

2.3.6 本地化学工业具

2.3.7 难题与展望

本章亮点:

l  实例介绍如何针对不一致的PDF文书档案利用区别的调换工具,达到最棒效果

l  比如表达如何利用最强降噪工具WOENCORED软件

l  系统介绍语言材质对齐工具、原则、效果与寻找和平运动用

l  详细描述系统的翻译技能需求选拔的六大类工具:

文书档案管理类工具——内容管理类别、撰写系统、桌面排版系统

源文筹划类工具——文字管理软件、语音识别软件

译文管理类工具——计算机帮助翻译、机译、修正工具

翻译管理类工具——翻译管理种类、质量作保工具、项目管理软件

语言材料管理类工具——翻译记念工具、术语管理工科具

第3章 语言材质库创制流程

3.1 引言

3.2 语言材质库的统筹

3.3 语言质地收集和降噪

3.3.1 语言材质搜聚

3.3.2 语言材质降噪

3.4 语言材料对齐及其保存格式

3.4.1 语言材料对齐

3.4.2 语言材质对齐保存格式

3.5 语言材料库应用

3.5.1 案例1:Computer扶助翻译项目利用

3.5.2 案例2:以组合语言材质库训练翻译能力

3.5.3 案例3:某大型大巴创建集团的语料品质进步

3.5.4 案例4:对法律法则术语外译的提出

3.5.5 案例5:语言材质库证据在米国的法院应用

3.5.6 案例6:两岸三地英汉科学普及历时平行语言质地库

3.5.7 案例7:德汉《资本论》双语平行语料库

本章亮点:

l 介绍语言材料库设计要求关爱的陈设参数

l 陈诉语言材质接受原则与操作规范、水库蓄水体量规模、文件名命名等细节

l 提出什么样给语言质感降噪,如何进行语料对齐操作以致保存格式、格式交换等,有个别是小编个人实施体验,具体表达成立进度中相遇的两样难点甚至应用方案

l 列举了独具代表性的八个语言材质库案例,表达怎么着在翻译实施中动用语言材质库提高翻译效果和品质,如以组合语言质感库训练翻译本领、语言质地库证据的法院应用等

第4章 语言材质库品质

4.1 引言

4.2 语言材料库品质的多维性

4.2.1 语言材质库的陈设性品质

4.2.2 语言材质的翻译品质

4.2.3 语言材质的搜罗与降噪品质

4.2.4 平行语言材料库的对齐品质

4.2.5 应用于实际项指标语言材质组合品质

4.3 源自于翻译推行的语言材质库品质

4.3.1 相关专门的学业的翻译流程设置

4.3.2 品质承保意见与工具

4.3.3 句对库中的高品质句对

4.4 应用于译学商量的语言材质库品质

本章亮点:

l 第1回对语言材料库品质进行了多维性描述,富含语言质地库的宏图品质、语言材质的翻译品质、语言材质的采摘与降噪品质、平行语料库的对齐品质、语言材质组合品质

l 深入分析了渊源于翻译施行的语言材质库质量存在的有些标题,并建议相应机关

l 依照译文错误类型与翻译性能关系模型,尝试提议翻译质量评估建立模型

l 提出特地的材料承保意见来化解翻译质量难题

 

第5章 语料库与翻译实施

5.1 引言

5.1.1 Computer协理翻译的风味

5.1.2 Computer扶植翻译的归类

5.2 语言材料库与纪念库

5.2.1 语言材料库与回忆库的区别

5.2.2 回忆库的创导与维护

5.2.3 回忆库的合营

5.2.4 记忆库的换代与重新组合

5.2.5 纪念库的任何作用

5.3 翻译项目中语言材质库的使用

5.3.1 双语平行语言材料库的翻译应用

5.3.2 可比语言材料库的翻译应用

5.3.3 单语语言材料库的翻译应用

5.4 双语平行语言材料库数据发现

5.4.1 专门的工作通用词概念

5.4.2 法律双语平行语言材质库的数目发掘

5.4.3 文学双语平行语言材质库的数额发掘

5.5 译入非母语时的语言材质库成效

5.5.1 汉语翻译外现状

5.5.2 语言质地库的行使

5.6 大面积句对库与机械和工具翻译

5.6.1 句对库的概念和质感

5.6.2 Computer扶植翻译与机械和工具翻译的构成

本章亮点:

l 不一致语言材料库和回忆库之间的涉嫌,论述记念库的始建、维护、相配、更新、组合等概念与功力

l 实例演示怎么着在翻译项目中使用双语平行语料库、可比语言质感库或单语语言材料库

l 论述风姿罗曼蒂克种最大进级翻译实行意义的翻新办法:从双语平行语言材质库(如工学、法律)中挖掘出特定领域专项的标准通用词,施行表明效果显明

l 演说怎么着确认保证句对库的身分,如何将所获取的句对名下相关的天地,怎么着以高素质的句对来达成机译

第6章 语言材质库与翻译教学

6.1 引言

6.2 基于语言材质库的翻译教学实施

6.2.1 使用语言材质库自主学习

6.2.2 创建学习者语言材质库

6.2.3 学子自行建造英汉平行语言质地库

6.3 语料库与翻译教材编写

6.3.1 达成翻译教材具体内容和血脉相似语言材质库链接

6.3.2 明确语料难易程度

6.3.3 以真实语言材质编译例句并提供七种译文范例

6.4 翻译传授语言质地库平台设计与构想

本章亮点:

l  教会学子如何使用语言材质库举行独立学习

l  教会学子如何成立学习者语料库、英汉平行语言材质库

l  指点老师选择语言材质库编译教材

l  设计与构想大器晚成体化翻译传授语言质感库平台

 

附录

汉英双语对照术语表

 

本书特点

提笔写作本书的意在对本身20多年来致力翻译实施经历的下结论,具体说是对翻译推行与翻译技能、语言材质库、翻译教学等相结合的试行资历的下结论,期待能够通过经验总计进而在翻译实施理论上有所长进。文中所表现的经总计总结后的文字表明定能对翻译施行和MTI传授试行具备帮忙。自身自认为本书已经颇有了以下三大特点:

l  对翻译推行的可应用性;

l  对MTI教学的可适应性;

l  对翻译理论的可拓宽性。

先是,对翻译实施的可应用性。本书所突显的知识均以自己多年来所做的大批量翻译奉行为基于,能够说有近百分之七十的内容是全然正视于资历的下结论、归咎、提炼和提升。那是可应用性特点的风流倜傥种面向翻译施行的反映。另一反映是将经过总括、归结、提炼和升高后的文字表明交由产业界行家审定,确认其对实际翻译实践具有指点意义后才付与定稿。本书对翻译实施的可应用性还反映在疏散于书中分化章节的各个关于翻译或语言材质库工夫运用的“小技能”。

第二,对MTI教学的可适应性。MTI传授中的计算机扶持翻译是翻译技能的豆蔻梢头局地或内部的一个环节,其并不能够代表任何翻译才具。由此,翻译技能的MTI教学有其复杂,即什么将分化的翻译技巧知识揉合在风流洒脱道并实用地教学给学子,以至哪些教会学子以习得的翻译技能知识去解决实际运用难点。因为手艺在不断更新和升华,何况修改和升华的进程在相连加速,现成的技巧恐怕会在多少年后不见其踪迹。由此可知,翻译手艺或语言材质库手艺教学的关键并不在于教会某项本领,而是如何使学员习得应用技巧去消除难题的技艺。

其三,对翻译理论的可拓宽性。风度翩翩种理论的发出在其初步阶段必然是进展试验,然后是计算归结,最终才上升为辩护层面。翻译技艺理论的发出也不例外。翻译本领有多面内容可供学术切磋,如人机相互作用翻译的边界研商、技术条件下的翻译计策、技术背景下的译员行为切磋、公司翻译研究,等等。

 

小编简要介绍

管新潮,职业译者,短期从事德英汉翻译实施,于今已累加翻译和查对德英汉字数达3000万(包蕴审阅查对);主要翻译领域涉及海洋工程与船舶成立(意大利共和国语)、经济学(俄语)、法律(Turkey语)、机电(西班牙语)等;建有种种连锁语言材质库,如英汉工学平行语言质地、英汉海洋工程平行语言材质库、英汉法律平行语言材质库、德汉左券文本平行语言质地库、Marx《资本论》德汉平行语言材质库(百余年)等。曾经或正在为国际盛名公司提供语言服务解决方案,如德意志联邦共和国劳氏船级社、Noreg船级社、艾斯维尔出版社和施普林格出版社、BlackBerry本领公司、毕马威咨询公司等。现任上海哈工大外语高校MTI导师。

 

 

 

 

 

现阶段国际上双语语言材质库研制的严重性难题:第大器晚成,语言材质库多数文本来源单大器晚成、标记比较轻巧,且多为澳大利伯维尔语言,其他双语语言材料库甚少,主要用以语言识别、文书档案级对齐、术语提取等自然语言管理商讨,而非从语言学和翻译学角度研讨语言与翻译难点。第二,少数双语语言材料库开展了对应的言语与翻译切磋,但双语语言材质库在质和量上都有待提高。第三,语言是升高转移的,在外语和翻译的效益下,语言之间的各样接触大概招致语言产生另样的变动,原生语言和翻译语言也存在各种的雷同和相异。国际上现成的双语语言材质库或是缺少历时语言材料,或是语言材质库水库蓄水体积有限,上述切磋课题也就悬而未探。第四,现成的无论是单语还是双语语言材质库,少之甚少做合成构造,即要么是单语或双语的,要么是平行或类比的,少见组合,不便利语言和翻译发展转换的洞察和相比较。

言语翻译必备:国内外二十多个语料库推荐

2016-10-29 译匠

语言质感库日常指为语言商讨搜罗的、用电子形式保留的语言材质,由自然现身的书面语或口语的样本汇聚而成,用来表示一定的语言或语言变体。经过科学选材和标明、具备至极范围的语言质感库能够显示和记录语言的实在应用处境。下边推荐一些上等级次序的语言材质库能源。

 

境内语言材质库财富

1. 国家语言文字工作委员会今世粤语语言材料库

 

 现代中文通用平衡语言材质库今后再次开放网络查询了。重开后的在线搜索速度更加快,功用更加强,相同的时候提供寻觅结果下载。现代汉语语言材质库在线提供无偿检索的语言质地约2002万字,为分词和词性标明语言质地。

 

2. 国家语言文字工委辽朝中文语言质感库

 

 网站现在还扩充了黄金时代亿字的太古汉语生语料,探究宋代中文的也足以去查询和下载。同期,还提供了分词、词性申明软件、词频总计、字频总计软件,基于国家语言文字工委语言材质库的字频词频总结结果和发布的词表等,以供就学钻探语言文字的教员职员和工人同学利用。

 

3. 北大“《人民早报》标记语言材质库”

 

 

4. 南开语言材料库——北大中中原人民共和国语言学商讨中央

 

 交大语言质地库由“今世国语语言材料库”、“北宋中文语言材料库”、“汉英双语语言质感库”多个语言材料库组成。此中,武大总结语言学商量所的双语语言材质库,英汉对齐的语句本来就有5万多对,并付出了相应的对齐工具和双语语言质地库管理软件。正在这里底工上做汉英对照短语库,估摸规模将达数十万条。(汉英双语语料库方今仅对南开校内客户开放)

 

5. Hong Kong语言高校高翻高校的“高翻记念库”

 

 

6. 南开东军事和政院学普通话均衡语言质感库TH-ACorpus

 

 

7. 宗旨钻探院“今世普通话平衡语言材质库”

 

 特意针对语言深入分析而设计的,各个文句都依词断开,并标示词类。语言材质的搜集也尽或许做到今世国语分配在不相同的核心和语式上,是今世汉语无穷多的说话中三个代表性的样板。现成语言材料库首要针对语言深入分析而规划,由中心商讨院消息所、语言所词库小组造成,内富含简单介绍、使用验证,现行的语言材质库是4.0的本子。

 

8. 中心钻探院“近代汉语标识语言材质库”

 

 

9. 中心商量院汉籍电子文献(瀚典全文字笔迹核算索系统)

 

 富含整部25史 整部阮刻13经、抢先二〇〇〇万字的山东史料、1000万字的大正藏以至别的卓绝。

 

10. 红楼网络教研资料中心

  

  元智大学中夏族民共和国军事学网络类别商量室所支付的“互连网展书读—中夏族民共和国文化艺术互连网连串”,为商量核心官员罗凤珠先生主持,红楼是内部三个子种类,其余还包含善本书、诗经、北齐诗词、作诗填词等子系统。此网址为国内Internet最大中华夏儿女民共和国文艺钻探数据库,提供客商最完好的中华文化艺术商量数据。

 

11. 《红楼》汉英平行语言质地库

  

 

12. 搜文解字

  

  包括“搜词寻字”、“法学之美”、“游戏解除纠结”、“古文字的社会风气”八个单元,可由零部件、部首、字、音、词互查,并可查询在四书、老、庄、唐诗中的出处,及直接对接到出处,阅读原来的小说。

 

13. 中华夏儿女民共和国传播媒介高校“传播媒介语言语言材质库在线分词表明系统”

  

 

14. 中国农林科技大学“媒体语言语言材质库(MLC)”

  

 

15. 哈工大音信寻找商量室对外分享语言材料库能源

  

  该语言材料库为汉英双语语料库,10万对齐双语句对,同义词词林扩张版。77,343条用语,秉承《同义词词林》的编写风格,同一时间采用五级编码种类,多文档自动文章摘要语言材质库。叁十八个主旨,同生机勃勃核心下是同一事件的两样报导。普通话依存树库,不带关系5万句,带关系1万句,LTML化,分词、词性、句法部分人工注脚,能够图形化查看。问答系统难点集,6264句,已标注难题项目,LTML化,分词、词性、句法、词义、浅层语义等程序管理拿到。单文书档案自动文摘语言质感库,211篇,分分歧体制,LTML化,文章摘要句标记,分词、词性、句法、词义、浅层语义、文本分类、指代消解等程序管理获得。

 

16. Hong Kong教院“LIVAC粤语共时语言材质库”

  

  自一九九二年起来,以“共时”形式管理了超过的大气中文语料,通过精细的本事,积存众多规范的计算数据,创设了LIVAC(Linguistic Variation in Chinese Speech Communities)共时语言材质库。本语言材质库最大特色是运用“共时性”视窗形式,严俊地按时分别收载来自多地的定量同类语言材质,可供各个客观的相比研商,方便有关的音信科学和技术进步与行使。别的,语言材质库又兼任了“历时性”,方便各个区域职员客观地观测与钻探视窗内的有代表性的语言发展周到动态。

 

17. 华语语言财富联盟

  

  Chinese Linguistic Data Consortium(简单称谓ChineseLDC)是吸收接纳国内高校,调研机商谈商社参预的开放式语言财富联盟。其目标是建变成能表示当今汉语音信处理水平的,通用的普通话语言音讯知识库。ChineseLDC将建设和综合机械化采煤普通话新闻管理所必要的各个语言财富,包蕴词典、语言材质库、数据、工具等。在成立和采摘语言能源的底子上,分发财富,促成统黄金时代的正经八百和标准,推荐给客商,况兼针对普通话音信处理领域的关键手艺营造评测机制,为中文音讯管理的底工钻探和接纳开荒提供扶助。(之所以排行这么后,是因为是国家出资的类别,却尚无什么无需付费能源。)

 

 澳门新葡萄京app下载 4

 

 

海外语言材料库财富

1. 杨百翰高校语言材料库

 

 杨百翰大学的MarkDavies教师开荒的语言材料库统大器晚成检索平台,整合了美利坚同联盟现代爱沙尼亚语语言质地库、美国野史爱沙尼亚语语言材质库、U.S.一代杂志语言材料库、BNC、英语言质地库、República Portuguesa语言质地库等6个语言材料库的能源。该网址每月有60,000人的使用量,可能是日前最广泛使用的互连网语言材料库。

 

2. 联合国文件数据库

 

 本文件系统包罗了一九九一年来讲联合国印发的富有正式公文。不过,联合国的前期文件也渐渐增多到本系统。本文件系统也提供从1950年来讲联合国民代表大会会、安理会、经济及社会理事委员会和托管理事委员会通过的有所决议。本系统不提供音讯稿、联合国出版物、联合国合同汇编或音讯部印发的音信托投资料。由日本捐献的3万多份数字化文件已被扩大进正式文件系统。

 

3. 兰开斯特中文语言质感库(LCMC)

 

 应学术界对无偿对民众开放的平衡的现世闽南语语言材质库的急需的气象下筹建的。LCMC语言材质库是由兰开斯特高校语言学系担当的并收获大不列颠及苏格兰联合王国经社探究委员会帮衬(项目代号:RES-000-2二零一一5)的钻研项目。 LCMC语料库是与 Freiburg-LOB Corpus of British English (即FLOB卡塔尔平行对应的中文语料库,它推向大家从事汉语的单语和英汉双语的自己检查自纠商量。通过上述网站能够防费索取LCMC预料用于研商之用。

 

4. 语言开放典藏社会群众体育(OLAC)

 

 Open Language Archives Community(OLAC),语言开放典藏社会群众体育是由个体或集体所结合的国际性同盟组织。多数门类的社团须求语言财富,如:语言学家、技术员、教授、解说家,也可以有非常多单位提供应影片段性的构造,如:文件微机、软件开采者和出版者。理论上,客商期望经过单大器晚成接口便得以得到任何索要的能源,在那之中财富类型包蕴:①资料(Data):任何描述语言的连锁音信;②工具(Tool):有支持成立、浏览、查询或利用语言数据的总结器财富;③建议(Advice):譬如,告知使用者什么财富具有高可相信度?在这里地步中哪风度翩翩种工具切合接受?当新的数据衍生出时该怎么成立?但其实,却具有语言能源布满在分化的网址、使用者不可能拿到想要的能源、语言能源在不一致网站有着不一致名字(Name)产生召回率(recall rate)低,在任何领域有生龙活虎致敬义,变成精确率低(precision rate)、超多语言能源实际不是以文字为根底、不明确是不是有建议适当软件,以至所建议的提出是还是不是浓郁……等主题材料。OLAC由此诞生。

 

5. SKETCHENGINE多语言语言材质库

 

 种种邮箱能够登记壹次,无偿期是叁个月,无需付费期过了就再登记二个邮箱,再登记三遍。个中汉语语言材料库是未有加工的生语料库,使用价值超级小。关键是中间的Republika Hrvatska语语言材质库实际上是原来要买单技艺运用的BNC,能够突出利用。 

 

6. U.S.现代立陶宛共和国语语言材质库(COCA)

 

 Corpus of Contemporary American English(COCA),由United StatesBrigham Young University的MarkDavies教师开拓的高达3.6亿词汇的美国流行业代拉脱维亚语语言材质库,是当今世界上最大的Republika Hrvatska语平衡语言材质库。与任何语料库不相同的是它是无偿在线供大家使用,给环球意大利共和国语学习者带来了福音,是不足多得的四个英文学习财富,也是洞察美国德文应用和调换的二个绝佳窗口。

本着上述难题,尤其是第八个难点,有不能缺乏思考怎么着突破语言材质库研制的局限性。创设新型的历时复合语料库,就是大家最新的品味。

历时语言材质库可提供各时代语言的相互作用比较,发掘语言应用的转换及其过程,为语言变化考查、翻译探究以至翻译语言与指标语之间的并行,提供客观的描写和可分析的数量。在中外历史上都有众多翻译与指标语演变关系紧凑的案例。已往切磋的语言材质来源于非常不够丰盛,考查范围有限,琢磨的深度和广度大受制约,对原生中文同翻译汉语间的相互影响关系也贫乏精通,而那个都开展通过历时语言材质数据的收获和深入分析获得新的突破。

有鉴于此,切磋语言及其变化不仅仅需求规划合理、规模超级大的语言材质库,还索要平衡的历时语言素材。国际上,应对那意气风发供给的历时语言材料库近些年开头营造。第贰个历时语料库AVIATO揽胜在一九八七年由坎Pina斯高校研制作而成功,另二个历时语言质感库ACRONYM于壹玖玖壹年建产生。那多个语言质地库都接纳三番一遍出版的报刊文章杂志为语言材质。代表性越来越强、跨度长达300多年的平行保加利亚语语言材料库、4亿字词的花旗国塞尔维亚共和国语历史语言材质库也时断时续建设成。不过,单语的历时语言质感库还无法解决双语的和翻译的主题素材。比如,今世粤语的演化变迁,单从历时语言材质库还无法很好地洞察,应进入更加多的可比成分,如马耳他语源语的因素、中文译文的转移和华语原作的生成,三者之间产生整个的可比商讨,才有望更充裕地形容和解析。因而,不独有要塑造历时的语言材料库,还应规划复合的历时语言材料库。

历时—复合:

语言材料库研制的一大突破

本文由新葡萄京娱乐场app发布于产品评测,转载请注明出处:【澳门新葡萄京app下载】国内外23个语料库推荐,构建新型的历时复合语料库

TAG标签:
Ctrl+D 将本页面保存为书签,全面了解最新资讯,方便快捷。