论文自建语料库需要自己建吗

论文自建语料库需要自己建吗

问:如何建立自己的语料库?
  1. 答:基本上没有办法建立相应的语料库,优质的原语料是谨袭裤优质语料库的前提。
    1.建立单语语料库比较简单,只需要准备好相关语料(古代汉语/现代汉语/英文/其他语言),将语料导入AntConc软件进行检索即可。知乎上有大神的帖子写过具体方法祥简:建立你自己的专属英语语料库,妈禅槐妈再也不担心你的写作。
    2.建立双语语料库,你需要先准备双语对照(如中英对照)的原文和译文,进入Tmxmall在线对齐页面,将语料导入进行句级对齐,再导出为tmx格式,即为自己的双语语料库,可以用于后续的学习和研究。
问:怎样创建语料库?
  1. 答:首先要明确建立的是单语语料库还是双语语料库,因为用到的建库软件和方法不一样,单语语料库的建立过程相对简单一些。
    语料库有多种类型,确定类型的主要依据是它的梁芦研究目的和用途,这一点往往能够在语料采集的原则和方式上有所体现。有人曾经把语料库分成四种类型:⑴异质的(Heterogeneous):没有特定的语料收集原则,广泛收集并原样存橡梁带储各种语料。
    ⑵同质的(Homogeneous):只收集同一类内容的语料;⑶系统的(Systematic):根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;⑷专用的(Specialized):只收集用于某一特定用途的语料。
    除此之外,按照语料的语种,语料库也可以分成单语的(Monolingual)、双语的(Bilingual)和多语的(Multilingual)。按照语料的采集单位,语料库又可以分为语篇的、语句的、短语的。双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语料库和比较语料库,前者的语料构成译文渣笑关系,多用于机器翻译、双语词典编撰等应用领域,后者将表述同样内容的不同语言文本收集到一起,多用于语言对比研究。
    已经累积了大量各种类型的语料库,如:葡萄牙语料库、面向文本分类研究的中英文新闻分类语料库、路透社文本分类训练语料库、中文文本分类语料库、大开放字幕库OpenSubtitles的多语言平行语料数据(OpenSubtitles Corpus)、《圣经》双语语料库("Bible" bilingual corpus)、Short messages service( S) corpus(短消息服务( S)语料)等。
问:跪求平行语料库的设计需要什么软件?自己想建设一个小型的体育英汉/汉英平行语料库,谢谢!
  1. 答:可以李枝准备好英汉、汉英的双语袭卖材料,将准备好的双语材料导入Tmxmall在线对齐进行语料哪禅敏对齐,导入后Tmxmall在线对齐会对双语材料进行段对齐,稍微调整一下段落,再点击“对齐”就会进行句对齐。检查一遍就可以直接导出双语平行对齐的语料啦~
  2. 答:最好有Trados中的WinAlign,然后其实就可以了~
    参考文章:
    1、用翻译记忆系统自建尘顷裂双语平行语料库
    2、派闭利用翻译记忆系统自建双语平行语料库
    看了这两个文章就可乎埋以弄了~
论文自建语料库需要自己建吗
下载Doc文档

猜你喜欢