文本分析软件Leximancer支持的多语言功能

Leximancer可以处理除了英语以外的其他语言的文本。当前软件支持的语言列在侧边栏中。

 

默认语言支持

英语, 丹麦语, 德语, 芬兰语, 希腊语, 西班牙语, 法语, 克罗地亚语, 印度尼西亚语, 意大利语, 马来语, 荷兰语, 波兰语, 葡萄牙语, 俄语, 塞尔维亚语, 瑞典语, 土耳其语

 

支持新语言

如果在所需语言中有明确的单词和句子分隔标记,Leximancer可能支持新语言。必须编制所需语言的常用术语的“停用词列表”(例如“和”、“the”、“but”等),以便将这些词排除在概念候选人的处理之外。

 

可以在同一Leximancer分析/地图中建模多种语言吗?

可以,但结果可能不是您所想要的。Leximancer不执行自动翻译,因此不同语言中意义相同的两个概念在常规文本数据中不会自动合并。结果地图将具有各自语言的大部分独立概念群集。您可以手动在语言之间合并核心概念,如果合并足够多,语言群集将合并。

 

 

要在同一项目中映射来自多种语言的数据,您必须执行两项工作:

  • 在选择数据集时为每个数据集指定语言;
  • 对于每种其他语言,必须在停用词编辑器中加载停用词列表(使用顶部的“加载语言”按钮)。

 

为什么非英语语言文档的停用词仍然存在于项目中?

要自动添加文档语言的停用词列表,应在将源文本文档添加到项目之前选择下拉语言列表中的语言。如果在运行项目的任一步骤之前未选择语言,则Leximancer将设置默认的停用词列表,通常为英语。停用词列表不会再进行自动更改。

 

要在项目运行任一步骤后添加新语言或更新特定停用词条目,应使用停用词列表编辑对话框。可以通过按 按钮从文本处理设置对话框中使用此对话框。可以从那里添加新的停用词语言。编辑Leximancer项目停用词列表。

 

跨语言概念

有一种特殊的数据形式会自动发现跨语言概念,这可能很有趣。所需的数据称为逐字翻译 - 每个句子的一个语言中有该句子的翻译,紧接在其后。要处理此类数据,您需要创建一个特殊的多语言停用词列表,其中所有停用词在列表中共享相同的文字语言代码。

 

是否需要特殊版本来支持其他语言?

Leximancer内置了对多种语言的支持。

 

如何为文档选择语言?

将每个数据文件拖入文本选择面板时,必须为其选择语言代码。如果将鼠标悬停在列表中的代码上,您可以看到每种语言的全名。您可能需要更改字符集(字符编码)以及默认的utf-8。此字符编码是您数据的属性。

 

语言差异的特殊注意事项是什么?

使用非英语语言时有几个注意事项。以下是总结:

    1、停用词删除

    2、大写单词

    3、词干提取

 

如何编辑支持的语言的停用词列表?

您可以在项目控制的预处理阶段设置中编辑停用词列表。您可能还需要添加到我们默认列表中的其他停用词。保存编辑后的停用词列表后,您可以再次打开它,并使用下载按钮将您修改过的停用词列表保存到本地磁盘。您可以使用停用词编辑器中的上传按钮将其上传到其他项目中。

 

支持的语言有哪些?

当前支持的语言列表可在上方找到。目前无法与Leximancer一起使用没有 readily identifiable word spacing的语言(例如,中文)。

 

支持的字符集是哪些?

  • ISO-8859-1, ISO Latin Alphabet No. 1,
  • US-ASCII, American Standard Code for Information Exchange,
  • UTF-8, Eight-bit UCS Transformation Format,
  • WINDOWS-1252, Windows Western Alphabet,
  • MacRoman, Apple Standard Roman,
  • UTF-16, Sixteen-bit UCS Transformation Format, byte order identified by an optional byte-order mark,
  • UTF-16BE, Sixteen-bit UCS Transformation Format, big-endian byte order,
  • UTF-16LE, Sixteen-bit UCS Transformation Format, little-endian byte order,
  • WINDOWS-1250, Windows Eastern European,
  • WINDOWS-1251, Windows Cryillic,
  • WINDOWS-1253, Windows Greek,
  • WINDOWS-1254, Windows Turkish,
  • WINDOWS-1257, Windows Baltic,
  • ISO-8859-2, ISO Latin Alphabet No. 2,
  • ISO-8859-4, ISO Latin Alphabet No. 4,
  • ISO-8859-5, Latin/Cyrillic Alphabet,
  • ISO-8859-7, Latin/Greek Alphabet,
  • ISO-8859-9, ISO Latin Alphabet No. 5,
  • ISO-8859-13, ISO Latin Alphabet No. 7,
  • ISO-8859-15, ISO Latin Alphabet No. 9,
  • KOI-R, KOI8-R Russian
  • KOI8-R, KOI8-R Russian

 

 

查看Leximancer软件详情

热门产品

2024-05-06 11:00
首页    技术文档    文本分析软件Leximancer支持的多语言功能