相关动态
word2vec词向量中文语料处理(python gensim word2vec总结)
2024-11-10 18:58

目录

word2vec词向量中文语料处理(python gensim word2vec总结)

中文语料处理

法一:语料处理为列表

法二:语料是文件(处理为迭代器

对一个目录下的所有文件生效(法1

 对一个目录下的所有文件生效(法2

class : gensim.models.word2vec.PathLineSentences

对于单个文件语料,使用LineSentence

语料库获取语料

word2vec中文语料处理及模型训练实践


python gensim训练 word2vec的中文语料格式是什么样的呢?很多经验贴或是忽略了这个地方,或是没有详细说明,此博文详细说明及实践语料的处理方式,并汇总数种语料加载方式。

从文章word2vec词向量训练使用(python gensim)对word2vec的介绍,我们了解到Word2Vec第一个参数sentences要求是是预处理后的训练语料库,需要输入一个可迭代的列表,但是对于较大的语料库,可以考虑直接从磁盘/网络传输句子的迭代。

如果是句子,需要进行分词

如果是文件,需要将文件处理为每一行对应一个句子(已经分词,以空格隔开,实例处理过程见文末。

把Python内置列表当作输入很方便,但当输入量很大的时候,大会占用大量内存。

Gensim需要输入一个可迭代的列表,可以是迭代器,没有必要把一切东西都保存在内存中,提供一个语句,加载处理它,忘记它,加载另一个语句。

一般我们的语料是在文件中存放的,首先,需要保证语料文件内部每一行对应一个句子(已经分词,以空格隔开,方法见上。

对一个目录下的所有文件生效(法1

这些文件已经被分词好了,如果还需要进一步预处理文件中的单词,如移除数字,提取命名实体… 所有的这些都可以在MySentences 迭代器内进行,保证给work2vec的是处理好的迭代器。

 对一个目录下的所有文件生效(法2

class : gensim.models.word2vec.PathLineSentences

对于单个文件语料,使用LineSentence

class: gensim.models.word2vec.LineSentence

每一行对应一个句子(已经分词,以空格隔开,我们可以直接用LineSentence把txt文件转为所需要的格式。

LineSentence功能解释:Iterate over a file that contains sentences: one line = one sentence. Words must be already preprocessed and separated by whitespace(对包含句子的文件进行迭代:一行=一句话。单词必须经过预处理,并由空格分隔) 

gensim.models.word2vec.LineSentence(source, max_sentence_length=10000, limit=None) 预处理类,限制句子最大长度,文档最大行数 拿到了分词后的文件,在一般的NLP处理中,会需要去停用词。由于word2vec的算法依赖于上下文,而上下文有可能就是停词。因此对于word2vec,我们可以不用去停词。

语料库获取语料

class gensim.models.word2vec.Text8Corpus

(实践部分代码改编自链接)原始小说语料下载《人民的名义》

    以上就是本篇文章【word2vec词向量中文语料处理(python gensim word2vec总结)】的全部内容了,欢迎阅览 ! 文章地址:http://changmeillh.xhstdz.com/news/6797.html 
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 物流园资讯移动站 http://changmeillh.xhstdz.com/mobile/ , 查看更多   
最新文章
'智能AI文案助手:一键快速生成创意内容的软件工具'
随着人工智能技术的不断发展在各个领域的应用日益广泛。在内容创作领域一键生成文案的软件逐渐崭露头角成为众多创意工作者的得力
Rank Math新手教程指南:最佳Wordpress排名插件2024
Rank Math是一款功能强大的WordPress SEO插件,旨在帮助网站管理员和博主优化他们的网站以提高在搜索引擎中的排名。它提供了全面
数字艺术革命:3D虚拟展览,为艺术爱好者打开新世界
nbsp;nbsp;nbsp;nbsp;便利性:无界限的艺术探索,3D虚拟艺术展览通过高质量的3D扫描技术,将实体艺术品转化为
AI智能营销领域的卓越引领者
作为 AI 智能营销业务的先锋企业,专注于为客户打造智能化的营销解决方案,助力其在激烈的市场竞争中脱颖而出。我们的核心优势在
百度蜘蛛池收录:揭秘蜘蛛池做排名解析技巧,助力网站快速崛起
揭秘蜘蛛池收录技巧,解析如何利用蜘蛛池快速提升网站排名,助力网站快速崛起。本文目录导读:了解蜘蛛池蜘蛛池做排名解析技巧随
网站排名优化,专治周a斯受欢迎的秘诀
网站排名优化是提升网站在搜索引擎中排名的关键。针对周a斯受欢迎的秘诀,关键在于提供高质量、有价值的内容,同时注重网站结构
杭州SEO优化,助您网站飞跃,企业腾飞之道
杭州SEO网站优化,专业提升网站排名,助力企业快速提高网络曝光度,抢占市场份额,实现线上业绩腾飞。通过科学策略,精准关键词
#### 智能创作发布到抖音怎么不存在流量
在数字化时代的浪潮中人工智能()的应用已经渗透到各个领域其中智能创作更是以其高效、便捷的特性受到了广大创作者的青睐。它不
国际站:SEO Checker诊断工具助力商家诊断详情页,提升seo效果
国际站商家看过来:众所周知,一个优质的商品描述,可以提升买家转化的同时,还可以带来更多免费流量,从而让商家获得更多询盘和
相关文章