- BERT 简介 BERT是2018年google 提出来的预训练的语言模型,并且它打破很多NLP领域的任务记录,其提出在nlp的领域具有重要意义。预训练的(pre-train)的语言模型通过无监督的学习掌握了很多自然语言的一些语法或者语义知识,之后在做下游的nlp任务时就会显得比较容易。BERT在做下游的有监督nlp任务时就像一个做了... BERT 简介 BERT是2018年google 提出来的预训练的语言模型,并且它打破很多NLP领域的任务记录,其提出在nlp的领域具有重要意义。预训练的(pre-train)的语言模型通过无监督的学习掌握了很多自然语言的一些语法或者语义知识,之后在做下游的nlp任务时就会显得比较容易。BERT在做下游的有监督nlp任务时就像一个做了...
- 导读:随着Bert的发布,预训练 ( pre-train ) 成为NLP领域最为热门的方向之一,大规模的无监督语料加上少量有标注的语料成为了NLP模型的标配。本文将介绍几种常见的语言模型的基本原理和使用方式,以及语言模型在网易严选NLP业务上的实践,包括分类、文本匹配、序列标注、文本生成等。 01 前言 文本的表征经历了漫长的发展... 导读:随着Bert的发布,预训练 ( pre-train ) 成为NLP领域最为热门的方向之一,大规模的无监督语料加上少量有标注的语料成为了NLP模型的标配。本文将介绍几种常见的语言模型的基本原理和使用方式,以及语言模型在网易严选NLP业务上的实践,包括分类、文本匹配、序列标注、文本生成等。 01 前言 文本的表征经历了漫长的发展...
- 命名体识别(Name Entity Recognition)是自然语言处理(Nature Language Processing)领域中比较重要的一个任务,几乎百分之50的和文本处理有关的项目中都会涉及到命名体识别。笔者认为其中最关键的原因是:从广义的角度来讲,如果把一句话比作一串珍珠的话,命名实体就是这串珍珠项链中的珍珠,句子的其他部... 命名体识别(Name Entity Recognition)是自然语言处理(Nature Language Processing)领域中比较重要的一个任务,几乎百分之50的和文本处理有关的项目中都会涉及到命名体识别。笔者认为其中最关键的原因是:从广义的角度来讲,如果把一句话比作一串珍珠的话,命名实体就是这串珍珠项链中的珍珠,句子的其他部...
- 今天我们来做NLP(自然语言处理)中Sequence2Sequence的任务。其中Sequence2Sequence任务在生活中最常见的应用场景就是机器翻译。除了机器翻译之外,现在很流行的对话机器人任务,摘要生成任务都是典型的Sequence2Sequence。Sequence2Sequence的难点在于模型需要干两件比较难的事情: ... 今天我们来做NLP(自然语言处理)中Sequence2Sequence的任务。其中Sequence2Sequence任务在生活中最常见的应用场景就是机器翻译。除了机器翻译之外,现在很流行的对话机器人任务,摘要生成任务都是典型的Sequence2Sequence。Sequence2Sequence的难点在于模型需要干两件比较难的事情: ...
- 情感分析(Sentiment Analysis)是自然语言处理里面比较高阶的任务之一。仔细思考一下,这个任务的究极目标其实是想让计算机理解人类的情感世界。我们自己都不一定能完全控制和了解自己的情感,更别说机器了。 不过在人工智能的认知智能阶段(人工智能三阶段——计算智能,感知智能,认知智能),商家还是可以用它来做一些商品或服务的评论分... 情感分析(Sentiment Analysis)是自然语言处理里面比较高阶的任务之一。仔细思考一下,这个任务的究极目标其实是想让计算机理解人类的情感世界。我们自己都不一定能完全控制和了解自己的情感,更别说机器了。 不过在人工智能的认知智能阶段(人工智能三阶段——计算智能,感知智能,认知智能),商家还是可以用它来做一些商品或服务的评论分...
- 前言 语音系统中语音内容识别 ( ASR ) 的精准性,是影响智能语音产品发展的关键制约因素,用户query的文本,通常是由ASR系统将用户的语音命令转换而成,但由于技术上的原因,这些由ASR生成的文本可能包含错误,继而导致后续的用户意图理解出现偏差。如何利用NLP技术对ASR的query文本进行预处理纠错成了一个亟待解决的问题。 ... 前言 语音系统中语音内容识别 ( ASR ) 的精准性,是影响智能语音产品发展的关键制约因素,用户query的文本,通常是由ASR系统将用户的语音命令转换而成,但由于技术上的原因,这些由ASR生成的文本可能包含错误,继而导致后续的用户意图理解出现偏差。如何利用NLP技术对ASR的query文本进行预处理纠错成了一个亟待解决的问题。 ...
- 前言 内容会涉及自然语言处理的各个方面知识内容和具体操作:包括但不仅限于词法分析,句法分析,语义分析,文本聚类,文本分类,情感分析,文本摘要生成,主题模型,词嵌入,文本语义相似度,自然语言推理,机器翻译,语言模型,信息抽取,关系预测,对话,指代消解等等。 针对中文的自然语言处理,我们需要先将段落和句子切分为词语,这是最基础的一步操作... 前言 内容会涉及自然语言处理的各个方面知识内容和具体操作:包括但不仅限于词法分析,句法分析,语义分析,文本聚类,文本分类,情感分析,文本摘要生成,主题模型,词嵌入,文本语义相似度,自然语言推理,机器翻译,语言模型,信息抽取,关系预测,对话,指代消解等等。 针对中文的自然语言处理,我们需要先将段落和句子切分为词语,这是最基础的一步操作...
- 【NLP】⚠️学不会打我! 半小时学会基本操作 4⚠️词向量模型 概述词向量词向量维度Word2VecCBOW 模型Skip-Gram 模型 负采样模型词向量的训练过程1. 初始化词向量矩阵2... 【NLP】⚠️学不会打我! 半小时学会基本操作 4⚠️词向量模型 概述词向量词向量维度Word2VecCBOW 模型Skip-Gram 模型 负采样模型词向量的训练过程1. 初始化词向量矩阵2...
- 【NLP】⚠️学不会打我! 半小时学会基本操作 1⚠️ 分词 概述分词器 jieba安装精确分词全模式搜索引擎模式获取词性 概述 从今天开始我们将开启一段自然语言处理 (NLP) 的旅程.... 【NLP】⚠️学不会打我! 半小时学会基本操作 1⚠️ 分词 概述分词器 jieba安装精确分词全模式搜索引擎模式获取词性 概述 从今天开始我们将开启一段自然语言处理 (NLP) 的旅程....
- 【NLP】⚠️学不会打我! 半小时学会基本操作 2⚠️ 关键词 概述关键词TF-IDF 关键词提取TFIDFTF-IDF jieba TF-IDF 关键词抽取jieba 词性不带关键词权重附带... 【NLP】⚠️学不会打我! 半小时学会基本操作 2⚠️ 关键词 概述关键词TF-IDF 关键词提取TFIDFTF-IDF jieba TF-IDF 关键词抽取jieba 词性不带关键词权重附带...
- 【NLP】⚠️学不会打我! 半小时学会基本操作 2⚠️词向量模型简介 概述词向量维度Word2VecCBOW 模型Skip-Gram 模型 负采样模型词向量的训练过程1. 初始化词向量矩阵2.... 【NLP】⚠️学不会打我! 半小时学会基本操作 2⚠️词向量模型简介 概述词向量维度Word2VecCBOW 模型Skip-Gram 模型 负采样模型词向量的训练过程1. 初始化词向量矩阵2....
- 【NLP】⚠️学不会打我! 半小时学会基本操作 3⚠️ 词袋模型 概述词袋模型向量化 概述 从今天开始我们将开启一段自然语言处理 (NLP) 的旅程. 自然语言处理可以让来处理, 理解, ... 【NLP】⚠️学不会打我! 半小时学会基本操作 3⚠️ 词袋模型 概述词袋模型向量化 概述 从今天开始我们将开启一段自然语言处理 (NLP) 的旅程. 自然语言处理可以让来处理, 理解, ...
- 目录 什么是停用词加载停用词字典删除停用词分词以及删除停用词直接删除停用词(不分词) 什么是停用词 在汉语中,有一类没有多少意义的词语,比如组词“的”,连词“以及”、副词“甚至”,语气词“吧”,被称为停用词。一个句子去掉这些停用词,并不影响理解。所以,进行自然语言处理时,我们一般将停用词过滤掉。 而HanLP库提供了一个小巧的停用词字典,它位于Lib\... 目录 什么是停用词加载停用词字典删除停用词分词以及删除停用词直接删除停用词(不分词) 什么是停用词 在汉语中,有一类没有多少意义的词语,比如组词“的”,连词“以及”、副词“甚至”,语气词“吧”,被称为停用词。一个句子去掉这些停用词,并不影响理解。所以,进行自然语言处理时,我们一般将停用词过滤掉。 而HanLP库提供了一个小巧的停用词字典,它位于Lib\...
- 目录 什么是拼音转换拼音转换输出音调输出声调输出声母输出韵母 处理数字拼音 什么是拼音转换 在我们学习语言之前,我们一般会学习拼音来认识汉字,并学会如何读汉字。所以,拼音在对于我们语言的重要性不言而喻。 而拼音转换指的是将汉字转为拼音的过程。但是,我们中文博大精深,一般来说某个字并不仅仅只有一个读音,比如“翟”,它作为姓氏可以读作zhái,作为其他... 目录 什么是拼音转换拼音转换输出音调输出声调输出声母输出韵母 处理数字拼音 什么是拼音转换 在我们学习语言之前,我们一般会学习拼音来认识汉字,并学会如何读汉字。所以,拼音在对于我们语言的重要性不言而喻。 而拼音转换指的是将汉字转为拼音的过程。但是,我们中文博大精深,一般来说某个字并不仅仅只有一个读音,比如“翟”,它作为姓氏可以读作zhái,作为其他...
- 目录 前言安装HanLP库词典的加载 前言 目前开源的自然语言处理工具有NLTK,CoreNLP,LTP,HanLP。对于我们中国的程序员来说,一般使用哈工大的LTP,或者使用开源的HanLP。 我们后续的讲解都是基于HanLP工具,它具有词法分析,句法分析,关键词提取以及文本分析等。优点是运行特别快,省内存,精度准且免费的特性。 安装HanLP库 ... 目录 前言安装HanLP库词典的加载 前言 目前开源的自然语言处理工具有NLTK,CoreNLP,LTP,HanLP。对于我们中国的程序员来说,一般使用哈工大的LTP,或者使用开源的HanLP。 我们后续的讲解都是基于HanLP工具,它具有词法分析,句法分析,关键词提取以及文本分析等。优点是运行特别快,省内存,精度准且免费的特性。 安装HanLP库 ...
上滑加载中
推荐直播
-
华为云师资培训——《软件工程》课程
2025/08/05 周二 15:00-16:30
Pamela - PaaS开发者支持讲师
华为云师资培训直播,带您掌握产业级软件工程课程体系与华为开发者空间实战能力,助力高校数字化转型!
回顾中 -
大模型赋能开发者社区生态建设
2025/08/05 周二 20:00-21:00
上海交通大学教授曹健
当AI技术重构开发者生态,社区建设如何跳出“流量陷阱”,回归价值本质?本次直播特邀深耕开发者社区研究的专家,上海交通大学教授曹健老师,通过 “社区生态三维模型”(价值共生、技术赋能、情感联结)的核心理论,拆解AI时代社区建设的底层逻辑。如何用AI工具降低参与门槛,让技术交流从“精英圈层”走向“普惠共生”?怎样通过算法优化内容匹配,让社区资源精准触达开发者真实需求?当机器逐渐承担基础协作,社区如何强化“人与人”的情感认同,避免沦为冰冷的技术工具库?
回顾中
热门标签