粉丝1017获赞3728

图形在制性研究中发挥着重要作用。使用图形能帮助你探索想法或展示数据中的联系。 在在微博中,有三种比较重要的图形。你可以在项目的不同阶段处于不同的原因使用他们。把信息放到一个可视图标中可以帮助我们决定留下什么和省略什么。 你必须为每个对象找到一个位置,并检查每个连接。制作图形需要并确保对数据有全面的理解。制作图形可以刺激心下 想法的产生。将研究浓缩到图形中会帮助你找出最重要的信息,区别离散的数据和建立可能的联系。思维图反映了你对一个主题的看法,通常是快速或自发创建的。 在项目开始的时候,你可以用思维图来探索你的期望或最初的理论。 之后,你可以用思维图来确认节点的结构。思维图主要是一个头脑风暴工具,从一个中心话题或主要想法开始。 与中心主题相关的想法有一个单独的形状表示另一种想法连接。所有的思想都以某种方式 连接在同一个层次或层级中。有时,你可能会有一个似乎与其他任何想法都没有联系的想法。 你可以把它作为一个浮动想法添加到思维图中。使用思维图时,需要考虑一个关键概念和术语,并考虑可能与之相关的所有内容。 当不确定某个想法的位置或与其他想法之间的关系时,请保持他的浮动性。 一个想法可能会促使其他想法从中分离出来,他们可能处于同级想法,也可能深入到刺激想法当中。建立思维导图。首先单击探索选项卡, 在图组中选择思维图,本利友们学习教师职业苏雅这一主题。建立思维导图。首先输入导图的名称 数量,单击确定。 先输入主要想法的名称,我们可以拖动 边框对这个图形进行放大,我调整 双击他,也可以对这个字体 设置, 然后我们建立他的刺激想法。单击插入刺激想法, 我们输入节点幸运,然后我们 可以单击直接缩养,然后再插入第二个刺激想法, 输入人际关系, 然后我们可以单击人际关系这个刺激想法,再点击插入同级想法。 嗯,叔叔太烫去营业。你们也可以插入一个浮动想法。 活动想法就是这个节点还不确定他和其他节点的关系,是我们把他定为浮动想法。我们单击浮动想法, 然后我们说一个特长, 全选思维导图,我们可以对这个导图的布局大小, 嗯,这个边框和填充进行设置,包括字体。 然后我们可以 把导图的节点创建为案例或节点, 又单机创建了一间文案,令 右键单击思维导图的空白处。我们也可以输出思维导图, 选择搞数图,然后输入导图的名称 和选择导出的路径。记得项目图是研究项目中不同内容的图形表示, 项目图有表示项目中不同内容的形状和显示项目之间连接的连接线组成。在创建项目图之前,要完成数据的编码。使用项目图时,需要先对项目数据提出一个问题, 例如这些文件是如何编码的,哪些案例被分配到这个分类中,为这个分类定义了哪些属性。 然后将问题中心的项目项添加到画面中,以建立查询的项目图。将其他关联项添加到画面,以帮助说明答案。 使用项目图可以帮助我们探索和组织数据,发展观点,建立理论,做出决定,识别新出现的模式,理论和解释,直观的表示项目之间的连接,提供各项目阶段的记录。 要建立项目图,首先单击探索选项卡,选择图组中的项目图,输入项目图名称。 单击确定后,项目图会在详细试图中打开 啊,然后我们单机添加,像不像? 这是我选择添加项目图的节点,你选择职业生涯黄谈, 我们已选择成功与挑战,再选择职业素养,职业培训。 单击确定后,三个节点在详细试图中 出现,然后我们单击这个三角,再展开他的隐藏菜单啊, 这里面显示的有文件,案例,节点关系框架,主题指向啊等一些与这三个节点相关联的一些内容。 我们可以打开一下各个类别的一些隐藏的内容, 然后我们选择和这三个节点相关的一些案例,按住 shift 键,然后 全选这些案例,然后同时按住 shift 键,把这些案例拖出来的项目图当中 啊,这时候我们看,嗯,项目图会自动产生节点案例之间的连接线以及他们的关系,他们表明的是编码关系啊, 我们可以拓展一下这些节点啊,这样看起来会更清楚一些。 我们可以更改项目图的布局肝气,布局窗口,选择一个合适的布局形式。 我们可以对连接器的进行设置, 然后对某些不需要的 结点关联内容可以删除,例如置业培训, 右键单击, 然后我们再选中剩下的这些内容,单击显示关联一下, 这样和这些内容有关的一些关联内容会在左侧的添加关联像列表中显示出来。然后我们可以打开其中的一个关联 属性时,这里面有性别,年龄范围, 我们选择其中的一个属性值。学历,把它展开之后选择本科,按住 shift 全选,然后拖拽,按住 shift 拖拽到 是一个图表当中,这时候额 这些学历相关的一些案例连接已经建成。 可以移动其中的 这些项目图来使这个图表干的更清晰一些, 或者更改项目的布局,单机布局 使项目图看的更清晰一些。项目图的这些节点和案例 是可以通过双击的形式打开,我们登机案例留名就会弹出一个新的窗口,我们也可以双击成功与挑战。打开盖结点。 项目图创建完成后,可以将图形保存在项目之中,并记录观察结果和见解。单击 右键,单击空白处,在弹出了彩蛋中选择导出图, 输入名称和位置,单机保存即可。 利用概念图可以绘制出你的想法,或者探索和展示数据中的连接。使用形状和连接来可视化你的思想和理论的发展。 概念图是由不同形状和连接线组成的自由形式的图形。 你可以将项目项目添加到概念图中,以帮助构建图表,不一定需要有完整的项目才能开始制图。在收集数据时,将项目内容添加到概念图中,可以充实可视化效果,并帮助你进行分析。 检查图表效果最好的方法就是让同事看你的图表,看看他们能否解释你的图表。 建立概念图,首先单击探索选项卡,选择图组中的概念图, 输入概念图名称,教师工作态度。单击确定后,在详细试图中,我们看见 看见图的工作区已经打开,单击添加项目项, 选择我们需要尽力的项目节点, 选择工作内容,工作年限,工作强度和工作态度的满意,直接点单击确定 好,现在我们看这四个缺点已经出现在工作区当中, 我们移动一下这四个节点的位置,满意,工作强度,压力, 工作年限,工作内容在一个水平线上。 然后我们再单击连接器, 把工作强度和压力 与满意之间进行连接。啊,这时候看我们这个连接器是单向的, 我们也可以单击更改连接线,选择这两个节点的关系。这里面有三个选项,一个是单向,一个是对称,一个是关联。 如果是关联的话,我们可以选择第三个选项,关联啊,这样他的连接器就没有了,箭头表示双方有关。 我们也可以增加新的图形来建立新的概念。我们选择一个左三角形,把它拖拽到制图区, 让我们双击他,输入 control 职业 同意 我的指针,然后拖拽这个图形。我们也可以对字体进行设置,选择大好字体, 然后也可以选择它的宽度,填充边界颜色和字字体。 我们重新调整一下节点工作内容,工作年 先看过去, 在制图的过程中,我们也可以添加注视来提示我们接下来的制图的工作,我们可以选择注视形状,把它拖拽到 制图区,双击他,然后输入创建, 把它变得大一点,然后进行自己设置。

在 n l p 领域,词销量是一项非常重要的技术。词销量表示中最简单最有名的其实是 one hot。 例如有一个文本是,在 n l p 任务中,首先需要考虑词如何在计算中表示。 这句话我们可以提取一个不重复的词库,包含在 nrp 任务中,首先需要考虑词如何在计算机表示。这十二个词语用弯号词的方法表示。 在 nrp 任务,这三个词语只需要在这些词语对应词库的位置标记一,其他位置标记零即可。所以说, one hot 的维度由词库的大小决定,在填充数值的时候,所有频率大于等于一的词语标记为一, 其他位置统一标记为零。 one hot 在表示词语的时候有很多缺点,一个是维度灾难,有多少个词语,我们的矩阵就需要扩大多少维。这对于庞大的余料库来说,计算量和存储量 都是很大的问题。第二个问题是无法度量词语之间的相似性。比方说,我们在用余弦相似度来计算任意两个词语之间的相似度,结果都会是零。基于以上问题,我们提出用词项量来表示词语, 具体表示为一串数字,这些数字它可以取任意实数。这样一来,有限的维度的词项量就可以表示无数的词语。大家可以用排 组合的思路来思考一下。十二维的 onehout 只可以表示十二个词语,十二维的词项量可以表示多少个词语呢? 答案是无数个。那表示词项量的这段数字它是怎么得来的呢?这里我们主要讲一下 word to wreck 的思想。 word to wreck 它有一个很重要的假设是文本中离得越近的词语相似度越高。 基于这个假设, were to back 用 sable 和 skip skipgram 来计算词项量矩阵。 sable, 它是用上下文词来预测中心词,而 skipgram 是用中心词来预测上下文词,相作之下, skipgram 明显既高 记仇。所以说我们平时其实一般用的都是 skipgram。 这里提到了两个关键词语,中心词和上下文词。那么明显会有一个问题,针对某个中心词语,它周围的哪些词语能够算是它的上下文词呢? 所以说我们需要定于一个窗口大小,指定每个中心词周围上下文包含哪些词语,然后最大化这些中心词语和上下文词语共同出现的概率,这样我们就能得到词加量。 例如当窗口大小为二的时候,中心词语的前后两个词语就是它的上下文词,大家可以观察一下。 但是在这种情况下,在优化目标函数的时候,其实我们会遇到一个优化问题。 为了方便优化,我们其实是需要综合考虑浅黄色的上下文词和浅绿色的非上下文词。但是当语料库非常大的时候,非上下文词太多了会导致计算灾难。 所以这里我们就指采样部分,副样本在后边代码实战部分会有副采样和窗口大小这两个参数,需要设置词效量表示词语具体表示为一串数字,那这串数字究竟是什 什么意思?它的效果好不好,其实我们人类是难以直接观察出来的,我们可以采用一些方法来验证一下,比方说查找某些特定词语相关度比较高的词语与我们预期的是不是类似, 大家也可以通过可视化的方式看看相似度比较高的词语是不是聚在一起。另外还可以用最经典的类比实验,国王减皇后等于男人减女人。 如果在模型评估环节发现效果不是特别好,那么我们就需要做模型调整优化。这可能是一个比较枯燥的过程,有的同学可能觉得这样不太准确,但是别忘了计算机他只能 识别和存储零和一。所以大家不要以为计算机是可以直接理解我们人类语言的,他只是一个用零和一来存储数据和程序的冷冰冰的机器, 词语的向量表示只是一串数字。之前在情感分析里边,我也告诉过大家,我们要先训练模型,告诉计算机我们的分类标准是什么,他才能帮我们做分析。所以你用来做训练的数据一定要准确。 那么训练好词项量之后,我们可以做什么呢?主要是做一些上层的 n r p 任务,包括主题剧类、情感分析、信息检索等等。那 word two 外科它也有一些缺点,比方说没有考虑同一词,因为 他的每个词语和单个的词像量之间是一一对应的关系,他没有办法根据语境的变化来动态调整词像量。 第二个是窗口的长度是有限的,他只能考虑周围的几个词语,第三个没有考虑全局的文本信息, 还有就是他并没有考虑严格意义上的语序等等,还有一些其他的缺点。如果大家还有一些问题,可以去看看网上阅读一些更多的参考资料, 如果对理论部分还有问题的同学,可以再看一下我整理的参考资料。在代码实战部分,主要分为三个方面,分词、模型训练和模型评估。 注意,如果模型评估的结果不是很好的话,我们要返回去再做模型训练,然后再回去做模型评估。如此反复迭代,得到比较好的模型 导入工具包。导入工具包我们主要用的是 jason 它里边的工具来做词像量训练。 注意,我们的文本语料选取的是三国演义这本小说。 在这边我同样又没有设置路径,大家注意,在做自己的训练的时候, 这个文件我是和代码放在一起了,所以我并不需要做路径设置,我只需要直接读取这个文件就行。然后对记事本里 里边的每段文本分别分词,分完词之后大概就是这种格式,这是一段文本,这也是一段文本。然后把这这些分好词的文本 输入到 word to whack 模型里,我们看一下这些参数。 vector size 指的是词项量的维度大小,这里我们设置了二十位。 window 指的是窗口大小,前边理论部分我讲过了, window 窗口大小指的是什么? mincant, 它是一个最低词频域值,也就是说我们在做模型训练的时候,会把词频小于三的词语去掉,大家也可以重新设置这个域值。 apple 指的是模型训 的迭代次数。 negative 前边讲过了,是指负踩压,我们会踩每次踩多少个负样本。做完模型训练之后,我们输出了 孔明的词像量,大家可以数一数,它总共有二十个数值来表示它的词像量,然后 我们又输出了与孔明最相关的前二十个词语有关,公先主、周瑜、孙权、玄德、云长还行这个结果。 第二个模型评估用可视化来实现。注意我们前面词项量定义的是二十尾,二十尾我们很难把它可视化,那为了可视化 话,我们就需要把词项量降为,在降为的时候选取的是 p c a。 主成分分析,如果对 p c a 感兴趣的同学,大家可以去看上边儿我整理的参考资料, 大家可以看一下在降为之前二十维的词项量,然后降为之后他只剩两维,这样我们就可以一列作为 x, 一列作为 y, 把这些词语映射到这个二维的图表里,这些黑色的词语指的是所有的词语。 在这个图里边,我们突出显示了孙权、刘备、曹操这些词语,大家可以观察一下,这里刘备和诸葛亮是在一起的,司马懿、曹、 曹操、周瑜这些人是在一起的,整体上结果是还 ok。 最后一个类比实验, 类比实验主要是利用呃向量的减法来做一个关系类比,大家可以看看玄德对孔明,那曹操对谁。相关性比较高的是司马懿、周瑜这些人, 曹操对属那魏啊,曹操对魏那属应该对谁呢? 相关性比较高的是玄德、司马懿、周瑜、孙权这些人。模型效果目前来看还算 ok, 大家在模型训练的时候可以多调整一下这些参数, 以及还有很多其他的参数,这里我没有细说,大家可以再去自己再去看一下,比较一下不同的参数设置得到的词项量的结果会有什么不同的效果?