台湾新闻

標籤: 令人毛骨悚然的电话号码

  • 段候选的答案段落进行比

    基于搜索查询的评估,查询相关评级基于文本段落的术语属性。

    搜索中依赖于答案的问题并未描述搜索者正在寻找的内容,因为搜索者在搜索时并不知道答案。

    基于查询的评分过程首先搜选摘要

    候选索一组可能的答案词,然后将该集合与可能的特色片段候选的答案 手机号码数据 段落进行比较,以生成答案词的命中分数。可能的术语集可能取自搜索查询返回的前 N ​​个排名结果。

    该过程根据查询结果中排名子集所包含的术语创建一个术语列表。专利告诉我们,每个结果都经过解析,并且每个术语都包含在一个术语向量中(请参阅向量空间分析的词汇表条目)。可以从词向量中省略停用词。

    对于列表中的每个术语,可以为该术语生成一个术语权重。每个词的权重可以基于该词出现的最高排名结果子集中的众多结果,乘以该词的逆文档频率 (IDF) 值。IDF 值可以从大量文档中得出,并提供给查询依赖评估器。或者可以从返回结果中的前 N ​​个文档中得出 IDF 值。 (有关 TF-IDF 分析的更多信息,请参阅同事 Kai Spriestersbach)。该专利告诉我们,也可以使用其他合适的术语加权技术。

    每个候选答案段落术语的选摘要候 您的目标群体是谁? 如果您想要瞄准新客户 选评分过程决定了该术语在潜在精选片段候选的文本段落中出现的频率。因此,如果术语“apogee”在考生的文章中出现两次,则该考生答案段落中“apogee”的术语值为 2;然而,如果同一个术语在另一位考生的答案段落中出现了三次,那么另一位考生答案段落中“apogee”的术语值为 3。选摘要候选

    对于候选答案段落中的每个术语,评分过程将其术语权重乘以该术语在答案段落中出现的次数。假设“apogee”的词权重为 0.04。对于考生的第一段答案,以“远地点”为基础的值为0.08(0.08×2);对于考生的第二段答案选摘要候选,基于“远地点”的值为0.12(0.04乘以3)。

    也可使用其他特征来确定评估分数。例如,依赖于查询的评估过程可以确定对搜索查询的响应的实体类型。可以通过识别以下术语来确定实体类选摘要候选型: B. 人物、地点或事物,并选择评级最高的术语。实体也可以从搜索查询中确定(例如,对于搜索查询“谁是跑得最快的人”,答案的实体类型为“人”)。对于每个候选答案,评估过程随后会识别在可能的候选答案中描述的实体。如果实体不包含与所识别实体类选摘要候选型匹配的内容,则候选答案段落的评估分数会降低。(有关实体类型主题的更多信息,请参阅文章《您应该了解的有关实体类型、类别和属性的一切》)。

    假设针对问题[谁是 临时邮箱 跑得最快的人],提供了以下候选答案段落供评估:奥运会短跑运动员经常在奥运会期间创下短跑项目的世界纪录。最受欢迎的短跑项目是100米短跑。

    依赖查询的积分管理器将识别几个实体——奥运会、短跑运动员等——但它们都不是“人类”类型的。 “短跑运动员”一词不分性别。因此,响应词分数会降低。分数可以是二进制分数,例如 1 表示存在实体类型的概念,0 表示不存在正确类型的概念;或者,它可以是正确术语出现在答案候选段落中的概率的度量。