词嵌入(wordembedding)技术的优势在于它能将语义相近的词在嵌入空间中表示为相近的向量,比传统的one-hot编码更节省空间且能体现词语间的语义关系。



词嵌入(wordembedding)技术的优势在于它能将语义相近的词在嵌入空间中表示为相近的向量,比传统的one-hot编码更节省空间且能体现词语间的语义关系。

A、正确

B、错误

正确答案:A

答案解析:

节省空间方面:传统的one-hot编码是对每个词进行独热表示,假设词汇表中有N个词,那么每个词都会被表示为一个长度为N的向量,且只有一个位置为1,其余位置为0。这种表示方式非常稀疏,会浪费大量的存储空间。例如,若词汇表大小为10000,则每个词的one-hot向量维度就是10000。而词嵌入技术将词映射到一个低维的向量空间,比如将词映射到维度为100的向量空间,大大降低了向量维度,从而节省了空间。

体现语义关系方面:one-hot编码无法体现词语之间的语义相似性,任何两个one-hot向量之间的距离度量(如欧式距离、余弦相似度等)都不能有效反映词的语义相关性,因为它们的非零元素位置不同,导致向量之间的差异较大。而词嵌入通过在大规模文本数据上进行训练,使得语义相近的词在嵌入空间中具有相近的向量表示。例如,“汽车”和“轿车”这两个语义相近的词,它们的词嵌入向量在空间中的距离会比较近,通过计算向量之间的相似度(如余弦相似度)就可以衡量词语间的语义关系,这是one-hot编码所不具备的优势。


Tag:动手学AI人工智能通识与实践 时间:2025-11-16 11:15:54