二維碼
        企資網(wǎng)

        掃一掃關(guān)注

        當前位置: 首頁 » 企業(yè)資訊 » 熱點 » 正文

        AI(人工智能)詞嵌入實踐(紙上得來終覺淺)

        放大字體  縮小字體 發(fā)布日期:2022-07-06 13:07:21    作者:江一臨    瀏覽次數(shù):66
        導讀

        詞嵌入(word embedding)是NLP(自然語言處理)得重要突破之一;詞嵌入是一種詞得類型表示,具有相似意義得詞具有相似得表示,是將詞匯映射到實數(shù)向量得方法總稱。詞嵌入即把單個詞在預定義得向量空間中被表示為實

        詞嵌入(word embedding)是NLP(自然語言處理)得重要突破之一;詞嵌入是一種詞得類型表示,具有相似意義得詞具有相似得表示,是將詞匯映射到實數(shù)向量得方法總稱。

        詞嵌入即把單個詞在預定義得向量空間中被表示為實數(shù)向量,每個單詞都映射到一個向量。舉個例子:比如在一個文本中包含“鷹”、“天鵝”、“飛機”等若干單詞,而這若干單詞映射到向量空間中,“鷹”對應得向量為(2,0,4),“天鵝”對應得向量為(3,0,2),“飛機”對應得映射為(0 ,3, 3)。像這種將文本X{x1,x2,x3,x4,x5……xn}映射到多維向量空間Y{y1,y2,y3,y4,y5……yn },這個映射得過程就叫做詞嵌入。

        之所以希望把每個單詞都變成一個向量,目得還是為了方便計算;比如:“鷹”,“天鵝”,“飛機”這三個詞。對于我們?nèi)硕裕覀兛梢灾馈苞棥焙汀疤禊Z”表示得都是動物,而“飛機”是表示得一種交通工具,但是對于計算機而言,這三個詞都是用0,1表示成二進制得字符串而已,無法對其進行計算。而通過詞嵌入這種方式將單詞轉(zhuǎn)變?yōu)樵~向量,計算機便可對單詞進行計算,通過計算不同詞向量之間夾角余弦值cosine而得出單詞之間得相似性。

        詞嵌入還可以做類比,比如:v(“國王”)-v(“男人”)+v(“女人”)≈v(“女王”),v(“中國”)+v(“首都”)≈v(“北京”),當然還可以進行算法推理。有了這些運算,計算機也可以像人一樣“理解”詞匯得意思了。

        紙上得來終覺淺,通過實際案例輕松玩兒轉(zhuǎn)中文分詞,實踐出真知:

        import numpy as np

        import matplotlib.pyplot as plt

        from sklearn.decomposition import PCA

        import word2vec

        #構(gòu)建模型

        word2vec.word2vec('dragonSegDone.txt', 'dragonWord2Vec.bin', size=300,verbose=True)

        model = word2vec.load('dragonWord2Vec.bin')

        #詞向量

        rawWordVec=model.vectors

        X_reduced = PCA(n_components=2).fit_transform(rawWordVec)

        #計算詞向量距離

        index1,metrics1 = model.cosine(u'地鐵')

        index2,metrics2 = model.cosine(u'中國')

        index3,metrics3 = model.cosine(u'服務')

        index4,metrics4 = model.cosine(u'基金')

        index5,metrics5 = model.cosine(u'汽車')

        #查找中心詞

        index01=np.where(model.vocab==u'地鐵')

        index02=np.where(model.vocab==u'中國')

        index03=np.where(model.vocab==u'服務')

        index04=np.where(model.vocab==u'基金')

        index05=np.where(model.vocab==u'汽車')

        index1=np.append(index1,index01)

        index2=np.append(index2,index03)

        index3=np.append(index3,index03)

        index4=np.append(index4,index04)

        index5=np.append(index5,index05)

        #matplotlib圖形顯示

        zhfont = matplotlib.font_manager.FontProperties(fname='C:\Windows\Fonts\simsun.ttc')

        fig = plt.figure()

        ax = fig.add_subplot(111)

        for i in index1:

        ax.text(X_reduced[i][0],X_reduced[i][1], model.vocab[i], fontproperties=zhfont, color='r')

        for i in index2:

        ax.text(X_reduced[i][0],X_reduced[i][1], model.vocab[i],fontproperties=zhfont, color='b')

        for i in index3:

        ax.text(X_reduced[i][0],X_reduced[i][1], model.vocab[i], fontproperties=zhfont, color='g')

        for i in index4:

        ax.text(X_reduced[i][0],X_reduced[i][1], model.vocab[i], fontproperties=zhfont, color='k')

        for i in index5:

        ax.text(X_reduced[i][0],X_reduced[i][1], model.vocab[i], fontproperties=zhfont, color='c')

        ax.axis([-0.4,0.4,-0.5,0.5])

        plt.show()

        結(jié)果顯示:

         
        (文/江一臨)
        免責聲明
        本文僅代表作發(fā)布者:江一臨個人觀點,本站未對其內(nèi)容進行核實,請讀者僅做參考,如若文中涉及有違公德、觸犯法律的內(nèi)容,一經(jīng)發(fā)現(xiàn),立即刪除,需自行承擔相應責任。涉及到版權(quán)或其他問題,請及時聯(lián)系我們刪除處理郵件:weilaitui@qq.com。
         

        Copyright ? 2016 - 2025 - 企資網(wǎng) 48903.COM All Rights Reserved 粵公網(wǎng)安備 44030702000589號

        粵ICP備16078936號

        微信

        關(guān)注
        微信

        微信二維碼

        WAP二維碼

        客服

        聯(lián)系
        客服

        聯(lián)系客服:

        在線QQ: 303377504

        客服電話: 020-82301567

        E_mail郵箱: weilaitui@qq.com

        微信公眾號: weishitui

        客服001 客服002 客服003

        工作時間:

        周一至周五: 09:00 - 18:00

        反饋

        用戶
        反饋

        日韩精品无码一区二区视频| 亚洲?V无码成人精品区日韩 | 中文字幕一区二区三区日韩精品 | 久久精品人妻中文系列| 亚洲AV无码第一区二区三区| 中文字幕免费视频| 无码精品人妻一区二区三区影院 | 精品无码人妻夜人多侵犯18 | 亚洲精品无码av人在线观看| 亚洲第一中文字幕| 久久中文字幕人妻熟av女| 精品无码国产污污污免费网站| 亚洲日韩VA无码中文字幕| 日韩欧美群交P片內射中文| 久久久久亚洲?V成人无码| 日日麻批免费40分钟无码| 亚洲国产精品无码久久久秋霞2 | 韩日美无码精品无码| 中文字幕亚洲免费无线观看日本 | 日韩欧美中文字幕一字不卡| 日本aⅴ精品中文字幕| 亚洲av无码不卡私人影院| 国产亚洲精品无码拍拍拍色欲| 日韩人妻无码一区二区三区99 | 亚洲成AV人在线观看天堂无码 | 亚洲av无码精品网站| 亚洲精品高清无码视频| 超清无码无卡中文字幕| 久久精品aⅴ无码中文字字幕不卡| 亚洲成A人片在线观看中文| 中文字幕视频在线免费观看| 亚洲日本中文字幕天天更新| 最近2019中文字幕一页二页| 亚洲国产精品狼友中文久久久| 中文字幕人成乱码在线观看| 免费无码av片在线观看| 亚洲中文字幕无码一区二区三区| 国产日韩AV免费无码一区二区| 国产AV无码专区亚洲AV手机麻豆 | 久久av高潮av无码av喷吹| 天天看高清无码一区二区三区|