首頁

企業(yè)介紹

產(chǎn)品介紹

合作伙伴

相關(guān)資訊

聯(lián)系我們

EN CN

聯(lián)系我們

【人工智能資訊】如何正確地運(yùn)用人工智能模型？

2021-7-13

【人工智能資訊】

模型，是客觀事物的簡化表示！

歷史上，每一個(gè)偉大模型的提出，都極大地推動了科學(xué)和社會的發(fā)展，比如歷史上出現(xiàn)的3個(gè)非常有名的模型——萬有引力定律、大陸漂移假說、日心說。

在人工智能領(lǐng)域，也有很多模型用來解決現(xiàn)實(shí)生活中遇到的千千萬萬的問題。

我們在現(xiàn)實(shí)生活或業(yè)務(wù)場景中遇到的問題一般可以分為6個(gè)通用問題簇：權(quán)重問題、狀態(tài)問題、序列問題、表示問題、相似問題和分類問題。

那么，在遇到特定場景的特定問題時(shí)，選擇什么模型，或需要對現(xiàn)有模型做哪些方面的修正和改良，就成了大家最感興趣的話題。

我們只要將遇到的問題歸為其中某一類，就可以尋找相關(guān)的模型來解決了。

為了快速對問題進(jìn)行分類，幫助大家更好地運(yùn)用模型，本文就帶大家來看一下運(yùn)用人工智能模型的基本步驟！

首先，我們需要參考知識圖譜的相關(guān)理念，對各問題簇進(jìn)行描述。

1. 用知識圖譜表示問題

熟悉人工智能的讀者一定聽說過知識圖譜，其被稱為彌補(bǔ)當(dāng)前深度學(xué)習(xí)困局的最佳方向。

這里希望借助知識圖譜的許多術(shù)語來研究我們在現(xiàn)實(shí)生活中可能遇到的問題。

知識圖譜的基本理念

整體來說，知識圖譜是一個(gè)“知識”的網(wǎng)狀結(jié)構(gòu)。

知識圖譜主要包含3個(gè)術(shù)語：實(shí)體（Entity）、屬性（Attribute）和關(guān)系（Relation）。

在知識圖譜中，我們將需要描述的事物稱為實(shí)體。實(shí)體可以是看得見、摸得著的事物，如汽車、房子、電視、風(fēng)扇；也可以是虛擬的事物，如軟件、程序、算法、方案等。

屬性是實(shí)體的特征，一般來說一個(gè)實(shí)體有多個(gè)屬性。

在不同的應(yīng)用場景中，對同一個(gè)實(shí)體，我們整理的屬性集合可能完全不同。例如，同樣是統(tǒng)計(jì)我國的14億個(gè)國民，實(shí)體集合是相同的，教育部門在做業(yè)績報(bào)表時(shí)可能更關(guān)注國民的學(xué)歷屬性，財(cái)政部門在做業(yè)績報(bào)表時(shí)可能更關(guān)注國民的稅收屬性，統(tǒng)計(jì)部門在做業(yè)績報(bào)表時(shí)可能更關(guān)注國民的收入屬性。

客觀世界的各個(gè)事物之間有千絲萬縷的聯(lián)系，在知識圖譜中，我們把這種聯(lián)系用實(shí)體之間的關(guān)系來抽象表述。

關(guān)系（Relation）在知識圖譜中一般用一個(gè)三元組（X,R,Y）表示，其中X和Y是兩個(gè)實(shí)體，R是關(guān)系。

在實(shí)際實(shí)現(xiàn)時(shí)，R可以是布爾型，例如夫妻關(guān)系可以用是和否的一個(gè)布爾型表示；也可以是枚舉型，例如用戶對書籍的喜愛程度可以用1星、2星、3星、4星、5星等5個(gè)枚舉值表示；還可以是實(shí)型，例如用戶A和用戶B的相似度；也可以是其他可能的類型。

建立知識圖譜的一般步驟

對于一個(gè)實(shí)際的業(yè)務(wù)場景，如果要建立一個(gè)知識圖譜體系，一般會包括如下步驟。

確定實(shí)體的類型：分析業(yè)務(wù)場景的需求，判斷為滿足業(yè)務(wù)需求需要多少類實(shí)體。
確定實(shí)體的屬性：分析實(shí)際業(yè)務(wù)需求，判斷每一類實(shí)體應(yīng)該有多少個(gè)屬性，分別是哪些屬性。
確定屬性的數(shù)據(jù)類型：這是一個(gè)純技術(shù)問題，布爾型、整型、實(shí)型、字符串等，這個(gè)比較簡單。
確定實(shí)體間的關(guān)系：根據(jù)業(yè)務(wù)需求分析實(shí)體之間有哪些聯(lián)系，用什么形式表示成關(guān)系。

為了對實(shí)際業(yè)務(wù)場景中可能遇到的問題進(jìn)行分類，我們可以建立問題的知識圖譜。問題知識圖譜的建立過程，與上述過程類似，也要分析問題可以表示為多少類實(shí)體，每類實(shí)體有哪些屬性和關(guān)系。

問題的屬性研究

使用知識圖譜的方法來研究實(shí)際業(yè)務(wù)場景中可能遇到的問題，每一個(gè)問題即為知識圖譜的一個(gè)實(shí)體。

對于每一個(gè)實(shí)體，我們一般關(guān)注的屬性有前提假設(shè)、已有數(shù)據(jù)、待求數(shù)據(jù)等。

這幾個(gè)屬性的含義分別如下。

前提假設(shè)：現(xiàn)實(shí)業(yè)務(wù)場景的問題一般都有特定的前提假設(shè)。在求解問題時(shí)，我們首先要知道問題有哪些前提假設(shè)，是否會影響問題的解決效果，不同的前提假設(shè)會導(dǎo)致問題需要使用不同的模型來求解。
已有數(shù)據(jù)：在求解問題時(shí)，肯定有一些已知數(shù)據(jù)，對于解決問題的模型，我們一般把這些已知的數(shù)據(jù)叫作模型的輸入。在分析問題時(shí)，首先要仔細(xì)分析這些已知數(shù)據(jù)。已知數(shù)據(jù)不同，或數(shù)據(jù)格式不同，可能會需要采用不同的模型來求解。
待求數(shù)據(jù)：所謂要解決某一個(gè)問題，其實(shí)就是有某個(gè)數(shù)據(jù)未知，需要想方設(shè)法求出來。對于模型，我們一般把這些待求數(shù)據(jù)叫作模型的輸出。在分析問題時(shí)，對這些待求數(shù)據(jù)更要認(rèn)真分析，不同的待求數(shù)據(jù)需要不同的模型來求解。

問題的關(guān)系研究

前面已經(jīng)提道：使用知識圖譜的方法來研究實(shí)際業(yè)務(wù)場景中可能遇到的問題，每一個(gè)問題即為知識圖譜的一個(gè)實(shí)體，對實(shí)體與實(shí)體之間的關(guān)系的研究也非常重要。

一般來說，實(shí)體的關(guān)系主要包括如下3種。

實(shí)體之間的關(guān)系：要分析實(shí)體之間的關(guān)系，尤其是實(shí)體之間的負(fù)相關(guān)關(guān)系。之所以要研究實(shí)體之間的關(guān)系，是為了讓問題解決得更徹底，避免出現(xiàn)解決一個(gè)問題導(dǎo)致其他問題又出來的情況。
已知數(shù)據(jù)之間的關(guān)系：一般來說，每個(gè)問題的已知數(shù)據(jù)不是一個(gè)，而是多個(gè)，我們要仔細(xì)分析這些已知數(shù)據(jù)之間的關(guān)系。對于同一個(gè)問題，不同的已知數(shù)據(jù)關(guān)系，會導(dǎo)致最終選擇不同的求解模型，從而有不同的結(jié)果。
已知數(shù)據(jù)與待求數(shù)據(jù)的關(guān)系：歸根到底，所謂解決問題，就是從已知數(shù)據(jù)求解未知數(shù)據(jù)的過程，即根據(jù)輸入找到輸出的過程。因此我們在分析問題、建立問題的知識圖譜時(shí)，要認(rèn)真分析已知數(shù)據(jù)和待求數(shù)據(jù)之間的關(guān)系。

2. 問題分析的示例

前面描述的構(gòu)建問題知識圖譜的內(nèi)容可能有點(diǎn)空洞，所以接下來就通過一些實(shí)例來理解一下。

例如，我們考慮如下實(shí)際業(yè)務(wù)場景：我們要處理海量的判決文書的數(shù)據(jù)，分析完成后，律師輸入一個(gè)案件的案由，希望系統(tǒng)返回與本案件最相似的案件，這就是同案同判的實(shí)際場景。同案同判對于辯護(hù)律師、法官、法律體系科研人員都有重要意義。

前提假設(shè)分析

我們先探討一下前提假設(shè)的分析，用實(shí)際案例讓讀者體會一下前提假設(shè)分析對問題求解及模型選擇的影響。為了分析和處理海量的判決文書，第一個(gè)要解決的問題是對一篇文章中的各個(gè)單詞賦予權(quán)重。

讀者可能馬上會想到TF-IDF模型，這只是一個(gè)條件反射，因?yàn)榇蠹以趯W(xué)習(xí)過程中了解最多的模型就是TF-IDF模型。對詞語權(quán)重賦值最完美，最經(jīng)得住實(shí)踐檢驗(yàn)，最有名氣的模型就是TF-IDF模型。TF-IDF模型的前提假設(shè)是：文章中比較重要的詞語在當(dāng)前文檔會頻繁出現(xiàn)，在其他文檔中出現(xiàn)的頻次卻不那么高。

在同案同判場景中，我們并不關(guān)心上訴人和被上訴人是誰，只對案件的作案動機(jī)、作案手段、作案過程、作案結(jié)果等感興趣。而在實(shí)際的判決文書中，高頻出現(xiàn)的詞語一般是上訴人和被上訴人，“重要的詞語會在當(dāng)前文檔高頻出現(xiàn)”這個(gè)假設(shè)不成立。TF-IDF的前提假設(shè)已經(jīng)失效，如果我們還堅(jiān)持使用傳統(tǒng)的TF-IDF模型求解問題，則效果勢必很差。

已有數(shù)據(jù)的分析

已有數(shù)據(jù)是什么？數(shù)據(jù)是什么格式的？有多大規(guī)模？數(shù)據(jù)是否已經(jīng)清洗？

這些都會影響問題的求解，影響模型的選擇和運(yùn)用。還是上述的同案同判的場景，如果我們從判決文書網(wǎng)下載了最高人民法院公布的幾千萬份判決文書語料，那么一般的技術(shù)路線是將這幾千萬份判決文書進(jìn)行分類處理（也可能是聚類），用同一個(gè)類的質(zhì)心來表示該類別。律師輸入某個(gè)案由后，我們實(shí)際要做的是將該案由分到某個(gè)或某些類中，因此這是一個(gè)分類模型。

如果沒有海量的判決文書語料，那么上述分類方法就不可行。

我們可能需要整理法律文書語料的知識圖譜。在建立好知識圖譜后，對于律師輸入的某個(gè)案由，系統(tǒng)要做的工作是將該案由與知識圖譜中的實(shí)體做相似度計(jì)算，返回相似度最大的實(shí)體信息。這需要使用相似模型。模型用到的特征可能包括作案性質(zhì)、作案手段等內(nèi)容，這些內(nèi)容可能是文本形式，也可能是格式化好的數(shù)據(jù)庫形式。

待求數(shù)據(jù)的分析

待求數(shù)據(jù)的變化會影響產(chǎn)品的形式，也會對模型的選擇造成影響。還以上述同案同判的場景為例，如果已有數(shù)據(jù)已經(jīng)確定，就是有幾千萬的判決文書數(shù)據(jù)，同案同判可能至少有兩種不同形式的待求數(shù)據(jù)（輸出數(shù)據(jù)）。

第一種形式是使用最多的，輸入一個(gè)案由，系統(tǒng)返回與該案由最相似的若干判決文書結(jié)果。
第二種形式更復(fù)雜，輸入一個(gè)案由，系統(tǒng)返回最佳的判決結(jié)果。

兩種待求數(shù)據(jù)完全不同，需要使用的模型集合也會完全不同。

對于第一種待求數(shù)據(jù)，一般會采用向量空間模型來表示文本；使用余弦相似度或加權(quán)余弦相似度模型來計(jì)算相似度；然后返回相似度最高的若干結(jié)果即可。
對于第二種待求數(shù)據(jù)，向量空間模型明顯失效。在向量空間模型中非常相似的兩個(gè)文書，對于律師來說可能差之毫厘，謬以千里。例如如下兩個(gè)判決結(jié)果，在向量空間模型中相似的可能接近或等于1，但是在律師眼里這兩個(gè)判決結(jié)果簡直是天壤之別。我們可能需要類似LSA等語義模型，需要知識圖譜等其他表示模型。

A．法院最終判決：被告人賠償受害者100萬元人民幣，判處有期徒刑6.0個(gè)月。

B．法院最終判決：被告人賠償受害者1000萬元人民幣，判處有期徒刑60個(gè)月。

關(guān)系分析

在分析問題時(shí)，還需要分析已有數(shù)據(jù)與待求數(shù)據(jù)之間的關(guān)系。數(shù)據(jù)之間的關(guān)系不同，求解模型可能也會不同。

例如，《模型思維》一書在第2篇介紹了3種權(quán)重計(jì)算模型：TF-IDF模型、線性回歸模型和PageRank模型。

假設(shè)場景是分析中國的名人排名：一個(gè)是要排出中國的“Top 500 富豪榜”；一個(gè)是要排出中國的“Top 500權(quán)威專家榜”；一個(gè)是要排出中國的“Top 500 影響力人物榜”。

計(jì)算富豪榜時(shí)的已有數(shù)據(jù)是各人的收入、股票、基金、債券、房產(chǎn)等；計(jì)算權(quán)威專家榜時(shí)的已有數(shù)據(jù)是各人的畢業(yè)學(xué)校、學(xué)歷、論文、專利、業(yè)績等；計(jì)算影響力人物榜是各人的人脈關(guān)系。

但是，計(jì)算富豪榜時(shí)我們會使用TF-IDF模型來做適度調(diào)整；計(jì)算權(quán)威專家榜時(shí)我們會使用線性回歸模型來做適度調(diào)整；計(jì)算影響力人物榜時(shí)我們會使用PageRank模型來做適度調(diào)整。

計(jì)算富豪榜時(shí)需要考慮收入、股票、基金、債券、房產(chǎn)等多個(gè)維度，計(jì)算權(quán)威專家榜時(shí)需要考慮各人的畢業(yè)學(xué)校、學(xué)歷、論文、專利、業(yè)績等多個(gè)維度，為什么這些維度這么相似，卻會使用不同的模型呢？這就需要我們認(rèn)真分析各維度之間的差異。

收入、股票、基金、債券、房產(chǎn)之間是可以有統(tǒng)一量綱的，即美元、歐元或人民幣；而畢業(yè)學(xué)校、學(xué)歷、論文、專利、業(yè)績等是沒有統(tǒng)一量綱的，必須使用回歸模型。

聲明：我們發(fā)布的部分文章和圖片來源于網(wǎng)絡(luò)，用于專業(yè)知識和市場資訊的交流與分享。任何個(gè)人或組織若對文章版權(quán)或其內(nèi)容的真實(shí)性、準(zhǔn)確性存有疑義，請第一時(shí)間聯(lián)系我們。我們將及時(shí)進(jìn)行處理。

電話：010-6786-3382

郵編：100176

服務(wù)熱線：010-6786-3382

傳真：010-6786-3382

郵箱：bjgz_marketing@163.com

網(wǎng)址：http://www.gxsnw.com.cn

企業(yè)介紹

關(guān)于我們發(fā)展歷程品牌榮譽(yù) 業(yè)務(wù)范圍

產(chǎn)品介紹

碳纖維樹脂基真空輔材結(jié)構(gòu)夾芯材料膠黏劑脫模劑工具和防護(hù)用品

相關(guān)資訊

企業(yè)新聞

聯(lián)系我們

聯(lián)系我們招聘動態(tài)

掃一掃
關(guān)注微信公眾號

18禁无遮挡啪啪无码网站_中文字幕精品久久久久人妻红杏1_人妻丰满熟妇av无码区_欧美人与ZOZOXXXX视频_CHINESEFREE高潮抽搐_国产肉丝袜在线观看

首頁

企業(yè)介紹

產(chǎn)品介紹

合作伙伴

相關(guān)資訊

聯(lián)系我們

模型，是客觀事物的簡化表示！