而很快,01就生成了一系列的代碼。
周巖下載了斗破蒼穹的文本,對這段代碼進行驗證,很快就得到了不錯的數據,雖然不全面,但顯然這個項目是能進行下去的。
周巖又對這段代碼提出改進要求,包括詞頻可視化,把詞頻用云圖展現出來,包括對詞頻進行文本訓練,從而找出詞與詞之間的關聯。
這一回周巖提出的要求是對兩本文本進行處理,兩本分別是金庸老爺子的神雕俠侶和射雕英雄傳。
很快01給出了相應的代碼修改,周巖復制粘貼之后,進行測試。
其實需求也特別簡單,就是找主角之間的人物關系。
楊過對應小龍女,那么郭靖對應什么,結果黃蓉。
周巖又找了楊過和郭靖分別對應的關聯詞,同時讓01局限在人物身上,自己設計一個人物詞判定代碼。
這一回01終于出現了一點錯誤,比如人物切分上面,會把4個詞的人物變成2個詞輸出。
這就是細節上的毛病了,周巖現在也不是算法小白,知道怎么改進,不過周巖更期待01給出的結果。
于是他把這個問題粘貼給了01,而01也給出了對詞頻進行判定,如果兩個拆分的詞同時出現多次,那么判定兩個拆分的詞合并成為同一個詞,并在字典中刪除前面兩個拆分詞,并對已經分詞好的數據進行處理,合并兩個拆分詞,沒有分詞好的就以該拆分詞作為分詞依據,照著分詞就行。
粘貼進去以后,周巖發現效果意外的不錯。
只是之后人物判別上也出現了一些問題,會把武器什么的加進去。
周巖又去問01,01回答了一些代碼修改,但加進去以后,依舊是老樣子,沒法做到細致的劃分。
周巖問01有沒有什么好的辦法,01說在處理之前,就把處理的人物給預設出來,這樣就不會出現之后判定錯誤的情況。
也就是從源頭解決問題,同樣也算是一件很機械的處理方式。
但是人類有時候的處理,同樣很機械,而且也是填鴨式的,就比如基因測序。
所以對于這一點也沒辦法太過要求什么,01做到這個程度,其實已經挺不錯了。
周巖又預設了幾個小型項目,并對01進行測試。
終于周巖也得出了一個結論。
那就是01已經具備了較復雜的代碼作業能力。
更加專業的周巖自身實力有限,測試不出來,不過這個01用來應付小白顯然沒有什么問題。
測試完代碼,
周巖又測試01的文本完整度,比如讓01自己按照要求寫一段話,要求包含出現的人物,以及事件,并呈現給他01思考的過程。
做這個的目的,周巖也希望能從中找到女黑客編寫的算法邏輯。
而因為對周巖不設門檻,01也呈現出他的思路,包括對事件進行拆分,進行排序,然后進行擴充。
這樣就得到了所謂的人物行為序列。
具體的就是是這樣
a干了干什么,a干了什么導致b干了什么。
b說了什么,a說了什么。
b干了什么,b干什么導致c干了什么。
a說了什么。
b干了什么。
a說了什么
大概就是這樣。
然后對這些句子進行組合,通過自然語言處理進行更進一步的潤色,比如賓狀補之類的詞義補充,就得到了最終的句子。
周巖其實也明白,后來智能對話模型之所以那么火,其本質原因還是不對外界呈現出相應的步驟。
相當于黑箱效應,這樣就給人一種不明覺厲的感覺。
很神秘,也很厲害,也因此受到很多人追捧
但這樣的處理方式,本身就存在很大的操作糊弄空間。
如果你詢問的是百科類的知識,人家早早就已經準備好了文本庫,你問什么答什么,本質上還是搜索引擎的功能。