清債pos機

 新聞資訊3  |   2023-08-22 09:16  |  投稿人:pos機之家

網(wǎng)上有很多關于清債pos機, Google 年度頂級論文機器學習系統(tǒng)的知識,也有很多人為大家解答關于清債pos機的問題,今天pos機之家(www.tjfsxbj.com)為大家整理了關于這方面的知識,讓我們一起來看下吧!

本文目錄一覽:

1、清債pos機

清債pos機

新智元原創(chuàng)1

作者:李維

作者介紹:NetBase Solutions 首席科學家,自然語言處理領域專家。

作者在看完新智元12月8日文章《【Google 年度頂級論文】機器學習系統(tǒng),隱藏多少技術債?》后有感而發(fā),特作此文。如感興趣,可以點擊閱讀原文瀏覽全文。

我: 真的好文。象牙塔里出不來的經(jīng)驗總結。

楊靜 ? 新智元: @wei 你可以寫一篇點評!

我: @楊靜 ? 新智元 這里這么多 ML 大牛,哪里輪得到我這個語言學家點評啊。我算是霧里看花,因為做的都是工程系統(tǒng),也有強烈共鳴罷了。

很多債務是所有大型軟件工程共有的,這里試圖強調ML的額外特有債務。債務的結果就是系統(tǒng)報廢。歷史上見過不少開發(fā)了很多年的系統(tǒng),最后死掉了,封存了,無人問津了。當然,死系統(tǒng)的原先的開發(fā)者往往帶著教訓和經(jīng)驗,在下一輪重開爐灶的系統(tǒng)中,輕裝上陣,做得更好。

我們此前討論中遇到的兩難,與這個技術債務也有關。兩難是,軟件工程需要分層和模塊化,而系統(tǒng)需要保留和傳遞 non-deterministic 結果,如何合理處置,是一個很大的挑戰(zhàn)。大家的共識是不要提前給出條件不成熟的確定性結論。但是拖泥帶水從一個模塊進入另一個模塊,對于NLP這樣的系統(tǒng),負載會越來越重,不堪容忍。對于追求純粹和完美的人,這個兩難無解。

而且即便你找到辦法保留了 non-deterministic results,系統(tǒng)越大,層次越多,最后是越加不 tractable。如果一切都保留到語用層面最后定奪,很懷疑任何系統(tǒng)設計者會受得了那樣的千頭萬緒。反正我們在實踐中是不行的。結果就是不追求純粹和完美,選擇性地、經(jīng)驗性地決定哪些結果可以中途扔掉(枝枝蔓蔓),哪些 non-deterministic 結果必須保留。這種選擇肯定會出現(xiàn)問題。會出現(xiàn)以前的deterministic system 同類的問題。就是所謂鐵路警察各管一段的踢皮球的問題。但是,出問題不可怕,只要系統(tǒng)是掌握在同一個設計師手中,只要一開始考慮架構的時候就給 non-deterministic 的東西留下了空間,這種問題的出現(xiàn)恰好可以 data-driven 地幫助設計者決定如何調配帶還是不帶的決策。

誰把李航請來就好了,也想聽聽他的高見。

白: 應用不同,平衡點可以有所差異。

我: 平衡點總是可以在實踐中調控的。關鍵是,設計者的思維方式的轉變。我們以前吃過很多苦頭。剛開始做系統(tǒng)的時候,受到 community 的影響,認為 POS 是一個 solved problem, 于是做出了一個錯誤的決定,把 Brill 拿來就用。表面上這是加速了系統(tǒng)的進度,后去是擦不完的屁股。這不怪 Brill tagger 的精度不夠,再高的精度(只要不是百分百)也會出現(xiàn)同類的問題。主要怪的是當時沒有意識到模塊間的包容,重于模塊的純粹。于是踢皮球就開始了,凡是后面做不好的,往往歸到前面沒做好支持。很多 parsing 的問題,最后被歸結為 POS 的問題。于是回到 POS 層去打補丁。最后做出了一個畸形的系統(tǒng)出來,給 POS 打補丁的模塊是整個系統(tǒng)最大的模塊,比所有其他模塊(包括前處理、Brill POS、NE、chunking、SVO、Events)加起來還大。原因是 parsing 的東西,在 POS 階段幾乎被重復了一遍,而且是拙劣的重復。在螺絲殼里做道場。這個教訓很深刻。所以,現(xiàn)在學聰明一些了。

個人的教訓是,NLP 沒有免費的午餐,在決定拿來就用的時候要慎重再慎重。寫過一篇,自給自足是NLP王道。

其實后來我們又做出了一個錯誤的決定,雖然這個決定在當時是無可奈何的,但顯然是錯誤的。我們在做多語言的時候,因為迫于 deadline,不得不 license 了 Basis 的 多語 morphology,結果不但是擦不完的屁股,交不完的 license fee,更要命的是,他那里一更新,我這里就兩難,升級還是不升級?

還有一個體會,同樣是擦屁股,擦別人的屁股比擦自己的屁股別扭多了。因此,即便自給自足在時間壓力下開始是做不好底層支持的,也比用他人的“成熟”的模塊是更好的選擇。反正,NLP 終歸是長線項目,時間壓力只是要求系統(tǒng)先轉起來,iteratively 和 incrementally 地擦屁股和維護協(xié)調是系統(tǒng)轉起來以后的必由之路。

底層的東西最好不用他人的,再大誘惑也不用。頂層的沒有 dependency 的可以用,譬如系統(tǒng)要做 visualization 展示結果,這個 tool 用 off-shelf 沒有副作用。

干貨下載

如何下載?

以上就是關于清債pos機, Google 年度頂級論文機器學習系統(tǒng)的知識,后面我們會繼續(xù)為大家整理關于清債pos機的知識,希望能夠幫助到大家!

轉發(fā)請帶上網(wǎng)址:http://www.tjfsxbj.com/newstwo/102231.html

你可能會喜歡:

版權聲明:本文內容由互聯(lián)網(wǎng)用戶自發(fā)貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權/違法違規(guī)的內容, 請發(fā)送郵件至 babsan@163.com 舉報,一經(jīng)查實,本站將立刻刪除。