清債pos機

新聞資訊3 | 2023-08-22 09:16 | 投稿人：pos機之家

網(wǎng)上有很多關于清債pos機, Google 年度頂級論文機器學習系統(tǒng)的知識，也有很多人為大家解答關于清債pos機的問題，今天pos機之家(www.tjfsxbj.com)為大家整理了關于這方面的知識，讓我們一起來看下吧!

本文目錄一覽：

1、清債pos機

清債pos機

新智元原創(chuàng)1

作者：李維

作者介紹：NetBase Solutions 首席科學家，自然語言處理領域專家。

作者在看完新智元12月8日文章《【Google 年度頂級論文】機器學習系統(tǒng)，隱藏多少技術債？》后有感而發(fā)，特作此文。如感興趣，可以點擊閱讀原文瀏覽全文。

我: 真的好文。象牙塔里出不來的經(jīng)驗總結。

楊靜 ? 新智元: @wei 你可以寫一篇點評！

我: @楊靜 ? 新智元這里這么多 ML 大牛，哪里輪得到我這個語言學家點評啊。我算是霧里看花，因為做的都是工程系統(tǒng)，也有強烈共鳴罷了。

很多債務是所有大型軟件工程共有的，這里試圖強調ML的額外特有債務。債務的結果就是系統(tǒng)報廢。歷史上見過不少開發(fā)了很多年的系統(tǒng)，最后死掉了，封存了，無人問津了。當然，死系統(tǒng)的原先的開發(fā)者往往帶著教訓和經(jīng)驗，在下一輪重開爐灶的系統(tǒng)中，輕裝上陣，做得更好。

我們此前討論中遇到的兩難，與這個技術債務也有關。兩難是，軟件工程需要分層和模塊化，而系統(tǒng)需要保留和傳遞 non-deterministic 結果，如何合理處置，是一個很大的挑戰(zhàn)。大家的共識是不要提前給出條件不成熟的確定性結論。但是拖泥帶水從一個模塊進入另一個模塊，對于NLP這樣的系統(tǒng)，負載會越來越重，不堪容忍。對于追求純粹和完美的人，這個兩難無解。

而且即便你找到辦法保留了 non-deterministic results，系統(tǒng)越大，層次越多，最后是越加不 tractable。如果一切都保留到語用層面最后定奪，很懷疑任何系統(tǒng)設計者會受得了那樣的千頭萬緒。反正我們在實踐中是不行的。結果就是不追求純粹和完美，選擇性地、經(jīng)驗性地決定哪些結果可以中途扔掉（枝枝蔓蔓），哪些 non-deterministic 結果必須保留。這種選擇肯定會出現(xiàn)問題。會出現(xiàn)以前的deterministic system 同類的問題。就是所謂鐵路警察各管一段的踢皮球的問題。但是，出問題不可怕，只要系統(tǒng)是掌握在同一個設計師手中，只要一開始考慮架構的時候就給 non-deterministic 的東西留下了空間，這種問題的出現(xiàn)恰好可以 data-driven 地幫助設計者決定如何調配帶還是不帶的決策。

誰把李航請來就好了，也想聽聽他的高見。

白: 應用不同，平衡點可以有所差異。

我: 平衡點總是可以在實踐中調控的。關鍵是，設計者的思維方式的轉變。我們以前吃過很多苦頭。剛開始做系統(tǒng)的時候，受到 community 的影響，認為 POS 是一個 solved problem, 于是做出了一個錯誤的決定，把 Brill 拿來就用。表面上這是加速了系統(tǒng)的進度，后去是擦不完的屁股。這不怪 Brill tagger 的精度不夠，再高的精度（只要不是百分百）也會出現(xiàn)同類的問題。主要怪的是當時沒有意識到模塊間的包容，重于模塊的純粹。于是踢皮球就開始了，凡是后面做不好的，往往歸到前面沒做好支持。很多 parsing 的問題，最后被歸結為 POS 的問題。于是回到 POS 層去打補丁。最后做出了一個畸形的系統(tǒng)出來，給 POS 打補丁的模塊是整個系統(tǒng)最大的模塊，比所有其他模塊（包括前處理、Brill POS、NE、chunking、SVO、Events）加起來還大。原因是 parsing 的東西，在 POS 階段幾乎被重復了一遍，而且是拙劣的重復。在螺絲殼里做道場。這個教訓很深刻。所以，現(xiàn)在學聰明一些了。

個人的教訓是，NLP 沒有免費的午餐，在決定拿來就用的時候要慎重再慎重。寫過一篇，自給自足是NLP王道。

其實后來我們又做出了一個錯誤的決定，雖然這個決定在當時是無可奈何的，但顯然是錯誤的。我們在做多語言的時候，因為迫于 deadline，不得不 license 了 Basis 的多語 morphology，結果不但是擦不完的屁股，交不完的 license fee，更要命的是，他那里一更新，我這里就兩難，升級還是不升級？

還有一個體會，同樣是擦屁股，擦別人的屁股比擦自己的屁股別扭多了。因此，即便自給自足在時間壓力下開始是做不好底層支持的，也比用他人的“成熟”的模塊是更好的選擇。反正，NLP 終歸是長線項目，時間壓力只是要求系統(tǒng)先轉起來，iteratively 和 incrementally 地擦屁股和維護協(xié)調是系統(tǒng)轉起來以后的必由之路。

底層的東西最好不用他人的，再大誘惑也不用。頂層的沒有 dependency 的可以用，譬如系統(tǒng)要做 visualization 展示結果，這個 tool 用 off-shelf 沒有副作用。

干貨下載

如何下載？

以上就是關于清債pos機, Google 年度頂級論文機器學習系統(tǒng)的知識，后面我們會繼續(xù)為大家整理關于清債pos機的知識，希望能夠幫助到大家！