機器人行業現「數據荒」 陸企加速布局數據工廠

THE MERIT TIMES
字級
收藏文章
587觀看次
機器人行業現「數據荒」 陸企加速布局數據工廠
人形機器人企業帕西尼宣布在江蘇宿遷建設超級數據採集工廠。圖/取自央廣網

【本報綜合報導】2026年被稱為是具身智能的「數據元年」,而數據是具身智能廠商在未來競爭中的核心壁壘。據大陸高工人形機器人統計,大陸全國現已有至少15家數據採集和訓練工廠。包括百度雲等雲廠商也積極入局。

智元聯合創始人、總裁、CTO彭志輝近期公開表示行業「數據荒」的問題,他說,「相比大語言模型用了整個互聯網的數據,我們還差3到5個數量級,數據缺口非常大。而且數據要求很高,不只是數字數據,還需要物理世界中的接觸力、摩擦力、重力、粘滯力等高維數據。」

財聯社報導,近期人形機器人企業帕西尼宣布將在江蘇宿遷、湖北武漢、四川自貢、江西贛州建設4座超級數據採集工廠,連帶已在天津落成的數據採集工廠,帕西尼將構建起全球規模最大、模態最全的具身智能數據採集工廠集群, 具備年產近百億條高質量全模態數據的產能。

此外,百度智能雲正聯合零次方、靈生科技、傅利葉、緯鈦科技、拓元智慧、樞途科技、松應科技等具身智能企業,發布具身智能「數據超市」(Beta版),首創層級化、可擴展的數據標籤體系,加速具身智能規模化落地。

而今年數據服務也產生變化,上海庫帕思科技語料運營總監鄧思文提出三點趨勢:一是客戶從「要數據」轉向「真實場景、長程任務、多樣性、大樣本的數據」,對數據標注精度、場景真實性要求大幅提高;二是真實世界數據需求爆發,取代純互聯網數據成為核心採購方向;三是數據服務從單一供給,轉向「採集+標注+合成+治理+應用」一體化交付。

整體而言,具身智能數據形成金字塔意象:底層是互聯網數據,往上是人類行為數據,再往上是合成數據,頂層是真實世界數據。目前金字塔的頂部尤為單薄。

此外,數據採集也面臨高成本問題,高工人形機器人方面指出,目前大部分數採中心投入使用和產出情況不明朗,是否可以實現規模化交付也未有明確的案例,這背後是難掩大規模數採中心的重資產壓力以及數據本身的珍稀性。

《人間福報》是一份多元化的報紙,強調內容溫馨、健康、益智、環保,不八卦、不加料、不阿諛,希冀藉由優質的內涵,體貼大眾身心靈的需要,是一份承擔社會責任的報紙。

加人間福報LINE好友

相關文章

Related articles

熱門文章

Most read
追蹤我們 訂閱《人間福報》