Google 在 Colab Python 平臺推出免費的 Gemini 驅動數據科學助手
AI 助手正風靡一時,但如何打造一個專注於分析、整理和從海量數據中得出結論的助手呢?
Google 的數據科學助手就實現了這一點:這款由 Gemini 2.0 驅動的全新 AI 助手現已在特定國家和語言地區向 18 歲以上用戶免費開放,可以自動化數據分析流程。
該助手通過 Google Colab 提供服務。Colab 是 Google 運營了 8 年的在線 Python 代碼運行平臺,可以使用 Google 的圖形處理單元 (GPU) 和張量處理單元 (TPU)。
數據科學助手最初於 2024 年 12 月向受信任測試者推出,旨在幫助研究人員、數據科學家和開發人員優化工作流程,可以直接在瀏覽器中根據自然語言描述生成完整功能的 Jupyter 筆記本。
這次擴展符合 Google 將 AI 驅動的編碼和數據科學功能整合到 Colab 的持續努力,延續了 2023 年 5 月發佈的 Codey 驅動的 AI 編碼助手等更新。
這也可以看作是對 OpenAI 的 ChatGPT 高級數據分析功能 (原代碼解釋器) 的一種高級且延遲的迴應,該功能現已內置於運行 GPT-4 的 ChatGPT 中。
什麼是 Google Colab?
Google Colab (Colaboratory 的簡稱) 是一個基於雲的 Jupyter Notebook 環境,允許用戶直接在瀏覽器中編寫和執行 Python 代碼。
Jupyter Notebook 是一個開源的 Web 應用程序,允許用戶創建和共享包含實時代碼、方程式、可視化和敘述文本的文檔。它起源於 2014 年的 IPython 項目,現在支持包括 Python、R 和 Julia 在內的 40 多種編程語言。這個交互式平臺廣泛應用於數據科學、研究和教育領域,用於數據分析、可視化和編程概念教學。
自 2017 年推出以來,Google Colab 已成爲機器學習 (ML)、數據科學和教育領域最廣泛使用的平臺之一。
正如 Spectralops.io 的數據科學負責人 Ori Abramovsky 在 2023 年一篇優秀的 Medium 文章中詳細介紹的那樣,Colab 易於使用且免費提供 GPU 和 TPU 訪問權限,使其成爲許多開發人員和研究人員的出色選擇。
他指出,低門檻、與 Google Drive 的無縫集成以及對 TPU 的支持使他的團隊在開發 AI 模型時大大縮短了訓練週期。
然而,Abramovsky 也指出了 Colab 的一些限制:
會話時間限制 (尤其是免費用戶)。
高峰期資源分配不穩定。
缺乏關鍵功能,如高效的管道執行和高級調度。
支持方面的挑戰,因爲 Google 提供的直接幫助選項有限。
儘管存在這些缺點,Abramovsky 強調 Colab 仍然是最好的無服務器筆記本解決方案之一,特別是在 ML 和數據分析項目的早期階段。
用 AI 簡化數據分析
數據科學助手在 Colab 的無服務器筆記本環境基礎上消除了手動設置的需求。
用戶可以用簡單的英語描述他們的分析目標 ("可視化趨勢"、"訓練預測模型"、"清理缺失值"),助手就會生成可完全執行的 Colab 筆記本作爲響應。
它通過以下方式支持用戶:
自動化分析:生成完整的工作筆記本,而不是孤立的代碼片段。
節省時間:消除手動設置和重複編碼。
增強協作:爲基於團隊的項目提供內置共享功能。
提供可修改的解決方案:用戶可以調整和自定義生成的代碼。
數據科學助手已經加速了現實世界的科學研究
據 Google 稱,早期測試者在使用數據科學助手時報告了顯著的時間節省。
例如,勞倫斯伯克利國家實驗室的一位研究熱帶溼地甲烷排放的科學家估計,使用該助手後,數據處理時間從一週縮短到了僅僅 5 分鐘。
該工具在行業基準測試中也表現出色,在 Hugging Face 的 DABStep:多步推理數據代理基準測試中排名第四,超過了 ReAct (GPT-4.0)、Deepseek、Claude 3.5 Haiku 和 Llama 3.3 70B 等 AI 代理。
然而,OpenAI 的競爭對手 o3-mini 和 o1 模型,以及 Anthropic 的 Claude 3.5 Sonnet,都優於新的 Gemini 數據科學助手。
入門指南
用戶可以按照以下步驟開始使用 Google Colab 中的數據科學助手:
打開新的 Colab 筆記本。
上傳數據集 (CSV、JSON 等)。
使用 Gemini 側邊欄用自然語言描述分析需求。
執行生成的筆記本以查看洞察和可視化結果。
Google 提供示例數據集和提示建議,幫助用戶探索其功能,包括:
Stack Overflow 開發者調查:"可視化最流行的編程語言。"
Iris Species 數據集:"計算並可視化 Pearson、Spearman 和 Kendall 相關性。"
Glass Classification 數據集:"訓練隨機森林分類器。"
每當用戶想要使用新助手時,他們需要導航到 Colab 並點擊"文件",然後選擇"在 Drive 中新建筆記本",生成的筆記本將存儲在他們的 Google Drive 雲賬戶中。
我的簡短演示體驗喜憂參半
誠然,作爲一名普通的科技記者而非數據科學家,我到目前爲止使用新的 Gemini 2.0 驅動的數據科學助手的體驗並不那麼順暢。
我上傳了五個 CSV 文件 (來自 Excel 或 Sheets 的標準逗號分隔值電子表格文件),並詢問"我每月和每季度在公用事業上的支出是多少?"
助手進行了以下操作:
合併數據集,處理日期和賬號不一致問題。
過濾和清理數據,確保只保留相關支出。
按月和季度對交易進行分組以計算支出。
生成可視化效果,如用於趨勢分析的折線圖。
以清晰、結構化的報告總結髮現。
執行前,Colab 顯示確認消息,提醒我它可能會與外部 API 交互。
它在瀏覽器中非常快速流暢地完成了所有這些工作,只用了幾秒鐘。觀看它通過可見的逐步描述來完成分析和編程的過程令人印象深刻。
然而,它最終生成的圖表不準確,只顯示了一個月的公用事業支出,沒有認識到這些表格包含了按月分類的全年數據。當我要求修改時,它試圖改進,但最終無法生成正確的代碼來回答我的提示。
我在 Google Colab 的新筆記本中用完全相同的提示重新嘗試,它產生了一個更好但仍然奇怪的結果。
我需要繼續嘗試排除故障,正如我所說,初始的錯誤結果可能是由於我缺乏使用數據科學工具的經驗。
Colab 定價和 AI 功能
雖然 Google Colab 保持免費,但需要額外計算能力的用戶可以升級到付費計劃:
Colab pro (.99/月):100 個計算單元、更快的 GPU、更多內存、終端訪問權限。
Colab pro+ (.99/月):500 個計算單元、優先 GPU 升級、後臺執行。
Colab enterprise:Google Cloud 集成、AI 驅動的代碼生成。
按需付費:100 個計算單元 .99,500 個計算單元 .99。
除了數據科學助手,Google 一直在擴展 Colab 中的 AI 功能。
Google 收集提示、生成的代碼和用戶反饋以改進其 AI 模型。數據存儲最長 18 個月,但會進行匿名處理,刪除請求可能不會總是得到滿足。建議用戶不要提交敏感或個人信息,因爲人工審覈員可能會處理提示。此外,應仔細審查 AI 生成的代碼,因爲它可能包含不準確之處。
歡迎反饋
Google 鼓勵用戶通過 Google Labs Discord 社區的 #data-science-agent 頻道提供反饋。
隨着 AI 驅動自動化成爲數據科學的關鍵趨勢,Google 在 Colab 中的數據科學助手可以幫助研究人員和開發人員更多地關注洞察而不是編碼設置。隨着該工具擴展到更多用戶和地區,將會很有趣地看到它如何塑造 AI 輔助分析的未來。