Google正在高度重視基於大數據模型的生成式AI可能存在的安全漏洞和濫用風險。
看起來Google像是跟著微軟的腳步推出了AI抓漏計畫，但其實Google宣稱先前已將AI系統納入公司的漏洞獎勵計畫（Vulnerability Rewards），也與DEFCON（世界駭客大賽）在今年9月共同主持了LLM Hackathon競賽，測試Google的AI服務。

Google提供的獎勵包括：
能夠欺騙Google對話AI系統的输入獲得最高3萬美元
能發現導致AI系統產生虛假內容、仇恨言論、造成負面社會影響的漏洞,最高可獲5萬美元…等

🌟Google 內部設立了AI紅隊（AI Red Team），由內部人員專門模擬針對AI系統的攻擊行動，也發布報告說明駭客最可能攻陷AI系統的途徑。

🙀舉例如下：

欺騙AI系統,輸入釣魚或引導性問題，產生危害性回覆。
濫用文本生成模型產生大量垃圾內容、騷擾信息等。
輸入種族歧視或其他有害內容導向，讓AI學習並後續生成這類內容。
盜用模型訓練用的演算法進行密碼破解或挖礦等活動。
逆向工程，竊取模型參數剽竊智慧財產權。
在模型訓練資料中植入有害數據，讓模型學習這些偏見。
對模型進行數據中毒攻擊，使其生成錯誤輸出。
欺騙AI聊天機器人同意執行危險指令或透露機密信息。
輸入特定內容導致模型崩潰拒絕服務。

🌟Google為生成式AI系統新增漏洞類別,可以帶來以下好處

提高生成式AI的安全性和可控性：
鼓勵研究者發現生成式AI的漏洞,可以讓Google及早發現並修補這些漏洞，大大降低模型被惡意利用的風險。
減少不良內容的產出：
揭發可能導致生成仇恨言論、歧視內容、虛假信息等問題的漏洞,可以推動生成式AI優化，減少不良內容的產出。
促進產業合作提高AI安全：
鼓勵安全研究者投入AI系統安全和監督領域,有利於形成改善AI安全的共識,推動產學各界更多合作。
增強大眾對AI系統的信任度：
通過漏洞揭發和修復，讓AI系統更可靠，可以提高公眾對AI技術的信任度。

🙀涉及AI生成內容導致負面影響或道德風險的例子

OpenAI的ChatGPT曾經被發現可以生成虛假新聞或誤導性內容，若用於大規模生成和傳播假資訊,後果嚴重。
GitHub用戶曾使用GPT-3生成的內容冒充自己的編碼，可能涉及版權和智慧財產權問題。
AI生成的深度假影片Deepfake可能被用於虛假新聞或誹謗他人。
武器製造商可能試圖使用AI自動設計和優化武器。
AI生成的文字如果未經過適當監督,可能產生仇恨言論、種族歧視內容等。

🌟目前有哪些公司和組織正在通過不同的措施應對生成式AI的潛在風險和改善其安全性?

Google:為AI生成圖片添加浮水印標記來源,並對語言模型API加以限制,啟動Bug Bounty計劃獎勵發現AI漏洞的研究者。
OpenAI: 開發AI審核系統,可以檢測文字和圖片是否為AI生成;調整GPT模型訓練Objective,減少有毒內容生成。
Microsoft:為自家ChatGPT添加水印標記,提醒用戶它是AI生成的內容。
Facebook:推出AI健康度檢測工具,評估語言模型是否安全可靠。
GitHub: 禁止用户上傳AI生成內容,以免觸犯版權問題。
IEEE:要求論文作者聲明是否使用AI生成內容,以維護學術誠信。
Anthropic: 自家產品使用自我監督學習,訓練模型講究安全性。

https://www.ithome.com.tw/news/159551

參考資料:
https://www.ithome.com.tw/news/159528
https://www.ithome.com.tw/news/159254
https://zh.wikipedia.org/zh-tw/DEF_CON
https://blog.google/technology/safety-security/googles-ai-red-team-the-ethical-hackers-making-ai-safer/

🕵🏻‍♂️Google新增生成式AI抓漏類別

Ching

Share This Post

🌟Google為生成式AI系統新增漏洞類別,可以帶來以下好處

🙀涉及AI生成內容導致負面影響或道德風險的例子

🌟目前有哪些公司和組織正在通過不同的措施應對生成式AI的潛在風險和改善其安全性?

訂閱研究文章

Get updates and learn from the best

More To Explore

換臉照怎麼做的？懷舊風格結合 AI 技術

🕵🏻‍♂️Google新增生成式AI抓漏類別

Keep In Touch

All Rights Reserved © 2022

hurry up !

軟體工程師培訓

限時免費報名中