Facebook Hate Speech Detection
只要有人類的地方就會有惡意言論,而 Facebook 身為全球最大的社交平台,從以往僱用審查團隊去人工檢視,近年來也開始引入 AI 系統來輔助偵測,在 NLP 領域令人振奮的 BERT 系列模型更扮演了關鍵的角色。 Facebook Hate Speech Detection:背景介紹及以政策面探討 FB 如何審查、定義惡意言論,AI系統對於目前 FB 的影響 Facebook BERT-based System:以技術角度介紹 BERT-based 模型的迷人之處及其原理 背景介紹 Facebook的創辦人馬克·祖克柏曾說:「Facebook的創建理念是,打造一個全球性的社區,加深人與人之間的聯繫,讓世界上的每個人,都有權利與他人分享他所有的事物」。然而,這看似立意良善的理念,卻淺在著一個問題:「並非所有的使用者都是善良的」。 確實,社群媒體上大部分的使用者都是善良的,單純只是想在社群媒體上與自己的親朋好友分享自己生活中的點點滴滴,透過社群媒體,讓人與人間的聯繫不再因物理上的距離而有所限制,可以輕鬆的在平台上與任何人交換資訊。然而少部分心懷不軌的使用者在社群媒體上散佈各式惡意的內容,試圖去攻擊他人,造成他人身心靈上的創傷。雖然這些用戶佔總體的少數,但社群媒體的資訊傳播速度相對於傳統的口耳相傳來的快上許多,任何資訊都可以在社群媒體上迅速的流傳開來,這也使得內容審核、攔截惡意內容成為重要的課題。平台方應設法在不當內容被傳播開來前就將此內容從平台中移除,保障每位使用者有一個善良和諧的社群環境。 內容審核 Facebook 社群守則-仇恨言論 人工內容審核 在過往,社群平台處理這些不當內容的方式是透過人工的方式將這些內容移除,因此也產生了一個新的職業:內容審核員。內容審核員多是由來自於一些開發中國家的人員所擔任,他們的任務就是將社群媒體上適當的內容保存,不適當的內容移除,以維持社群網路環境的和諧。由於他們的工作與維持我們生活環境整潔的清潔人員相似,只差在於一個是清理現實世界中的垃圾,一個是清理社群網路中的垃圾,因此也有人將內容審核員的工作稱作為「網路清道夫」。 雖然內容審核員的工作幾乎不需要什麼門檻就可以加入,但相比與現實生活中的垃圾,存在於網路世界中的垃圾比現實生活中的垃圾來的「髒」上許多,而這個「髒」是屬於心靈及精神層面的髒。當人長時間暴露於這樣不當內容的環境中,是很容易會造成自己精神及身心靈上的創傷。也因為這樣這樣特殊的工作性質,通常大公司都會將這些工作外包到一些開發中國家,由那些家庭經濟狀況不佳的社會底層人士所承擔。但由於工資低廉,加上長時間的精神暴力衝擊,部分審查員因此患上心理疾病,甚至是走上絕路,也有的寧可辭職,回去從事垃圾回收的工作,也不願在看到網路上那些不當的垃圾內容。 綜合上述,人工內容審核隱含的缺點,除了對於審核員的精神及心靈創傷外,對於企業來說也會增加人事成本並且人工審核的方式效率較低。上述這些缺點也凸顯出了自動化內容審核的重要性,也許將內容審核的工作交給不會受情感影響並且處理速度快的電腦做會是一個比較好的選擇,一方面可以較有效率的進行內容審核的工作,一方面也可降低公司對內容審核員的需求,減少公司的人事成本,也可降低審核員的心理壓力。 Facebook 的 AI 內容審核[ref]How We Review Content[/ref] 隨著近年來人工智慧、深度學習相關技術的蓬勃發展,尤其是 BERT 家族模型在各式自然語言處理相關任務上大放異彩,刷新了各項成績。在2020年Q4,Facebook使用RoBERTa、XLM、XLM-R 等BERT相關模型所建構的AI系統已經可以做到將 97% 的不當言論內容在被用戶檢舉之前就自動化的偵測出並且移除,相比於2017年Q4的23.6%,可說是有很大的進步。 ![[Pasted image 20241231160837.png]] 在技術方面,Facebook 的 AI 系統主要在以下三個方面輔助他們進行內容審核的工作[ref]Measuring Our Progress Combating Hate Speech[/ref]: Proactive Detection (主動檢測):AI 精確度已達到可在使用者發現並檢舉違規內容前,就自動檢測出各種類型的違規內容並將其移除,保障平台上的使用者不會看到違規的內容。 Automation (自動化):對於使用者檢舉的內容,在特定情況下,若內容明顯違規 AI 會自動進行判斷並將違規的內容移除。如此可讓審核員更專注於需要更多專業知識才能進行判斷的內容。除此之外,AI 也可自動化判斷被檢舉的內容中是否有重複的,讓審核員可以不用多花時間一直審核重複的內容。 Prioritization (優先排序):有別於一般依照時間順序進行審合的方式,Facebook 的 AI 系統會先將所有不管來自於使用者檢舉或是系統自動檢測出的違規內容依照嚴重性進行排序,如此便能優先處理那些較嚴重違規、對使用者傷害較大的內容。而在排名的部分是依照內容的傳播性、危害嚴重程度、違規可能性等因素進行排序。對於各個違規內容,若系統可明確判定內容違規,則系統會自動的將此內容從平台中移除。若系統無法明確判定內容是否違規,則會將其交由審核員進行後續審核。 Facebook 的仇恨言論盛行率 仇恨言論盛行率是指使用者在 Facebook 上看到違規內容的次數百分比。計算方式為隨機挑選 Facebook 上的貼文作為實驗樣本,這些樣本內可能會包含來自不同國家、文化背景的使用者所發的貼文,因此 Facebook 會將這些實驗樣本交給來自不同語言、地區的審核員進行審核,判定有多少樣本是違反 Facebook 的仇恨言論政策。根據上述的統計方式,2020 年 7~9 月,Facebook 上的仇恨言論盛行率約為 0.10%0.11%。這代表每 10000 篇貼文中,大概有 1011 篇含有仇恨言論的貼文。 ...