NO.24 | 2017.10.31
banner
title有備而來 友善列印>>
看國外如何利用機械學習檢測垃圾郵件─M3AA 41th General Meeting _應用服務組 林高裕 經理



M3AA General Meeting主要為各國在訊息濫發防制上的議題提出討論、分享作法、及法規制訂與執行現況,在依照不同的領域性(垃圾郵件、廣告簡訊、廣告電話、Do Not Call、Robot Call)分別在依照技術面、政策面、各國現況等不同主題分別舉行相關會議,其中在M3AAWG(The Messaging, Malware and Mobile Anti-Abuse Working Group)的團體當中,NCC所加入的會員組織為UECNET(THE UNSOLICITED COMMUNICATIONS ENFORCEMENT NETWORK),該組織前身為LAP(THE LONDON ACTION PLAN),於2016年9月更名為UECNET,組織成員主要為各國在垃圾郵件防制上的主責機關,共同致力於垃圾郵件有關之「情報」、「法規」、「溝通」、「訓練」等議題上建立共識與交流。本次出席會議人員包含有:國家通訊傳播委員會基礎設施事務處蘇簡任技正思漢及李技正福懿、本中心應用服務組林經理高裕。



心得內容將針對兩主題進行分享,完整內容另行參閱出國報告。
一、介紹利用機械學習檢測垃圾郵件濫發(Intro to Machine Learning for Detecting Abuse)

機械學習(Machine Learning)已廣泛使用在各項領域,並且在資安方面也積極發展,除了能夠更快速掌握重要資訊外,更重要的可以輔助人力在資料分析上效率的提升。一般企業或郵件服務供應商(Email Service Provide),已經導入機械學習的技術,其目的為了降低Email用戶在收到郵件前,就已經協助過濾出哪些是屬於垃圾郵件範疇,以確保用戶能夠避免接觸到過多不必要的資訊,甚至是惡意釣魚郵件(Phishing)。

過去在判斷垃圾郵件特徵的方式,習慣透過內容中的「關鍵字/詞」的邏輯組合進行分類,但是由於類型變得越來越複雜,規則組合開始變得難以掌控,包括如何記錄、傳遞以及處理這些郵件的分類,許多解決這樣問題的技術就必須仰賴機器學習這個範疇,協助完成建立分類的邏輯,亦即是要如何解決自動化方式從數據的某些特徵中學習他們之間的關係。

本次議程第一天的活動行程,主要是透過直接上機操作方式,瞭解透過機械學習協助垃圾郵件的濫用偵測。該場次共有兩個主題,分別是:「Intro to Machine Learning for Detecting Abuse」、「More Advanced Topics in Machine Learning for Detecting Abuse」,由Dr. Victor Amin來介紹、解說。

 

 
Victor博士是任職美國SendGrid電子郵件服務公司的一位數據科學家,主要的任務就是增強電子郵件的可交付性,藉由數據科學的管理,阻止垃圾郵件、網絡釣魚和其他濫用行為的發生,並且協助重要的郵件發送到他們該去的地方。Victor博士創建數據策略,構建機器學習的產品,並進行由PB級數據量的嚴峻分析研究。

在「Intro to Machine Learning for Detecting Abuse」過程中,Victor博士透過Microsoft Azure Notebooks雲端服務方式,加上Python技術介紹如何透過機械學習來偵測垃圾郵件的氾濫情形。主題包含有:

1.   A quick intro to this coding environment.
2.   A basic primer on machine learning.
3.   A practical example of using machine learning to detect spam.

接著在第二場「More Advanced Topics in Machine Learning for Detecting Abuse」,透過實際數據資料訓練,來呈現如何應用機械學習輔助偵測哪些屬於垃圾郵件。

Python是目前廣泛被使用在數據分析技術領域上的程式語言,同時也是腳本程式工具(Script Language Tool),Victor博士先以事先準備好的垃圾郵件資料,一步一步介紹如何將數據以散點圖方式呈現,同時發現數據的趨勢,並建立數據模型,如下圖所示。



接下來透過實際測試資料的演算,繪製出趨勢,並透過與數據模型的比較找出差異,將這些差異進行修正,如下圖所示。


Victor博士採用的是「Random Forest演算法」,透過該演算法對電腦進行訓練與學習方式,反覆數次,同時在提供資料量與樣本數越來越多時,分析出結果能力越來越貼近真實狀況,詳如下圖趨勢所示。


有鑑於機械學習應用領域越來越廣泛,亦可應用在判定偵測是否為垃圾郵件濫用的範疇,在未來透過Spam佈點主機的布建,蒐集Spammer濫發垃圾郵件的行為特徵上,將有助於協助未來維運分析人員進行垃圾郵件特徵判斷。

二、 我與日本MIC及JADAC交流會議

本次交流主要是與日本總務省(Ministry of Internal Affairs and Communications,MIC)電信局第二電信消費者政策處(Second Telecommunications Consumer Policy Division,Telecommunications Bureau)之岡本剛和(Yoshikazu OKAMOTO)企劃官(Director)、日本數據通信協會(Japan Data Communications Association,JADAC)反垃圾電子郵件諮詢中心(Anti-Spam Consultation Center)西松薰(Kaoru NISHIMATSU)次長(Director)、谷原秀彥(Hidehiko TANIHARA)審議役(Deputy Director)進行面對面的交流會談。

照片由左至右分為:西松薰、谷原秀彥、岡本剛和、蘇思漢、林高裕、李福懿
 
本次會晤開始前,分別由NCC基礎處蘇簡任技正思漢及林經理高裕,分別致贈日方代表紀念品,以表示友好關係,同時因日本數據通信協會為財團法人性質組織,與電信技術中心屬性相當,未來有機會可以向日本方面有關垃圾郵件防制的作法,包含技術面、法規面,如何協助主管機關完成防制與管理事務,進一步合作與交流,日方積極表達未來可安排前往參訪Spam成果的可能性。
 
 
 
西松薰先生為日本垃圾郵件主管機關-總務省委託辦理防制垃圾郵件事務之主辦機構首長,主要擔任諮詢指導業務,負責Honeypot 資料分析、對垃圾郵件資訊交換、國際合作及電話諮詢建議等垃圾郵件防制業務。西松薰表示,日本約有1.2億個email帳號,到目前為止,已經布建了200個honey pots,以供蒐集與分析垃圾電子郵件(spam)。在垃圾郵件情資交流部分,日本到目前為止已與台灣、南韓、中國大陸、香港、越南、巴西、印度(只送不收)、緬甸等國家或地區,針對反垃圾電子郵件(anti-spam)進行情資交流,近期日方希望能與加拿大完成spam情資交換的工作。

岡本剛和表示,在日本方面有關訊息濫發防制與資訊安全管理有明確分工,根據日本的反垃圾郵件法,電子郵件(EMAIL)、簡訊(SMS)均在JADAC負責處理的範圍內,有關網際網路與資訊安全相關議題,則由日本的情報處理推進機構(Information-technology Promotion Agency,IPA)及國家資訊安全中心(National Information Security Center,NISC)進行分工。日方也分享,平均在日本每個行動電話的email帳號大約被詐騙了10到20美元的金額。

在運作組織上,目前JADAC在日常作業有3、4專職人員以肉眼方式輔助針對尚未能判斷為垃圾郵件的相關郵件內容,每天必須處理約1500件電子郵件。日本JADAC已經布建行動電話的spamtrap系統蒐集垃圾郵件。在會談過程中,西松 薰先生分享近年在社群通訊工具逐步流行與廣泛被使用的狀況下(例如:Line),已收到越來越多的民眾向JADAC反應及檢舉這類社群通訊工具的廣告濫發情形,因我國民眾在社群通訊工具的使用習慣上與日本相近,如何在這個領域進行有效的防制與管理,將是我國未來的課題之一,在這部分也將是與日方進一步交流的議題。