Posts tagged with Text Processing

20080403 ~Mauste ja Susi

今天只剩上午還有一堂 AEC 就放假,下午的 Seminar 本來是星期五的課,雖然現在調到星期四,但為了避免打亂大家的行程,老師仍然讓我們放假,於是出現這種有趣的情況。

上午的 AEC 由陳老師報告自己的研究,這個研究我之前就聽過一次了,所以今天還滿不想去上課的… 不過我賴床賴了一陣子,終於想醒來時看了一下手機,發現剛好是九點,我想這可能是天意,便還是去上了課。雖然已經聽過一次同樣的研究,但當時還是大學生,而且也沒有說得如此詳細,經歷過研究生生活後,今天再聽一次仍然很有收穫,瞭解了更多細節。

上完課後,我和胤凱一起去 Lab ,在圖書館門口買飲料時,某人1難得地打了電話來,更精確地說,距離上次電話交談大約有 111 天 18 小時 40 分2。我沒有預料到某人這麼快就看見昨天的日記,我知道昨天那段寫出來,某人一定看得懂我在說誰,所以今天的這通電話在某種程度上算是人為操作下的不公正實驗。某人今天的行為其實還滿危險的,因為反應有可能會兩極化——昨天我試圖將生疏的感覺歸咎於網路,今天這通電話如果還是讓我感覺像裝熟的話,那我就沒有辦法再合理化什麼了。

這大概是我接過的電話中,除了打錯的以外,內容最為貧乏的一通,不過這也沒辦法,我們兩人都不善交際,某人能有撥出的行為,大概就可以解讀為我們還是朋友,至少可以確定的是——某人試圖這樣表達。

買完飲料後,我和胤凱到 Lab 玩老師的搜尋引擎玩了好久,至少也有一小時 XD 然後發現了其中的部份原理…… 難怪老師可以斷詞斷得如此完美,不管斷詞系統如何聰明,可以斷出這一大堆正確的人名也是不太可能的。更明顯的是,搜尋我們自己的名字,很容易就能在相關關鍵字中發現自己的同學或老師,但搜尋藝人團體中其中一人的名字,卻不會出現該團體中的其他人名——這樣看來,如果我拼命拿沒什麼意義的文字3去搜尋,說不定就能玩壞他的機制…… XD 不過目前正常資料庫實在太龐大,我想要惡搞應該也沒那麼容易… 這樣也能解釋為什麼這個沒有什麼人知道的搜尋引擎,最新字詞卻會源源不絕的增加,應該是為了避免字詞不夠多而露餡,有派機器人在蒐集關鍵字。

接下來我繼續寫了一點 Delphi ,想要解決昨天的問題,不過問題不但解決不了,還引發出更大的問題,所以我暫時就不想寫了… 轉而幫忙胤凱 debug ,雖然最後還是沒辦法照老師的方法寫,不過胤凱說這樣已經可以了 XD

大家都離開後 Lab 變得有些冷清,春假的影響力還真大。我在 Lab 看完《KITE LIBERATOR》後才回宿舍,還滿好看的,雖然血噴得有點過度4,不過我覺得沒關係 :p


  1. 在這篇還繼續使用「某人」這個稱呼有些違和,但是我不想打那兩個字。 

  2. 誤差在一分鐘內,我覺得沒有必要精確到秒。 

  3. 例如… 亂數假文產生器…… XD 

  4. 連小傷口也亂噴血 XD 

20080314 ~π

今天是祖沖之紀念日,希望大家還記得這位偉大的古代科學家 XD

昨天我太早醒來,又上了一天的課,因此晚上九點一回房間馬上就上床睡覺,但是才睡到半夜兩點就醒了,最近的睡眠品質都類似這樣,明明很累卻又睡不死,結果就是該醒著的時間也累得要死…… 不知道是怎麼回事。

除了要紀念祖沖之以外,今天也是 TOEIC 放榜的日子。1其實我並不會很急著想查,因此雖然半夜兩點就醒來,但等到早上八、九點時我才到 TOEIC 網站查詢2。我的聽力得到 380 、閱讀得到 360 ,總分 740 ,接下來當然就是馬上去查成績換算表,把 TOEIC 換算成 GEPT 或 iBT-TOFEL ,結果根據我查到的幾個換算表看起來是有通過啦~ 讓我 High 了一下。然而晚上我歡天喜地的向熊報喜時,熊卻說:「不是要 750 分嗎?」如果真的是只差 10 分,那我就太絕望啦~ <囧>

之後我查了東華其他科系網站,發現資工系有提供相當完整的對照表,而根據這篇對照表,我還缺 40 分,雖然一樣是不通過,但如果是差 40 分,那我比較不絕望一點… orz

到了中午睡回籠覺時聖學打電話來,問我關於教務處網站的問題,雖然我的手機是設無聲,但當時卻也剛好醒來,並且發現旁邊的手機正在發光,這實在是一件非常奇怪的事情,平常我睡覺時都幾乎沒有警覺心的…… XD

下床後沒多久,我收到了管院助理寄來的 E-mail ,而這實在是一個非常糟糕的壞消息——管院助理說她剛才修改了網站,但是卻是用舊版檔案修改,改完直接覆蓋掉我做的新版,也不先檢查一下,實在讓我非常地絕望…… 因為我完全沒有留備份檔,這下又得重新開始作,為了讓這位天兵助理記取一下教訓,這幾天我就先讓管院網站繼續爛著吧~

接下來我連續兩週有兩個報告,其中一篇 Paper 有 40 頁那麼多,我還是第一次看這麼多頁的 Paper ,所以應該會很忙 orz

Herbivora

今天沒事時寫完了 Herbivora ,完成最後的輸出檔案功能,這個步驟看似簡單,但實際上卻滿麻煩的。這是最後的步驟,所以我用了非常大量的資料來測試,測出兩個之前沒發現的問題:第一個問題是因為我懶惰而沒支援 Quoted-Printable ,萬萬沒想到這堆資料中還真的有人還在用 Quoted-Printable… 而另一個問題則是有人直接在寄件人、主旨中直接寫 Big5 中文,常理中這些欄位應該要先經過 Base64 或 Quoted-Printable 編碼才行。除了這兩個主要的問題外,還有更天才的是在 From 中只寫了名稱而沒有 E-mail 位址,或者是 “Subject:” 後面沒有空白…… 這種太誇張的我就乾脆不支援,直接判斷為 unsolicited mail……

前面提到的問題都是有關 RegEx 的,我現在也還是不懂為什麼程式執行到這裡就會停住,因為我並不是寫錯, RegEx 比對不符合是很正常的情況,但是程式卻會停在這裡。由於 C# 也並不覺得這是個 Error ,所以不會中斷程式, Bug 就變得超難抓~

最後我重新畫了圖示,大圖看起來比較精緻,但縮成圖示大小時似乎不是很清楚… :p


  1. 前幾天我跟熊聊到 TOEIC 放榜日期時,我說:「也是祖沖之紀念日耶!」,結果熊說:「是白色情人節啦!祖沖之是誰啊?!」我… 我還真的完全沒有想到這個 XD 

  2. 一方面也是因為我怕 TOEIC 沒這麼早開放系統,而害我白跑一趟 XD 

 1