您當前的位置:首頁 > 寵物

類目設定有講究,做好關鍵詞等於論文完成了一半

作者:由 DiVoMiner 發表于 寵物時間:2022-10-17

在內容分析法研究實踐中,編碼是核心步驟,因為在進行編碼的過程中,我們需要將概念與框架、概念內容與待分析文字三者連線起來。換言之,在概念到文字資料之間,存在對應理解落差,因為概念本身難以直接測量,因此文字分析的研究中,通常會有一個將概念具體化的步驟,即是將概念落實到維度與測量指標的操作化過程。

為什麼要給類目選項設定關鍵詞?

類目表又叫編碼簿,相當於問卷調查的問卷,差別在於,問卷的詢問物件是受訪者(人),類目表的物件是文字(例如新聞報道、社交媒體內容等)。在大資料技術輔助線上內容分析法的流程中,給類目的選項設定合理的關鍵詞,可以給機器提供自動判斷的依據,方便執行自動化演算法編碼,快速得到資料結果。因此,關鍵詞設定得好不好,會直接影響資料結果的質量。想了解更多關於類目的介紹,點選回顧《建好類目編碼,資料結果就完成一大半啦!》

從研究方法角度出發,類目設定不僅僅是個操作性問題,也是個理論概念化的過程,接下來,小編以研究問題“

媒體如何報道某座城市

”為例,嘗試對概念進行插接,識別出文本與研究概念相關的字詞,並形成服務於研究框架的編碼類目,以此實現對文字資料的測量和量化分析。

首先,我們需要確定研究概念是什麼。

在本例中,對城市的新聞報道這一研究概念可能涉及的面向有:經濟發展、政策法治、社會文化、自然環境、城市建設……接著我們可以進行概念拆解,“經濟發展”概念可以拆分成多個類目:經濟總量、經濟制度、增長速度、產業結構、勞動就業……如果我們願意繼續拆解,如“產業結構”的概念,又可以拆分為第一產業、第二產業、第三產業等等,也就是說,我們可以透過一次次的推敲、羅列與拆解,以豐富和完善概念下的測量指標。

在DiVoMiner®平臺,可在【類目管理】介面設定對應題乾和選項。

類目設定有講究,做好關鍵詞等於論文完成了一半

此處在“經濟發展”類目進行選項設定,將題型設定為“多選題”,並且不勾選“必填”,因為在實際文字中,既可能不出現任何經濟發展相關內容,也可能同時出現“經濟總量”與“經濟制度”等選項,多者並存且不互斥。

類目設定有講究,做好關鍵詞等於論文完成了一半

現實的文字分析涉及到的另一難點是客觀和主觀類目的設定。

如果現實文字接觸到接觸到的是“GDP”、“通貨膨脹”、“民營企業”、“第三產業”等專用名詞,這類表達

客觀性

較強,機器編碼通常不會出錯,因為不太會出現偏差和歧義。但是,若涉及到一些

主觀性

的內容,類目的設定和關鍵詞的選取難度陡增。比如“城市印象”、“情感態度”(如正面、負面與中立的劃分)等。

我們可以嘗試根據自己的感知與理解來設定類目與關鍵詞(此處採用個人經驗法,實際研究場景下,也常借鑑文獻總結出合適的類目,本文不展開闡述)。

城市印象

可以是多維的,比如“進取”、“富裕”、“先進”、“整潔”、“文明”等等。還根據自己的理解、和媒體實際的報道範式,再設定一些更具體的關鍵詞:“進取”、“奮鬥”、“昂揚”、“拼搏”、“苦幹”、“開拓”、“熱火朝天”等等。

這些詞語儘管並不完全準確,但看到這些詞語時,我們還是能想象到一些畫面:為了追求更美好的生活、為了建設更富強文明的城市、為了實現更高的理想,人們不斷地在付出努力。於是,我們可以嘗試在“進取”的類目裡,設定這些關鍵詞,並用“OR”的語法將其串聯起來。當然,雖然我們不能想象到所有描述“進取”的字詞,但依然可以透過推敲不斷細化、增加關鍵詞。

類目設定有講究,做好關鍵詞等於論文完成了一半

在實際編碼中,需要注意文學手法導致的關鍵詞設定難題。

舉個例子,電影藝術裡有“蒙太奇”一說:以一連串分割鏡頭的重組方式,讓毫無聯絡的影象連線起來,從而創造新的意義。這很好理解,比如一篇報道寫了這段話:

“他們加班加點通宵達旦,高樓大廈在午夜依然燈火通明,年輕白領們為了自己能在大城市紮根而拼搏奮鬥,也創造了其他人錦衣玉食、香車美人的生活。”

顯然,此處年輕人艱苦奮鬥和奢華生活畫面組合成為一組蒙太奇,描繪了分配不平等的社會問題。於是,我們需要進一步思考,用於描繪社會不平等或其他負面現象的“進取”相關內容,是否真的構建了城市“進取”的形象?如果我們認為這並不能構建“進取”的形象,那麼我們就可以透過“NOT”的語法,排除掉一些與“進取”交織穿插的負面議題,提高類目的準確性。

如下圖一中的,效果會達到,那麼只要文章裡出現“不平等”、“基尼係數”等詞,就不會被編碼到“進取”的類目當中。

類目設定有講究,做好關鍵詞等於論文完成了一半

反覆推敲關鍵詞和驗證效果,讓設定條件更接近理想效果。

也許我們也會有新的疑問,如果文章裡說的是B城市的社會不平等、轉而讚揚A城市的拼搏進取、勤勞致富,或者用的是“基尼係數很低”、“儘可能消除社會不平等”這些語句,那麼我們的類目設定豈不是南轅北轍了嗎?

此時,我們也可以使用“~”的語法再進行最佳化。如圖所示,當“A城市”和“不平等”在30個字元內同時出現時,就會被認為是在指涉A城市的不平等,從而被排除,避免了將B城市的不平等套到了A城市這一張冠李戴的錯誤。

類目設定有講究,做好關鍵詞等於論文完成了一半

在對類目設定進行種種最佳化之後,回過頭來看,為了更精確地對“進取”進行編碼,我們居然在對社會平等問題的語言表述進行了如此深入的推敲。要知道,我們研究的概念是“媒體如何報道某座城市”啊,我們居然完成了“媒體如何報道某座城市——城市印象——進取——社會平等問題”的遞進,我們是否在鑽牛角尖呢?是否因小失大?

小編可以作出回答:

不是,但也可以說是。

為什麼說不是?

因為類目設定過於簡單、乃至粗糙的話,運用這個類目進行編碼會出現很大的偏差。我們正需要這種精益求精的態度,去不斷最佳化類目設定,以此將研究概念可操作化,從而深入挖掘出文字顯性的、隱性的、客觀的、主觀的、帶有不同情感色彩的內容。

那麼又為什麼說是呢?

因為我們要考慮到文字資料量和時間成本、投入精力等問題,如果我們要處理的文字資料量不大、文字本身也不復雜,結果準確度可以接受的情況下,那麼就沒有必要這麼精細。

當然,也正如小編和DiVoMiner®平臺開發團隊一直強調的一樣,無論我們怎麼細化並改進類目設定,使其儘可能符合實際語境,都不可以完全精確地將其投入機器編碼流程然後萬事大吉。原始文字的“蒙太奇”、“欲揚先抑”、“春秋筆法”、“陰陽怪氣”、“避重就輕”這些文學手法總有辦法繞過我們設定的類目。

因此,類目設定和自然語言就像阿基里斯與龜一樣,每當我們對類目設定和編碼技術進行了新的最佳化,解決了新的問題,就又會有新的問題出現,我們不能完全解決這些問題,只能無限接近之。因此,小編一直強調人工編碼與大資料技術的結合,有的問題需要、也只能交由人工編碼來進行解決,兩者相輔相成、不可分割。人工編碼和大資料技術結合,才能更好地將內容分析的研究概念可操作化,得到更精確的結果。

類目設定有講究,做好關鍵詞等於論文完成了一半

DiVoMiner®

是按學術標準的量化內容分析法一站式平臺,馬上註冊,登入me。divominer。cn,分享給你的朋友,免費學好研究方法,做論文,出報告,研出必行!

如果不想錯過

“文字資料探勘與分析”

的文章,掃描下方關注

“文字資料探勘與分析”

公眾號,即可第一時間在訂閱列表中看到最新推送的文章!做原創,尤其是研究,著實不易,歡迎大家

點贊、分享、留言

歡迎

DiVoMiner®

使用者向本公眾號投稿,分享您的研究成論文或思考,讓更多人看到您的成果!

標簽: 類目  文字  編碼  設定  概念