Data
We analyze three types of Russian media and how they discuss Russia’s cooperation with Asian countries. The dataset includes three sources:
National Media Outlets – six major media outlets targeting a general audience. They operate under different degrees of informal state censorship.
Regional Media – news publications from local and regional agencies, targeting residents of specific areas. They are generally less tightly controlled but focus mainly on local events.
Expert Publications – articles from expert platforms and specialized outlets. They are not primarily targeted at the general public but are written in a more accessible form than academic publications.
本研究では、ロシアのメディアがアジア諸国との協力についてどのように論じているかを分析する。分析対象のデータは、以下の三種類のメディアから構成されている。
全国メディア:一般読者を対象とする主要な全国メディア6社。これらのメディアは、非公式な国家による統制を程度の差はあるものの受けている。
地域メディア:地方および地域の報道機関によるニュース媒体であり、主に各地域の住民を対象としている。全国メディアと比較して統制は比較的弱いが、主に地域の出来事を中心に報道している。
専門家向け媒体:専門家向けのプラットフォームや専門媒体に掲載された記事。主な対象は一般読者ではないが、学術論文よりも理解しやすい形式で書かれている。
Methods
Keyword Frequency Analysis
We lemmatize (transform every word into its dictionary form) texts and count the words and words collocations and track their frequency yearly.
キーワード頻度分析
テキストをレマタイズ(各単語を辞書形に変換)した上で、単語および単語のコロケーション(連語)の出現頻度を集計し、その年次変化を追跡する。
Source: https://provalisresearch.com/products/content-analysis-software/wordstat-whats-new/
2. Topic Modeling
Step 1: Convert Text into Numbers
Computers don’t understand words, so we turn text into a matrix of word frequencies using a technique called TF-IDF (Term Frequency-Inverse Document Frequency).
This helps us identify important words that appear frequently in a document but are rare across the entire dataset.
Step 2: Find Topics Using an Algorithm
A mathematical method, such as Non-Negative Matrix Factorization (NMF) or Latent Dirichlet Allocation (LDA), is used to group words into topics.
is a machine learning technique that helps us discover hidden themes in large text collections.
Topic modeling automatically finds groups of words that often appear together in a corpus of documents and labels them as topics.
In our research we use NMF (Non-Negative Matrix Factorization).
2. トピックモデリング
ステップ1:テキストを数値データに変換する
コンピュータは単語そのものを理解できないため、テキストを TF-IDF(Term Frequency–Inverse Document Frequency) という手法を用いて、単語の出現頻度に基づく行列へ変換する。
この方法により、特定の文書内では頻繁に現れるが、データセット全体では比較的まれな重要語を特定することができる。
ステップ2:アルゴリズムを用いてトピックを抽出する
非負値行列因子分解(NMF) や 潜在ディリクレ配分法(LDA) といった数学的手法を用いて、単語をトピックごとにグループ化する。
トピックモデリングは、大量のテキストデータから潜在的なテーマを発見するための機械学習手法である。
この方法は、文書コーパスの中で共起しやすい単語のグループを自動的に抽出し、それらをトピックとして識別する。
本研究では NMF(Non-Negative Matrix Factorization) を用いる。
Source: https://ai.stackexchange.com/questions/25914/is-non-negative-matrix-factorization-for-machine-learning-obsolete
3. Sentence (Text) Embeddings
We use sentence embedding models. They are the trained model which can transform the sentence in a vector of a set dimension with numeric values. These vectors are not interested as mere rows of numbers but they do represent the semantic relations between these vectors. In practice, they show how semantically close sentences and texts are in comparison with each other. Usually, this distance is measures as cosine similarity, or cosine distance between two vectors in multidimentional space.
We will tell the process in details in the Inclusivity narratives slide.
3. 文埋め込み
本研究では、文埋め込みモデル(sentence embedding models) を使用する。これらは学習済みモデルであり、文を一定の次元数を持つ数値ベクトルへと変換することができる。
これらのベクトルは単なる数値の並びではなく、ベクトル同士の意味的関係(semantic relations) を表現している。実際には、文やテキスト同士が意味的にどの程度近いかを示す指標として用いられる。
通常、この類似度はコサイン類似度(cosine similarity)、あるいは多次元空間におけるベクトル間のコサイン距離(cosine distance)として測定される。
具体的な分析プロセスの詳細については、「Inclusivity narratives」スライドで説明する。
How we can compare different vectors and why distances between vectors matter
Source: https://mikexcohen.substack.com/p/king-man-woman-queen-is-fake-news
Embedding transforms sentences into vectors, i.e. we can compare these vectors
Source: https://mikexcohen.substack.com/p/king-man-woman-queen-is-fake-news