統計処理により、そう結論付けることができます。 統計データ処理。 統計データ処理

あなたの優れた成果をナレッジベースに送信するのは簡単です。 以下のフォームをご利用ください

研究や仕事でナレッジベースを使用している学生、大学院生、若い科学者の皆様には、大変感謝していることでしょう。

http://www.allbest.ru/ に投稿

統計データ処理

導入

統計的分散サンプル相関

実験結果を統計処理する方法は、数学的手法、公式、定量的計算の方法であり、実験中に得られた指標を一般化してシステムに導入し、その中の隠れたパターンを明らかにすることができます。 私たちは、実験で研究された変数間に存在する統計的な性質のパターンについて話しています。

数学的統計分析の一部の方法では、サンプル平均、サンプル分散、最頻値、中央値など、データのサンプル分布を特徴付けるいわゆる初等数学的統計を計算できます。 分散分析や回帰分析などの数学的統計の他の方法を使用すると、個々のサンプル統計の変化のダイナミクスを判断することができます。 3 番目のグループの方法、たとえば相関分析、因子分析、サンプルデータを比較する方法を使用すると、特定の実験で研究されている変数間に存在する統計的関係を確実に判断できます。

1. 実験結果の一次統計処理方法

数学的および統計的分析のすべての方法は、従来、一次と二次に分けられます。 主な方法は、実験で行われた測定結果を直接反映する指標を取得するために使用できる方法です。 したがって、一次統計指標とは、精神診断方法自体で使用され、精神診断結果の初期統計処理の結果である統計指標を意味します。 二次手法は統計処理手法と呼ばれ、一次データに基づいて、その中に隠された統計パターンが明らかになります。

統計処理の主な方法には、たとえば、サンプル平均、サンプル分散、サンプル モード、およびサンプル中央値の決定が含まれます。 二次手法には通常、相関分析、回帰分析、および 2 つ以上のサンプルの一次統計を比較する手法が含まれます。

初歩的な数学統計を計算する方法を考えてみましょう。

1.1 ファッション

サンプルの数値特性は、通常は計算を必要とせず、いわゆるモードと呼ばれます。 最頻値は、調査対象の特性の定量的な値であり、サンプル内で最もよく見られます。 正規分布を含む特徴の対称分布の場合、最頻値は平均値と中央値の値と一致します。 他のタイプの分布 (非対称) では、これは一般的ではありません。 たとえば、一連の特徴値 1、2、5、2、4、2、6、7、2 では、他の値よりも 4 回頻繁に発生するため、モードは値 2 になります。

ファッションは次のルールに従って見つかります。

1) サンプル内のすべての値が同じ頻度で出現する場合、このサンプル系列には最頻値がないことが一般に認められています。 例: 5、5、6、6、7、7 - このサンプルには流行はありません。

2) 2 つの隣接する (隣接する) 値が同じ周波数を持ち、それらの周波数が他の値の周波数よりも大きい場合、最頻値はこれら 2 つの値の算術平均として計算されます。 たとえば、サンプル 1、2、2、2、5、5、5、6 では、隣接する値 2 と 5 の頻度は同じで 3 に等しいです。この頻度は他の値の頻度よりも大きくなります。 1 と 6 (1 に等しい)。 したがって、この級数の最頻値は =3.5 になります。

3) サンプル内の 2 つの隣接しない (隣り合っていない) 値が、他の値の周波数よりも大きい等しい周波数を持っている場合、2 つのモードが区別されます。 たとえば、系列 10、11、11、11、12、13、14、14、14、17 では、最頻値は値 11 と 14 です。この場合、サンプルは二峰性であると言われます。

3 つ以上の頂点 (モード) を持つ、いわゆるマルチモーダル分布も存在する場合があります。

4) モードがグループ化されたデータのセットから推定される場合、モードを見つけるには、特性の周波数が最も高いグループを決定する必要があります。 このグループをモーダルグループと呼びます。

1.2 中央値

中央値は、調査対象の特性の値であり、この特性の値で順序付けされたサンプルを半分に分割します。 順序付けられた系列の中央値の右側と左側には、同じ数の特徴が残ります。 たとえば、2、3、4、4、5、6、8、7、9 のサンプルの場合、左右に 4 つの指標があるため、中央値は 5 になります。 シリーズに偶数の特性が含まれている場合、中央値は平均値となり、シリーズの 2 つの中心値の値の合計の半分と見なされます。 次の行 0、1、1、2、3、4、5、5、6、7 の中央値は 3.5 になります。

中央値を知ることは、研究対象の特性の部分値の分布が対称的であり、いわゆる正規分布に近似しているかどうかを判断するのに役立ちます。 正規分布の平均と中央値は、通常は同じか、ほとんど違いがありません。 特徴の標本分布が正規分布である場合、データの正規分布に基づく二次統計計算の方法をそれに適用できます。 そうしないと、計算に重大なエラーが入り込む可能性があるため、これを行うことはできません。

1.3 サンプル平均値

統計指標としてのサンプル平均 (算術平均) 値は、実験で調査された心理的品質の平均評価を表します。 この評価は、精神診断検査を受けた被験者のグループ全体における発達の程度を特徴づけます。 2 つ以上のサンプルの平均値を直接比較することで、これらのサンプルを構成する人々の評価された品質の相対的な発達度を判断できます。

1.4 サンプルスプレッド

サンプルの広がり(範囲と呼ばれることもあります)は、文字 R で示されます。これは、サンプルに対して取得できる最も単純な指標です。特定の変動系列の最大値と最小値の差、つまり、

R= xmax - xmin

測定された特性が変化するほど R 値が大きくなり、その逆も同様であることがわかります。 ただし、2 つのサンプル系列の平均値と範囲が同じであるにもかかわらず、これらの系列の変動の性質が異なる場合があります。 たとえば、次の 2 つのサンプルがあるとします。

X = 10 15 20 25 30 35 40 45 50X = 30 R = 40

Y = 10 28 28 30 30 30 32 32 50 Y=30 R = 40

これら 2 つのサンプル系列の平均と広がりが等しい場合、それらの変動の性質は異なります。 サンプルの変動の性質をより明確に理解するには、サンプルの分布を参照する必要があります。

1.5 分散

分散は、変数の値の平均値からの偏差の二乗の算術平均です。

統計量としての分散は、特定の値が特定のサンプルの平均値からどの程度逸脱しているかを特徴付けます。 分散が大きいほど、データの偏りまたは広がりが大きくなります。

平方根は、平方和を系列内の項の数で割ったものから抽出されます。

場合によっては、統計処理の対象となる初期のプライベートな一次データが大量に存在し、膨大な数の初歩的な算術演算が必要になることがあります。 計算の数を減らし、同時に必要な計算精度を維持するために、場合によっては、プライベートな経験データの元のサンプルを間隔で置き換えることに頼ることもあります。 間隔は、大きさによって並べられた属性値のグループであり、計算プロセス中に平均値に置き換えられます。

2. 実験結果の二次統計処理方法

実験データの統計処理の二次的な方法を利用して、実験に関連する仮説が直接テストされ、証明または反証されます。 これらの方法は、一般に、一次統計処理の方法よりも複雑であり、研究者は初歩的な数学と統計について十分な訓練を受けている必要があります。 (7)。

議論されているメソッドのグループは、いくつかのサブグループに分類できます。

1. 回帰計算。

2. 異なるサンプルに関する 2 つ以上の基本統計 (平均、分散など) を比較する方法。

3. 変数間の相関関係など、変数間の統計的関係を確立する方法。

4. 経験的データの内部統計構造を特定する方法 (因子分析など)。 例を使用して、二次統計処理手法の特定されたサブグループのそれぞれを検討してみましょう。

2.1 回帰計算

回帰計算は数学的統計の手法であり、これを使用すると、個人的な散在データを、それらの内部関係をほぼ反映する特定の線形グラフに還元し、いずれかの変数の値に基づいて別の変数の確率値を近似的に推定できるようになります。変数 (7)。

回帰式をグラフで表現したものを回帰直線と呼びます。 回帰直線は、独立変数 (X) からの従属変数 (Y) の最良の予測を表します。

回帰は 2 つの回帰方程式を使用して表現され、最も単純な場合は直線の方程式のように見えます。

Y = a 0 + a 1 * X

X = b 0 + b 1 * Y

式 (1) では、Y は従属変数、X は独立変数、a 0 は自由項、a 1 は回帰係数、ま​​たは座標軸に対する回帰直線の傾きを決定する傾きです。

式(2)において、Xは従属変数、Yは独立変数、b 0 は自由項、b 1 は回帰係数、ま​​たは座標軸に対する回帰直線の傾きを決定する傾きである。

XとY(YとXの間)の関係(依存性)を定量的に表現することを回帰分析といいます。 回帰分析の主なタスクは、係数 a 0、b 0、a1、b 1 を見つけて、変数 X と Y を結び付けて得られる分析式の有意水準を決定することです。

線形回帰分析手法を適用するには、次の条件を満たす必要があります。

1. 比較される変数 X と Y は、間隔または比率スケールで測定される必要があります。

2. 変数 X と Y には正規分布則があると仮定します。

3. 比較される変数内の変化する特性の数は同じでなければなりません。 (5)。

2.2 相関関係

二次統計処理の次の方法は、2 つの一連の実験データ間の関連性または直接的な依存関係を決定するもので、相関法と呼ばれます。 ある現象がそのダイナミクスにおいてどのように影響を及ぼしたり、他の現象とどのように関係しているのかを示します。 この種の依存関係は、たとえば、互いに因果関係にある数量間に存在します。 2 つの現象が互いに統計的に有意な相関関係があることが判明し、そのうちの 1 つがもう 1 つの現象の原因として機能するという確信がある場合、それらの間に因果関係があるという結論は確実に得られます。が続きます。 (7)

1 つの変数のレベルの増加が別の変数のレベルの増加を伴う場合、正の相関関係について話します。 ある変数のレベルが減少している間に、ある変数の増加が発生する場合、負の相関関係と言います。 変数間に関連性がない場合は、相関関係がゼロであることを扱います。 (1)

この方法には、線形、ランク、ペア、およびマルチプルなど、いくつかの種類があります。 線形相関分析を使用すると、絶対値に基づいて変数間の直接的な関係を確立できます。 これらの接続が直線でグラフィカルに表現されるため、「リニア」と呼ばれます。 ランク相関は、変数の絶対値間の依存性ではなく、大きさ順の系列内で変数が占める序数の位、つまりランク間の依存性を決定します。 一対の相関分析には、変数のペアの間のみの相関依存関係、および多くの変数間の複数または多次元の相関依存関係の研究が含まれます。 応用統計における多変量相関分析の一般的な形式は因子分析です。 (5)

心理学および教育学の研究における順位相関係数は、関係が確立される特性が質的に異なり、いわゆる間隔測定スケールを使用して十分に正確に評価できない場合に使用されます。 間隔スケールは、値間の距離を評価し、どちらが大きいか、もう一方よりどれだけ大きいかを判断できるスケールです。 たとえば、物体の長さを推定して比較するための定規は間隔スケールです。これを使用すると、2 ~ 6 センチメートルの距離は 6 ~ 8 センチメートルの間の距離の 2 倍であると言えるからです。 ある測定器を使用して、ある指標が他の指標よりも大きいと言うだけで、どのくらい大きいかは言えない場合、そのような測定器は間隔ではなく序数と呼ばれます。

心理学や教育学の研究で得られる指標のほとんどは、間隔スケールではなく序数スケール (たとえば、「はい」、「いいえ」、「はいよりもむしろいいえ」など、ポイントに変換できる評価) を指します。そのため、線形相関係数はそれらには適用されません。

対相関の方法とは対照的に、多重相関の方法では、2 つ以上の変数を含む多次元実験材料内に存在する相関依存関係の一般的な構造を特定し、これらの相関依存関係を次の形式で提示することができます。とあるシステム。

偏相関係数を適用するには、次の条件を満たす必要があります。

1. 比較される変数は、間隔または比率スケールで測定される必要があります。

2. すべての変数には正規分布則があると仮定されます。

3. 比較される変数内の変化する特性の数は同じでなければなりません。

4. ピアソン相関関係の信頼性レベルを評価するには、式 (11.9) と k = n - 2 での Student t 検定の臨界値の表を使用する必要があります。 (5)

2.3 要因分析

因子分析は、大量の実験データを処理するときに使用される統計手法です。 因子分析の目的は、変数の数を減らすこと (データの削減)、および変数間の関係の構造を決定することです。 変数を分類するため、因子分析はデータ削減方法または構造分類方法として使用されます。

因子分析と上記のすべての方法の重要な違いは、一次データ、または彼らが言うところの「生の」実験データ、つまり 被験者の検査から直接得られます。 因子分析の材料となるのは、調査に含まれる変数(心理的特徴)間の相関関係、より正確にはピアソン相関係数です。 言い換えれば、相関行列、または相互相関行列とも呼ばれるが、因子分析の対象となります。 これらの行列の列名と行名は、分析に含まれる変数のリストを表すため同じです。 このため、相互相関行列は常に正方行列になります。 それらの行の数は列の数に等しく、対称的です。 主対角線に対して対称な場所は同じ相関係数を持ちます。

因子分析の主な概念は因子です。 これは、研究された心理的特性間の相関係数の表、または相互相関行列の特別な変換の結果として生じる人工的な統計指標です。 相互相関行列から因子を抽出する手順は、行列分解と呼ばれます。 因数分解の結果、元の変数の数と同じ数まで、異なる数の因子が相関行列から抽出されます。 ただし、因数分解の結果として特定される要因は、原則として重要度が異なります。 (5)

特定された要因の助けを借りて、心理的現象の相互依存性が説明されます。 (7)

ほとんどの場合、因子分析の結果、変数の相互相関行列を異なる説明をする因子が 1 つではなく複数決定されます。 この場合、要因は一般、一般、個別に分けられます。 一般因子とは、すべての因子負荷量がゼロとは大きく異なるものです (負荷量がゼロであることは、この変数が他の変数とまったく関連しておらず、人生において他の変数に影響を与えないことを示します)。 一般とは、因子負荷量の一部がゼロとは異なる因子です。 単一因子とは、荷重の 1 つだけがゼロから大きく異なる因子です。 (7)

以下の基準が満たされる場合、因子分析が適切である可能性があります。

1. 髪の色(黒/栗/赤)など、名前のスケールで得られる定性データを因数分解することは不可能です。

2. すべての変数は独立している必要があり、その分布は正規に近づく必要があります。

3. 変数間の関係は、ほぼ線形であるか、少なくとも明確な曲線ではない必要があります。

4. 初期相関行列には、係数が 0.3 を超えるいくつかの相関が含まれている必要があります。 そうしないと、マトリックスから因子を抽出することが非常に困難になります。

5. 被験者のサンプルは十分に大きくなければなりません。 専門家の推奨事項はさまざまです。 最も厳格な観点では、被験者の数が 100 未満の場合は相関の標準誤差が大きすぎるため、因子分析を使用しないことが推奨されます。

ただし、因子が明確に定義されている場合 (たとえば、負荷が 0.3 ではなく 0.7 の場合)、実験者は因子を分離するためにより少ないサンプルが必要になります。 さらに、取得されたデータの信頼性が高いことがわかっている場合 (たとえば、有効な検査が使用されている場合)、より少数の被験者のデータを分析できます。 (5)。

2.4 私因子分析を使って

因子分析は、心理学において、理論的問題と実践的問題の両方の解決に関連するさまざまな方向で広く使用されています。

理論的に言えば、因子分析の使用は、人格構造、気質、能力の研究に対するいわゆる因子分析アプローチの開発に関連しています。 これらの分野での因子分析の使用は、観察可能かつ直接測定可能な指標は、より一般的な特性の間接的および/または部分的な外部発現にすぎないという広く受け入れられた仮定に基づいています。 これらの特性は、最初の特性とは異なり、直接測定できない概念や構成を表すため、隠れた、いわゆる潜在変数です。 ただし、これらは、観察された形質間の相関関係を因数分解し、(十分に構造化されている場合) 対象の潜在変数の統計的表現として解釈できる分離因子によって確立できます。

因子は本質的に純粋に数学的なものですが、潜在変数 (理論的に仮定された構成または概念) を表すと想定されているため、因子の名前は研究対象の仮説構成の本質を反映していることがよくあります。

現在、因子分析は差別心理学や精神診断で広く使用されています。 その助けを借りて、テストを開発し、一連のテストまたはテスト タスクによって測定される個人の心理的特性間の関連性の構造を確立できます。

因子分析は、被験者の代表的なサンプルに対して実行される検査方法を標準化するためにも使用されます。

結論

実験で得られたデータが定性的な性質のものである場合、それらに基づいて導き出される結論の正しさは、研究者の直観、博学、プロフェッショナリズム、および推論の論理に完全に依存します。 このデータが定量的なタイプの場合、最初に 1 次統計処理が実行され、次に 2 次統計処理が実行されます。 一次統計処理は、必要な基本数学統計の数を決定することで構成されます。 このような処理には、ほとんどの場合、少なくともサンプル平均値の決定が含まれます。 提案された仮説の実験的検証のための有益な指標が相対平均データの広がりである場合、分散または二乗偏差が計算されます。 この種の標本データの分布では、中央値と最頻値が一致するか、平均値に非常に近い、正規分布用に設計された二次統計処理手法を使用する場合は、中央値を計算することをお勧めします。 この基準は、結果として得られる一次データの分布の性質をおおよそ判断するために使用できます。

二次統計処理(平均値、分散、データ分布の比較、回帰分析、相関分析、因子分析など)は、問題を解決したり、提案された仮説を証明したりするために、統計データに隠された統計パターンを特定する必要がある場合に実行されます。一次実験データ。 二次統計処理に着手するとき、研究者はまず、さまざまな二次統計のうちどれを一次実験データの処理に適用するかを決定する必要があります。 この決定は、テストされる仮説の性質と、実験の結果として得られる主要な資料の性質に基づいて行われます。 この点に関する推奨事項をいくつか紹介します。

推奨事項 1. 実験仮説に、進行中の心理学的および教育学的研究の結果として、何らかの質の指標が増加 (または減少) するという仮定が含まれている場合、実験前と実験後のデータを比較するために、学生のテストまたは h2 基準。 後者は、一次実験データが相対的であり、たとえばパーセンテージとして表現されている場合に対処されます。

推奨事項 2. 実験的に検証可能な仮説に、特定の変数間の因果関係に関するステートメントが含まれている場合は、線形相関係数または順位相関係数を参照して仮説を検証することをお勧めします。 線形相関は、間隔スケールを使用して独立変数と従属変数が測定され、実験前後のこれらの変数の変化が小さい場合に使用されます。 順位相関は、独立変数と従属変数の連続順序の変化を評価するだけで十分な場合、またはそれらの変化が十分に大きい場合、または測定手段が間隔ではなく順序である場合に使用されます。

推奨事項 3: 仮説には、実験の結果として被験者間の個人差が増加または減少するという仮定が含まれる場合があります。 この仮定は、実験の前後で分散を比較できるフィッシャー基準を使用して十分に検証されます。 フィッシャー基準を使用すると、インジケーターの絶対値のみを操作でき、ランクは操作できないことに注意してください。

Allbest.ru に掲載

...

類似の文書

    統計データを処理および分析するための基本的な技術と方法。 算術平均、調和平均、幾何平均の計算。 配信シリーズ、その主な特徴。 近くのダイナミクスを均等化する方法。 国民経済計算体系。

    コースワーク、2014 年 10 月 24 日追加

    科学としての経済分析の概念、その本質、主題、方法の一般的な特徴、および社会経済的効率。 データ分析と処理の計量経済的手法の主なグループ。 企業経済データの要因分析。

    要約、2010/03/04 追加

    サンプルの算術平均、分散、標準偏差。 ショーヴァン基準による拒否。 「スリーシグマ」の法則。 2 つのサンプルの平均値間の差の重要性を評価します。 一対の重回帰分析。 完全な因子分析。

    コースワーク、2012/12/05 追加

    統計データを表示および処理するためのさまざまな方法の適用。 空間統計サンプル。 ペアごとの回帰と相関。 時系列。 トレンドを構築する。 具体的な例と解き方、公式とその意味。

    講義コース、2009/02/26 追加

    測定結果の統計処理; 算術平均、二次関数、分散。 サンプリングパラメータの決定: 3 シグマの法則、ヒストグラム、管理図、石川図。 ソファの製造における高品質のツールの適用。

    コースワーク、2014 年 10 月 17 日追加

    統計における平均値、その本質と適用条件。 平均の種類と形式: 重み属性の有無、計算形式、母集団の範囲によって異なります。 最頻値、中央値。 OJSC「Bashmebel」の例を使用した利益と収益性のダイナミクスの統計的研究。

    テスト、2008 年 6 月 14 日追加

    統計データ処理の原則、このプロセスで使用される方法および技術。 管理図を構築する方法論と主な段階、その分類と種類、機能的特徴、アプリケーションの長所と短所の決定。

    コースワーク、2014/08/23 追加

    数値特性の計算とサンプル観察結果の処理。 経済学における統計指標の計算と分析。 国富: 要素、評価。 資産と負債の貸借対照表。 固定資産、運転資本の指標。

    コースワーク、2012/12/25 追加

    記述統計と統計的推論。 サンプルの代表性を保証するための選択方法。 誤差の大きさに対するサンプルの種類の影響。 サンプリング方法を適用するときのタスク。 観察データを一般集団に拡大する。

    テスト、2011/02/27 追加

    概念の説明: 間隔スケール、算術平均、統計的有意性のレベル。 最頻値、中央値、平均値を解釈する方法。 フリードマンとローゼンバウムの基準を使用して問題を解決します。 スプリマン相関係数の計算。

スライド 1

スライド 2

統計学は、集団の行動、現象、プロセスを記述するデータを収集、分析、処理する方法を研究する精密科学です。数理統計は、ランダムな集団現象の観察結果を収集、体系化、および処理する方法を研究する数学の一分野です。既存のパターンを特定します。

スライド 3

統計調査: 国とその地域の人口の個々のグループの数、さまざまな種類の製品の生産と消費、さまざまな交通手段による商品と乗客の輸送、天然資源など。 統計研究の結果は、実用的かつ科学的な結論を得るために広く使用されています。 現在、統計は中等教育で学び始められており、多くの科学や分野と関連しているため、大学では必修科目となっています。 店舗の売上を増やし、学校での知識の質を向上させ、国を経済成長に導くには、統計調査を実施し、適切な結論を導く必要があります。 そして誰もがこれを行うことができるはずです。

スライド 4

統計の要素を学ぶ主な目標: 統計データの一次処理におけるスキルの形成。 さまざまな形式(実際の依存関係の表、図、グラフの形式)で提示される定量的情報の画像と分析。 重要な統計的考え方、すなわち、推定の考え方と統計的仮説のテストの考え方に関するアイデアを開発する。 ランダムな出来事が起こる確率と特定の実験の結果を比較する能力を開発します。

スライド 5

目次 データ系列 データ系列の量 データ系列の範囲 データ系列のモード 系列の中央値 算術平均 順序付きデータ系列 データ分布表 まとめてみよう 主なデータ系列 結果の頻度 割合頻度 データのグループ化 データ処理の方法 まとめてみよう

スライド 6

定義 データシリーズは、いくつかの測定の一連の結果です。 例: 1) 人の身長の測定 2) 人 (動物) の体重の測定 3) メーターの測定値 (電気、水道、熱...) 4) 100 メートル走の結果 など。

スライド 7

定義 データ系列の量は、すべてのデータの量です。 たとえば、一連の数字 1 が与えられたとします。 3; 6; -4; 0 の場合、そのボリュームは 5 になります。なぜですか?

スライド 8

タスクを完了してください: 研究所では高等数学のテストを受けました。 グループには 10 人がいて、対応する評価: 3、5、5、4、4、4、3、2、4、5 を受けました。このシリーズのボリュームを決定します。 答え: 10

スライド 9

定義範囲は、データ系列の最大値と最小値の差です。 例: 一連の数字 1 が与えられた場合。 3; 6; -4; 0; 2 の場合、このデータ系列の範囲は 6 になります (6 – 0 = 6 であるため)。

スライド 10

タスクを完了してください: 研究所では高等数学のテストを受けました。 グループには 10 人がいて、対応する評価: 3、5、5、4、4、4、3、2、4、5 を受けました。このシリーズの範囲を決定します。 答え: 3

スライド 11

定義 データ系列のモードは、その系列内で最も頻繁に出現する数値です。 データ系列にはモードがある場合とない場合があります。 したがって、データ系列 47、46、50、52、47、52、49、45、43、53 では、数値 47 と 52 はそれぞれ 2 回出現し、残りの数値は 2 回未満になります。 そのような場合、シリーズには 47 と 52 の 2 つのモードがあることが合意されました。

スライド 12

タスクを完了します。つまり、データ系列 47、46、50、52、47、52、49、45、43、53 では、数値 47 と 52 はそれぞれ 2 回出現し、残りの数値は 2 回未満出現します。 そのような場合、シリーズには 47 と 52 の 2 つのモードがあることが合意されました。研究所では、高等数学のテストを受けました。 グループには 10 人が参加し、3、5、5、4、4、4、3、2、4、5 の対応する評価を受けました。このシリーズのモードを決定します。 答え: 4

スライド 13

定義: 奇数の項を含む中央値は、中央に書かれた数値です。 項数が偶数の中央値は、中央に書かれた 2 つの数値の算術平均です。 例: 一連の数値 1) 6 の中央値を決定します。 -4; 5; -2; -3; 3; 3; -2; 3. 答え: -3 2) -1; 0; 2; 1; -1; 0;2; -1。 答え: 0

スライド 14

タスクを完了してください: 研究所では高等数学のテストを受けました。 グループには 10 人が参加し、3、5、5、4、4、4、3、2、4、5 の対応する評価を受けました。この系列の中央値を決定します。 答え: 4

スライド 15

定義 算術平均は、一連の数値の合計をその数値で割った商です。 例: 一連の数値 -1 が与えられた場合。 0; 2; 1; -1; 0; 2; -1。 この場合、算術平均は次のようになります: (-1+0+2+1+(-1)+0+2+(-1)):8 =2:8=0.25

スライド 16

タスクを完了してください: 研究所では高等数学のテストを受けました。 グループには 10 人がいて、対応する評価: 3、5、5、4、4、4、3、2、4、5 を受けました。この系列の算術平均を求めます。 答え: 3.9

スライド 17

実践課題: 第 4 四半期の数学における生徒イワノフの成績を特徴づけます。 作業のパフォーマンス: 1.情報の収集: 日誌から書き出された成績: 5、4、5、3、3、5、4、4、4。 2. 受信データの処理:ボリューム = 9 レンジ = 5 - 3 = 2 モード = 4 中央値 = 3 算術平均 = (5+4+5+3+3+5+4+4+4) : 9 ≈ 4パフォーマンスの特徴 : 生徒は常にレッスンの準備ができているわけではありません。 主に彼は成績「4」で勉強します。 4分の1が出ると「4」になります。

スライド 18

独立して: 系列の体積、系列の範囲、最頻値、中央値、および算術平均を見つける必要があります: カード 1. 22.5; 23; 21.5; 22; 23.カード2.6; -4; 5; -2; -3; 3; 3; -2; 3.カード3.12.5; 12; 12; 12.5; 13; 12.5; 13. カード 4。-1; 0; 2; 1; -1; 0; 2; -1。 カード5.125; 130; 124; 131.カード6。120; 100; 110.

スライド 19

カード 1 を確認してみましょう。系列のボリューム = 5 系列の範囲 = 10 最頻値 = 23 中央値 = 21.5 算術平均 = 13.3 カード 3. 系列のボリューム = 7 系列の範囲 = 1 モード = 12.5 中央値 = 12.5 算術平均 = 12.5 カード 2 . シリーズのボリューム = 9 シリーズの範囲 = 10 モード = 3 中央値 = -3 算術平均 = 1 カード 4. シリーズのボリューム = 8 シリーズの範囲 = 3 モード = -1 中央値 = 0 算術平均 = 0.25

スライド 20

カード 5. 系列のボリューム = 4 系列の範囲 = 7 モード = 中央値なし = 127 算術平均 = 127.5 カード 6. 系列のボリューム = 3 系列の範囲 = 20 モード = 中央値なし = 100 算術平均 = 110

スライド 21

定義 順序付けられたデータ系列とは、データが何らかの規則に従って配列された系列です。 (後続の各数値が前の数値よりも小さくならないように(それ以上にならないように)数値を書きます)。 または、いくつかの名前を「アルファベット順」に書き留めます...

スライド 22

タスクを完了します。与えられた一連の数字: -1;-3;-3;-2;3;3;2;0;3;3;-3;-3;1;1;-3;-1 配置昇順の番号で表示されます。 解決策: -3;-3;-3;-3;-3;-2;-1;-1;0;1;1;2;3;3;3;3 結果は順序付けられた系列になります。 データ自体は変更されておらず、表示される順序が変更されただけです。

スライド 23

定義 データ分布テーブルは、同じ番号を繰り返すのではなく、繰り返しの回数を記録した順序付けされた系列のテーブルです。 逆に、分布テーブルがわかっている場合は、順序付けられた一連のデータをコンパイルできます。 例: そこから次の順序付けされた系列が得られます: -3;-3;-3;-1;-1;-1;-1;5;5;7;8;8;8;8;8

スライド 24

タスクを完了します。婦人靴店で統計調査を実施し、靴の価格と販売数の対応表を作成しました。価格 (ルーブル): 500 1200 1500 1800 2000 2500 数量: 8 9 14 15 3 1これらの指標を使用するには、統計的特性を見つける必要があります。 順序付けされたデータ系列のコンパイル データ系列のボリューム シリーズの範囲 シリーズのモード シリーズの中央値 データ系列の算術平均

スライド 25

そして、次の質問に答えてください: これらの価格カテゴリーのうち、店はどの価格で靴を販売すべきではありませんか? 靴はどのくらいの価格で流通させるべきでしょうか? どのくらいの価格を目指すべきですか?

スライド 26

要約しましょう: 統計データ処理がどのように行われるかについての最初の概念を理解しました。データは常に、一連のいくつかのデータから得られるものです: 体積、範囲、モード、中央値、および算術平均。一連のデータを順序付けしてデータ分布表を作成することができます

スライド 27

定義 データの主系列は数値データではなく、たとえば名前です。 タイトル; ノミネート...例: 1930 年以降のワールドカップ決勝進出者のリスト: アルゼンチン、チェコスロバキア、ハンガリー、ブラジル、ハンガリー、スウェーデン、チェコスロバキア、ドイツ、イタリア、オランダ、オランダ、ドイツ、ドイツ、アルゼンチン、イタリア、ブラジル、ドイツ、フランス

スライド 28

タスクを完了します: 前の例から求めます: 系列の体積 2) 系列のモード 3) 分布テーブルの作成 解決策: 体積 = 18; ファッション – ドイツチーム。

スライド 29

レッスンの目的:
- 理解と一次暗記のレベルでトピックを習得するための条件を作成します。
- 生徒の人格の数学的能力の形成のため。

レッスンの目的
教育:科学としての統計の考え方を形成する。 基本的な統計的特性の概念を生徒に理解させる。 系列の範囲とモードを見つけ、データを分析し、暗算スキルを向上させる能力を開発します。
教育:概念とその解釈の習得を促進します。 分析、比較、体系化、一般化といった主題を超えたスキルの開発。 教科言語の形成を継続し、授業のさまざまな段階で主要な能力(認知的、情報的、コミュニケーション的)の形成を促進し、統計とさまざまな科学の間の学際的なつながりを特定することによって、生徒の間で世界についての統一された科学的イメージの形成を促進します。
教育:研究対象である情報文化への関心を育みます。 一般に受け入れられている規範と規則、高い効率と組織を遵守する準備ができています。

使用されている技術:学生中心の学習技術、情報通信技術。
必要な設備, 材料: マルチメディア プロジェクター、コンピューター、インタラクティブ ホワイトボード。

授業中

1. 組織的な瞬間。

生徒の授業への準備状況を確認する

出席状況の確認

2. 目標設定。

このトピックを研究する必要がある理由

授業の目標を設定するプロセスに生徒を参加させる

私たちはどのような情報源から情報を受け取り、収集していますか? (推奨される回答: ラジオ、テレビ、新聞、雑誌、電話、人々、インターネット、手紙)。

人々は情報をどこに保管しますか? (提案された回答 : メモリ内および外部メディア上)。
専門学校での勉強は情報を得ることでしょうか? 学校では一般教養科目を勉強しましたが、専門学校で学ぶと他に何が得られるのでしょうか? (推奨される回答: s 専門的な知識)。学べば学ぶほど、記憶にはより多くの情報が含まれます。

今日はもう一つ情報をご紹介します。 あなたは鉱山オペレーターとして訓練を受けており、EKG-8I 掘削機で作業します。 この掘削機の性能は何ですか? 私の要望に応じて、工場は以下の情報を提供してくれました。 (ショベル性能表)

廃石別(千トン)

皆さん、情報がたくさんあるのは良いことですか? すべての情報は有益で質の高いものであり得るでしょうか? 情報の迷路に迷わないためにはどうすればいいのでしょうか? (学生の予想される答え: 「有用で質の高い情報と、質の低い情報を区別できなければならない」)。 それらの。 それを処理できるようになります。

結論: 今日の授業では情報の処理方法を学びます。

3. 新しい資料を研究するための活動の組織化。(説明の過程で学生はノートにメモを取り、課題を完了します)

1. 統計の定義

統計とは何ですか? 英国のベンジャミン・ディズレーリ首相(1804年~1881年)はこの質問に次のように答えたと言われている:「嘘には3種類ある:嘘、とんでもない嘘、そして統計だ。」

統計集団行動、現象、プロセスを記述するデータの収集、分析、処理方法を研究する精密科学です。

(イルフとペトロフの小説『十二の椅子』からの抜粋が読み上げられます。

「統計はすべてを知っている」、共和国の平均的な国民が年間にどれだけの食べ物を食べるかがわかっている: この国に狩猟者、バレリーナが何人いるかがわかっている: 機械、自転車、記念碑、灯台、ミシンがどれだけあるかがわかっている: どれだけの命、満腹かがわかっている熱意、情熱、思考の統計表から私たちを見てください!...」

その名前はラテン語の「status」(状態)に由来し、この語根から stato(イタリア語)、statistik(ドイツ語)、state(英語)-state という言葉が生まれました。

統計研究:

統計の要素を学習する主な目的は次のとおりです。

  • 国とその地域の個々の人口グループの数、
  • さまざまな種類の製品の生産と消費、
  • さまざまな交通手段による物品と乗客の輸送、
  • 天然資源など。

どこの国で統計が始まったかご存知ですか (中国)。その国の最初の国勢調査は 5 世紀に遡ります。 紀元前2千年紀

19 世紀には、数式、数学的法則、特殊特性を使用してデータを処理できるようになりました。 これ?.... ( マット。 統計).

2. 数学統計

数学統計既存のパターンを特定するために、ランダムな質量現象の観察結果を収集、体系化、処理する方法を研究する数学の一分野です。

では、なぜディズレーリは統計を嘘と比較したのでしょうか? (科学的で厳密な情報処理は行われておらず、データは誰でも好きなように解釈されました)。

数理統計には普遍的な情報処理方法がある
これが、映画「オフィス ロマンス」の主人公が統計について次のような言葉を言えるようにした理由です ( 映画「オフィス・ロマンス」の一部).
結論: 統計はシステムに情報をもたらします。

3. 情報のグラフィック表現

分布ポリゴン

分布ヒストグラム

円グラフ

4. 測定特性
1. 一連のデータは、あらゆる測定の一連の結果です。

例えば: 1) 人間の身長を測定する

2) 人(動物)の体重測定

3) メーターの測定値 (電気、水道、熱など)

4) 100メートル走の結果

2. データ シリーズのボリューム - データ シリーズのボリュームは、すべてのデータの量です。

例えば:一連の数字 1 が与えられる。 3; 6; -4; 0

その体積は 5 になります。なぜですか?

3. データ系列の範囲は、データ系列の最大値と最小値の差です。

例えば:一連の数字 1 が与えられた場合。 3; 6; -4; 0; 2、それでは 範囲このデータ系列は 6 になります (6 - 0 = 6 であるため)。

4. データ系列のモード - データ系列のモードは、この系列内で最も頻繁に発生する系列の番号です。

例: pデータポイズンにはモードがある場合とない場合があります。

したがって、データ系列 47、46、50、52、47、52、49、45、43、53 では、数値 47 と 52 はそれぞれ 2 回出現し、残りの数値は 2 回未満になります。 そのような場合、シリーズには 47 と 52 の 2 つのモードがあることが合意されました。

5.系列の中央値

項数が奇数の中央値は、中央に書かれた数字です。

項数が偶数の中央値 - これは、中央に書かれた 2 つの数値の算術平均です。

例えば: 一連の数値の中央値を決定します

16; -4; 5; -2; -3; 3; 3; -2; 3. 答え: -3

2) -1; 0; 2; 1; -1; 0;2; -1。 答え: 0

6. 算術平均は、一連の数値の合計をその数値で割った商です。

例えば: 一連の数値 -1 を指定します。 0; 2; 1; -1; 0; 2; -1。 この場合、算術平均は次のようになります: (-1+0+2+1+(-1)+0+2+(-1)): 8 = 2: 8 = 0.25

4. 研究した資料の統合。

実務

エクササイズ:生徒ピーター・イワノフの第 4 四半期の数学の成績を特徴づけます。

作業の完了:

1. 情報の収集:

雑誌に書かれている成績は、5、4、5、3、3、5、4、4、4です。

2. 受信データの処理:

データの統計処理は、データの順序付け、一般化、分析なしには不可能です。 得られた結果は、最初に、そこから最大限の有用な情報を抽出できるような形式にする必要があります。 受信したデータが多すぎる場合は、グループ化または要約する必要があります。

したがって、グループ化するには、取得したデータを配布する基準を決定する必要があります。 この場合、受信した情報の明瞭さだけでなく、潜在的な有用性も、選択した方法によって決まります。 研究結果を適切にグループ化すると、研究や分析がはるかに便利になります。

データ処理は人間の活動の多くの分野に適用できます。 それらは主に 3 つのタイプに分類できます。

1) 適用範囲に関係なく使用できる普遍的な方法。

2) 実際のプロセスまたは現象の研究に関与する活動の特定の領域のための方法。

3) 特定のデータを研究する方法。

統計データ処理の実行方法が正確であればあるほど、特定の状況の分析がより効果的になることは明らかです。 最初の方法が科学的結果に適用可能であり、その重要性が一般的な科学的基準によってのみ評価される場合、3 番目の方法は特定の領域における特定の問題を解決するためにのみ使用されます。

データの処理方法に関する一般的な知識に加えて、得られた結果を処理する最適な方法を知ることも重要です。 統計データ処理では、得られた情報を視覚化するために表やグラフを作成します。

初期段階では、情報を表にまとめることができます。 たとえば、表形式で記録された実験データを統計処理することにより、研究者は、実験の過程に影響を与える指標、測定値、および追加の要因の不必要な記録を省くことができます。 表には、研究や実験のデータを記録するだけでなく、中間結果や主な結果を要約するのにも便利です。 確かに、それらを正しく構築するには、必要な行と列の数を事前に考え、必要なパラメータをすべて書き留める必要があります。

紙に表を作成することも、コンピュータに直接データを入力することもできます。 2 番目のオプションでは、受信したデータを希望の方法ですばやく並べ替えたり、最大値または逆に最小値を見つけたり、選択した結果グループを要約したり検索したりすることができます。

データの適切な統計処理に複数のテーブルが必要な場合は、テーブルに番号を付け、それぞれに一意の名前を付ける必要があることを忘れないでください。

データをより視覚的に記録する方法は、グラフを使用することです。 異なる量間の関係を視覚的に示し、研究結果を理解しやすくします。

表とグラフの作成の基本原則を理解すれば、受信したデータを迅速かつ効率的に処理できます。

実験結果を統計処理する方法は、数学的手法、公式、定量的計算の方法であり、実験中に得られた指標を一般化してシステムに導入し、その中の隠れたパターンを明らかにすることができます。

私たちは、実験で研究された変数間に存在する統計的な性質のパターンについて話しています。

データ は、処理の目的で分類または分類される基本要素です 26 。

数学的統計分析の一部の方法では、データの標本分布を特徴付ける、いわゆる初等数学的統計を計算できます。次に例を示します。

標本平均、

サンプルの分散、

中央値とその他の数。

数学的統計の他の方法を使用すると、個々のサンプル統計の変化のダイナミクスを判断することができます。たとえば、次のとおりです。

分散分析、

回帰分析。

サンプリング データ手法の 3 番目のグループを使用すると、この実験で調査される変数間に存在する統計的関係を確実に判断できます。

相関分析;

因子分析;

比較方法。

数学的および統計的分析のすべての方法は、従来、一次と二次に分けられます 27 。

主な方法は、実験で行われた測定結果を直接反映する指標を取得するために使用できる方法です。

二次手法は統計処理手法と呼ばれ、一次データに基づいて、その中に隠された統計パターンが明らかになります。

統計処理の主な方法には、たとえば次のようなものがあります。

サンプル平均の決定;

サンプルの分散。

厳選されたファッション。

サンプル中央値。

通常、二次的な方法には次のものが含まれます。

相関分析;

回帰分析;

2 つ以上のサンプルの一次統計を比較する方法。

サンプル平均から始めて、初歩的な数学的統計を計算する方法を考えてみましょう。

算術平均 – これは、項数 28 に対するすべてのデータ値の合計の比率です。

統計指標としての平均値は、実験で調査された心理的品質の平均評価を表します。

この評価は、精神診断検査を受けた被験者のグループ全体における発達の程度を特徴づけます。 2 つ以上のサンプルの平均値を直接比較することで、これらのサンプルを構成する人々の評価された品質の相対的な発達度を判断できます。

サンプル平均は、次の式 29 を使用して決定されます。

ここで、x cf はサンプル平均またはサンプルの算術平均です。

n は、平均値の計算に基づいてサンプルまたは民間の精神診断指標内の被験者の数です。

x k - 個々の被験者の指標の部分値。 このようなインジケーターは合計で n 個あるため、この変数のインデックス k は 1 から n までの値を取ります。

∑ は、この記号の右側にある変数の値を合計するために数学で受け入れられる記号です。

分散 平均値 30 に対するデータの広がりの尺度です。

分散が大きいほど、データの偏りまたは広がりが大きくなります。 これは、平均は同じだが散乱が異なる値を互いに区別できるように決定されます。

分散は次の式で求められます。

ここで、 は標本の分散、または単に分散です。

与えられたサンプルの最初から最後までのすべての x k について、部分値と平均値の差を計算し、これらの差を二乗して合計する必要があることを意味する式。

n は、分散が計算されるサンプルまたは主な値内の被験者の数です。

中央値 は調査対象の特性の値であり、この特性の値で順序付けされたサンプルを半分に分割します。

中央値を知ることは、研究対象の特性の部分値の分布が対称的であり、いわゆる正規分布に近似しているかどうかを判断するのに役立ちます。 正規分布の平均と中央値は、通常は同じか、ほとんど違いがありません。

特徴の標本分布が正規分布である場合、データの正規分布に基づく二次統計計算の方法をそれに適用できます。 そうしないと、計算に重大なエラーが入り込む可能性があるため、これを行うことはできません。

ファッション もう 1 つの初歩的な数学統計と実験データの分布の特徴。 最頻値は、調査対象の特性の定量的な値であり、サンプル内で最もよく見られます。

正規分布を含む特徴の対称分布の場合、最頻値は平均値と中央値の値と一致します。 非対称の他のタイプの分布では、これは一般的ではありません。

2 つの一連の実験データ間の関連性または直接的な依存関係を決定する二次統計処理の方法は、と呼ばれます。 相関分析手法。 ある現象がそのダイナミクスにおいてどのように影響を及ぼしたり、他の現象とどのように関係しているのかを示します。 この種の依存関係は、たとえば、互いに因果関係にある数量間に存在します。 2 つの現象が互いに統計的に有意な相関関係があることが判明し、そのうちの 1 つがもう 1 つの現象の原因として機能するという確信がある場合、それらの間に因果関係があるという結論は確実に得られます。が続きます。

この方法にはいくつかの種類があります。

線形相関分析を使用すると、絶対値に基づいて変数間の直接的な関係を確立できます。 これらの接続が直線でグラフィカルに表現されるため、「リニア」と呼ばれます。

線形相関係数は、次の式 31 を使用して求められます。

ここで、r xy - 線形相関係数。

x、y -比較された値の平均サンプル値。

バツ 、y - 比較量のプライベートサンプル値。

P -比較された一連の指標内の値の合計数。

平均値からの比較値のばらつき、偏差。

ランク相関は、変数の絶対値間の依存性ではなく、値で順序付けされた系列内で変数が占める序数の位、つまりランク間の依存性を決定します。 順位相関係数の計算式は次のとおりです32。

ここで、R s はスピアマン順位相関係数です。

d - 順序付けられた系列における同じ主題の指標のランク間の差異。

P -相関系列内の被験者またはデジタル データ (ランク) の数。