DỮ LIỆU CHÉO LÀ GÌ

giữa những điều độc đáo nhất khi thao tác làm việc cùng với tài liệu là tính muôn hình vạn trạng của chính nó.

Bạn đang xem: Dữ liệu chéo là gì

Mặc cho dù thống kê lại và học máy là 2 chuyên ngành thiết yếu phân tích về tài liệu, có không ít phương pháp phân tích dữ liệu được thành lập trường đoản cú phần đa nhu cầu so sánh của những ngành khác – tốt nhất là tự tính đặc điểm trong dữ liệu của ngành kia. ví dụ như nổi bật là kinh tế lượng (econometrics), gần như một ngành học thành lập và hoạt động nhằm so sánh các dữ liệu vào kinh tế tài chính, lúc dữ liệu phần lớn được thu thập bên dưới dạng bảng (panel data). Bài viết tiếp sau đây của bản thân sẽ ra mắt với các bạn hầu hết hình trạng biến chuyển số, đặc thù tài liệu phổ biến, từ bỏ dễ dàng và đơn giản cho tinh vi cùng các dạng quy mô khớp ứng cùng với hầu như kiểu dáng dạng cùng đặc điểm đó.

Trong bài này, tài liệu được đọc là processed data, tức là gần như gì chúng ta bao gồm trong tay trước lúc xây cất mô hình. Khi kia những phát triển thành (cả features với response) đều sinh hoạt bên dưới dạng các số lượng (numeric); ví dụ, dữ liệu thô có thể là một tấm hình 800*600, thì processed data bao hàm những numeric features của 480,000 điểm hình họa. Hay ví như một feature bên dưới dạng binary (như Yes/No), nó được đưa về dạng 0-1. Hay nếu khách hàng phân tích text data, “dữ liệu” trong bài xích này được hiểu là những term frequency. Trong bài này, những quy mô bản thân đề cùa đến thường xuyên là các supervised mã sản phẩm, với những features (X) với đổi thay response (y).Bạn sẽ xem: Cross sectional là gì

A. Phân một số loại theo quý giá nhưng biến được nhận

Continuous/Interval Variable – Biến liên tục

Đây là hình dáng tài liệu thông dụng và dễ dàng tốt nhất, Lúc vươn lên là số rất có thể dìm dữ liệu tại bất cứ điểm làm sao bên trên trục số, hoặc bất kể điểm làm sao vào một khoảng. lấy ví dụ, chiều cao cùng khối lượng của một tín đồ bất kể rất có thể thừa nhận bất cứ giá trị to hơn 0 như thế nào, lợi nhuận của một doanh nghiệp lớn vào 1 năm cũng tương tự vậy. Tất nhiên trên thực tiễn, chúng ta luôn luôn bao gồm một niềm tin về ngưỡng buổi tối đa hoặc buổi tối thiểu của quý hiếm, nhưng điểm sáng đặc thù tuyệt nhất của loại phát triển thành này là nó rất có thể nhận bất cứ quý giá nào vào ngưỡng đó. Đồng thời, các quý giá của nó tất cả tính thứ trường đoản cú (ordered), ví dụ chúng ta có thể đối chiếu khối lượng 160 kilogam nhỏ tuổi hơn 170 kg. Dữ liệu liên tục kiểu này được cho phép chúng ta mô hình bởi đầy đủ phân păn năn liên tiếp cực kỳ thân thuộc, nhỏng phân phối hận chuẩn chỉnh, phân păn năn đều, etc. Hagiống như khi chúng ta áp dụng các mô hình hồi quy tuyến tính, một ĐK tiên quyết là thay đổi response y là 1 trong vươn lên là tiếp tục. Dù thế, hình dạng trở nên liên tiếp này có nhiều trường hợp quan trọng đặc biệt, dưới đó là một trong những hình trạng nlỗi thế:

2. Binary variable – Các biến hóa nhị phân

Biến nhị phân là đổi thay mà chỉ hoàn toàn có thể nhấn 2 cực hiếm là 0 với 1 – tương ứng cùng với đầy đủ giám sát và đo lường trong một phân nhiều loại (category) chỉ có 2 cực hiếm (levels) được cho phép, nlỗi Có/Không, Đúng/Sai, etc. lúc các thay đổi này mở ra vào quy mô bên dưới dạng là trở thành response, bài bác tân oán đổi thay bài xích toán thù phân lớp (classification) với tương đối nhiều thuật toán phổ biến như logistic regression, SVM, etc. Khác với thay đổi tiếp tục, phát triển thành nhị phân không có tính thiết bị từ. Ở phía trên 0 cùng 1 chỉ thay mặt cho 2 team, chứ KHÔNG gồm tính so sánh như thể 030, Nữ >30, Nam

*

Các biến chuyển multinomial variable là một sự mở rộng của những phát triển thành nhị phân, lúc phân loại (category) có rất nhiều rộng 2 phân lớp (levels). lấy một ví dụ một phân một số loại về Xu thế thiết yếu trị sinh sống Mỹ rất có thể tất cả Democrats/Republican/Neutral, etc. lúc được code vào vào máy tính xách tay, các levels cũng giỏi được khắc số như một, 2, 3. Tuy vậy, điều nhấn mạnh đặc trưng sống đó là các levels này không tồn tại tính thứ từ (unordered), tức là chúng ta quan trọng lấy tổng tuyệt hiệu của những số lượng này, với chớ bao giờ quên đọc mô tả về ý nghĩa của những vươn lên là trước khi đối chiếu.

Khi những vươn lên là multinomial variable xuất hiện thêm là các đổi thay response, bài bác tân oán hay thay đổi bài toán phân lớp nhiều tầng (multilevel classification). lúc các đổi mới này mở ra dưới dạng các features, chúng hay được represented vày một vài ba biến hóa nhị phân; ví dụ, vào ví dụ về xu hướng thiết yếu trị sinh sống bên trên, với 3 lớp Democrats/Republican/Neutral, núm bởi được represented là một,2,hay 3, nó rất có thể được represented vị 2 biến đổi nhị phân X1 = Democrats/Not Democrats cùng X2 = Republican/Not Republican. Theo bí quyết này, một bạn Democrats sẽ được code là (1,0), một tín đồ Republican được code là (0,1), cùng một bạn Neutral được code là (0,0). Vì gắng, những so với như trong biến hóa binary variable (ANOVA/ANCOVA) có thể được vận dụng.

Một trường hợp giỏi chạm chán Lúc thao tác làm việc với những biến đổi nhị phân với multinomial variable là việc extremely unbalanced data thân các phân lớp, có nghĩa là con số tài liệu ở các level rất không giống nhau. lấy một ví dụ, Khi hy vọng tạo ra quy mô dự đoán liệu một người có ý định cài đặt ô tô trong 3 tháng tiếp đây, con số biến đổi response dìm giá trị No (ko mua) chiếm đại đa phần (một dataphối bản thân đã nhận thức thấy tỉ trọng này khoảng tầm 95%). Nếu một mô hình phân lớp được desgin cùng với toàn bộ datamix này, nếu bạn ko để ý hiện tượng lạ này, các bạn sẽ thấy độ đúng chuẩn (accuracy rate) không nhỏ, mà lại thực chất lại ko có khá nhiều chân thành và ý nghĩa. Bởi bởi vì, tất cả chẳng làm quy mô gì, chỉ từ việc quan tiền sát tài liệu, giả dụ một người dự đoán thù toàn bộ phần nhiều là No, độ đúng đắn đã lên tới mức 95%. Điều đặc biệt quan trọng trong số quy mô này chưa hẳn là độ đúng chuẩn, nhưng mà là false negative rate – tỉ trọng số fan bạn dự đoán thù không cài đặt xe mà họ vẫn thiết lập xe đích thực. Một kinh nghiệm thịnh hành cùng với các extremely unbalanced data là bài toán áp dụng undersampling cùng oversampling để làm mang đến data set trlàm việc yêu cầu balanced. lấy ví dụ như bạn gồm 1000 quan tiền cạnh bên với 950 No cùng 50 Yes, undersampling lựa chọn ra bỗng nhiên 50 quan gần kề No, và ghnghiền lại cùng với 50 Yes nhằm tạo thành một balance dataphối với 50 quan liêu gần kề sinh hoạt mỗi phân lớp. trái lại oversampling thì replicate mỗi 50 quan liêu cạnh bên Yes 19 lần, tạo thành một balance với 950 quan tiền liền kề ở mỗi phân lớp. Các mô hình phân lớp bên trên những oversampled/undersampled dataset cho ta một bức tranh tốt rộng về kỹ năng dự đân oán của những mô hình.

Tuy nhưng, những phương pháp under/over sampling này cũng có khá nhiều điểm yếu, nhỏng làm cho thay đổi phân phối hận của dữ liệu và ngân sách mang đến bài toán làm này đặc biệt quan trọng mập trong big data; một số bí quyết có tác dụng không giống, nhỏng theo bình luận của chúng ta Nguyễn Tiến Đức, mang tính chất kĩ thuật hơn, đó là vấn đề biến hóa những tđam mê số của hàm mất non (loss function), thường dùng area under the curve sầu (AUC) của ROC nhằm điều chỉnh precision/regọi của classification.

Xem thêm: ​Làm Nhang Từ Lá Cỏ Vườn Nhà, Nhang Hương Và Nguyên Liệu Làm Nhang

Hoặc một cách không giống, đó là vấn đề thực hiện những algorithm nhưng mà work well với unbalanced data – như support vector machine (SVM). Tóm lại, các bạn sẽ luôn luôn yêu cầu cẩn trọng cùng với câu hỏi chọn algorithm cùng criteria nhằm nhận xét những algorithm Lúc gồm unbalanced data.

4. Count variable (Biến đếm)

Một trường hợp thịnh hành không giống là chúng ta bao gồm tài liệu về số lần/con số một sự khiếu nại xẩy ra vào một khoảng thời gian khăng khăng, ví dụ số lượng tai nạn thương tâm giao thông vận tải trong một năm, con số ca mắc dịch new, etc. Đó là ví dụ về count data (đổi mới đếm).

Khi biến đếm lộ diện dưới dạng các features, thường thì nó được thực hiện nlỗi một thay đổi liên tục. Bởi bởi vì tuy nhiên những giá trị của chính nó luôn luôn là số nguim, nó luôn có tính sản phẩm từ với tất cả tính so sánh (một sự kiện xảy ra gấp đôi thì ít hơn 3 lần). Trong các quy mô dễ dàng nlỗi quy mô hồi quy tuyến đường tính, chân thành và ý nghĩa của hệ số cùng với các trở nên count rất có thể được diễn giải nhỏng với những trở nên tiếp tục hoàn toàn phù hợp. lấy ví dụ, Khi bạn có nhu cầu hồi quy về nồng độ CO2 trong không gian với con số cây cối trong vùng, bạn hoàn toàn nói theo một cách khác cứ đọng thêm 1 hoa cỏ nồng độ CO2 tăng/bớt một lượng nhất quyết.

Tuy nhiên, Khi trở nên đếm mở ra là một trong response variable, điều kiện trở nên đếm đề nghị là số nguyên ổn ko âm là một trong ĐK buộc ràng. lấy ví dụ như, vào nghành bảo đảm, bạn có nhu cầu mô hình số lượng tai nạn giao thông của một fan dựa trên những yếu tố nhỏng các khoản thu nhập, nghề nghiệp, tuổi thọ, giới tính, etc. Nếu các bạn thực hiện hầu hết quy mô cho thay đổi tiếp tục nhỏng mô hình hồi quy con đường tính, dự đoán của bạn cũng có thể dự đoán thù số lượng tai nạn giao thông vận tải là số âm. Ngoài ra những phát triển thành count data hay bị lệch rất nhiều – có nghĩa là con số các cực hiếm thấp như 0,1,2 chiếm đa phần, tuy vậy cũng có một ít các quý giá cao (như 15,16,…) – trong những khi quy mô hồi quy tuyến đường tính thường thì cùng với phân păn năn chuẩn chỉnh mang định các response tương đối đối xứng.

Mô hình phổ biến cho những biến chuyển count data nghỉ ngơi response variable là Poisson regression (quy mô hồi quy Poisson), negative binomial regression, với các phiên phiên bản của 2 mô hình này nhằm điều chỉnh mang lại overdispersion. Một trường hợp cũng giỏi gặp gỡ là mô hình của các sự khiếu nại hi hữu hoặc rất hiếm (rare sự kiện – extremely rare event) – gần như sự khiếu nại này thường được quyên tâm phệ do Tuy nó hiếm khi xảy ra, dẫu vậy Khi xảy ra, chi phí hoặc loss hay rất cao, vì thế đòi hỏi mô hình có độ đúng mực bự. lấy một ví dụ giả dụ bạn có nhu cầu mô hình số lượng tai nạn ngoài ý muốn thứ bay cực kỳ nghiêm trọng xảy ra vào một năm, bạn sẽ yêu cầu thực hiện những rare sự kiện models.

5. Ordinal variable

Trường vừa lòng thịnh hành của biến chuyển giao diện này là các likert scale, lúc dữ liệu nhận được theo kiểu những câu hỏi “Đánh giá bán cường độ ưng ý với thành phầm bên trên thang điểm từ 1 mang lại 10”. Nếu những biến đổi này xuất hiên dưới dạng những features, thông thường có thể thực hiện nó nhỏng một biến tiếp tục.Tuy vậy, nếu những trở thành này là những response, các biến chuyển này có thể coi nlỗi một sự lai tạp giữa những phát triển thành multinomial với thay đổi tiếp tục. Nhìn qua, những biến này có vẻ tương tự với đổi mới multinomial ở trong phần, các chúng ta có thể xem nlỗi từng nấc thang (từ là 1 mang đến 10) như một level; mặc dù vậy, không y như các đổi mới multinomial, những levels này còn có tính thứ từ bỏ. trái lại, nó ko hoàn toàn nlỗi phát triển thành tiếp tục, bởi vì các quý giá của nó luôn là số nguyên, với các scale của chính nó hoàn toàn có thể tương đối tuỳ nhân thể (dịp thì thang điểm từ là một mang lại 5, lúc thang điểm lại trường đoản cú 5 đến 10, v.v). Kiểu dữ liệu này đem đến phần nhiều quy mô trung gian giữa hồi quy (regression) và phân lớp (classification).

Một mô hình thịnh hành của trường vừa lòng này là các quy mô cùng với trở nên ẩn (latent variable model). Quay lại cùng với ví dụ ở trên về mức độ ăn nhập. Mô hình vươn lên là ẩn này nhận định rằng, mức độ ưa chuộng thật là 1 trong những biến chuyển thường xuyên trường đoản cú 0 mang đến 10, và những quý hiếm số ngulặng vào likert scale sẽ khớp ứng với một khoảng tầm của phát triển thành liên tục này. lấy ví dụ như, nếu đổi thay tiếp tục có giá trị tự 0 cho 1.8, trên likert scale sẽ là một trong, từ là một.8 mang đến 2.9, trên likert scale đã là 2. Bài toán thù phát triển thành tra cứu các điểm giới hạn cho mỗi likert score bên trên các trở thành thường xuyên (như các tiên phong hàng đầu.8 hay 2.9 vào ví dụ làm việc trên). Rõ ràng, trở thành thường xuyên này sẽ không quan lại liền kề được, nên được gọi là đổi thay ẩn.

Phần ngơi nghỉ bên trên mình nói về các kiểu dáng dữ liệu hay gặp gỡ phân các loại theo những cực hiếm nó rất có thể thừa nhận, tiếp tiếp sau đây sẽ là các đặc điểm tài liệu thông qua đặc điểm của quá trình thu thập.

B. Phân các loại theo đặc điểm của quá trình thu thập

Cross-sectional data (Dữ liệu giảm ngang)

Cross-sectional data là thứ hạng dữ liệu đơn giản và dễ dàng độc nhất, khi những vươn lên là số chỉ được tích lũy trên 1 thời điểm khăng khăng, hoặc quý giá của những phát triển thành số gần như là ko đổi khác theo thời hạn hay là không gian vào phạm vi của nghiên cứu và phân tích. Mục đích thiết yếu của bài toán áp dụng cross-sectional data là khi bạn quan tâm nhiều hơn thế nữa cho tới những thay đổi số với quan hệ thân bọn chúng dựa vào thực chất của chính nó, chứ không cần quyên tâm cho tới liệu các đổi thay số cùng các quan hệ biến hóa theo thời gian/không khí thế nào. lấy một ví dụ, bạn sẽ thực hiện một cross-sectional data nếu còn muốn tìm hiểu mối quan hệ thân thu nhập với chuyên môn học tập vấn nói bình thường, không kể tơi vấn đề các khoản thu nhập cùng học tập vấn chuyển đổi theo thời gian như thế nào.

Điểm sáng quan trọng nhất của các quan lại sát trong cross-sectional data là hoàn toàn có thể coi nó chủ quyền (independent), cùng chính vì vậy những quan liền kề có thể exchangable (vào ví dụ nói bên trên, bạn thu thập thu nhập cá nhân với học vấn của người 1 giỏi fan vật dụng 1000 trước ko đặc biệt quan trọng, và định danh của người 1 tốt fan vật dụng 1000 is indistinguishable). Nhận dạng cross-sectional data kha khá đơn giản dễ dàng bằng bài toán bạn không thấy yếu tố thời gian được hỗ trợ trong các biến đổi số. Các quy mô mang đến cross-sectional data là những quy mô cơ bạn dạng độc nhất vô nhị.

2. Time series data với Panel data: (Dữ liệu theo chuỗi thời gian cùng tài liệu mảng)