Jupyter Notebook cũng như dữ liệu của bài học hôm nay, các bạn có thể tải xuống tại Github Repo Link: ✪ Jupyter Notebook & CSV của Video: github.com/CodexploreRepo/data_science/tree/main/Code/P01_Pre_Processing Ai muốn làm nội dung gì thì comment bên dưới cho CodeXplore biết nha :)
@nam2222nam
Жыл бұрын
Rất ý nghĩa từ nội dung đến cách chia sẻ và cách sống!🎉
@CodeXplore
Жыл бұрын
Cảm ơn bạn đã ủng hộ 👏
@vutran-pj8zf
3 жыл бұрын
trước tiền xử lí data thì có bước thu thập dữ liệu (Crawling data) , hiện tại python có selenium crawl nhưng khá lâu , bs4 thì nhanh hơn nhưng ko làm việc với js , scrapy nhanh nhất nhưng muốn crawling website code bằng js cần docker + flash . Hi vọng ae admin kênh làm 1 khóa scrapy +docker+flash để crawl những web code bằng js ( shopee , lazada , tiki ,vv...vv) e xin cảm ơn !
@CodeXplore
3 жыл бұрын
Wow good suggestion ! Anh sẽ note và làm em nhé ! Cảm ơn em đã luôn ủng hộ CodeXplore !
@minhdao1622
3 жыл бұрын
hay quá , mình cũng đang cần cái này. Hi vọng ad làm series về crawling data nữa thì quá tuyệt
@trungnguyenthanh9455
3 жыл бұрын
Anh có thể làm một series về SQL với python được k ạ. A nói rất dễ hiểu. E cám ơn a ạ
@quangtran3604
3 жыл бұрын
Anh ra thêm về video data science tiếp đi anh, cứ cuối tuần em chờ suốt.
@CodeXplore
3 жыл бұрын
Ok em, Team sẽ cố gắng nhé 😀
@damnguyen3570
3 жыл бұрын
Bài giảng của anh rất hay và bao quát toàn bộ kiến thức. Hi vọng anh ra nhiều video ạ!
@CodeXplore
3 жыл бұрын
Nhất định rồi em nhé ! cảm ơn em đã ủng hộ CodeXplore !
@hoami8320
Жыл бұрын
anh ơi em góp ý cái chỗ lấp dữ liệu null ấy mình nên thay thế đoạn đấy thành [data_df.fillna(data_df.mean() ,inplace=true) ] như này cấu trúc đơn giản dễ hiểu hơn mà lại nhanh gọn ạ ! Em cảm ơn vì bài giản , em chỉ muốn góp ý cho anh và mọi người có gì sai sót a cứ việc chỉ giáo !😁
@PhuongBui-tz2ms
8 ай бұрын
cho em hỏi nếu cột có giá trị string bị thiếu thì sao ạ
@tep67
4 ай бұрын
anh ra thêm video về machine learning, deep learning như này đi ạ hay quá luôn, học dễ hiểu lắm tr
@TuAnh-vb3gr
3 жыл бұрын
Em hóng series này ghê á, anh đến ngay lúc em đang cần để làm đồ án luôn. Hi vọng có 1 video nào đó kiểu 1 mô hình nhỏ mà có thể bao quát được ứng dụng thực tế luôn á.
@CodeXplore
3 жыл бұрын
thế hả em ! Vinh dự quá, anh sẽ cố gắng em nhé !
@minhnguyenhoang9056
3 жыл бұрын
cảm ơn a rất nhiều ạ. Mong a ra nhiều vid hơn về chủ đề khoa học dữ liệu
@CodeXplore
3 жыл бұрын
Nhất định rồi em nhé ! Hi vọng video hữu ích vs em !
@khoanguyentien8449
3 жыл бұрын
a cho e hỏi. khi encode column Country sau khi encode thì sẽ có phát sinh vector n cột tương ứng với value unique phải ko ạ. Nếu đúng như vậy thì với tập data lớn giá trị unique quá lớn thì làm sao mình kiểm soát số cột phát sinh để khi xử lý những cột phía sau ạ. tks a.
@CodeXplore
3 жыл бұрын
Một câu hỏi rất hay ! Chính xác rồi em nhé, số n cột sinh ra tương ứng vs unique values trong cột country. Đối với trường hợp có nhiều giá trị unique values, chúng ta có thể dùng kiểu encode khác thay cho One Hote Encoder, vd như Binary Encoder để chuyển về dạng một dãy nhị phân em nhé: contrib.scikit-learn.org/category_encoders/binary.html
@khoanguyentien8449
3 жыл бұрын
@@CodeXplore A có dự định làm series về data engineering ko ạ.
@nguyenannie9473
3 жыл бұрын
Video của a rất hay ạ! A ơi, bữa nào a làm video hướng dẫn kĩ thuật collect data trên web được không ạ! Cảm ơn a rất nhiều
@CodeXplore
3 жыл бұрын
Cảm ơn em đã luôn ủng hộ team CodeXp;ore nhé !
@quanghuytran5645
3 жыл бұрын
Video của anh hay quá ạ. Anh có thể chia sẻ thêm về một số nguồn học và khóa học về Machine Learning được không ạ??
@CodeXplore
3 жыл бұрын
Em có thể làm các project trên Kaggle hoặc học course Machine Learning của thầy Andrew Ng trên Coursera em nha
@Kubo9802
2 жыл бұрын
@@CodeXplore cho em xin nguồn những project hợp newbie với ạ , em mới học nên còn khá mông lung ạ. Em cảm ơn
@ndhieunguyen
3 жыл бұрын
Anh giảng hay lắm ạ, hi vọng anh sẽ ra thêm video về Data Science
@CodeXplore
3 жыл бұрын
Nhất định rồi em nhé ! Chúc em có một buổi tối vui vẻ
@truongchidien3810
3 жыл бұрын
Hề lấu em
@tuenguyen9722
3 жыл бұрын
Mong anh tiếp tục phát triển series này ạ. Quá hay luôn anh ơi
@CodeXplore
3 жыл бұрын
Nhất định rồi em nhé !
@doducanh5098
Жыл бұрын
Anh có thể ra thêm cách làm bảng dashboard cho power BI hay Tableau mà khi mình đã có phân tích trên file jupyter notebook được ko a. Kiểu 1 dạng project end to end ấy. Cám ơn a
@ThaoQuynh-c8g
6 ай бұрын
A ơi, a có thể ra video giải thích về PCA được ko ạ? Cách code nữa ạ. Em cảm ơn nhiều
@life-1193
Жыл бұрын
cám ơn bạn đã chia sẻ
@tiepchu6650
Жыл бұрын
Anh nói dễ hiểu quá ạ. Anh có thể làm thêm Machine Learning cho người mới bắt đầu được ko ạ ?
@CodeXplore
Жыл бұрын
Nhất định rồi em nhé
@khongbietattengi8411
3 жыл бұрын
Mong anh dạy em cách tạo một app trợ lý ảo đơn giản bằng tkinter và video F.R.I.D.A.Y trc của anh ạ ! Em cảm ơn.
@CodeXplore
3 жыл бұрын
Nhất định rồi em nhé ! Hi vọng video hữu ích vs em !
@theanhbui4259
2 жыл бұрын
x_train[:,3:] = sc.fit_transform(x_train[:,3:]) x_test[:,3:] = sc.transform(x_test[:,3:]) Hi ad mình đang xem đoạn này, mình đang k hiểu tại sao x_train thì có dùng fit còn x test thì không. fit_transtorm với transform khác nhau chỗ nào vậy ad.
@TinLee99
9 ай бұрын
fit để model học các dữ liệu mà mình đưa vào, transform để chuyển đổi dữ liệu được đưa vào đó về cùng range với nhau. x_test không được fit vì 2 lý do chính: (1) ta đã fit xtrain rồi, tức là model đã học từ các dữ liệu của x_ train, mà dữ liệu của x_train thì cũng tương tự x_test vì nó cùng 1 cột mà ra (2) ta không được fit x test vì khi fit x test thì model có thể học dữ liệu của x test điều này gây ra data leakage khiến việc dữ đoán có thể ko chính xác dẫn đến overfitting
@trandanh_nietisland5929
2 жыл бұрын
a ơi cho em hỏi là mình StandardScaler dữ liệu train rồi khi dự đoán với dữ liệu thực thì làm thế nào ạ? mong được a rep
@huynhvanthuan1838
2 жыл бұрын
Cảm ơn anh nhiều nhé! Em đã đăng ký kênh anh và bấm chuông thông báo rồi nha ^^
@minhdao1622
3 жыл бұрын
Hay quá b ơi , b có thể hướng dẫn sâu hơn về sckit learrn cho bước tiếp theo ko . Cảm ơn b nhiều
@CodeXplore
3 жыл бұрын
Nhất định r b nhé !
@thuonghater2001
3 жыл бұрын
Em đang muốn theo học machine learning, theo e tìm hiều thì mới một framework là scikitlearn, a cho e hỏi ngoài ra mình cần học nhưng frame work gì ạ
@CodeXplore
3 жыл бұрын
Em có thể học Tensorflow hoặc PyTorch em nhé !
@hoangdung2213
3 жыл бұрын
Hi vọng anh làm thêm về các thuật toán machine learning ak
@CodeXplore
3 жыл бұрын
Nhất Định rồi nhé em !
@doyenn1612
3 жыл бұрын
Thanks a. Mong a ra video nhiều hơn ạ
@CodeXplore
3 жыл бұрын
Nhất định rồi em nhé ! Hi vọng video hữu ích vs em !
@quynhvo2113
2 жыл бұрын
Anh có thể làm tiếp về select feature được không ạ. Cảm ơn anh rất nhiều!
@lyphuong3344
3 жыл бұрын
Video huong dan rat chi tiet, cam on anh :)
@CodeXplore
3 жыл бұрын
You re welcome em
@blackholeschanel8713
2 жыл бұрын
Anh cho em hỏi là ở phần Cleaning Data thì mình dùng method "fillna()" của Pandas tốc độ nó có chậm hơn cách làm của anh trong video không ạ?
@r0cketRacoon
7 ай бұрын
a ơi e tưởng phải bỏ 1 column để tránh dummy variable trap chứ nhỉ?
@duynghiavo7915
Жыл бұрын
Anh ơi cho em hỏi khi dữ liệu có đến 100 dòng thì làm sao dùng heatmap để show ra dữ liệu bị thiếu được ạ. Vì lúc này biểu đồ nhỏ nên nó chia trục dọc ra thành 0 - 4 - 8 - 12 ...... chứ không phải chia dữ liệu trục dọc ra thành 0 -1 - 2 - .... như dữ liệu chỉ có 10 dòng của anh. Làm cho các dữ liệu ở các vị trí như ( 1,2,3 hay 5,6,7) là các vị trí bị thiếu thì nó không show ra trên hình được ạ. Anh giúp em fix chỗ này với ạ. Em cảm ơn anh
@MyNguyen-wz3fd
2 жыл бұрын
Anh ơi cho em hỏi với ạ. Sau khi tách data xong thì làm thế nào để lưu file về máy dưới dạng csv file ạ?. Em cảm ơn anh
@hienbui7423
Жыл бұрын
Cám ơn anh nhiều ạ
@CodeXplore
11 ай бұрын
You re welcome em
@TinLee99
9 ай бұрын
mn cho e hỏi, theo kiến thức e được học thì ta phải tách dữ liệu trước, sau đó mới bắt đầu preprocessing vì khi ta không tách mà ta fit_ transform toàn bộ dữ liệu như vậy sẽ có thể bị data leakage khiến model có thể overfitting nhỉ
@MaiNguyen-mt5ut
3 жыл бұрын
rất dễ hiểu ạ, mong team ra nhiều sp hay !
@HolyNies
2 жыл бұрын
Cho hỏi cái feature scaling nên làm trước khi hay sau khi train-split mình và cô giáo của mình cũng cãi nhau vài tuần vì cái vụ scale này thank chủ kênh nhé
@CodeXplore
2 жыл бұрын
You are welcome bạn !
@mquan147
9 ай бұрын
phải scaled trước chứ nhỉ
@tranaitai2035
3 жыл бұрын
a có thể ra thêm video hướng dẫn dùng pipeline trong tiền xử lý dữ liệu k a
@nguyenduong5663
3 жыл бұрын
yêu anh zai quá, e hóng lâu lắm rồi ạ
@CodeXplore
3 жыл бұрын
Hehe thanks bro ! Hẹn em vào 7:30pm tối nay nhé !
@hungletri3550
2 жыл бұрын
23:03 e đang k chọn đc các cốt cần convert như mong muốn ạ. em convert cột 1 2 4 thì cột 4 bị đổi chỗ cho cột 3
@minhnghia107
3 жыл бұрын
Anh ơi, ví dụ mình muốn tìm các datasets để luyện tập thì nên tìm ở đâu nhỉ?
@CodeXplore
3 жыл бұрын
Ở Kaggle em nhé !
@minhnghia107
3 жыл бұрын
@@CodeXplore Tks anh, mong a ra thêm về Machine Learning 😉
@chilamnguyen1964
2 жыл бұрын
Cảm ơn ad
@huytang8398
2 жыл бұрын
đây có thể xem là một chương trình hoàn chỉnh dùng để thuyết trình không ạ, mình là sinh viên năm 2 ạ
@buukhanhong40
3 жыл бұрын
Em ko hiểu chỗ random.seek(42) Nếu mình random mà không cần cái seek(42) nớ thì sao a nhỉ? Mong a giải đáp giúp em.
@CodeXplore
3 жыл бұрын
Hi em, thì kết quả mỗi lần chạy sẽ khác nhau. Mình fix seed thì kết quả mỗi lần chạy sẽ ra như nhau để vd mình có báo cáo thì số liệu không thay đổi em nhé
@mialam2318
3 жыл бұрын
@@CodeXplore con số 42 này mình dựa vào đâu để lấy ạ? E cảm ơn
@dautudongian_sinnn
3 жыл бұрын
@@mialam2318 tùy ý bạn nhé. trong khoảng 2^32 thì phải
@nghiahuynh3416
3 жыл бұрын
Hay lắm người anh em :>
@tuanbaothan4244
2 жыл бұрын
Ae cho em hỏi tổ hợp phím để hiện gợi ý code được không ạ? em thử bấm ctrl + space như các IDE khác thì k đc ạ. Cảm ơn mn
@phamthixuanhienvlog8983
3 жыл бұрын
anh ơi làm về knowledge based recommendation systems in chọn course với anh
@CodeXplore
3 жыл бұрын
Good idea 👍 có j anh take note và làm nha
@phamthixuanhienvlog8983
3 жыл бұрын
@@CodeXplore dạ dạ em cảm ơn anh
@CodeXplore
3 жыл бұрын
@@phamthixuanhienvlog8983 you re welcome em !
@namquach73
3 жыл бұрын
hay lắm ạ
@CodeXplore
3 жыл бұрын
Cảm ơn em
@tranantony3009
3 жыл бұрын
Anh ơi cho em hỏi xíu : e ngồi code 1 lúc xong tắt máy đi ngủ, qua hôm sau bật tệp đó lên code tiếp thì nó báo lỗi ạ. cứ phải bấm vào từng dòng từ đầu xong bấm command enter để chạy lại từng dòng thì mới code tiếp đc ạ. :(
@CodeXplore
3 жыл бұрын
Em có thể Chọn option "Restart and Run All Cell" nhé, nó sẽ giúp em chạy lại các cell từ đầu tới cuối
@tranantony3009
3 жыл бұрын
@@CodeXplore dạ ok r anh ạ, c.ơn a nhiều ạ :D
@CodeXplore
3 жыл бұрын
@@tranantony3009 you re welcome em
@lochuynh6734
3 жыл бұрын
Trời ơi hóng vd anh mãi
@CodeXplore
3 жыл бұрын
Hehe, sơ rì vì đã để em phải đợi lâu nhé !
@huyenbuikhanh2510
3 жыл бұрын
e hóng mãi
@CodeXplore
3 жыл бұрын
Hẹn em tối mai nhé ! Chúc em cuối tuần vui vẻ 😄
@minhphambinh2944
4 ай бұрын
hay quá anh ơi
@anhtuanmai537
2 жыл бұрын
hay quá a
@CodeXplore
2 жыл бұрын
Cảm ơn em nha !
@minhhuehoang1831
3 жыл бұрын
Anh đang dùng máy tính gì ạ
@CodeXplore
3 жыл бұрын
Anh đang dùng con Macbook em nha !
@matsuatrai6259
3 жыл бұрын
Dạy Git-github đi a
@CodeXplore
3 жыл бұрын
Anh có làm series về Git rồi em tham khảo nha: kzitem.info/door/PLJcWUrckOCKJ9cL3WtHhK_eHu5Q3aYnDs
@vietongo8880
Жыл бұрын
qúa đỉnh
@huongnguyenthiviet4658
3 жыл бұрын
anh ơi, tại sao X_train được fit mà X_test thì không vậy anh? em vẫn chưa hiểu rõ lắm
@nguyenhoangthanhminh7648
3 жыл бұрын
Tại vì nó train trên tập X_train rồi đó bạn X_train với X_test là tập con của X mà, nên feature scaling trên training set (tức X_train) có nhiều element hơn do đó X_test nên theo mean() với std() (công thức khúc 41:50) của X_train, theo mình hiểu là v á :3
@manhcuong193
3 жыл бұрын
@CodeXplore
3 жыл бұрын
😍
@bdepw5348
3 жыл бұрын
nhìn hơi lú :))
@CodeXplore
3 жыл бұрын
Xem đi xem lại ngâm cứu nha em ! Bởi vậy anh mới làm từng bước từng bước chứ làm project liền dễ bị nú :))
Пікірлер: 109