自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="gnzgq"></sub>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

一行 Python 代碼實(shí)現(xiàn)數(shù)據(jù)清洗的18種方法

作者：手把手PythonAI編程 2024-11-20 07:00:00

開發(fā) 后端

今天，我們就來學(xué)習(xí)如何用一行代碼完成數(shù)據(jù)清洗的十八個(gè)小絕招。準(zhǔn)備好，讓我們一起化繁為簡，成為數(shù)據(jù)清洗的高手！

數(shù)據(jù)清洗可能是你們遇到的第一個(gè)大挑戰(zhàn)，但別擔(dān)心，Python的魔力在于能用簡潔的代碼解決復(fù)雜問題。今天，我們就來學(xué)習(xí)如何用一行代碼完成數(shù)據(jù)清洗的十八個(gè)小絕招。準(zhǔn)備好，讓我們一起化繁為簡，成為數(shù)據(jù)清洗的高手！

1. 去除字符串兩邊空格

data = "   Hello World!   "
cleaned_data = data.strip()  # 神奇的一行，左右空格拜拜

解讀：strip()方法去掉字符串首尾的空白字符，簡單高效。

2. 轉(zhuǎn)換數(shù)據(jù)類型

num_str = "123"
num_int = int(num_str)  # 字符串轉(zhuǎn)整數(shù)，就是這么直接

注意：轉(zhuǎn)換時(shí)要確保數(shù)據(jù)格式正確，否則會報(bào)錯(cuò)。

3. 大小寫轉(zhuǎn)換

text = "Python is Awesome"
lower_text = text.lower()  # 全部變小寫，便于統(tǒng)一處理
upper_text = text.upper()  # 或者全部大寫，隨你心情

4. 移除列表中的重復(fù)元素

my_list = [1, 2, 2, 3, 4, 4]
unique_list = list(set(my_list))  # 集合特性，去重?zé)o壓力

小貼士：這招雖好，但改變了原列表順序哦。

5. 快速統(tǒng)計(jì)元素出現(xiàn)次數(shù)

from collections import Counter
data = ['apple', 'banana', 'apple', 'orange']
counts = dict(Counter(data))  # 想要知道誰最受歡迎？

解讀：Counter是統(tǒng)計(jì)神器，輕松獲取頻率。

6. 字符串分割成列表

sentence = "Hello world"
words = sentence.split(" ")  # 分割符默認(rèn)為空格，一句話變單詞列表

7. 列表合并

list1 = [1, 2, 3]
list2 = [4, 5, 6]
merged_list = list1 + list2  # 合并列表，就這么簡單

8. 數(shù)據(jù)填充

my_list = [1, 2]
filled_list = my_list * 3  # 重復(fù)三次，快速填充列表

9. 提取日期時(shí)間

from datetime import datetime
date_str = "2023-04-01"
date_obj = datetime.strptime(date_str, "%Y-%m-%d")  # 日期字符串變對象

關(guān)鍵點(diǎn)：%Y-%m-%d是日期格式，按需調(diào)整。

10. 字符串替換

old_string = "Python is fun."
new_string = old_string.replace("fun", "awesome")  # 改頭換面，一言既出old_string = "Python is fun."
new_string = old_string.replace("fun", "awesome")  # 改頭換面，一言既出

11. 快速排序

numbers = [5, 2, 9, 1, 5]
sorted_numbers = sorted(numbers)  # 自然排序，升序默認(rèn)

進(jìn)階：reverse=True可降序排列。

12. 提取數(shù)字

mixed_str = "The year is 2023"
nums = ''.join(filter(str.isdigit, mixed_str))  # 只留下數(shù)字，其余走開

解密：filter函數(shù)配合isdigit，只保留數(shù)字字符。

13. 空值處理（假設(shè)是列表）

data_list = [None, 1, 2, None, 3]
filtered_list = [x for x in data_list if x is not None]  # 拒絕空值，干凈利落

語法糖：列表推導(dǎo)式，簡潔優(yōu)雅。

14. 字典鍵值對互換

my_dict = {"key1": "value1", "key2": "value2"}
swapped_dict = {v: k for k, v in my_dict.items()}  # 翻轉(zhuǎn)乾坤，鍵變值，值變鍵

15. 平均值計(jì)算

numbers = [10, 20, 30, 40]
average = sum(numbers) / len(numbers)  # 平均數(shù)，一步到位

16. 字符串分組

s = "abcdef"
grouped = [s[i:i+2] for i in range(0, len(s), 2)]  # 每兩個(gè)一組，分割有道

應(yīng)用：適用于任何需要分組的場景。

17. 數(shù)據(jù)標(biāo)準(zhǔn)化

import numpy as np
data = np.array([1, 2, 3])
normalized_data = (data - data.mean()) / data.std()  # 數(shù)學(xué)之美，標(biāo)準(zhǔn)分布

背景：數(shù)據(jù)分析必備，讓數(shù)據(jù)符合標(biāo)準(zhǔn)正態(tài)分布。

18. 數(shù)據(jù)過濾（基于條件）

data = [1, 2, 3, 4, 5]
even_numbers = [x for x in data if x % 2 == 0]  # 只留偶數(shù)，排除異己

技巧：列表推導(dǎo)結(jié)合條件判斷，高效篩選。

進(jìn)階實(shí)踐與技巧

既然你已經(jīng)掌握了基礎(chǔ)的十八種方法，接下來讓我們深入一些，探討如何將這些技巧結(jié)合起來，解決更復(fù)雜的數(shù)據(jù)清洗問題，并分享一些實(shí)戰(zhàn)中的小技巧。

1. 復(fù)雜字符串處理：正則表達(dá)式

正則表達(dá)式是數(shù)據(jù)清洗中不可或缺的工具，雖然嚴(yán)格來說可能超過一行，但它能高效地處理模式匹配和替換。

import re
text = "Email: example@email.com Phone: 123-456-7890"
emails = re.findall(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b', text)
phones = re.findall(r'\b\d{3}-\d{3}-\d{4}\b', text)

這段代碼分別提取了文本中的電子郵件和電話號碼，展示了正則表達(dá)式的強(qiáng)大。

2. Pandas庫的魔法

對于數(shù)據(jù)分析和清洗，Pandas是不二之選。雖然Pandas的命令通常不止一行，但其高效性和簡潔性值得學(xué)習(xí)。

import pandas as pd
df = pd.read_csv('data.csv')
# 刪除含有缺失值的行
df_clean = df.dropna()
# 替換特定值
df['column_name'] = df['column_name'].replace('old_value', 'new_value')

注意：Pandas雖然強(qiáng)大，但對于初學(xué)者可能需要更多時(shí)間來熟悉。

3. 錯(cuò)誤處理和日志記錄

在處理大量數(shù)據(jù)時(shí)，錯(cuò)誤幾乎是不可避免的。學(xué)會用try-except結(jié)構(gòu)捕獲異常，并使用logging記錄日志，可以大大提升調(diào)試效率。

import logging
logging.basicConfig(level=logging.INFO)
try:
    result = some_function_that_might_fail()
    logging.info(f"成功執(zhí)行！結(jié)果：{result}")
except Exception as e:
    logging.error(f"執(zhí)行失敗：{e}")

這樣，即使出現(xiàn)問題，也能迅速定位。

4. 批量操作與函數(shù)封裝

將常用的數(shù)據(jù)清洗步驟封裝成函數(shù)，可以大大提高代碼的復(fù)用性和可讀性。

def clean_phone(phone):
    """移除電話號碼中的非數(shù)字字符"""
    return ''.join(c for c in phone if c.isdigit())

phone_numbers = ['123-456-7890', '(555) 555-5555']
cleaned_numbers = [clean_phone(phone) for phone in phone_numbers]

通過定義clean_phone函數(shù)，我們可以輕松地清理一批電話號碼。

實(shí)戰(zhàn)建議：

分步進(jìn)行：不要試圖一次性完成所有清洗任務(wù)，分步驟處理，逐步優(yōu)化。
測試數(shù)據(jù)：在實(shí)際數(shù)據(jù)上測試你的清洗邏輯前，先用小樣本或模擬數(shù)據(jù)驗(yàn)證代碼的正確性。
文檔和注釋：即使是簡單的數(shù)據(jù)清洗腳本，良好的注釋也能為未來的自己或其他開發(fā)者提供巨大幫助。

責(zé)任編輯：趙寧寧來源：手把手PythonAI編程

代碼數(shù)據(jù)清洗 Python

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<legend id="1nf06"><abbr id="1nf06"></abbr></legend>

^{<thead id="1nf06"></thead>}

<blockquote id="1nf06"><p id="1nf06"><th id="1nf06"></th></p></blockquote>