读取python数据导入excel中

作者：百问excel教程网

64人看过

发布时间：2026-01-25 06:44:32

标签：

读取Python数据导入Excel中的实用指南在数据处理与分析的领域中，Python以其丰富的库和灵活的语法，成为数据科学和工程应用中的首选工具。其中，`pandas` 是 Python 中最强大的数据处理库之一，它能够高效地读取、处

读取Python数据导入Excel中的实用指南
在数据处理与分析的领域中，Python以其丰富的库和灵活的语法，成为数据科学和工程应用中的首选工具。其中，`pandas` 是 Python 中最强大的数据处理库之一，它能够高效地读取、处理和写入各种格式的数据，包括 Excel 文件。本文将详细介绍如何使用 Python 读取 Excel 数据，并在实际应用中进行深入分析。
一、Python 与 Excel 数据交互的基础概念
Python 语言本身并不直接支持 Excel 文件的读取和写入，因此需要借助第三方库来实现这一功能。其中，`pandas` 和 `openpyxl` 是最常用的两个库。`pandas` 提供了对 Excel 文件的读取和写入功能，而 `openpyxl` 则是用于处理 Excel 文件的另一个重要库。
Excel 文件本质上是一种结构化的表格数据，由行和列组成，每一行代表一条记录，每一列代表一个字段。在 Python 中，通过 `pandas` 可以轻松地将 Excel 文件读取为 DataFrame，这是一种数据结构，能够高效地存储和处理数据。
二、使用 pandas 读取 Excel 数据
1. 安装 pandas 和 openpyxl
在使用 `pandas` 之前，需要先安装这两个库。可以通过以下命令进行安装：
bash
pip install pandas openpyxl

安装完成后，可以在 Python 脚本中导入这两个库：
python
import pandas as pd
from openpyxl import load_workbook

2. 读取 Excel 文件
`pandas` 提供了多种方法来读取 Excel 文件，最常见的方法是使用 `read_excel()` 函数。该函数的语法如下：
python
df = pd.read_excel('file.xlsx')

其中，`file.xlsx` 是要读取的 Excel 文件路径。读取后，`df` 将是一个 DataFrame，包含了 Excel 文件的所有数据。
示例：读取 Excel 文件
python
import pandas as pd
读取 Excel 文件
df = pd.read_excel('data.xlsx')
查看前几行数据
print(df.head())

执行上述代码后，将输出 Excel 文件的前几行数据，便于确认数据是否正确读取。
三、处理 Excel 文件中的数据
读取 Excel 文件后，数据可能包含各种格式，如文本、数字、日期、布尔值等，也可能会有空值、重复值等。因此，在处理数据前，需要进行一些清洗和预处理。
1. 检查数据类型
使用 `df.dtypes` 可以查看 DataFrame 中各列的数据类型：
python
print(df.dtypes)

2. 处理缺失值
Excel 文件中可能包含空单元格，这些空单元格在 `pandas` 中会被视为 NaN（Not a Number）。可以通过 `df.fillna()` 或 `df.dropna()` 来处理缺失值。
示例：处理缺失值
python
填充缺失值为 0
df.fillna(0, inplace=True)
删除包含缺失值的行
df.dropna(inplace=True)

3. 处理重复值
如果 Excel 文件中存在重复行，可以通过 `df.drop_duplicates()` 来去除重复行。
示例：去除重复行
python
df.drop_duplicates(inplace=True)

四、将 DataFrame 写入 Excel 文件
在完成数据的读取和处理后，如果需要将数据保存回 Excel 文件，可以使用 `to_excel()` 方法。
1. 写入 Excel 文件
python
df.to_excel('output.xlsx', index=False)

其中，`index=False` 表示不保存行索引。
2. 保存为特定格式
如果需要保存为 `.csv` 或其他格式，可以使用 `to_csv()` 方法：
python
df.to_csv('output.csv', index=False)

五、处理复杂数据结构
在实际应用中，Excel 文件可能包含多个工作表或多个工作簿，甚至嵌套表格。`pandas` 提供了多种方法来处理这些复杂结构。
1. 读取多个工作表
如果 Excel 文件包含多个工作表，可以通过 `read_excel()` 的 `sheet_name` 参数指定要读取的工作表。
示例：读取多个工作表
python
df1 = pd.read_excel('data.xlsx', sheet_name=0)
df2 = pd.read_excel('data.xlsx', sheet_name=1)

2. 读取多个工作簿
如果 Excel 文件是多个工作簿组成的文件（如 `.xlsx` 文件），可以通过 `read_excel()` 的 `engine` 参数为 `openpyxl`，并指定 `sheet_name` 为多个工作表的名称。
示例：读取多个工作表
python
df1 = pd.read_excel('data.xlsx', engine='openpyxl', sheet_name=0)
df2 = pd.read_excel('data.xlsx', engine='openpyxl', sheet_name=1)

六、读取 Excel 文件中的特定单元格
有时候，我们只需要读取 Excel 文件中的某一行或某一列，而不是整个数据。`pandas` 提供了多种方法来实现这一功能。
1. 读取特定行
python
df = pd.read_excel('data.xlsx', nrows=5)

其中，`nrows` 表示读取前 5 行数据。
2. 读取特定列
python
df = pd.read_excel('data.xlsx', usecols=['Name', 'Age'])

其中，`usecols` 表示只读取 `Name` 和 `Age` 两列数据。
七、读取 Excel 文件中的特定行和列
在实际应用中，我们经常需要读取 Excel 文件中的特定行和列。`pandas` 提供了多种方法来实现这一功能。
1. 读取特定行和列
python
df = pd.read_excel('data.xlsx', rows=[0, 2], cols=[0, 2])

其中，`rows` 表示要读取的行索引，`cols` 表示要读取的列索引。
2. 读取特定范围的行和列
python
df = pd.read_excel('data.xlsx', rows=[0, 2, 4], cols=[0, 2, 4])

八、使用 Excel 文件中的公式和图表
在某些情况下，Excel 文件中包含公式或图表，这些内容在 `pandas` 中无法直接读取。因此，需要通过其他方式来处理这些内容。
1. 读取 Excel 文件中的公式
如果 Excel 文件中包含公式，`pandas` 无法直接读取这些公式。因此，需要使用 `openpyxl` 来读取文件，并处理这些公式。
2. 读取 Excel 文件中的图表
同样，如果 Excel 文件中包含图表，`pandas` 也无法直接读取这些图表。需要使用 `openpyxl` 来读取文件，并处理这些图表。
九、读取 Excel 文件中的数据并进行分析
在读取 Excel 文件后，可以通过 `pandas` 进行数据的分析，如计算平均值、求和、求最大值等。
1. 计算平均值
python
average = df['Age'].mean()
print(f'平均年龄为: average')

2. 计算总和
python
total = df['Salary'].sum()
print(f'总薪资为: total')

3. 计算最大值和最小值
python
max_salary = df['Salary'].max()
min_salary = df['Salary'].min()
print(f'最大薪资为: max_salary, 最小薪资为: min_salary')

十、处理 Excel 文件中的日期和时间
Excel 文件中的日期和时间数据通常以 `YYYY-MM-DD` 或 `MM/DD/YYYY` 的格式存储。`pandas` 提供了多种方法来处理这些日期数据，如转换为 datetime 类型。
1. 转换为日期类型
python
df['Date'] = pd.to_datetime(df['Date'])

2. 提取日期中的年、月、日
python
year = df['Date'].dt.year
month = df['Date'].dt.month
day = df['Date'].dt.day

十一、读取 Excel 文件中的数据并进行可视化
在数据分析完成后，可以使用 `matplotlib` 或 `seaborn` 等库对数据进行可视化。
1. 使用 matplotlib 可视化
python
import matplotlib.pyplot as plt
plt.plot(df['Age'], df['Salary'])
plt.xlabel('年龄')
plt.ylabel('薪资')
plt.title('年龄与薪资关系')
plt.show()

2. 使用 seaborn 可视化
python
import seaborn as sns
sns.scatterplot(x='Age', y='Salary', data=df)
sns.set_style('whitegrid')
plt.show()

十二、总结
在 Python 中，使用 `pandas` 可以高效地读取、处理和写入 Excel 文件。通过 `read_excel()` 函数可以轻松地将 Excel 文件读取为 DataFrame，然后通过各种方法进行数据清洗、处理和分析。此外，还可以处理多个工作表、多个工作簿，以及读取特定行和列的数据。在实际应用中，还可以结合 `matplotlib` 或 `seaborn` 进行数据可视化。
掌握这些技能，可以帮助用户在数据处理任务中更加高效地完成工作，提升数据分析的准确性与实用性。

字数统计：约 3800 字

上一篇 : excel区域不同的数据种类

下一篇 : plsql将excel中数据导出