THUDM / ChatGLM3

ChatGLM3 series: Open Bilingual Chat LLMs | 开源双语对话语言模型
Apache License 2.0
13.34k stars 1.55k forks source link

希望能够提供一个Code Interpreter的微调数据源案例和微调脚本 #269

Closed wengyuan722 closed 10 months ago

wengyuan722 commented 10 months ago

image image image image

Feature request / 功能建议

请你分析一下titanic.csv这个文件

好的,首先我会加载并查看titanic.csv文件的前几行内容,以便对其结构和数据有一个大致的了解。

import pandas as pd

Load the CSV file into a DataFrame

df = pd.read_csv('/root/titanic.csv')

Display the first few rows of the DataFrame to get an overview

df.head()

Observation:

PassengerId Survived Pclass \ 0 1 0 3
1 2 1 1
2 3 1 3
3 4 1 1
4 5 0 3

                                            Name     Sex   Age  SibSp  \

0 Braund, Mr. Owen Harris male 22.0 1
1 Cumings, Mrs. John Bradley (Florence Briggs Th... female 38.0 1
2 Heikkinen, Miss. Laina female 26.0 0
3 Futrelle, Mrs. Jacques Heath (Lily May Peel) female 35.0 1
4 Allen, Mr. William Henry male 35.0 0

Parch Ticket Fare Cabin Embarked
0 0 A/5 21171 7.2500 NaN S
1 0 PC 17599 71.2833 C85 C
2 0 STON/O2. 3101282 7.9250 NaN S
3 0 113803 53.1000 C123 S
4 0 373450 8.0500 NaN S

该文件包含了以下字段:

PassengerId:乘客的ID。 Survived:乘客是否幸存('survived' 的值为0表示未幸存,1表示幸存)。 Pclass:乘客的船票等级(1 = 1st, 2 = 2nd, 3 = 3rd)。 Name:乘客的名字。 Sex:乘客的性别('male' 表示男性,'female' 表示女性)。 Age:乘客的年龄。 SibSp:乘客的船上兄弟姐妹/配偶的数量(如果有的话)。 Parch:乘客的家长/子女的数量(如果有的话)。 Ticket:乘客的船票号码。 Fare:乘客的船票价格。 Cabin:乘客的船舱号码。 Embarked:乘客上船的港口(C = Cherbourg, Q = Queenstown, S = Southampton)。 从上面显示的数据看,第一行是列的描述,接下来的行是乘客的具体数据。

请问你想要进行哪些分析或操作?

分析一下不同船票等级的生存概率

好的,我会计算不同船票等级(船票号码的前两位)乘客的生存概率。

Drop the first row which is the header

df = df.drop(0)

Group the data by Pclass and calculate the survival probability

survival_probability = df.groupby('Pclass')['Survived'].mean()

survival_probability

Observation:

Pclass 1 0.629630 2 0.472826 3 0.242857 Name: Survived, dtype: float64

不同船票等级的生存概率如下:

1st class: 生存概率约为 0.629630 2nd class: 生存概率约为 0.472826 3rd class: 生存概率约为 0.242857 从生存概率的角度来看,1st class 的乘客更有可能生存下来,而 3rd class 的乘客则相对 less likely。

Code Interpreter非常强大,大家也想通过这个功能应用于本地场景,做一些简单的分析,目前有提供了tool的微调脚本和数据构建,能不能提供Code Interpreter类似微调脚本,多谢。最好以上述的分析案例,举一个例子。

Motivation / 动机

希望能够加强开源模型对抗openai的机会

Your contribution / 您的贡献

zRzRzRzRzRzRzR commented 10 months ago

暂时还不能提供微调样本 如果有任何技术报告和更多技术细节公开,我们会第一时间在github上进行更新,敬请关注