简介
google protocol buffer( 简称 protobuf) 是 google 公司内部的混合语言数据标准,目前已经正在使用的有超过 48,162 种报文格式定义和超过 12,183 个 .proto 文件。他们用于 rpc 系统和持续数据存储系统。
protocol buffers 是一种轻便高效的结构化数据存储格式,可以用于结构化数据串行化、或者说序列化。它很适合做数据存储或rpc数据交换格式。可以用于即时通讯、数据存储等领域的语言无关、平台无关、可扩展的序列化结构数据格式
google的protobuf了,相比于它的前辈xml、json,它的体量更小,解析速度更快,所以在 im 这种通信应用中,非常适合将 protobuf 作为数据传输格式。
protobuf的核心内容包括:
- 定义消息:消息的结构体,以message标识。
- 定义接口:接口路径和参数,以service标识。
通过protobuf提供的机制,服务端与服务端之间只需要关注接口方法名(service)和参数(message)即可通信,而不需关注繁琐的链路协议和字段解析,极大降低了服务端的设计开发成本。
查看版本
protoc --version //查看版本
proto3 比 proto2 支持更多语言但 更简洁。去掉了一些复杂的语法和特性,更强调约定而弱化语法
-
在第一行非空白非注释行,必须写:syntax = “proto3”;
-
字段规则移除了 “required”,并把 “optional” 改名为 “singular”;
-
proto3 repeated标量数值类型默认packed,而proto2默认不开启
在 proto2 中,需要明确使用 [packed=true] 来为字段指定比较紧凑的 packed 编码方式
-
语言增加 go、ruby、javanano 支持;
-
proto2可以选填default,而proto3只能使用系统默认的
在 proto2 中,可以使用 default 选项为某一字段指定默认值。在 proto3 中,字段的默认值只能根据字段类型由系统决定。也就是说,默认值全部是约定好的,而不再提供指定默认值的语法
-
proto3必须有一个零值,以便我们可以使用 0 作为数字默认值。零值需要是第一个元素,以便与proto2语义兼容,其中第一个枚举值始终是默认值。proto2则没有这项要求。
-
roto3在3.5版本之前会丢弃未知字段。但在 3.5 版本中,重新引入了未知字段的保留以匹配 proto2 行为。在 3.5 及更高版本中,未知字段在解析过程中保留并包含在序列化输出中
-
proto3移除了proto2的扩展,新增了any(仍在开发中)和json映射
syntax = "proto3";
message person {
string name = 1;
int32 id = 2;
string email = 3;
}
字段类型
protobuf定义了一套基本数据类型
proto文件消息类型 | c 类型 | 说明 |
---|---|---|
double | double | 双精度浮点型 |
float | float | 单精度浮点型 |
int32 | int32 | 使用可变长编码方式,负数时不够高效,应该使用sint32 |
int64 | int64 | 使用可变长编码方式,负数时不够高效,应该使用sint32 |
unit32 | unit32 | 使用可变长编码方式 |
unit64 | unit64 | 使用可变长编码方式 |
sint32 | int32 | 使用可变长编码方式,有符号的整型值,负数编码时比通常的int32高效 |
sint64 | sint64 | 使用可变长编码方式,有符号的整型值,负数编码时比通常的int64 |
fixed32 | unit32 | 总是4个字节,如果数值总是比2^28大的话,这个类型会比uint32高效 |
fixed64 | unit64 | 总是8个字节,如果数值总是比2^56大的话,这个类型会比uint64高效 |
sfixed32 | int32 | 总是4个字节 |
sfixed64 | int64 | 总是8个字节 |
bool | bool | 布尔类型 |
string | string | 一个字符串必须是utf-8编码或者7-bit的ascii编码的文本 |
bytes | string | 可能包含任意顺序的字节数据 |
字段编号
消息定义中的每个字段都有一个唯一的编号。这些字段编号用于以二进制格式标识您的字段,一旦您的消息类型被使用,就不应该被更改。
tag的取值范围最小是1,最大是229229-1,但但 19000~19999 是 protobuf 预留的,用户不能使用。
虽然 编号的定义范围比较大,但不同 编号也会对 protobuf 编码带来一些影响:
- 1 ~ 15:单字节编码
- 16 ~ 2047:双字节编码
使用频率高的变量最好设置为1~15,这样可以减少编码后的数据大小,但由于编号一旦指定不能修改,所以为了以后扩展,也记得为未来保留一些 1~15 的 编号
字段规则
-
singular: 可以有零个或其中一个字段(但不超过一个)。
-
repeated: 该字段可以重复任意次数(包括零次)。重复值的顺序将被保留。
在proto 3中,可扩展的repeated字段为数字类型的默认编码。
在proto2中,规则为:
- required:必须有一个
- optional:0或者1个
- repeated:任意数量(包括0)
添加更多消息类型
可以在单个.proto中定义多种消息类型。如果您要定义多个相关消息,这很有用——例如,如果您想定义与搜索响应消息类型相对应的回复消息格式,可以将其添加到该.proto中:
message searchrequest {
string query = 1;
int32 page_number = 2;
int32 result_per_page = 3;
}
message searchresponse {
...
}
添加注释
proto 添加注释,使用 c/c 风格的 // 或者 /* … */ 语法.
保留字段
如果通过完全删除某个字段或对其进行注释来更新消息类型,将来的用户可以在对该类型进行自己的更新时重用该字段编号。如果他们以后加载旧版本的相同.proto文件,这可能会导致严重的问题 ,包括数据损坏、隐私漏洞等。
可以把它的变量名或 字段编号 用 reserved 标注,这样,当这个 tag 或者变量名字被重新使用的时候,编译器会报错
message foo {
// 注意,同一个 reserved 语句不能同时包含变量名和 tag
reserved 2, 15, 9 to 11;
reserved "foo", "bar";
}
默认值
当解析 message 时,如果被编码的 message 里没有包含某些变量,那么根据类型不同,他们会有不同的默认值:
- string:默认是空的字符串
- byte:默认是空的bytes
- bool:默认为false
- numeric:默认为0
- enums:定义在第一位的枚举值,也就是0
- messages:根据生成的不同语言有不同的表现
收到数据后反序列化后,对于标准值类型的数据,比如bool,如果它的值是 false,那么我们无法判断这个值是对方设置的,还是对方压根就没给这个变量设置值。
定义枚举
在 protobuf 中,我们也可以定义枚举,并且使用该枚举类型,比如:
message searchrequest {
string query = 1;
int32 page_number = 2; // which page number do we want
int32 result_per_page = 3; // number of results to return per page
enum corpus {
universal = 0;
web = 1;
images = 2;
local = 3;
news = 4;
products = 5;
video = 6;
}
corpus corpus = 4;
}
枚举定义在一个消息内部或消息外部都是可以的,如果枚举是 定义在 message 内部,而其他 message 又想使用,那么可以通过 messagetype.enumtype 的方式引用。定义枚举的时候,我们要保证第一个枚举值必须是0,枚举值不能重复,除非使用 option allow_alias = true 选项来开启别名。如:
enum enumallowingalias {
option allow_alias = true;
unknown = 0;
started = 1;
running = 1;
}
枚举值的范围是32-bit integer,但因为枚举值使用变长编码,所以不推荐使用负数作为枚举值,因为这会带来效率问题
在.proto 文件中定义了数据结构,这些数据结构是面向开发者和业务程序的,并不面向存储和传输。当需要把这些数据进行存储或传输时,就需要将这些结构数据进行序列化、反序列化以及读写。protobuf 提供相应的接口代码,可以通过 protoc 这个编译器来生成相应的接口代码,命令如下:
protoc编译
protoc -i=$src_dir --cpp_out=$dst_dir $src_dir/xxx.proto
# $src_dir: .proto 所在的源目录
# --cpp_out: 生成 c 代码
# $dst_dir: 生成代码的目标目录
# xxx.proto: 要针对哪个 proto 文件生成接口代码
cmake编译
protobuf_generate_cpp
find_package(protobuf required)
include_directories(${protobuf_include_dirs})
# pb.cc文件路径 pb.h文件路径
protobuf_generate_cpp(proto_srcs proto_hdrs person.proto)
有两个缺点:
- 要求protobuf_generate_cpp命令和生成add_executable() 或 add_library() 的命令必须在同一个cmakelist中.
- 无法设置源码的生成路径,只能默认在相应的build中生成
execute_process
以使用cmake中的execute_process命令调用protoc程序来自定义生成源码的路径
find_package(protobuf required)
include_directories(${protobuf_include_dirs})
execute_process(command ${protobuf_protoc_executable} -i=${project_source_dir}/proto/ --cpp_out=${project_source_dir}/ ${project_source_dir}/proto/xxx.proto)
add_executable(file main.cpp ${project_source_dir}/xxx.pb.cc file.cpp)
这种方法仍然存在缺点:每次执行cmake后,都会重新生成proto源码,导致make时会因为源码变动(内容未变,只是重新生成)而重新编译程序
定义proto
syntax = "proto3";
// 声明是为了防止不同项目之间的命名冲突,编译生成的类将被放置在一个与 package 名相同的命名空间中。
package tutorial;
message student {
// 字段编号:消息定义中的每个字段都有一个唯一的编号。这些字段编号用于以二进制格式标识您的字段,一旦您的消息类型被使用,就不应该被更改
uint64 id = 1;
string name = 2;
// singular修饰符修饰的字段可以是0次或者1次。但是当定制协议,用该修饰符修饰的字段都报错
// singular string email = 3;
string email = 3;
enum phonetype {
mobile = 0; //proto3版本中,首成员必须为0,成员不应有相同的值
home = 1;
}
message phonenumber {
string number = 1;
phonetype type = 2;
}
// repeated: 该字段可以重复任意次数(包括零次)。重复值的顺序将被保留
repeated phonenumber phone = 4;
}
protobuf api
看看读写类,编译器为每个字段生成读写函数
// optional uint64 id = 1;
void clear_id();
static const int kidfieldnumber = 1;
::google::protobuf::uint64 id() const;
void set_id(::google::protobuf::uint64 value);
// optional string name = 2;
void clear_name();
static const int knamefieldnumber = 2;
const ::std::string& name() const;
void set_name(const ::std::string& value);
void set_name(const char* value);
void set_name(const char* value, size_t size);
::std::string* mutable_name();
::std::string* release_name();
void set_allocated_name(::std::string* name);
// optional string email = 3;
void clear_email();
static const int kemailfieldnumber = 3;
const ::std::string& email() const;
void set_email(const ::std::string& value);
void set_email(const char* value);
void set_email(const char* value, size_t size);
::std::string* mutable_email();
::std::string* release_email();
void set_allocated_email(::std::string* email);
// repeated .tutorial.student.phonenumber phone = 4;
int phone_size() const;
void clear_phone();
static const int kphonefieldnumber = 4;
const ::tutorial::student_phonenumber& phone(int index) const;
::tutorial::student_phonenumber* mutable_phone(int index);
::tutorial::student_phonenumber* add_phone();
::google::protobuf::repeatedptrfield< ::tutorial::student_phonenumber >*
mutable_phone();
const ::google::protobuf::repeatedptrfield< ::tutorial::student_phonenumber >&
phone() const;
基本函数:
- set_*函数:设置字段值
- clear_*函数:用来将字段重置到空状态
数值类型的字段 id 就只有基本读写函数,string类型的name和email有额外的函数:
- mutable_*函数:数返回 string 的直接指针
重复的字段也有一些特殊的函数——如果你看一下重复字段 phone 的那些函数,就会发现你可以:
-
得到重复字段的 _size(person 关联了多少个电话号码)。
-
通过索引(index)来获取一个指定的电话号码。
-
mutable_phone函数:通过指定的索引(index)来更新一个已经存在的电话号码。
-
add_phone函数:向消息(message)中添加另一个电话号码
标准消息函数
void copyfrom(const student& from);
void mergefrom(const student& from);
void clear();
bool isinitialized() const;
序列化和反序列化
bool serializetostring(string* output) const; //将消息序列化并储存在指定的string中。注意里面的内容是二进制的,而不是文本;我们只是使用string作为一个很方便的容器。
bool parsefromstring(const string& data); //从给定的string解析消息。
bool serializetoarray(void * data, int size) const //将消息序列化至数组
bool parsefromarray(const void * data, int size) //从数组解析消息
bool serializetoostream(ostream* output) const; //将消息写入到给定的c ostream中。
bool parsefromistream(istream* input); //从给定的c istream解析消息。
下面演示一个简单例子,读写函数已经封装好了,大家可以自行调用!
config.conf
:
pfe_file: "pfe.trt"
rpn_file: "rpn.trt"
pointpillars_config.proto
:
syntax = "proto3";
message pointpillarsconfig {
string pfe_file = 1;
string rpn_file = 2;
}
main.cpp
#include
#include
#include "config.pb.h"
#include "file.h"
bool setprototoasciifile(const google::protobuf::message &message,
int file_descriptor) {
using google::protobuf::textformat;
using google::protobuf::io::fileoutputstream;
using google::protobuf::io::zerocopyoutputstream;
if (file_descriptor < 0) {
std::cout << "invalid file descriptor.";
return false;
}
zerocopyoutputstream *output = new fileoutputstream(file_descriptor);
bool success = textformat::print(message, output);
delete output;
close(file_descriptor);
return success;
}
bool getprotofromasciifile(const std::string& file_name,
google::protobuf::message* message) {
using google::protobuf::textformat;
using google::protobuf::io::fileinputstream;
using google::protobuf::io::zerocopyinputstream;
int file_descriptor = open(file_name.c_str(), o_rdonly);
if (file_descriptor < 0) {
std::cout << "failed to open file " << file_name << " in text mode.";
// failed to open;
return false;
}
zerocopyinputstream* input = new fileinputstream(file_descriptor);
bool success = textformat::parse(input, message);
if (!success) {
std::cout << "failed to parse file " << file_name << " as text proto.";
}
delete input;
close(file_descriptor);
return success;
}
int main(int argc, char *argv[])
{
// 将此宏放在main函数中(使用 protobuf 库之前的某个位置), 以验证您链接的版本是否与您编译的头文件匹配。 如果检测到版本不匹配,该过程将中止
google_protobuf_verify_version;
pointpillarsconfig config;
std::string config_file = "../config/pointpillars.conf";
getprotofromfile(config_file, &config);
std::cout << config.pfe_file() << std::endl;
google::protobuf::shutdownprotobuflibrary();
}
cmakelists.txt
:
cmake_minimum_required(version 3.10)
project(file)
find_package(protobuf required)
include_directories(
${protobuf_include_dirs}
${glob_include_dirs}
${cmake_current_binary_dir}
)
# protobuf_generate_cpp(proto_srcs proto_hdrs proto/pointpillars_config.proto)
# add_executable(file main.cpp ${proto_srcs} file.cpp)
execute_process(command ${protobuf_protoc_executable} -i=${project_source_dir}/proto/ --cpp_out=${project_source_dir}/ ${project_source_dir}/proto/pointpillars_config.proto)
add_executable(file main.cpp ${project_source_dir}/pointpillars_config.pb.cc file.cpp)
target_link_libraries(file ${protobuf_libraries} )
上面是从文件读数据写入proto,setprototoasciifile
为把proto数据写入文件的函数,大家可以自行调用